• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Modelling Speech Spectra Based on Logarithmic Shallow Neural Networks

Research Project

Project/Area Number 21K11957
Research InstitutionThe University of Electro-Communications

Principal Investigator

中鹿 亘  電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

Co-Investigator(Kenkyū-buntansha) 矢田部 浩平  東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
Project Period (FY) 2021-04-01 – 2024-03-31
Keywords音声信号処理 / 機械学習 / 確率・統計 / 音声符号化 / ボルツマンマシン
Outline of Annual Research Achievements

本研究では,音声の表現に適した新しい機械学習手法として,確率的な浅層ニューラルネットである制限ボルツマンマシン(RBM)をベースに,対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する.しばしばブラックボックスだと言われる深層学習モデルとは違い,RBMはデータの確率分布を陽に仮定できる解釈性がある.そのため,より適切に音声のデータ構造を表現することができる.初年度(令和3年度)は対数振幅スペクトルを表現することに主眼を置き,独自に提案したガンマRBMを用いた音声表現を確立させた.令和4年度では,このモデルを更に発展させ,対数振幅スペクトルに加えて位相を同時に表現するモデル(Gamma von-Mises RBM; GVM RBM)を新規提案し,実装,評価及び論文執筆を行なった.具体的には,可視素子として振幅スペクトル,対数振幅スペクトルおよび位相スペクトルを設定し,二値の隠れ素子が既知の可視素子の条件付き確率が,振幅スペクトルについてはガンマ分布,位相スペクトルについてはフォン・ミーゼス分布となり,更に両者が条件付き独立となることを示した.評価実験では,深層学習モデルやガンマRBMに位相復元を適応したモデルなどよりも飛躍的に高い精度で音声の符号化・復号化が可能であることを示した.本研究成果に関して,権威的な国際論文誌であるIEEE Signal Processing Letters(インパクトファクター:3.2)に1件投稿し,現在査読中である.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

令和4年度では,当初計画通り,対数振幅スペクトルと位相スペクトルを同時に表現するRBMについて定式化・モデル構築,評価実験,論文執筆を完了した.なお,当初予定では位相と振幅に相関を持つモデルを検討していたが,学習途中に必要なサンプリングが困難となるため,それらが条件付き独立となる形としてモデルを再定義し,その問題を回避した.更に,サブタスクとして,振幅スペクトルで条件付けたRBMによる位相復元手法,ガウスRBMを用いたブラインド音源分離などの研究についても実施した.前者では現時刻および過去の振幅スペクトルを条件項,現時刻の位相スペクトルを可視素子とした条件付きRBMを用いて,定常状態になるまで可視素子と隠れ素子を反復更新することで位相情報を復元することを試みた.評価実験により,条件項が振幅スペクトルと位相スペクトルのクロス項となるモデルが,高い精度で位相を復元できることが確認でき,ガンマRBMで振幅スペクトルを復元した後本手法で位相を復元できる可能性が示唆された.また後者では独立低ランク行列分析(ILRMA)を用いたブラインド音源分離において,音源モデルをNMFではなくガウスRBMを用いることを試みた.

Strategy for Future Research Activity

令和3年度および4年度では,音声の符号化・復号化の基礎的な実験を通じて,対数振幅スペクトルを表現するRBM(ガンマRBM,GVM RBM)の持つ高い性能やポテンシャルを確認することができた.最終年度である令和5年度では,それらの更なるモデル拡張や応用実験に挑戦していきたい.前者では,例えば,音声の古典的なモデルであるソース・フィルタ理論に基づき,振幅スペクトルをソースとフィルタに分解して表現するRBMや,深層化したモデルとして深層ガンマRBMや出力分布がガウス分布でなくガンマ分布となる変分オートエンコーダ(ガンマVAE)などを検討したい.後者では,ガンマRBMやGVM RBMを用いてブラインド音源分離や劣決定音源分離,声質変換,音声合成などを検討したい.

Causes of Carryover

コロナ禍により,旅費にかかる費用が想定を下回った.令和5年5月8日から新型コロナウイルス感染症が「5類感染症」へと引き下げられるに伴い,海外・国内出張しやすくなるので,次年度使用額は主に旅費に充てたい.

  • Research Products

    (13 results)

All 2022

All Presentation (12 results) (of which Int'l Joint Research: 4 results) Book (1 results)

  • [Presentation] Consistency Regularization for GAN-Based Neural Vocoders2022

    • Author(s)
      Kotaro Onishi, Toru Nakashika
    • Organizer
      APSIPA 2022, pp. 1132-1137, November 2022
    • Int'l Joint Research
  • [Presentation] MoCoVC: Non-Parallel Voice Conversion With Momentum Contrastive Representation Learning2022

    • Author(s)
      Kotaro Onishi, Toru Nakashika
    • Organizer
      APSIPA 2022, pp. 1435-1440, November 2022
    • Int'l Joint Research
  • [Presentation] Non-parallel voice conversion based on free-energy minimization of speaker-conditional restricted Boltzmann machine2022

    • Author(s)
      Takuya Kishida, Toru Nakashika
    • Organizer
      APSIPA 2022, November 2022
    • Int'l Joint Research
  • [Presentation] Controllable voice conversion based on quantization of voice factor scores2022

    • Author(s)
      Takumi Isako, Kotaro Onishi, Takuya Kishida, Toru Nakashika
    • Organizer
      APSIPA 2022, pp. 1444-1448, November 2022
    • Int'l Joint Research
  • [Presentation] Dual Diffusion Implicit Bridgesを用いた話者間の匿名性を担保した声質変換2022

    • Author(s)
      奥田耕平 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2023年春季研究発表会,1-3Q-10, March 2023, March 2023.
  • [Presentation] 振幅重み付けエネルギー関数を用いたボルツマンマシンによる位相復元2022

    • Author(s)
      羽賀洋克, 矢田部浩平, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2023年春季研究発表会, 3-3-13, pp. 769-770, March 2023.
  • [Presentation] Speechsplit を用いたイントネーション・リズム・発音の矯正による外国語アクセント変換2022

    • Author(s)
      許 誠, 岸田 拓也, 中鹿 亘
    • Organizer
      日本音響学会2023年春季研究発表会, 1-3P-11, March 2023.
  • [Presentation] 入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換2022

    • Author(s)
      岸田拓也, 中鹿亘
    • Organizer
      第146回研究会音声言語情報処理研究会, March 2023.
  • [Presentation] 条件付き制限ボルツマンマシンの平衡化傾向を利用したノンパラレル声質変換2022

    • Author(s)
      岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年秋季研究発表会,2-Q-48,pp. 1305-1306, September 2022.
  • [Presentation] 話者因子係数の量子化に基づく声色制御可能な話者変換2022

    • Author(s)
      井硲巧, 大西弘太郎, 岸田拓也, 中鹿亘
    • Organizer
      日本音響学会2022年秋季研究発表会, 2-Q-47, pp. 1301-1304, September 2022.
  • [Presentation] 制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2022

    • Author(s)
      古田翔太郎, 岸田拓也, 中鹿亘
    • Organizer
      音学シンポジウム2022, SP2022-8, pp. 26-29, June 2022.
  • [Presentation] LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換2022

    • Author(s)
      平本佳弘, 嵯峨山茂樹, 岸田拓也, 中鹿亘
    • Organizer
      音学シンポジウム2022, SP2022-23, pp. 100-103, June 2022.
  • [Book] IT Text 深層学習2022

    • Author(s)
      柳井 啓司、中鹿 亘、稲葉 通将
    • Total Pages
      288
    • Publisher
      オーム社
    • ISBN
      4274228886

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi