2022 年度実施状況報告書

音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究

研究課題

研究課題/領域番号	21K11957
研究機関	電気通信大学
研究代表者	中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
研究分担者	矢田部浩平東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	音声信号処理 / 機械学習 / 確率・統計 / 音声符号化 / ボルツマンマシン
研究実績の概要	本研究では，音声の表現に適した新しい機械学習手法として，確率的な浅層ニューラルネットである制限ボルツマンマシン（RBM）をベースに，対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する．しばしばブラックボックスだと言われる深層学習モデルとは違い，RBMはデータの確率分布を陽に仮定できる解釈性がある．そのため，より適切に音声のデータ構造を表現することができる．初年度（令和３年度）は対数振幅スペクトルを表現することに主眼を置き，独自に提案したガンマRBMを用いた音声表現を確立させた．令和４年度では，このモデルを更に発展させ，対数振幅スペクトルに加えて位相を同時に表現するモデル（Gamma von-Mises RBM; GVM RBM）を新規提案し，実装，評価及び論文執筆を行なった．具体的には，可視素子として振幅スペクトル，対数振幅スペクトルおよび位相スペクトルを設定し，二値の隠れ素子が既知の可視素子の条件付き確率が，振幅スペクトルについてはガンマ分布，位相スペクトルについてはフォン・ミーゼス分布となり，更に両者が条件付き独立となることを示した．評価実験では，深層学習モデルやガンマRBMに位相復元を適応したモデルなどよりも飛躍的に高い精度で音声の符号化・復号化が可能であることを示した．本研究成果に関して，権威的な国際論文誌であるIEEE Signal Processing Letters（インパクトファクター：3.2）に1件投稿し，現在査読中である．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由令和４年度では，当初計画通り，対数振幅スペクトルと位相スペクトルを同時に表現するRBMについて定式化・モデル構築，評価実験，論文執筆を完了した．なお，当初予定では位相と振幅に相関を持つモデルを検討していたが，学習途中に必要なサンプリングが困難となるため，それらが条件付き独立となる形としてモデルを再定義し，その問題を回避した．更に，サブタスクとして，振幅スペクトルで条件付けたRBMによる位相復元手法，ガウスRBMを用いたブラインド音源分離などの研究についても実施した．前者では現時刻および過去の振幅スペクトルを条件項，現時刻の位相スペクトルを可視素子とした条件付きRBMを用いて，定常状態になるまで可視素子と隠れ素子を反復更新することで位相情報を復元することを試みた．評価実験により，条件項が振幅スペクトルと位相スペクトルのクロス項となるモデルが，高い精度で位相を復元できることが確認でき，ガンマRBMで振幅スペクトルを復元した後本手法で位相を復元できる可能性が示唆された．また後者では独立低ランク行列分析（ILRMA）を用いたブラインド音源分離において，音源モデルをNMFではなくガウスRBMを用いることを試みた．
今後の研究の推進方策	令和３年度および４年度では，音声の符号化・復号化の基礎的な実験を通じて，対数振幅スペクトルを表現するRBM（ガンマRBM，GVM RBM）の持つ高い性能やポテンシャルを確認することができた．最終年度である令和５年度では，それらの更なるモデル拡張や応用実験に挑戦していきたい．前者では，例えば，音声の古典的なモデルであるソース・フィルタ理論に基づき，振幅スペクトルをソースとフィルタに分解して表現するRBMや，深層化したモデルとして深層ガンマRBMや出力分布がガウス分布でなくガンマ分布となる変分オートエンコーダ（ガンマVAE）などを検討したい．後者では，ガンマRBMやGVM RBMを用いてブラインド音源分離や劣決定音源分離，声質変換，音声合成などを検討したい．
次年度使用額が生じた理由	コロナ禍により，旅費にかかる費用が想定を下回った．令和5年5月8日から新型コロナウイルス感染症が「5類感染症」へと引き下げられるに伴い，海外・国内出張しやすくなるので，次年度使用額は主に旅費に充てたい．

研究成果
(13件)

すべて 2022

すべて学会発表 (12件) (うち国際学会 4件) 図書 (1件)

[学会発表] Consistency Regularization for GAN-Based Neural Vocoders2022
- 著者名/発表者名
  Kotaro Onishi, Toru Nakashika
- 学会等名
  APSIPA 2022, pp. 1132-1137, November 2022
- 国際学会
[学会発表] MoCoVC: Non-Parallel Voice Conversion With Momentum Contrastive Representation Learning2022
- 著者名/発表者名
  Kotaro Onishi, Toru Nakashika
- 学会等名
  APSIPA 2022, pp. 1435-1440, November 2022
- 国際学会
[学会発表] Non-parallel voice conversion based on free-energy minimization of speaker-conditional restricted Boltzmann machine2022
- 著者名/発表者名
  Takuya Kishida, Toru Nakashika
- 学会等名
  APSIPA 2022, November 2022
- 国際学会
[学会発表] Controllable voice conversion based on quantization of voice factor scores2022
- 著者名/発表者名
  Takumi Isako, Kotaro Onishi, Takuya Kishida, Toru Nakashika
- 学会等名
  APSIPA 2022, pp. 1444-1448, November 2022
- 国際学会
[学会発表] Dual Diffusion Implicit Bridgesを用いた話者間の匿名性を担保した声質変換2022
- 著者名/発表者名
  奥田耕平岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2023年春季研究発表会，1-3Q-10, March 2023, March 2023.
[学会発表] 振幅重み付けエネルギー関数を用いたボルツマンマシンによる位相復元2022
- 著者名/発表者名
  羽賀洋克, 矢田部浩平, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2023年春季研究発表会, 3-3-13, pp. 769-770, March 2023.
[学会発表] Speechsplit を用いたイントネーション・リズム・発音の矯正による外国語アクセント変換2022
- 著者名/発表者名
  許誠, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2023年春季研究発表会, 1-3P-11, March 2023.
[学会発表] 入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換2022
- 著者名/発表者名
  岸田拓也, 中鹿亘
- 学会等名
  第146回研究会音声言語情報処理研究会, March 2023.
[学会発表] 条件付き制限ボルツマンマシンの平衡化傾向を利用したノンパラレル声質変換2022
- 著者名/発表者名
  岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年秋季研究発表会，2-Q-48，pp. 1305-1306, September 2022.
[学会発表] 話者因子係数の量子化に基づく声色制御可能な話者変換2022
- 著者名/発表者名
  井硲巧, 大西弘太郎, 岸田拓也, 中鹿亘
- 学会等名
  日本音響学会2022年秋季研究発表会, 2-Q-47, pp. 1301-1304, September 2022.
[学会発表] 制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2022
- 著者名/発表者名
  古田翔太郎, 岸田拓也, 中鹿亘
- 学会等名
  音学シンポジウム2022, SP2022-8, pp. 26-29, June 2022.
[学会発表] LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換2022
- 著者名/発表者名
  平本佳弘, 嵯峨山茂樹, 岸田拓也, 中鹿亘
- 学会等名
  音学シンポジウム2022, SP2022-23, pp. 100-103, June 2022.
[図書] IT Text 深層学習2022
- 著者名/発表者名
  柳井啓司、中鹿亘、稲葉通将
- 総ページ数
  288
- 出版者
  オーム社
- ISBN
  4274228886

2022 年度 実施状況報告書

音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究

研究代表者

中鹿 亘 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Consistency Regularization for GAN-Based Neural Vocoders2022

著者名/発表者名

学会等名

[学会発表] MoCoVC: Non-Parallel Voice Conversion With Momentum Contrastive Representation Learning2022

著者名/発表者名

学会等名

[学会発表] Non-parallel voice conversion based on free-energy minimization of speaker-conditional restricted Boltzmann machine2022

著者名/発表者名

学会等名

[学会発表] Controllable voice conversion based on quantization of voice factor scores2022

著者名/発表者名

学会等名

[学会発表] Dual Diffusion Implicit Bridgesを用いた話者間の匿名性を担保した声質変換2022

著者名/発表者名

学会等名

[学会発表] 振幅重み付けエネルギー関数を用いたボルツマンマシンによる位相復元2022

著者名/発表者名

学会等名

[学会発表] Speechsplit を用いたイントネーション・リズム・発音の矯正による外国語アクセント変換2022

著者名/発表者名

学会等名

[学会発表] 入力特徴量で条件づけた拡散確率モデルによるパラレル声質変換2022

著者名/発表者名

学会等名

[学会発表] 条件付き制限ボルツマンマシンの平衡化傾向を利用したノンパラレル声質変換2022

著者名/発表者名

学会等名

[学会発表] 話者因子係数の量子化に基づく声色制御可能な話者変換2022

著者名/発表者名

学会等名

[学会発表] 制限ボルツマンマシンを用いた独立低ランク行列分析に基づくブラインド音源分離2022

著者名/発表者名

学会等名

[学会発表] LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換2022

著者名/発表者名

学会等名

[図書] IT Text 深層学習2022

著者名/発表者名

総ページ数

出版者

ISBN

2022 年度実施状況報告書

中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)