研究課題/領域番号 |
21K11957
|
研究機関 | 電気通信大学 |
研究代表者 |
中鹿 亘 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
|
研究分担者 |
矢田部 浩平 東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 音声信号処理 / 機械学習 / 確率・統計 / 音声符号化 / ボルツマンマシン |
研究実績の概要 |
本研究では,音声の表現に適した新しい機械学習手法として,確率的な浅層ニューラルネットである制限ボルツマンマシン(RBM)をベースに,対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する.しばしばブラックボックスだと言われる深層学習モデルとは違い,RBMはデータの確率分布を陽に仮定できる解釈性がある.そのため,より適切に音声のデータ構造を表現することができる.初年度(令和3年度)は対数振幅スペクトルを表現することに主眼を置き,独自に提案したガンマRBMを用いた音声表現を確立させた.令和4年度では,このモデルを更に発展させ,対数振幅スペクトルに加えて位相を同時に表現するモデル(Gamma von-Mises RBM; GVM RBM)を新規提案し,実装,評価及び論文執筆を行なった.具体的には,可視素子として振幅スペクトル,対数振幅スペクトルおよび位相スペクトルを設定し,二値の隠れ素子が既知の可視素子の条件付き確率が,振幅スペクトルについてはガンマ分布,位相スペクトルについてはフォン・ミーゼス分布となり,更に両者が条件付き独立となることを示した.評価実験では,深層学習モデルやガンマRBMに位相復元を適応したモデルなどよりも飛躍的に高い精度で音声の符号化・復号化が可能であることを示した.本研究成果に関して,権威的な国際論文誌であるIEEE Signal Processing Letters(インパクトファクター:3.2)に1件投稿し,現在査読中である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
令和4年度では,当初計画通り,対数振幅スペクトルと位相スペクトルを同時に表現するRBMについて定式化・モデル構築,評価実験,論文執筆を完了した.なお,当初予定では位相と振幅に相関を持つモデルを検討していたが,学習途中に必要なサンプリングが困難となるため,それらが条件付き独立となる形としてモデルを再定義し,その問題を回避した.更に,サブタスクとして,振幅スペクトルで条件付けたRBMによる位相復元手法,ガウスRBMを用いたブラインド音源分離などの研究についても実施した.前者では現時刻および過去の振幅スペクトルを条件項,現時刻の位相スペクトルを可視素子とした条件付きRBMを用いて,定常状態になるまで可視素子と隠れ素子を反復更新することで位相情報を復元することを試みた.評価実験により,条件項が振幅スペクトルと位相スペクトルのクロス項となるモデルが,高い精度で位相を復元できることが確認でき,ガンマRBMで振幅スペクトルを復元した後本手法で位相を復元できる可能性が示唆された.また後者では独立低ランク行列分析(ILRMA)を用いたブラインド音源分離において,音源モデルをNMFではなくガウスRBMを用いることを試みた.
|
今後の研究の推進方策 |
令和3年度および4年度では,音声の符号化・復号化の基礎的な実験を通じて,対数振幅スペクトルを表現するRBM(ガンマRBM,GVM RBM)の持つ高い性能やポテンシャルを確認することができた.最終年度である令和5年度では,それらの更なるモデル拡張や応用実験に挑戦していきたい.前者では,例えば,音声の古典的なモデルであるソース・フィルタ理論に基づき,振幅スペクトルをソースとフィルタに分解して表現するRBMや,深層化したモデルとして深層ガンマRBMや出力分布がガウス分布でなくガンマ分布となる変分オートエンコーダ(ガンマVAE)などを検討したい.後者では,ガンマRBMやGVM RBMを用いてブラインド音源分離や劣決定音源分離,声質変換,音声合成などを検討したい.
|
次年度使用額が生じた理由 |
コロナ禍により,旅費にかかる費用が想定を下回った.令和5年5月8日から新型コロナウイルス感染症が「5類感染症」へと引き下げられるに伴い,海外・国内出張しやすくなるので,次年度使用額は主に旅費に充てたい.
|