ディープニューラルネットワークを始めとする内部状態がブラックボックスである深層学習モデルとは異なり,浅層確率的ニューラルネットワークである制限ボルツマンマシン(RBM)はデータの確率分布を陽に仮定できるため,より適切に音声のデータ構造を表現することができる.本研究では,そのようなRBMの性質を利用して,対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立することを目指している.初年度(令和3年度)は対数振幅スペクトルを考慮したモデル(ガンマRBM),令和4年度では更に位相を考慮したモデル(GVM-RBM; Gamma-von-Mises RBM)を提案し,実装,評価及び論文執筆を行なった.最終年度(令和5年度)ではこれらの知見を活かし,RBMの音源分離への応用やガンマ分布する変分自己符号化器(VAE)の新規提案などを行なった.具体的には,前者では提案するレイリー分布型のRBMおよび指数分布型のRBMを用いて,従来のガウス型RBMおよびNMFよりも精度良く音源分離できることを示した.後者では従来の潜在変数,観測変数ともにガウス分布を仮定していたVAEよりも,ガンマ分布を仮定したVAEの方が,より高い精度で音声の対数振幅スペクトルを表現できることを示した.本研究成果に関して,権威的な国際論文誌であるIEEE Signal Processing Letters (インパクトファクター:3.2)に1件投稿した(現在査読中).
|