研究課題
音響信号処理において,非負値行列因子分解(NMF)は音響信号のパワースペクトログラムをモデル化するために広く用いられている.音響信号のパワースペクトログラムにNMFの最適化アルゴリズムを適用することでパワースペクトログラムから有用な特徴を抽出できる.研究1年目および2年目では,非負値行列因子分解(NMF)における統計モデルおよび最適化アルゴリズムとして解釈可能なニューラルネットワークを提案した.このネットワークは,NMFの最適化アルゴリズムに現れるモデルに依存する項を学習可能な非線形関数で置き換えることで設計される.提案したネットワーク構造はNMFの最適化アルゴリズムを陽に模擬する一方で,構造内に組み込まれた非線形関数からNMFの統計モデルを取り出すことができる.さらに,研究1年目および2年目では,提案法を雑音除去および教師あり音源分離に適用し,従来の複素分布およびBregman divergenceに基づくNMFの統計モデルの振る舞いを明らかにした.最終年度は,統計モデルに基づく多チャンネル音源分離に着目し,2年目までに得られた知見を基に深層ニューラルネットワーク(DNN)を用いた分離アルゴリズムの拡張を試みた.多チャンネル音源分離は空間情報を活用できる条件下で有用性が知られているものの,DNNを用いた性能の改善方法はDNNの学習の困難さからまだ確立していない.そのため,この研究に2年目までで得られた当該研究課題の知見を活かす試みは大変有意義である.3年目は,まず,一般化された統計モデルに基づく音源分離のアルゴリズムを導出し,このアルゴリズムが音源情報を必要とするように統計モデルを意図的に調整した.さらに,アルゴリズムに必要な音源情報を事前学習したDNNの出力に置き換えることで分離対象の音源が未知である場合にも対応できることを期待し,事前学習の手法を検討した.
すべて 2023
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (1件)
IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
巻: E106.A ページ: 962~975
10.1587/transfun.2022EAP1098