研究課題
2020年度は、任意の音源・空間特性を表現可能なユニバーサル音響生成モデルの定式化に取り組んだ。具体的には、音源スペクトログラムの時間周波数構造を示す音源モデルと、音源からマイクアレイへの信号伝達特性を示す空間モデルを内包する多チャネル音響信号の統一的な生成モデル(例:多チャネル非負値行列因子分解, MNMF)に基づくブラインド音源分離法に関して、深層生成モデルを用いて空間モデルおよび音源モデルそれぞれの表現力を飛躍的に向上させることに成功した。まず、変分自己符号化器 (VAE) を用いて、クリーンな音声信号のみから音声スペクトログラムの深層生成モデルを学習する方式を洗練化した。また、マイク数と音源数が等しい決定条件下において、正規化フロー (NF) に基づく時変な分離行列の構成法を考案した。これらの方法はそれぞれ独立しており、理論的には組み合わせて使うことが可能である。深層学習を用いない本質的な拡張として、MNMFの初期値依存性を軽減するため、空間モデルにおける空間相関行列を同時対角化できるものに制限したFastMNMFを考案した。また、雑音および残響が存在する実環境下で頑健に動作させるため、FastMNMFに対し、自己回帰移動平均 (ARMA) 過程に基づく残響モデルを統合することで、同時的ブラインド音源分離・残響除去法であるARMA-FastMNMFを考案した。また、カテゴリ創発機構を有するユニバーサル音響理解モデルを確立するため、必要に応じた個数の音源を推定可能な深層ノンパラメトリックベイズ学習法の研究に着手した。
1: 当初の計画以上に進展している
計算量・精度の両面で優れた汎用ブラインド音源分離手法であるFastMNMFの開発に成功した。また、残響除去を統合することに成功した。
今後は、カテゴリ創発に関する研究開発を進めていく。また、視覚情報の統合についても検討を行う。
新型コロナウイルス感染症の拡大により、人件費および旅費の支出が当初の想定と異なり、繰り越しが生じた。2021年度は、国内外の会議が現地開催されることも想定しつつ、費目流用の範囲内で、音響デバイスや計算機などの物品費を中心に支出予定である。
すべて 2021 2020
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (2件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 28 ページ: 2610~2625
10.1109/TASLP.2020.3019181
IEEE Signal Processing Letters
巻: 27 ページ: 2173~2177
10.1109/LSP.2020.3039944