2019 Fiscal Year Annual Research Report
深層ベイズ学習に基づく雑踏環境下でも頑健に動作する音源分離の教師なし学習
Project/Area Number |
19K21553
|
Allocation Type | Multi-year Fund |
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
坂東 宜昭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (40828167)
|
Project Period (FY) |
2019-04-01 – 2020-03-31
|
Keywords | 音環境認識 / 音源分離 / 深層ベイズ学習 / 償却変分推論 |
Outline of Annual Research Achievements |
令和元年度は,昨年度開発した深層ベイズ学習に基づく音源分離法の多チャネル分離への応用および,視聴覚統合技術への拡張を行った. 昨年度開発した枠組みで教師なし学習された音源分離器は,入力が単チャネルであるため,多チャネル法では性能劣化する空間的特徴が似た音源も分離できる.本特性を利用し,効果的に多チャネル音源分離を初期化できることを確認した.本内容は,査読付き国際会議 IEEE MLSP 2019 で発表した. 本年度はさらに,「画像内の音を発しうる物体の検出器を教師なし学習」する視聴覚統合の枠組みへの拡張を行った.本枠組みでは,音源分離に用いる時間周波数マスクを周辺化し,画像から音源位置候補を推論する音源定位DNNを教師なし(自己教師あり)学習する.本モデルでは,音源の空間相関行列を,事前に準備した基底空間相関行列の足し合わせで表現するため,拡散性音源(雑音)も表現できる.シミュレーションにて生成した,複数人物が投影された全方位画像と音声の混合音を用いた評価実験にて,提案法はマイク数が少ない状況でも頑健に音源定位できることを確認した.さらに,画像DNN(音源定位DNN)から推定された候補が,実際に音を発しているか検証するDNNを同時学習することで,音源数が未知の環境でも頑健に動作することを確認した.多くの来館者が訪れる科学館で実際に収録した全方位動画と多チャネル録音信号を用いた実データによる実験も実施し,査読付き国際会議に投稿した. このように,深層ベイズ学習に基づく教師なし音環境認識システムを構築する基礎を確立できた. またこれらの研究成果を評価され,日本音響学会2020年春季研究発表会のスペシャルセッションにて招待講演(ただし新型コロナウイルスのため予稿発表)した.
|