2018 Fiscal Year Annual Research Report
深層ベイズ学習に基づく雑踏環境下でも頑健に動作する音源分離の教師なし学習
Project/Area Number |
18H06490
|
Allocation Type | Single-year Grants |
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
坂東 宜昭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (40828167)
|
Project Period (FY) |
2018-08-24 – 2020-03-31
|
Keywords | 音環境認識 / 音源分離 / 深層ベイズ学習 |
Outline of Annual Research Achievements |
駅のホームやデパートといった雑踏環境で、個別の音を定位・識別するには、各音源信号を抽出する音源分離が重要である。近年、深層学習に基づく分離法が高い性能を発揮しているが、膨大な音源信号の教師データを必要とし、実世界のあらゆる音源信号の収集は事実上不可能なので、音声や音楽の分離といった特定用途への応用にとどまっている。そこで、マイクロホンアレイを用いた音場情報に着目し、分離された音源信号の空間的な尤もらしさに基づき音源分離を教師なし学習する枠組みを確立する。平成30年度は、学習の基本アルゴリズムの確立と、令和元年度の研究に向けた学習データ収集を行った。 深層音源分離の教師なし学習のために、深層ベイズ学習に基づく学習アルゴリズムを開発した。本手法は、多チャネル音響信号を観測とする確率モデルの一つである潜在ディリクレ配分(LDA)モデルをコスト関数とする。簡単化のため空間相関行列とパワースペクトル密度をテンプレート値に固定し、単チャネル音源分離を行う長短期記憶(LSTM)ネットワークの学習を行う。シミュレーション混合音を用いた実験により、本手法を用いて2話者の混合音を分離するLSTMを教師なし学習できることを確認した。 また、日本科学未来館と佐々木 洋子 主任研究員の協力のもと、日本科学未来館の3階の音環境を収録させて頂いた。自律移動ロボットPeacockにMUSICアルゴリズムによる音源定位機能を実装し、そのデモを行いながら、展示物や他のロボット、来客者の方などが発する音の混合音を16チャネルマイクアレイを用いて収録した。本収録実験は計16日行い、約100時間程の雑踏環境録音を多チャネルデータとして収録した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度は、教師なし学習の基本アルゴリズムの確立および学習データ収集を、当初の計画通りおおむね順調に進展している。空間相関行列とパワースペクトル密度を固定したモデルではあるが、LDAに基づくコスト関数による音源分離の教師なし学習を実現した。よって、今後の実環境録音に対する教師なし学習への拡張に向けた基礎モデルの構築に関しては、ほぼ完了している。また、教師なし学習に必要な多チャネル環境録音に関しても、約100時間という,動作検証には十分な量のデータを収集できた。本年度は研究期間が半年であることもあり、まだ実際の研究発表の件数は少ないが、国内学会での発表を通して他の研究者からも理解を得ており、これから活発に研究成果の発表を行っていく予定である。
|
Strategy for Future Research Activity |
平成30年度に深層音源分離の教師なし学習の基本的な枠組みを確立したので、雑踏境録音へ対応するための学習アルゴリズムの拡張および、定位・識別との接続を行う。 昨年度に開発した基本アルゴリズムは、簡単化のため空間相関行列およびパワースペクトル密度が固定されているが、実環境での頑健な動作のため、学習時にこれらも推定するよう拡張する。また、未知音源数、拡散性雑音、移動音源を扱えるようにモデルを拡張し、雑踏環境で頑健に動作する音源分離を獲得できる学習アルゴリズムを導出する。未知音源数の対処は、ノンパラメトリック・ベイズによる無限混合モデルを打切り近似し、back propagation可能な更新式を導出する。拡散性雑音に対しては、チャネル間の無相関性を仮定した音源項を導入し、背景雑音として推定する。移動音源は、空間モデルのマルコフ仮定を用いて対処する。 さらに、作成した音源分離アルゴリズムを音源定位や識別の入力に与えることで、音環境認識システムを構築し、性能評価する。
|