Project/Area Number |
19K21553
|
Project/Area Number (Other) |
18H06490 (2018)
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund (2019) Single-year Grants (2018) |
Review Section |
1002:Human informatics, applied informatics and related fields
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
Bando Yoshiaki 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (40828167)
|
Project Period (FY) |
2018-08-24 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2019: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2018: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 音環境認識 / 音源分離 / 深層ベイズ学習 / 償却変分推論 / 音環境理解 |
Outline of Research at the Start |
雑踏環境でも頑健に動作する音環境理解システムを実現するため、深層学習とベイズ学習を統合した教師なし音源分離法を確立する。近年、深層学習に基づく分離法が高い性能を発揮しているが、膨大な音源信号の教師データを必要とし、音声や音楽信号の分離といった特定のタスクへの応用に留まっている。一方、空間モデルに基づく音源分離は事前学習せずに動作するが、同じ方向の音源を分離できない課題がある。そこで、これら2つの枠組みを統合し、教師データが少ない状況でも、分離された音源信号の空間的な尤もらしさに基づき音源分離を教師なし学習する枠組みを確立する。
|
Outline of Final Research Achievements |
This study aims to develop a framework that can train neural source separation by using multichannel audio signals without any supervision. We utilized the spatial information observed by a microphone array and trained the source separation based on the spatial likelihood of the separated signals. We first developed a deep Bayesian method that trains a neural source separation based on a complex Gaussian mixture model. This approach is then extended to an audio-visual source localization method that can deal with the diffuse noise and the unknown number of sound sources, which are problematic for recognizing the crowded real-world environments.
|
Academic Significance and Societal Importance of the Research Achievements |
従来の統計モデルの知見と、独立して研究されがちな近年の深層学習の知見を統合し、音源分離の教師なし学習の枠組みを実現した。これまで、深層学習に基づく音源分離には、個別の音源信号である正解データを大量に準備する必要があり、実世界の様々な音源を分離するには原理上限界があった。そこで、統計的信号処理で研究されてきたブラインド信号処理の知見を深層学習に導入することで、教師データを用いずとも音源分離を学習できる枠組みを実現した。
|