2022 Fiscal Year Annual Research Report
時間領域深層学習と多重解像度解析を融合した音響情景分析の研究
Project/Area Number |
20K19818
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 音響情景分析 / 時間領域深層学習 / 多重解像度解析 / 音源分離 / 音響信号処理 / 深層学習 / 機械学習 |
Outline of Annual Research Achievements |
本研究期間全体では,時間領域で直接音源分離を行う深層学習モデルと多重解像度解析との間のアナロジーを発見し,それに基づき両者を統合した新たな深層学習モデルを提案した.具体的には,離散ウェーブレット変換に基づくダウンサンプリング(プーリング)層を提案し,従来の時間領域音源分離手法に比べ,高精度に分離できることを示した.また,提案層を拡張し,事前に定めたウェーブレットだけでなく,深層学習モデルと同時にウェーブレットも学習できることを示した.この拡張により,タスクに応じてより適したウェーブレットを学習により得る方法を確立した.さらに,多チャネル音源分離へも適用し,パワースペクトログラムのみを用いる手法に比べて,分離性能が向上することを示した.
昨年度までは,楽音分離(異なる楽器音同士の分離)において手法を検討してきた.本年度は,提案法を新たな音源分離タスクへと適用し,その分離性能を評価した.具体的には,重唱分離(重唱を各パートの歌唱へと分離するタスク)に適用し,音源分離の標準的な評価指標であるscale-invariant signal-to-distortion ratioに関して,従来法と同程度かそれよりも高い性能を示すことを確認した.この評価のため,他の研究者と協力し重唱コーパスの整備も行った.さらに,当該手法の実装をGitHubで公開した.コーパスも公開しており,国内外の研究者が提案法を利用し,重唱分離に取り組むことが可能となった.
|
Research Products
(5 results)