研究課題
本研究期間全体では,時間領域で直接音源分離を行う深層学習モデルと多重解像度解析との間のアナロジーを発見し,それに基づき両者を統合した新たな深層学習モデルを提案した.具体的には,離散ウェーブレット変換に基づくダウンサンプリング(プーリング)層を提案し,従来の時間領域音源分離手法に比べ,高精度に分離できることを示した.また,提案層を拡張し,事前に定めたウェーブレットだけでなく,深層学習モデルと同時にウェーブレットも学習できることを示した.この拡張により,タスクに応じてより適したウェーブレットを学習により得る方法を確立した.さらに,多チャネル音源分離へも適用し,パワースペクトログラムのみを用いる手法に比べて,分離性能が向上することを示した.昨年度までは,楽音分離(異なる楽器音同士の分離)において手法を検討してきた.本年度は,提案法を新たな音源分離タスクへと適用し,その分離性能を評価した.具体的には,重唱分離(重唱を各パートの歌唱へと分離するタスク)に適用し,音源分離の標準的な評価指標であるscale-invariant signal-to-distortion ratioに関して,従来法と同程度かそれよりも高い性能を示すことを確認した.この評価のため,他の研究者と協力し重唱コーパスの整備も行った.さらに,当該手法の実装をGitHubで公開した.コーパスも公開しており,国内外の研究者が提案法を利用し,重唱分離に取り組むことが可能となった.
すべて 2023 2022 その他
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件) 備考 (2件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 30 ページ: 2928~2943
10.1109/TASLP.2022.3203907
https://tomohikonakamura.github.io/Tomohiko-Nakamura/demo/jaCappella_sep
https://github.com/TomohikoNakamura/asteroid_jaCappella