2022 Fiscal Year Annual Research Report

時間領域深層学習と多重解像度解析を融合した音響情景分析の研究

Research Project

Project/Area Number	20K19818
Research Institution	The University of Tokyo
Principal Investigator	中村友彦東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	音響情景分析 / 時間領域深層学習 / 多重解像度解析 / 音源分離 / 音響信号処理 / 深層学習 / 機械学習
Outline of Annual Research Achievements	本研究期間全体では，時間領域で直接音源分離を行う深層学習モデルと多重解像度解析との間のアナロジーを発見し，それに基づき両者を統合した新たな深層学習モデルを提案した．具体的には，離散ウェーブレット変換に基づくダウンサンプリング（プーリング）層を提案し，従来の時間領域音源分離手法に比べ，高精度に分離できることを示した．また，提案層を拡張し，事前に定めたウェーブレットだけでなく，深層学習モデルと同時にウェーブレットも学習できることを示した．この拡張により，タスクに応じてより適したウェーブレットを学習により得る方法を確立した．さらに，多チャネル音源分離へも適用し，パワースペクトログラムのみを用いる手法に比べて，分離性能が向上することを示した．昨年度までは，楽音分離（異なる楽器音同士の分離）において手法を検討してきた．本年度は，提案法を新たな音源分離タスクへと適用し，その分離性能を評価した．具体的には，重唱分離（重唱を各パートの歌唱へと分離するタスク）に適用し，音源分離の標準的な評価指標であるscale-invariant signal-to-distortion ratioに関して，従来法と同程度かそれよりも高い性能を示すことを確認した．この評価のため，他の研究者と協力し重唱コーパスの整備も行った．さらに，当該手法の実装をGitHubで公開した．コーパスも公開しており，国内外の研究者が提案法を利用し，重唱分離に取り組むことが可能となった．

Research Products
(5 results)

All 2023 2022 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results) Remarks (2 results)

[Journal Article] Sampling-Frequency-Independent Convolutional Layer and its Application to Audio Source Separation2022
- Author(s)
  Koichi Saito、Tomohiko Nakamura、Kohei Yatabe、Hiroshi Saruwatari
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 30 Pages: 2928～2943
- DOI
  10.1109/TASLP.2022.3203907
- Peer Reviewed / Open Access
[Presentation] jaCappella corpus: A Japanese a cappella vocal ensemble corpus2023
- Author(s)
  Tomohiko Nakamura、Shinnosuke Takamichi、Naoko Tanji、Satoru Fukayama、Hiroshi Saruwatari
- Organizer
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- Int'l Joint Research
[Presentation] jaCappella コーパス:重唱分離・合成に向けた日本語アカペラ歌唱コーパス2022
- Author(s)
  中村友彦，高道慎之介，丹治尚子，深山覚，猿渡洋
- Organizer
  日本音響学会第148回(2022年秋季)研究発表会
[Remarks] 重唱分離のデモページ
- URL
  https://tomohikonakamura.github.io/Tomohiko-Nakamura/demo/jaCappella_sep
[Remarks] 重唱分離に対する提案法のコード公開ページ
- URL
  https://github.com/TomohikoNakamura/asteroid_jaCappella

2022 Fiscal Year Annual Research Report

時間領域深層学習と多重解像度解析を融合した音響情景分析の研究

Principal Investigator

中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)

Research Products

[Journal Article] Sampling-Frequency-Independent Convolutional Layer and its Application to Audio Source Separation2022

Author(s)

Journal Title

DOI

[Presentation] jaCappella corpus: A Japanese a cappella vocal ensemble corpus2023

Author(s)

Organizer

[Presentation] jaCappella コーパス:重唱分離・合成に向けた日本語アカペラ歌唱コーパス2022

Author(s)

Organizer

[Remarks] 重唱分離のデモページ

URL

[Remarks] 重唱分離に対する提案法のコード公開ページ

URL

中村友彦東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)