Mathematical Deepening of Audio Source Separation Based on Independence and Amplitude/Phase Modeling and Development of Multimodal Hearing-Aid System

Research Project

Project/Area Number	23K24908
Project/Area Number (Other)	22H03652 (2022-2023)
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Multi-year Fund (2024) Single-year Grants (2022-2023)
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Kagawa National College of Technology
Principal Investigator	北村大地香川高等専門学校, 電気情報工学科, 講師 (40804745)
Project Period (FY)	2022-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000) Fiscal Year 2025: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000) Fiscal Year 2024: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000) Fiscal Year 2023: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000) Fiscal Year 2022: ¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
Keywords	音源分離 / 補聴器 / 深層学習 / アレイ信号処理
Outline of Research at the Start	音源分離とは，複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である．特に，マイクの配置や音源位置，部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離（BSS）」と呼ばれる技術は，実用化と多くの応用が期待されている．本課題では，現在主流のBSSフレームワークに対し，音の位相を表現する代数的・統計的数理モデルの構築と応用（数理的深化），深層学習に基づく教師有りモデリング（データ的拡張），ユーザと協働するシステムを搭載した補聴器の開発（応用的実装）の3つを主軸にした理論拡充に取り組む．
Outline of Annual Research Achievements	本研究は，音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする．音源分離とは，複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である．特に，マイクの配置や音源位置，部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離（BSS）」と呼ばれる技術は，実用化と多くの応用が期待されている．しかし，BSSは事前情報が与えられない問題であり，現在でも実用化困難なレベルの性能である．本研究では，申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている．具体的には，これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用（数理的深化），深層学習に基づく様々な音の位相の教師有りモデリング（データ的拡張），ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発（応用的実装）の3つを主軸にした理論拡充に取り組む．課題遂行1年目の令和4年度では，時間周波数領域における位相情報（位相スペクトログラム）の新しい表現形として提案されている「修正位相スペクトログラム」をBSSに活用することについて検討した．修正位相スペクトログラムは振幅スペクトログラムと同様に音源の時間周波数構造が（通常の位相スペクトログラムよりも）はっきりと現れるものであり，位相情報をBSSの音源モデルに組み込む直接的な方法と考えている．しかしながら，修正位相スペクトログラム領域のBSSは信号の復元に分離音の位相スペクトログラムが必要となるため，これに対する解決策を考える必要がある．そこで令和4年度では，修正位相スペクトログラムの検討の前段階として，「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した．調査結果として，時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認した．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 本研究課題は，ブラインド音源分離（BSS）において，これまで積極的に考慮されることが無かった位相情報（各音源の位相に関する時間周波数構造，位相スペクトログラムと呼ぶ）の援用方法を模索することが主題となっている．当初の予定では「修正位相スペクトログラム」と呼ばれる新しい位相情報の表現系をBSSの音源モデルに導入する予定であった．その根拠として，修正位相スペクトログラムは振幅スペクトログラムと同様に，音源の時間周波数構造が（通常の位相スペクトログラムよりも）はっきりと現れるものであことが挙げられる．従って，本研究課題の主題である位相情報のBSSへの積極的な援用に対して直接的な方法と考えている．しかし，修正位相スペクトログラムを直接BSSで分離することは困難が伴う．その理由として，仮に音源分離された結果の修正位相スペクトログラムが得られた際，これを時間信号に復元するには，音源毎の（分離された）瞬時周波数（位相の時間微分）が必要であるためである．令和4年度では，この困難への対処法を検討する前に．修正位相スペクトログラムよりも簡素な「時間微分複素スペクトログラム」の活用を検討した．複素時間微分スペクトログラムは修正位相スペクトログラムとも密接に関連している特徴量であるが，適切な時間周波数変換を施さなければ時間波形へと復元できないという特徴がある．令和4年度では，時間微分複素スペクトログラムを時間波形に復元できる条件を理論的に導出し，その条件を満たす変換を施したうえでBSSを適用した場合にどのような性能が得られるかについて調査した．調査結果では，従前のBSSよりも人工的な歪みがやや少ないお源分離結果が得られることが明らかとなったが，これは我々が期待する程の大きな性能改善ではなかった．しかしながら，時間微分複素スペクトログラムそれ自体は興味深い性質があるため，今後も調査対象に加える．
Strategy for Future Research Activity	令和5年度以降では，当初の計画通り修正位相スペクトログラムの音源モデルへの活用について引き続き検討を進める．具体的には，修正位相スペクトログラムの直接的な活用は一度見直し，修正位相スペクトログラムの時間周波数構造の低ランク近似モデルと従前の振幅スペクトログラムの時間周波数構造の低ランク近似モデルを両方考慮するBSSについて検討する．このアプローチでは，令和4年度に取り組むことのできなかった（解決すべき）問題に直面することなく位相情報をBSSに援用できると考えられる．振幅と修正位相の両低ランク近似モデルをどのように融合するかについては様々な方法が考えられるため，その方法についても詳しく調査する予定である．また，上記の継続的な調査と平行して，新たなアプローチとして深層学習を用いた分離系の直接推定について新たに検討する．これは，従来難しいと考えられてきた空間伝達系に関する学習・予測と個々の（混合前の）音源の構造の学習・予測を同時に行うアプローチであり，現時点では成功する方法であるかどうかは不明である．しかしながら，このようなアプローチについてBSSの観点から深く取り組まれた事例は無く，また結果的に振幅と位相の音源モデルを（空間伝達系と合わせて）学習していることとなる為，本研究課題で解決すべき主題とも密接に関連する考え方である．令和5年度は上記の2つのアプローチを並行して進め，学術的な成果の創出と対外発表，アウトリーチ活動にも注力していくことを考えている．

Report

(1 results)

2022 Annual Research Report

Research Products

(11 results)

All 2023 2022

All Journal Article (2 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (9 results) (of which Int'l Joint Research: 2 results)

[Journal Article] Supervised Audio Source Separation Based on Nonnegative Matrix Factorization with Cosine Similarity Penalty2022
- Author(s)
  IWASE Yuta、KITAMURA Daichi
- Journal Title
  
  IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
  
  Volume: E105.A Issue: 6 Pages: 906-913
- DOI
  10.1587/transfun.2021EAP1149
- NAID
  130008126154
- ISSN
  0916-8508, 1745-1337
- Year and Date
  2022-06-01
- Related Report
  2022 Annual Research Report
[Journal Article] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022
- Author(s)
  Yuto Kondo, Yuki Kubo, Norihiro Takamune , Daichi Kitamura, and Hiroshi Saruwatari
- Journal Title
  
  EURASIP Journal on Advances in Signal Processing
  
  Volume: 88(2022) Issue: 1
- DOI
  10.1186/s13634-022-00905-z
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and loudness using deep neural networks2023
- Author(s)
  Shoya Kawaguchi and Daichi Kitamura
- Organizer
  RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP 2023)
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023
- Author(s)
  三澤颯大, 高宗典玄, 矢田部浩平, 北村大地, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告, EA2022-105
- Related Report
  2022 Annual Research Report
[Presentation] DNN-based frequency-domain permutation solver for multichannel audio source separation2022
- Author(s)
  Fumiya Hasuike, Daichi Kitamura, and Rui Watanabe
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2022)
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] 周波数双方向再帰に基づく深層パーミュテーション解決法2022
- Author(s)
  蓮池郁也, 北村大地, 渡辺瑠伊, 川口翔也
- Organizer
  電子情報通信学会第37回信号処理シンポジウム
- Related Report
  2022 Annual Research Report
[Presentation] 双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価2022
- Author(s)
  川口翔也, 北村大地
- Organizer
  日本音響学会 2022年秋季研究発表会
- Related Report
  2022 Annual Research Report
[Presentation] 深層パーミュテーション解決法の汎化性能に関する実験的評価2022
- Author(s)
  蓮池郁也, 北村大地, 渡辺瑠伊
- Organizer
  日本音響学会 2022年秋季研究発表会
- Related Report
  2022 Annual Research Report
[Presentation] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022
- Author(s)
  西田光輝, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
- Organizer
  日本音響学会 2022年秋季研究発表会
- Related Report
  2022 Annual Research Report
[Presentation] 双方向RNNによるMFCC及びラウドネスからの振幅スペクトログラム予測2022
- Author(s)
  川口翔也, 北村大地
- Organizer
  情報処理学会第134回音楽情報科学研究会
- Related Report
  2022 Annual Research Report
[Presentation] 深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討2022
- Author(s)
  蓮池郁也, 渡辺瑠伊, 北村大地
- Organizer
  電子情報通信学会技術研究報告, EA2022-13
- Related Report
  2022 Annual Research Report

Mathematical Deepening of Audio Source Separation Based on Independence and Amplitude/Phase Modeling and Development of Multimodal Hearing-Aid System

Principal Investigator

北村 大地 香川高等専門学校, 電気情報工学科, 講師 (40804745)

¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Supervised Audio Source Separation Based on Nonnegative Matrix Factorization with Cosine Similarity Penalty2022

Author(s)

Journal Title

DOI

NAID

ISSN

Year and Date

Related Report

[Journal Article] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022

Author(s)

Journal Title

DOI

Related Report

[Presentation] Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and loudness using deep neural networks2023

Author(s)

Organizer

Related Report

[Presentation] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023

Author(s)

Organizer

Related Report

[Presentation] DNN-based frequency-domain permutation solver for multichannel audio source separation2022

Author(s)

Organizer

Related Report

[Presentation] 周波数双方向再帰に基づく深層パーミュテーション解決法2022

Author(s)

Organizer

Related Report

[Presentation] 双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価2022

Author(s)

Organizer

Related Report

[Presentation] 深層パーミュテーション解決法の汎化性能に関する実験的評価2022

Author(s)

Organizer

Related Report

[Presentation] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022

Author(s)

Organizer

Related Report

[Presentation] 双方向RNNによるMFCC及びラウドネスからの振幅スペクトログラム予測2022

Author(s)

Organizer

Related Report

[Presentation] 深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討2022

Author(s)

Organizer

Related Report

北村大地香川高等専門学校, 電気情報工学科, 講師 (40804745)