Mathematical Deepening of Audio Source Separation Based on Independence and Amplitude/Phase Modeling and Development of Multimodal Hearing-Aid System
Project/Area Number |
23K24908
|
Project/Area Number (Other) |
22H03652 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kagawa National College of Technology |
Principal Investigator |
北村 大地 香川高等専門学校, 電気情報工学科, 講師 (40804745)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2025: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2024: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2023: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Fiscal Year 2022: ¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
|
Keywords | 音源分離 / 補聴器 / 深層学習 / アレイ信号処理 / 独立成分分析 / 音源モデル / 位相 |
Outline of Research at the Start |
音源分離とは,複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である.特に,マイクの配置や音源位置,部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離(BSS)」と呼ばれる技術は,実用化と多くの応用が期待されている.本課題では,現在主流のBSSフレームワークに対し,音の位相を表現する代数的・統計的数理モデルの構築と応用(数理的深化),深層学習に基づく教師有りモデリング(データ的拡張),ユーザと協働するシステムを搭載した補聴器の開発(応用的実装)の3つを主軸にした理論拡充に取り組む.
|
Outline of Annual Research Achievements |
本研究は,音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする.音源分離とは,複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である.特に,マイクの配置や音源位置,部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離(BSS)」と呼ばれる技術は,実用化と多くの応用が期待されている.しかし,BSSは事前情報が与えられない問題であり,現在でも実用化困難なレベルの性能である. 本研究では,申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている.具体的には,これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用(数理的深化),深層学習に基づく様々な音の位相の教師有りモデリング(データ的拡張),ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発(応用的実装)の3つを主軸にした理論拡充に取り組む. 課題遂行1年目の令和4年度では,修正位相スペクトログラムの検討の前段階として,「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した.調査結果として,時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認したが,期待されたほどの性能向上は確認できなかった. 課題遂行2年目の令和5年度では,引き続き時間微分複素スペクトログラムを用いる音源モデルについて検討を進めるとともに,BSSで着目すべき観測信号の時間区間を選別する方法で性能向上を目指した.より高い性能を発揮することのできる時間区間のみをBSSに与えることを想定したアプローチであり,その時間区間の選別には深層ニューラルネットワークを用いる.令和5年度の内容では深層学習モデルの構築とその精度の検証,また時間区間選別モデルが理想的な性能を発揮した際のBSSの性能向上について確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究課題は,ブラインド音源分離(BSS)において,これまで積極的に考慮されることが無かった位相情報(各音源の位相に関する時間周波数構造,位相スペクトログラムと呼ぶ)の援用方法を模索することが主題となっている.当初の予定では「修正位相スペクトログラム」と呼ばれる新しい位相情報の表現系をBSSの音源モデルに導入する予定であった.その根拠として,修正位相スペクトログラムは振幅スペクトログラムと同様に,音源の時間周波数構造が(通常の位相スペクトログラムよりも)はっきりと現れるものであることが挙げられる.従って,本研究課題の主題である位相情報のBSSへの積極的な援用に対して直接的な方法と考えている. しかし,修正位相スペクトログラムを直接BSSで分離することは困難が伴う.その理由として,仮に音源分離された結果の修正位相スペクトログラムが得られた際,これを時間信号に復元するには,音源毎の(分離された)瞬時周波数(位相の時間微分)が必要であるためである.令和4年度では,この困難への対処法を検討する前に.修正位相スペクトログラムよりも簡素な「時間微分複素スペクトログラム」の活用を検討した.従前のBSSよりも人工的な歪みがやや少ない音源分離結果が得られることが明らかとなったが,これは我々が期待する程の大きな性能改善ではなかった.令和5年度では,時間微分複素スペクトログラムのモデル援用を一度保留し,よりシンプルな方法で性能向上を目指すアルゴリズムとして,BSSに与えるべき観測信号の時間区間を深層学習モデルで選別する方法について検討に時間を費やした.この手法については一定の効果が認められ,また興味深い現象も観測できたが,当初予定していた時間微分複素スペクトログラムに基づく音源モデルの構築についてはいまだ検討中であり,令和6年度に検討すべき課題へと持ち越しとなったため,当初の予定よりやや遅れている.
|
Strategy for Future Research Activity |
令和6年度以降では,令和5年度に実施できなかった時間微分スペクトログラムの音源モデルへの活用の検討を進める.具体的には,時間微分スペクトログラムの時間周波数構造の低ランク近似モデルと,従前の振幅スペクトログラムの時間周波数構造の低ランク近似モデルを両方考慮する音源モデルについて検討する. また,令和5年度に実施した深層学習に基づく観測信号の時間区間の選別アルゴリズムとBSSを融合させた手法の結果を取りまとめ,対外発表を予定している.さらに,BSSで推定された分離系に含まれる誤差を深層学習で補正する方法についても検討する.これは令和4年度に少しだけ着手したアルゴリズムであるが,当初予定していた位相構造援用の研究進捗の遅れを考慮し,改めて新しいアプローチとしてBSSの性能向上を狙うものである. 従って,令和6年度は上記の3つのアプローチを並行して進め,学術的な成果の創出と対外発表,アウトリーチ活動にも注力していくことを考えている.
|
Report
(2 results)
Research Products
(26 results)