2020 Fiscal Year Research-status Report
Unification of Deep Learning and Generalized Mathematical Model for Independence-Based Audio Source Separation
Project/Area Number |
19K20306
|
Research Institution | Kagawa National College of Technology |
Principal Investigator |
北村 大地 香川高等専門学校, 電気情報工学科, 助教 (40804745)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音源分離 / 独立成分分析 / 独立低ランク行列分析 / 生成モデル / 確率的信号処理 / 音響信号処理 |
Outline of Annual Research Achievements |
本研究課題は,音源分離技術に関する数理的・実用的拡張を目的としている.音源分離とは,複数の音源が混合した観測信号のみから混合前の個々の音源信号を推定する逆問題であり,多くの応用が期待されている. 具体的には,音響信号を対象とした音源分離の数理的深化と高性能化を目的として,申請者が過去に提案した手法である「独立低ランク行列分析(ILRMA)」を数理的に一般化した新しい音源分離フレームワークを確立する.これは「音源間の統計的独立性と各音源の構造に関する制約条件」という新たな考え方であり,いかに適切な音源構造制約を与えるかについて,数理的・データ的観点から発展させる.具体的には「一般化ガウス分布生成モデル」と「音源モデルplug-and-playな最適化法」の理論解析と確立,「深層学習に基づく音源教師あり手法」への発展,「ユーザの介入を組み合わせたインタラクティブ音源分離手法」の開発の3点を目標とする. 2年目である令和2年度は,従来より申請者が提案している「確率的生成モデルの一般化」を更なる発展手法(高速多チャネル非負値行列因子分解等)へと適用させ,これによる音源分離性能の向上を実証した.また,「音源モデルのplug-and-playが可能な最適化法」については計画通り進めることができ,調波打楽器音分離(HPSS)を音源モデルとした「時間周波数マスクに基づくブラインド音源分離(TFMBSS,昨年度提案済み)」の改良に挑戦した.音源分離性能を保ったままの高速化を達成し,音響信号処理のトップカンファレンスに採択された.これについては次年度発表予定である.そのほか,新たな音源モデルとなるスペクトログラム無矛盾性に着目し,ILRMAに導入することで性能が向上することを提案し,論文として出版することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題では,1年目で「一般化ガウス分布生成モデル」と「音源モデルのplug-and-playが可能な最適化法」の2点に関して理論解析と確立を行い,これらは計画通りの進捗が得られた. 2年目では,後者のplug-and-play音源モデルに基づく手法において,調波打楽器音分離手法を音源モデルと解釈したplug-and-play最適化音源分離手法(TFMBSS)を提案し,今年度これを改良することで高速・高性能な手法へと拡張できた.この成果はトップ国際カンファレンスに採択され,来年度6月に発表予定である. さらに,今年度は当初の研究計画には無かった新しい音源モデルとして,「スペクトログラム無矛盾性」に着目した.これは,あらゆる音響信号が時間周波数領域において本来的に有する性質であるため,従来手法から新たに特別な制限や制約を加えることなく,音源分離に導入できることを見出した. その結果,この万能な音源モデルであるスペクトログラム無矛盾性を導入したブラインド音源分離手法(ILRMA)を世界で初めて提案するに至った.この改良は予想以上の性能向上があったことから,急遽国際的なジャーナルへ投稿し,今年度11月に採録となった. さらに,3年目実施予定であった「インタラクティブ音源分離システム」についても,今年度開発を終え,その性能向上についても調査することができ,年度末にジャーナルに採録された(公刊前なので次年度の成果報告に反映する). 以上の理由から,当初の計画以上に進展していると判断できる.
|
Strategy for Future Research Activity |
本研究では,「音源間の独立性+各音源の構造に関する何らかの制約」という強力な提案手法を新しい音源分離フレームワークと捉え,(1)確率的生成モデルの一般化と音源構造制約の数理的深化,(2)学習データと深層学習を用いた最適な音源構造制約の自動獲得と適応学習,(3)ユーザから得られる支援情報を活用したインタラクティブ音源分離の開発の3つを主軸にした理論拡充に取り組むことを目指している. 最終年度となる3年目の研究の推進方策として,これまでの成果に含まれる手法のさらなる改良に取り組むことの他に,本研究の主題である学習データ及び深層学習に基づく音源モデルの自動獲得・適応学習に取り組む.さらに,深層学習を研究計画段階とは異なる視点から音源モデルに援用することについても考える.具体的には,ブラインド音源分離においてこれまで長く困難とされてきた「パーミュテーション問題(音源モデルが不適切であるが故に生じる分離成分の周波数毎の順序の整合失敗)」の解決に学習データと深層学習を用いることを検討する.パーミュテーション問題の解決は組み合わせ爆発が起こる困難な問題であるが,当初予定していた「音源モデル」とは異なるの形で深層学習に基づく順序の推定に挑戦する.この推定に成功した場合,ILRMAだけでなく多くのブラインド音源分離手法に対して「深層学習に基づくパーミュテーション解決法」が適用可能となり,音源分離分野における大きな発展につながることが予想される.
|
Research Products
(28 results)