2019 Fiscal Year Research-status Report
Unification of Deep Learning and Generalized Mathematical Model for Independence-Based Audio Source Separation
Project/Area Number |
19K20306
|
Research Institution | Kagawa National College of Technology |
Principal Investigator |
北村 大地 香川高等専門学校, 電気情報工学科, 助教 (40804745)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音源分離 / 独立成分分析 / 独立低ランク行列分析 / 生成モデル / 確率的信号処理 / 音響信号処理 |
Outline of Annual Research Achievements |
本研究課題は,音源分離技術に関する数理的・実用的拡張を目的としている.音源分離とは,複数の音源が混合した観測信号のみから混合前の個々の音源信号を推定する逆問題であり,多くの応用が期待されている. 具体的には,音響信号を対象とした音源分離の数理的深化と高性能化を目的として,申請者が過去に提案した手法である「独立低ランク行列分析(ILRMA)」を数理的に一般化した新しい音源分離フレームワークを確立する.これは「音源間の統計的独立性と各音源の構造に関する制約条件」という新たな考え方であり,いかに適切な音源構造制約を与えるかについて,数理的・データ的観点から発展させる.具体的には「一般化ガウス分布生成モデル」と「音源モデルplug-and-playな最適化法」の理論解析と確立,「深層学習に基づく音源教師あり手法」への発展,「ユーザの介入を組み合わせたインタラクティブ音源分離手法」の開発の3点を目標とする. 1年目である令和2年度は,従来より申請者が提案している「ILRMAの確率的生成モデルの一般化」と「音源モデルのplug-and-playが可能な最適化法」について,当初の計画通り取り組んだ.従来のILRMAの音源生成モデルである複素ガウス分布を,サブガウス分布を含んだ一般化複素ガウス分布へと一般化し,それらの妥当性について実験的に検証した.特に,サブガウス分布を仮定したILRMAは,従来のILRMAよりも遥かに高精度な音源分離結果が得られることを示した.また,調波打楽器音分離(HPSS)と呼ばれる有名なアルゴリズムを音源モデルとして解釈し,plug-and-playな最適化手法と融合した「時間周波数マスクに基づくブラインド音源分離(TFMBSS)」を新たに提案し,調波音と打楽器音の音源分離においては,従来のILRMAの性能を大幅に上回る分離が実現できることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題では,1年目で「一般化ガウス分布生成モデル」と「音源モデルのplug-and-playが可能な最適化法」の2点に関して理論解析と確立を行い,実環境における音源分離実験を通して有効性を確認する予定であった.これらの内容は計画通り実施され,特に前者の検討課題においては,1本のジャーナル論文が採択されている.後者については,年度の後半から取り組みをはじめた.その結果,調波打楽器音分離手法を音源モデルと解釈してplug-and-play最適化音源分離手法(TFMBSS)に導入することで,確かな性能が得られることを確認した.さらに,一度TFMBSSに音源モデル(HPSS)を導入して分離した後に,もう一度HPSSで音源モデルをリファイン,という処理を反復する新たなアルゴリズムを提案し,より高精度な音源分離へとつながる可能性を示した.これらの結果は,年度末開催の国内会議へ投稿し,発表ができた段階である.今後は国際的な発表やジャーナルへの投稿を目指して,さらに理論拡張と発展をさせていく予定である.
|
Strategy for Future Research Activity |
本研究では,「音源間の独立性+各音源の構造に関する何らかの制約」という強力な提案手法を新しい音源分離フレームワークと捉え,(1)確率的生成モデルの一般化と音源構造制約の数理的深化,(2)学習データと深層学習を用いた最適な音源構造制約の自動獲得と適応学習,(3)ユーザから得られる支援情報を活用したインタラクティブ音源分離の開発の3つを主軸にした理論拡充に取り組むことを目指している. 今後の研究の推進方策として,2年目では,1年目で得た成果を「深層学習に基づく音源教師あり手法」へと発展させ,さらに学習済みの深層ネットワークを観測信号に適応させる転移学習についても検討する.これは,手に入る学習データ量が不十分な音源に対しても頑健に分離することを目的としている.この深層学習に基づく音源モデルの構築においては,1年目の研究で得られた「サブガウス分布を確率的生成モデルに用いたモデリングが音源分離に適している」という知見を活かすために,深層学習を多層かつ非線形な最尤推定と捉えて,学習時のロス関数にサブガウス分布から導かれるダイバージェンスを用いることを検討している.また,TFMBSSと深層学習を融合させる手法についても,理論的妥当性を考慮しながら検討を進めていく予定である. 最終年度の3年目では,インタラクティブ音源分離手法の検討及び開発として,超小型カメラと補聴器を組み合わせた高精度なリアルタイム音声強調システムの構築等を目指している.
|
Research Products
(32 results)