2017 Fiscal Year Annual Research Report
Extended theories of audio source separation based on statistical independence and various mathematical structures
Project/Area Number |
17H06572
|
Research Institution | The University of Tokyo |
Principal Investigator |
北村 大地 東京大学, 大学院工学系研究科(工学部), 特任助教 (40804745)
|
Project Period (FY) |
2017-08-25 – 2019-03-31
|
Keywords | 音響信号処理 / 統計的信号処理 / 最適化 / 音源分離 |
Outline of Annual Research Achievements |
本研究課題は,音源分離技術に関する数理的・実用的拡張を目的としている.音源分離とは,複数の音源が混合した観測信号のみから混合前の個々の音源信号を推定する逆問題であり,多くの応用が期待されている. 平成29年度は,従来より申請者が提案している独立低ランク行列分析(ILRMA)の確率的生成モデルの一般化について,当初の計画通り取り組んだ.具体的には,従来のILRMAが用いていた音源の生成モデルである複素ガウス分布を,一般化複素ガウス分布及びスチューデントt分布の2種類に一般化し,それらの理論的・実用的妥当性について検証した.いずれの一般化拡張においても,従来のILRMAの利点である高速な最適化・初期値に対する頑健性を保ったまま,より高精度な音源分離結果が得られることを示している.これらの一般化生成モデルを用いたマルチタスク学習については次年度の継続的な課題とする. 当初の計画では平成30年度に取り組む予定であった「低ランク性とは異なる性質を持つ音源信号への構造変換及びその最適化」について,その一部を平成29年度に取り組んだ.これは,ILRMAのような「音源の性質」と「統計的独立性」の2つの性質を用いた音源分離技術をより一般的なフレームワークへと拡張するための検討課題である.平成29年度では,低ランク性以外の性質(グループスパース性,低ランク性+スパース性等)を用いた手法に加え,音源にとって適切な性質を学習データと深層学習によって獲得する「独立深層学習行列分析(IDLMA)」を新たに提案した.実験的な評価により,IDLMAが既存の音源分離手法と比べて驚異的な性能改善を実現できることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画では,研究の目的に掲げた3つの課題(1. 現実の音波動の混合現象に則した確率的生成モデルの拡張,2. 低ランク性とは異なる性質を持つ音源信号への構造変換及びその最適化,3. ユーザから得られる支援情報を活用したインタラクティブ音源分離の開発)を2年間で実施する予定であった.この3つのうち特に比重の大きい課題は1と2であるが,両者の基礎理論は平成29年度中に完成し,課題1に関してはすでに1本のジャーナルを投稿中(現在条件付き採録),またもう1本のジャーナルを執筆中である.課題2についてもトップ国際会議に採択されており,平成30年度中の論文投稿を目指している.課題3については,実用性に重点を置いたアプリケーション開発であることから,平成30年度内の遂行は容易であり,当初の計画以上の成果が平成29年度の内に得られていると考えられる. ただし,平成29年度中に得られた課題1及び2の成果については,いずれも基礎的な理論であり,これからの数理的,あるいは実用的理論拡張は十分に考えられる.したがって,平成30年度では,課題3の実現と並行して,課題1と2のいずれについてもより発展的な内容へと拡張していく予定である.
|
Strategy for Future Research Activity |
平成29年度に実現した(1)現実の音波動の混合現象に則した確率的生成モデルの拡張,(2)低ランク性とは異なる性質を持つ音源信号への教師あり適用の2つの手法は平行して取り組まれており,その融合可能性についてはこれまで議論していなかった.今後の研究の推進方策としてはまず,この2つの手法の融合可能性について検討する.即ち,平成29年度に提案したIDLMAは複素ガウス分布生成モデルを音源モデルとして仮定してきたが,これを一般化複素ガウス分布や複素スチューデントt分布へと拡張させ,より高精度な音源分離が実現できる条件について検討する. 次に,平成29年度に実施できなかった課題の複数の生成モデルに基づくマルチタスク学習についても取り組む.この課題では,一般化された生成モデルを用いた場合においても推定すべき分離系の正解は唯一(混合系の逆系,混合系は録音時に決まる物理的な系)であることに着目し,複数の生成モデルによる最適化の結果から唯一の解を推論するマルチタスク学習の可能性・有用性について検討する. 最後に,より実用的な拡張として,ユーザとのインタラクティブな音源分離システムの開発を目標とする.この課題では,ユーザが音源分離の途中(最適化アルゴリズム)に介入し,より良い解へと誘導するようなフレームワークをGUIアプリケーションとして開発することである.最適化のコスト関数は非凸であることから,このような外部的な補助情報を活用することで,より良い解を推定できるは高いと考えられる. 以上の推進方策の実現は,平成29年度に検討した基礎理論のより発展的な内容として,学術的・工学的に重要な課題であると考えられる.
|
Research Products
(15 results)