研究課題
本研究では,音響波動の物理的性質と人間の聴覚機能をヒントにし,計算機による高精度な音環境理解(音響情景分析)機能を実現することを目的としている。2016年度は主に以下の検討を行った。(1)識別的非負値行列因子分解の基底学習アルゴリズム:非負値行列因子分解(NMF)を用いた教師あり音源分離アプローチでは,音源サンプルの基底スペクトルを事前学習することで,混合信号に含まれる当該音源の成分を分離抽出することが可能となる。従来のこの枠組では基底学習において分離信号そのものが最適となるような規準とはなっていなかったが,分離信号と学習サンプルとの誤差を直接的に最適化規準として基底学習を行う,識別的NMFと呼ぶ枠組が提案されている。識別的NMFの学習規準は従来のNMFの学習規準に比べて解析的に複雑な形になるため,汎用的な最適化手法を用いた基底学習方式が採られていたが,この方式は停留点への収束性が保証されておらず識別的NMFのポテンシャルを十分発揮できていなかった。本研究では,補助関数法という原理に基づく収束性が保証された識別的NMFの基底学習アルゴリズムを提案した。(2)波源拘束差分方程式に基づく音源定位:小領域・短時間観測により複数の音源の瞬時定位を可能にする理論と基本アルゴリズムを提案し,ベイズ拡張により音源数推定機能と音源追跡機能を新たに実現した。(3)複素NMFによる高精度音源分離:これまで我々は位相を考慮したNMFの複素領域拡張版である複素NMFと呼ぶ高精度音源分離手法を提案し,その有効性を示してきた。本研究では,複素NMFに「双対形式」が存在することを発見し,この「双対形式」に基づき複素NMFの最適化規準の拡張と時間領域への拡張が可能になり,さらに,多重解像度化など従来のNMFでは不可能だった拡張が可能となった。
すべて 2017 2016
すべて 雑誌論文 (1件) (うち査読あり 1件、 謝辞記載あり 1件) 学会発表 (13件) (うち国際学会 9件、 招待講演 5件) 図書 (2件) 産業財産権 (10件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 印刷中 ページ: 印刷中