2016 Fiscal Year Annual Research Report
Acoustic scene analysis based on time-space acoustic signal modeling and machine learning
Project/Area Number |
26730100
|
Research Institution | NTT Communication Science Laboratories |
Principal Investigator |
亀岡 弘和 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主任研究員 (20466402)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 音響情景分析 / 深層学習 / 多重音解析 / 音響イベント検出 / 音源分離 / 到来方向推定 / 残響除去 / 高速学習アルゴリズム |
Outline of Annual Research Achievements |
本研究では,音響波動の物理的性質と人間の聴覚機能をヒントにし,計算機による高精度な音環境理解(音響情景分析)機能を実現することを目的としている。2016年度は主に以下の検討を行った。 (1)識別的非負値行列因子分解の基底学習アルゴリズム:非負値行列因子分解(NMF)を用いた教師あり音源分離アプローチでは,音源サンプルの基底スペクトルを事前学習することで,混合信号に含まれる当該音源の成分を分離抽出することが可能となる。従来のこの枠組では基底学習において分離信号そのものが最適となるような規準とはなっていなかったが,分離信号と学習サンプルとの誤差を直接的に最適化規準として基底学習を行う,識別的NMFと呼ぶ枠組が提案されている。識別的NMFの学習規準は従来のNMFの学習規準に比べて解析的に複雑な形になるため,汎用的な最適化手法を用いた基底学習方式が採られていたが,この方式は停留点への収束性が保証されておらず識別的NMFのポテンシャルを十分発揮できていなかった。本研究では,補助関数法という原理に基づく収束性が保証された識別的NMFの基底学習アルゴリズムを提案した。 (2)波源拘束差分方程式に基づく音源定位:小領域・短時間観測により複数の音源の瞬時定位を可能にする理論と基本アルゴリズムを提案し,ベイズ拡張により音源数推定機能と音源追跡機能を新たに実現した。 (3)複素NMFによる高精度音源分離:これまで我々は位相を考慮したNMFの複素領域拡張版である複素NMFと呼ぶ高精度音源分離手法を提案し,その有効性を示してきた。本研究では,複素NMFに「双対形式」が存在することを発見し,この「双対形式」に基づき複素NMFの最適化規準の拡張と時間領域への拡張が可能になり,さらに,多重解像度化など従来のNMFでは不可能だった拡張が可能となった。
|
Research Products
(26 results)
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] 統計的音響信号処理2016
Author(s)
亀岡弘和
Organizer
NLP若手の会(YANS)第11回シンポジウム
Place of Presentation
和歌山県西牟婁郡白浜町
Year and Date
2016-08-28 – 2016-08-30
Invited
-
-
-
-
-
-
-
-
-
-
-
-
-
-