研究課題
これまで取り組んできた低ランク・スパース分解に基づく音声強調法は,スパース性という音声の1側面のみを捉えた仮定に基づき音声信号を抽出していたため,強調性能に限界があった.一方近年,深層ニューラルネットワーク(DNN)を用いて,雑音を含む音声信号からクリーンな音声信号への写像を教師あり学習することで,高品質な音声強調が実現しつつある.しかし,このアプローチでは,大量の訓練データを準備する必要があるうえ,未知の雑音環境下に対する汎化性能に問題があった.平成29年度は,雑音を事前学習せず高い品質で音声強調するために,深層学習に基づく音声モデルと従来の統計モデルに基づく雑音モデルを確率的に統合した半教師あり音声強調法を開発した.本手法では,音声スペクトログラムは深層生成モデルから確率的に生成され,雑音スペクトログラムは非負値行列因子分解(NMF)モデルから生成されると仮定し,これらが重畳することで混合音スペクトログラムが生成されると考える.音声スペクトルの深層生成モデルを事前に大量のクリーン音声信号を用いて教師なし学習しておけば,混合音が与えられたときに,含まれている実際の音声スペクトルをベイズ推論できる.本枠組みのNMFモデルは観測に合わせて雑音成分を適応的に推定するため,雑音信号の訓練データを必要としない.シミュレーション混合音を用いた評価実験では,従来の低ランク・スパース分解法より高い性能を達成した.さらに,従来のDNNに基づく教師あり音声強調法に対しても,教師あり法にとっての未知雑音環境下でより高い性能を確認した.
29年度が最終年度であるため、記入しない。
すべて 2018 2017
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち国際学会 1件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 26, 2 ページ: 215, 230
10.1109/TASLP.2017.2772340