2017 Fiscal Year Annual Research Report
極限環境で動作するロボット聴覚を搭載したホース型レスキューロボットシステム
Project/Area Number |
15J08765
|
Research Institution | Kyoto University |
Principal Investigator |
坂東 宜昭 京都大学, 情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2015-04-24 – 2018-03-31
|
Keywords | ロボット聴覚 / 音声強調 / 深層生成モデル |
Outline of Annual Research Achievements |
これまで取り組んできた低ランク・スパース分解に基づく音声強調法は,スパース性という音声の1側面のみを捉えた仮定に基づき音声信号を抽出していたため,強調性能に限界があった.一方近年,深層ニューラルネットワーク(DNN)を用いて,雑音を含む音声信号からクリーンな音声信号への写像を教師あり学習することで,高品質な音声強調が実現しつつある.しかし,このアプローチでは,大量の訓練データを準備する必要があるうえ,未知の雑音環境下に対する汎化性能に問題があった. 平成29年度は,雑音を事前学習せず高い品質で音声強調するために,深層学習に基づく音声モデルと従来の統計モデルに基づく雑音モデルを確率的に統合した半教師あり音声強調法を開発した.本手法では,音声スペクトログラムは深層生成モデルから確率的に生成され,雑音スペクトログラムは非負値行列因子分解(NMF)モデルから生成されると仮定し,これらが重畳することで混合音スペクトログラムが生成されると考える.音声スペクトルの深層生成モデルを事前に大量のクリーン音声信号を用いて教師なし学習しておけば,混合音が与えられたときに,含まれている実際の音声スペクトルをベイズ推論できる.本枠組みのNMFモデルは観測に合わせて雑音成分を適応的に推定するため,雑音信号の訓練データを必要としない.シミュレーション混合音を用いた評価実験では,従来の低ランク・スパース分解法より高い性能を達成した.さらに,従来のDNNに基づく教師あり音声強調法に対しても,教師あり法にとっての未知雑音環境下でより高い性能を確認した.
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(5 results)
-
[Journal Article] Speech Enhancement Based on Bayesian Low-Rank and Sparse Decomposition of Multichannel Magnitude Spectrograms2018
Author(s)
Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Tatsuya Kawahara, and Hiroshi G. Okuno
-
Journal Title
IEEE/ACM Transactions on Audio, Speech, and Language Processing
Volume: 26, 2
Pages: 215, 230
DOI
Peer Reviewed
-
-
-
-