2017 Fiscal Year Annual Research Report

極限環境で動作するロボット聴覚を搭載したホース型レスキューロボットシステム

Research Project

Project/Area Number	15J08765
Research Institution	Kyoto University
Principal Investigator	坂東宜昭京都大学, 情報学研究科, 特別研究員(DC1)
Project Period (FY)	2015-04-24 – 2018-03-31
Keywords	ロボット聴覚 / 音声強調 / 深層生成モデル
Outline of Annual Research Achievements	これまで取り組んできた低ランク・スパース分解に基づく音声強調法は，スパース性という音声の１側面のみを捉えた仮定に基づき音声信号を抽出していたため，強調性能に限界があった．一方近年，深層ニューラルネットワーク(DNN)を用いて，雑音を含む音声信号からクリーンな音声信号への写像を教師あり学習することで，高品質な音声強調が実現しつつある．しかし，このアプローチでは，大量の訓練データを準備する必要があるうえ，未知の雑音環境下に対する汎化性能に問題があった．平成29年度は，雑音を事前学習せず高い品質で音声強調するために，深層学習に基づく音声モデルと従来の統計モデルに基づく雑音モデルを確率的に統合した半教師あり音声強調法を開発した．本手法では，音声スペクトログラムは深層生成モデルから確率的に生成され，雑音スペクトログラムは非負値行列因子分解(NMF)モデルから生成されると仮定し，これらが重畳することで混合音スペクトログラムが生成されると考える．音声スペクトルの深層生成モデルを事前に大量のクリーン音声信号を用いて教師なし学習しておけば，混合音が与えられたときに，含まれている実際の音声スペクトルをベイズ推論できる．本枠組みのNMFモデルは観測に合わせて雑音成分を適応的に推定するため，雑音信号の訓練データを必要としない．シミュレーション混合音を用いた評価実験では，従来の低ランク・スパース分解法より高い性能を達成した．さらに，従来のDNNに基づく教師あり音声強調法に対しても，教師あり法にとっての未知雑音環境下でより高い性能を確認した．
Research Progress Status	29年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	29年度が最終年度であるため、記入しない。

Research Products
(5 results)

All 2018 2017

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Speech Enhancement Based on Bayesian Low-Rank and Sparse Decomposition of Multichannel Magnitude Spectrograms2018
- Author(s)
  Yoshiaki Bando, Katsutoshi Itoyama, Masashi Konyo, Satoshi Tadokoro, Kazuhiro Nakadai, Kazuyoshi Yoshii, Tatsuya Kawahara, and Hiroshi G. Okuno
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 26, 2 Pages: 215, 230
- DOI
  10.1109/TASLP.2017.2772340
- Peer Reviewed
[Presentation] Statistical Speech Enhancement Based on Probabilistic Integration of Variational Autoencoder and Non-Negative Matrix Factorization2018
- Author(s)
  Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara
- Organizer
  IEEE International Conference on Acoustics, Speech and Signal Processing
- Int'l Joint Research
[Presentation] 音響センサを用いた配管内探査ヘビ型ロボットの3 次元位置推定2017
- Author(s)
  坂東宜昭, 須原大貴, 亀川哲志, 糸山克寿, 吉井和佳, 松野文俊, 奥乃博
- Organizer
  日本ロボット学会学術講演会
[Presentation] 深層生成モデルを事前分布に用いた教師なし音声強調2017
- Author(s)
  坂東宜昭, 三村正人, 糸山克寿, 吉井和佳, 河原達也
- Organizer
  電子情報通信学会音声研究会
[Presentation] 多チャネル低ランク・スパース分解に基づく柔軟索状レスキューロボットのためのリアルタイム音声強調2017
- Author(s)
  坂東宜昭, 安部祐一, 糸山克寿, 昆陽雅司, 田所諭, 中臺一博, 吉井和佳, 奥乃博
- Organizer
  ロボティクス・メカトロニクス講演会

2017 Fiscal Year Annual Research Report

極限環境で動作するロボット聴覚を搭載したホース型レスキューロボットシステム

Principal Investigator

坂東 宜昭 京都大学, 情報学研究科, 特別研究員(DC1)

Research Products

[Journal Article] Speech Enhancement Based on Bayesian Low-Rank and Sparse Decomposition of Multichannel Magnitude Spectrograms2018

Author(s)

Journal Title

DOI

[Presentation] Statistical Speech Enhancement Based on Probabilistic Integration of Variational Autoencoder and Non-Negative Matrix Factorization2018

Author(s)

Organizer

[Presentation] 音響センサを用いた配管内探査ヘビ型ロボットの3 次元位置推定2017

Author(s)

Organizer

[Presentation] 深層生成モデルを事前分布に用いた教師なし音声強調2017

Author(s)

Organizer

[Presentation] 多チャネル低ランク・スパース分解に基づく柔軟索状レスキューロボットのためのリアルタイム音声強調2017

Author(s)

Organizer

坂東宜昭京都大学, 情報学研究科, 特別研究員(DC1)