2015 年度実施状況報告書

音声対話を通じた音声認識用音響・言語モデルの自動高精度化

研究課題

研究課題/領域番号	15K16051
研究機関	大阪大学
研究代表者	武田龍大阪大学, 産業科学研究所, 助教 (20749527)
研究期間 (年度)	2015-04-01 – 2017-03-31
キーワード	音声対話 / 音響モデル / 言語モデル / メンテナンスフリー
研究実績の概要	本研究課題では，音声認識の各モデルに関してメンテナンスフリーな音声対話システムの構築を目的とする．初年度は，研究課題として挙げた，a) ロボット上での音声対話システムの構築やb) 音響モデル・c) 言語モデルの基礎技術開発に取り組んだ．主な研究成果として，1) Deep Neural Network (DNN) に基づくコンパクトな音響モデル，2) ロボットにおける音源定位のDNN適用による高精度化, 3) 話し言葉に対するベイズ言語モデルの構築，の3点を挙げる． 1) では，DNN パラメータを量子化するための学習アルゴリズムを提案し，2bit 量子化による高速処理かつ省メモリな音響モデルの構築を達成した．これによりリソースが限られた環境でも DNNを利用可能となる．2) では，データに基づき定位用DNNを学習することで，限られた範囲であるが音源定位・発話区間検出の精度を従来法よりも改善できることを確認している．これら2点は，「ロボット上での音声対話システムの構築」や「音響モデルの高精度化」に必要不可欠な基礎技術である． 3) に関しては，話し言葉でのフィラーや誤認識に頑健な単語予測を行うため，ベイズ言語モデルの1つである階層ピットマン・ヨー過程に基づく言語モデル(HPYLM)の拡張を行った．この言語モデルは，未知語や未知文脈で出現した単語に関しても出現確率を付与することが可能である．そのため，「言語モデルの高精度化」において，未知語の検出や確率計算でこのモデルが必要となる．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画の一部を変更して研究を進めたが，全体としての進捗は概ね順調である．初年度の計画では，「言語モデルの高精度化」を主として進めることになっていたが，「音響モデルの高精度化」も計画を前倒して同時並行で進めることにした．理由は，DNNに関する研究の進展が非常に早いため，同時並行で取り組むべきだと判断したからである．そのため，初年度で「言語モデルの高精度化」をある程度解決し，「対話データの収集」も行う予定であったが，それらを次年度へ持ち越すように計画を変更した．音響モデル・言語モデルにおける要素技術自体の研究開発は進んでいる．DNNの音響モデル研究から派生し，当初の想定を上回る”DNNの音源定位への適用による定位精度の向上”という成果が得られた．これらの内容は査読付き国際会議で発表を行った．一方で，「自動高精度化」という研究のコア部分の進捗が相対的に遅れているため，次年度は言語モデル・音響モデルの自動高精度化のための枠組みの構築に注力する．
今後の研究の推進方策	音響モデル・言語モデルおよびロボットでの音声対話における基礎技術は初年度でおおよそ確立できたので，最終年度はモデルの自動高精度化の枠組みの構築に着手する．具体的には以下の通りである． 1. 言語モデルの自動高精度化: 発音は正しく認識可能だが，単語ラベル（単語表記）が未知の状況へ対応する．初年度で開発した言語モデルを拡張し，発音・文字連鎖の条件付き確率をデータから学習し，未知語や誤認識箇所に対する正解候補とその確信度を最尤推定する手法を確立する．また，Weighted Finite State Transducer（WFST）に基づく言語モデルを動的に拡張するシステムも開発する． 2. 音響モデルの自動高精度化: 音声認識で計算される発音毎の尤度や対話履歴，発話パターンに基づき誤認識している音声区間と発音の正解候補を推定する技術を開発する．また，ユーザとの対話から常に正解が得られるとは限らないため，通常学習と異なる負例に基づく音響モデル適応技術の開発を行う． 3. 対話データ収集および対話戦略の最適化: 収集した対話データに基づき，単語ラベルに関する確率変数の依存関係解析とシステム応答生成の方策を設定し，部分観測マルコフ決定過程(POMDP) といった統計的枠組みに基づいて一連の発話から単語ラベルの確信度分布の推定を実現する．
次年度使用額が生じた理由	研究計画を変更したことにより次年度使用額が生じた．初年度にも対話データの収集を予定していたが，音響モデルに関する研究内容を前年度に前倒ししたため，「対話データの収集」を行わなかった．そのため，人件費・謝金の項目がほぼ予定していた金額が未使用という状況である．この「対話データの収集」に関する内容は次年度に行う予定であるため，予算を繰り越して利用する．
次年度使用額の使用計画	使用予定だった内容が次年度に持ち越されただけなので，当初の目的である「対話データの収集」に使用する計画である．

研究成果
(3件)

すべて 2016 2015

すべて学会発表 (3件) (うち国際学会 3件)

[学会発表] Sound Source Localization based on Deep Neural Networks with Directional Activate Function Exploiting Phase Information2016
- 著者名/発表者名
  Ryu Takeda, Kazunori Komatani
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing
- 発表場所
  Shanghai, China
- 年月日
  2016-03-23
- 国際学会
[学会発表] Acoustic Model Training based on Node-wise Weight Boundary Model Increasing Speed of Discrete Neural Networks2015
- 著者名/発表者名
  Ryu Takeda, Kazuhiro Nakadai, Kazunori Komatani
- 学会等名
  IEEE Automatic Speech Recognition and Understanding Workshop
- 発表場所
  Scottsdale, Arizona, USA
- 年月日
  2015-12-14
- 国際学会
[学会発表] Performance Comparison of MUSIC-based Sound Localization Methods on Small Humanoid under Low SNR Conditions2015
- 著者名/発表者名
  Ryu Takeda, Kazunori Komatani
- 学会等名
  IEEE-RAS International Conference on Humanoid Robots
- 発表場所
  Seoul, Korea
- 年月日
  2015-11-04
- 国際学会

2015 年度 実施状況報告書

音声対話を通じた音声認識用音響・言語モデルの自動高精度化

研究代表者

武田 龍 大阪大学, 産業科学研究所, 助教 (20749527)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Sound Source Localization based on Deep Neural Networks with Directional Activate Function Exploiting Phase Information2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Acoustic Model Training based on Node-wise Weight Boundary Model Increasing Speed of Discrete Neural Networks2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Performance Comparison of MUSIC-based Sound Localization Methods on Small Humanoid under Low SNR Conditions2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

武田龍大阪大学, 産業科学研究所, 助教 (20749527)