2015 Fiscal Year Research-status Report

音声対話を通じた音声認識用音響・言語モデルの自動高精度化

Research Project

Project/Area Number	15K16051
Research Institution	Osaka University
Principal Investigator	武田龍大阪大学, 産業科学研究所, 助教 (20749527)
Project Period (FY)	2015-04-01 – 2017-03-31
Keywords	音声対話 / 音響モデル / 言語モデル / メンテナンスフリー
Outline of Annual Research Achievements	本研究課題では，音声認識の各モデルに関してメンテナンスフリーな音声対話システムの構築を目的とする．初年度は，研究課題として挙げた，a) ロボット上での音声対話システムの構築やb) 音響モデル・c) 言語モデルの基礎技術開発に取り組んだ．主な研究成果として，1) Deep Neural Network (DNN) に基づくコンパクトな音響モデル，2) ロボットにおける音源定位のDNN適用による高精度化, 3) 話し言葉に対するベイズ言語モデルの構築，の3点を挙げる． 1) では，DNN パラメータを量子化するための学習アルゴリズムを提案し，2bit 量子化による高速処理かつ省メモリな音響モデルの構築を達成した．これによりリソースが限られた環境でも DNNを利用可能となる．2) では，データに基づき定位用DNNを学習することで，限られた範囲であるが音源定位・発話区間検出の精度を従来法よりも改善できることを確認している．これら2点は，「ロボット上での音声対話システムの構築」や「音響モデルの高精度化」に必要不可欠な基礎技術である． 3) に関しては，話し言葉でのフィラーや誤認識に頑健な単語予測を行うため，ベイズ言語モデルの1つである階層ピットマン・ヨー過程に基づく言語モデル(HPYLM)の拡張を行った．この言語モデルは，未知語や未知文脈で出現した単語に関しても出現確率を付与することが可能である．そのため，「言語モデルの高精度化」において，未知語の検出や確率計算でこのモデルが必要となる．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 計画の一部を変更して研究を進めたが，全体としての進捗は概ね順調である．初年度の計画では，「言語モデルの高精度化」を主として進めることになっていたが，「音響モデルの高精度化」も計画を前倒して同時並行で進めることにした．理由は，DNNに関する研究の進展が非常に早いため，同時並行で取り組むべきだと判断したからである．そのため，初年度で「言語モデルの高精度化」をある程度解決し，「対話データの収集」も行う予定であったが，それらを次年度へ持ち越すように計画を変更した．音響モデル・言語モデルにおける要素技術自体の研究開発は進んでいる．DNNの音響モデル研究から派生し，当初の想定を上回る”DNNの音源定位への適用による定位精度の向上”という成果が得られた．これらの内容は査読付き国際会議で発表を行った．一方で，「自動高精度化」という研究のコア部分の進捗が相対的に遅れているため，次年度は言語モデル・音響モデルの自動高精度化のための枠組みの構築に注力する．
Strategy for Future Research Activity	音響モデル・言語モデルおよびロボットでの音声対話における基礎技術は初年度でおおよそ確立できたので，最終年度はモデルの自動高精度化の枠組みの構築に着手する．具体的には以下の通りである． 1. 言語モデルの自動高精度化: 発音は正しく認識可能だが，単語ラベル（単語表記）が未知の状況へ対応する．初年度で開発した言語モデルを拡張し，発音・文字連鎖の条件付き確率をデータから学習し，未知語や誤認識箇所に対する正解候補とその確信度を最尤推定する手法を確立する．また，Weighted Finite State Transducer（WFST）に基づく言語モデルを動的に拡張するシステムも開発する． 2. 音響モデルの自動高精度化: 音声認識で計算される発音毎の尤度や対話履歴，発話パターンに基づき誤認識している音声区間と発音の正解候補を推定する技術を開発する．また，ユーザとの対話から常に正解が得られるとは限らないため，通常学習と異なる負例に基づく音響モデル適応技術の開発を行う． 3. 対話データ収集および対話戦略の最適化: 収集した対話データに基づき，単語ラベルに関する確率変数の依存関係解析とシステム応答生成の方策を設定し，部分観測マルコフ決定過程(POMDP) といった統計的枠組みに基づいて一連の発話から単語ラベルの確信度分布の推定を実現する．
Causes of Carryover	研究計画を変更したことにより次年度使用額が生じた．初年度にも対話データの収集を予定していたが，音響モデルに関する研究内容を前年度に前倒ししたため，「対話データの収集」を行わなかった．そのため，人件費・謝金の項目がほぼ予定していた金額が未使用という状況である．この「対話データの収集」に関する内容は次年度に行う予定であるため，予算を繰り越して利用する．
Expenditure Plan for Carryover Budget	使用予定だった内容が次年度に持ち越されただけなので，当初の目的である「対話データの収集」に使用する計画である．

Research Products
(3 results)

All 2016 2015

All Presentation (3 results) (of which Int'l Joint Research: 3 results)

[Presentation] Sound Source Localization based on Deep Neural Networks with Directional Activate Function Exploiting Phase Information2016
- Author(s)
  Ryu Takeda, Kazunori Komatani
- Organizer
  IEEE International Conference on Acoustics, Speech and Signal Processing
- Place of Presentation
  Shanghai, China
- Year and Date
  2016-03-23
- Int'l Joint Research
[Presentation] Acoustic Model Training based on Node-wise Weight Boundary Model Increasing Speed of Discrete Neural Networks2015
- Author(s)
  Ryu Takeda, Kazuhiro Nakadai, Kazunori Komatani
- Organizer
  IEEE Automatic Speech Recognition and Understanding Workshop
- Place of Presentation
  Scottsdale, Arizona, USA
- Year and Date
  2015-12-14
- Int'l Joint Research
[Presentation] Performance Comparison of MUSIC-based Sound Localization Methods on Small Humanoid under Low SNR Conditions2015
- Author(s)
  Ryu Takeda, Kazunori Komatani
- Organizer
  IEEE-RAS International Conference on Humanoid Robots
- Place of Presentation
  Seoul, Korea
- Year and Date
  2015-11-04
- Int'l Joint Research

2015 Fiscal Year Research-status Report

音声対話を通じた音声認識用音響・言語モデルの自動高精度化

Principal Investigator

武田 龍 大阪大学, 産業科学研究所, 助教 (20749527)

Current Status of Research Progress

Reason

Research Products

[Presentation] Sound Source Localization based on Deep Neural Networks with Directional Activate Function Exploiting Phase Information2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Acoustic Model Training based on Node-wise Weight Boundary Model Increasing Speed of Discrete Neural Networks2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Performance Comparison of MUSIC-based Sound Localization Methods on Small Humanoid under Low SNR Conditions2015

Author(s)

Organizer

Place of Presentation

Year and Date

武田龍大阪大学, 産業科学研究所, 助教 (20749527)