2016 Fiscal Year Annual Research Report
Automatic Improvement of Acoustic and Language Models of Automatic Speech Recognition through Spoken Dialogue
Project/Area Number |
15K16051
|
Research Institution | Osaka University |
Principal Investigator |
武田 龍 大阪大学, 産業科学研究所, 助教 (20749527)
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Keywords | 音声対話 / 音響モデル / 言語モデル / メンテナンスフリー |
Outline of Annual Research Achievements |
本研究課題では,音声認識の各モデルに関してメンテナンスフリーな音声対話システムの構築を行った.本年度は研究課題として挙げた,a) ロボット上での音声対話システムの構築やb) 音響モデル・c) 言語モデルの基礎技術開発に取り組んだ.主な研究成果として,1) Deep Neural Network (DNN) に基づく省メモリ・高速な音響モデル,2) DNN音源定位の教師なし適応, 3) 話し言葉に対する教師なし音素列の単語分割方法の構築,の3点を挙げる. 1) では,DNNパラメータの量子化とノードプルーニングを併用することで,CPU上の演算でも95%のメモリ削減と4倍の高速化を達成した.これによりリソースが限られた環境でも DNNを効率的に利用可能となる.2) では,未学習の音環境における定位性能の向上を目指し,正解ラベルなしで適応する技術に取り組んだ.音源位置に対するロバスト性の分析や周波数領域でのパラメータ適応など,この研究で得られた知見は音響モデル適応に生かすことができる.これら2点は,「ロボット上での音声対話システムの構築」や「音響モデルの高精度化」に必要不可欠な基礎技術である. 3) に関しては,話し言葉で未知語の切り出しを教師なしで行うため,ベイズ言語モデルの1つである隠れセミマルコフモデルに基づく言語モデルの拡張を行った.音素数を連鎖確率としてモデルに組み込むことで,収束速度の改善が見られた.昨年度成果のベイズ言語モデルと併用することで,話し言葉に対する未知語の検出や確率計算が可能となり,「言語モデルの高精度化」に大きく前進した.
|