自由発話音声の認識処理を、音声モデル・語彙・言語モデル等の制約を統合したグラフサーチにおける時間非同期のA*探索の問題に定式化し、認識性能を下げないで計算量を大幅に低減することを目指す.今年度は、音響モデル、単語マッチング、言語モデルの要素技術の高度化に重点をおいて研究を進めた. 1.音響モデルの精密化 コンテキスト依存モデルとしてHM-Net(隠れマルコフ網)を取り上げ、逐次状態分割法のアルゴリズム中に、音素決定木に基づくコンテキスト分割法を導入した.この手法により、高精度かつあらゆる未知コンテキストも表現可能なHM-Netが生成できるようになり、認識性能の向上を認識した. 2.単語マッチングの高速化 簡略な音響モデルと最適音素系列を利用する単語予備選択法を検討した.15000語の単語認識実験で、語彙の1%を候補として予備選択したとき、その中に正解単語が99%以上の確率で含まれて、単語マッチングの計算量は全数探索の4.1%に低減できることを確認した. 3.言語モデルの構築 EDRコーパス(20万文、500万語)を用いてN-gram言語モデル構築し、学習テキストの量とN-gramの性能の間にどのような関係があるかを調べて、高精度なN-gramを構築するために必要な学習テキスト量や語彙数を明らかにした.また、言語モデルのタスク適応化についても見通しを得た.
|