2003 Fiscal Year Annual Research Report

話し言葉音声認識のための言語モデルの研究

Research Project

Project/Area Number	02F00608
Research Institution	Tokyo Institute of Technology
Principal Investigator	古井貞熙東京工業大学, 大学院・情報理工学研究科, 教授
Co-Investigator(Kenkyū-buntansha)	WHITTAKER Edward W. D. 東京工業大学, 大学院・情報理工学研究科, 外国人特別研究員
Keywords	音声認識 / 話し言葉 / 言語モデル / クラス言語モデル / 適応化 / 音声質問応答システム / 単語共起
Research Abstract	下記の2つの研究項目に関して、研究を行った。 (1)話し盲葉音声認識のための言語モデル適応化の研究講演音声の認識を目的として、言語モデルを、認識対象音声に自動的に適応化するアルゴリズムの研究を行った。認識対象音声から得られる、限られた情報をもとに、教師なし適応化法で、大語彙を対象とした大規模な統計的言語モデル(トライグラム)を効率的に適応化するため、あらかじめ多数の講演をクラスタ化しておくとともに、単語クラス言語モデルを構築しておく。種々の条件の組み合わせについて実験を行った結果、学習用の2590の講演を、単語の共起関係に基づいて8つのクラスにクラスタ化し、単語クラスは、これら全ての講演を用いて定義するのがよいことがわかった。認識対象の各講演について、一般的な言語モデルを用いて音声認識し、その結果(認識仮説)を用いて、講演クラスごとの単語クラス言語モデルを、EMアルゴリズムによって推定した重みによって組み合わせ、単語クラスに対する各単語の生起モデルは、認識仮説から推定するのが、最もよい結果を与えることが確認された。 (2)音声質問応答システムの研究統計的枠組みにより、質問文から自動的に答えを検索するアルゴリズムの研究を行った。単語の共起関係に基づいて、可能な答えをクラスタ化し、これを用いて、答えを検索する方法を提案した。英語による質問応答(QA)システムを対象としたNIST/TRECのコーパスを用いた評価実験を進めた。これまでの評価実験は、文字列を入力する条件で行っているが、提案した方法は、言語に依存しない統計的枠組みに基づいているため、質問を音声で入力をする場合にも、容易に適用することができると考えられる。