2004 Fiscal Year Annual Research Report

統計的言語モデルにおけるモデル化単位の最適化に関する研究

Research Project

Project/Area Number	14580403
Research Institution	University of Tsukuba
Principal Investigator	山本幹雄筑波大学, 大学院・システム情報工学研究科, 助教授 (40210562)
Keywords	フレーズ対訳辞書 / 機械翻訳 / 相互情報量最小化 / ディリクレ分布 / 文書モデル / 音声認識
Research Abstract	本年度は(1)「辞書項目としての単位」の最適化に関して、実際に機械翻訳システムのフレーズ対訳辞書を英日対訳コーパス(文対応)から自動抽出するシステムの試作・評価、(2)「モデル化する対象単位」を文から文書に拡大した場合のモデルの提案と音声認識に応用した場合の効果を検討した。フレーズ対訳辞書を作成する場合、どの程度の長さのフレーズを辞書項目とするかの判断が困難となる。本研究では、昨年度までに検討した様々な統計的基準を用いて、まず日本語を自動的にフレーズに分割し、その後、そのフレーズに対応する英語フレーズを決定するアルゴリズムを考案した。評価としては、あらかじめ人間が作成したフレーズ対応部分を、提案アルゴリズムがどの程度正確に抽出できるかを測定した。結果としては、様々な統計的基準のうち相互情報量最小化基準によって分割する場合が、もっとも人間の判断に近いことが明らかになった。これは、相互情報量最小化基準の意味的な合理性からも納得のいく結論である。モデル化する対象単位に関しては、これまでの統計的言語モデルが主に「文」に対する確率を付与していたところを「文」の集合である「文章」に対する確率を付与することができるようにディリクレ分布を用いたモデルを提案した。このモデルを音声認識システムに応用し、文単位で認識結果を最適化するよりも、文書単位で最適化する方が単語誤り率を平均で4%、最大で22%削減できることが分かり、モデル化する対象単位の選択による高性能化が可能であることが分かった。