2002 Fiscal Year Annual Research Report

統計的言語モデルにおけるモデル化単位の最適化に関する研究

Research Project

Project/Area Number	14580403
Research Institution	University of Tsukuba
Principal Investigator	山本幹雄筑波大学, 電子・情報工学系, 助教授 (40210562)
Keywords	統計的言語モデル / モデル化単位 / スペルチェッカ / 統計的機械翻訳
Research Abstract	本年度は、(1)研究対象とする基本統計的言語モデルの研究、(2)モデル化単位の最適化を行う際に用いる最適化基準の検討、(3)応用システムにおけるモデル化単位の違いによる性能の予備的評価を行った。基本統計的言語モデルとしては、確率的LSAを利用した言語モデルの適応法として変分ベイズ学習を用いた手法を提案した。来年度以降、このモデルに対する単位最適化を検討する。最適化基準としては、同時情報量、相互情報量等を用いた基準を比較し、同時情報量を用いる基準が言語モデルのカバレージの点で有利であることを明らかにした。応用システムとしては、統計的機械翻訳における確率的翻訳辞書の自動獲得および日本語スペルチェッカを試作し、単位の違いによる性能評価を行った。確率的翻訳辞書の獲得では、1単語対1単語の辞書でモデル化が困難な翻訳対象に対しても、単語の列を単位として選ぶことによりうまく獲得できることが明らかになった。日本語スペルチェッカでは、特に留学生(日本語初心者)が書いた日本語作文に対する検討を行い、単語単位のシステムでは誤りの指摘が困難であり、モデル化の単位を文字レベルに縮小したシステムが高性能であることを明らかにした。応用システムを用いた評価では、単語より大きい単位(単語列)、または単語より小さい単位(文字)の有用性が明らかになったので、来年度以降は、最適な単位の自動獲得手法の検討を行う。

Research Products
(2 results)

All Publications (2 results)

[Publications] 三品拓也: "確率的LSAに基づくngramモデルの変化ベイズ学習を利用した文脈適応化"情報処理学会研究報告. SLP-44. 177-182 (2002)
[Publications] 三品拓也: "確率的LSAに基づくtrigramモデルを用いた日本語スペルチェッカ"言語処理学会第9回年次大会発表論文集. (2003)