2003 Fiscal Year Annual Research Report
統計的言語モデルにおけるモデル化単位の最適化に関する研究
Project/Area Number |
14580403
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, 電子・情報工学系, 助教授 (40210562)
|
Keywords | 統計的言語モデル / 統計的機械翻訳 / スペルチェッカ / 文脈モデル |
Research Abstract |
本年度は(1)昨年度明らかになった機械翻訳辞書のモデル化単位最適化の有効性を、実際の翻訳システムで実証するために統計的機械翻訳システムの試作を行うと共に、(2)引き続き研究対象とする基本統計的言語モデル自体の高精度化を試みた。 (1)の統計的機械翻訳システムの試作はかなり大規模なプログラミングが必要であることがわかり、すべてを試作することをあきらめ、可能な限りフリーのツールを利用することとした。また、統計的機械翻訳のモデルパラメータを学習するために必要な対訳データ(英語と日本語)を収集した。翻訳の確率モデルとしてIBM model4を選択し、GIZA++と呼ばれるツールを利用して約200万の対訳データからモデルを学習した。翻訳の確率モデルを利用して実際の翻訳を行うデコーダの部分は残念ながらソースコードまで公開されているツールが存在しなかったため、自ら作成する必要があった。DP(動的プログラミング)に基づくデコーディング方法を基本とし、これを2パス化することによって効率を上げたデコーダを作成した。(2)に関しては、理論的に単純で最適化等の議論を理論上で検討可能な話題を利用した統計的言語モデルを開発した。これらのモデルを用いて、統計的機械翻訳の訳語選択性能を上げる方法を提案・実現した。 本年度で単位の最適化の効果を実証するための統計的機械翻訳システムがほぼ完成したので、来年度はこれを用いてより具体的な方法を検討すると共に実証的な評価を行う予定である。
|
Research Products
(3 results)
-
[Publications] 山本幹雄: "混合ディレクレ分布を用いた文脈のモデル化と言語モデルへの応用"情報処理学会研究報告. SLP-48. 29-34 (2003)
-
[Publications] 貞光九月: "混合Polya分布による多項文書頻度のモデル化"言語処理学会第10回年次大会発表論文集. (未定). (2004)
-
[Publications] 三品拓也: "確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化"電子情報通信学会和文論文誌D-II. (未定). (2004)