本年度は(1)昨年度明らかになった機械翻訳辞書のモデル化単位最適化の有効性を、実際の翻訳システムで実証するために統計的機械翻訳システムの試作を行うと共に、(2)引き続き研究対象とする基本統計的言語モデル自体の高精度化を試みた。 (1)の統計的機械翻訳システムの試作はかなり大規模なプログラミングが必要であることがわかり、すべてを試作することをあきらめ、可能な限りフリーのツールを利用することとした。また、統計的機械翻訳のモデルパラメータを学習するために必要な対訳データ(英語と日本語)を収集した。翻訳の確率モデルとしてIBM model4を選択し、GIZA++と呼ばれるツールを利用して約200万の対訳データからモデルを学習した。翻訳の確率モデルを利用して実際の翻訳を行うデコーダの部分は残念ながらソースコードまで公開されているツールが存在しなかったため、自ら作成する必要があった。DP(動的プログラミング)に基づくデコーディング方法を基本とし、これを2パス化することによって効率を上げたデコーダを作成した。(2)に関しては、理論的に単純で最適化等の議論を理論上で検討可能な話題を利用した統計的言語モデルを開発した。これらのモデルを用いて、統計的機械翻訳の訳語選択性能を上げる方法を提案・実現した。 本年度で単位の最適化の効果を実証するための統計的機械翻訳システムがほぼ完成したので、来年度はこれを用いてより具体的な方法を検討すると共に実証的な評価を行う予定である。
|