2009 Fiscal Year Annual Research Report
単語・フレーズ・言語モデルを統合したフレーズ並び替えモデルに基づく統計的機械翻訳
Project/Area Number |
21300048
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 University of Tsukuba, 大学院・システム情報工学研究科, 教授 (40210562)
|
Co-Investigator(Kenkyū-buntansha) |
乾 孝司 筑波大学, 大学院・システム情報工学研究科, 助教 (60397031)
|
Keywords | 多言語処理 / 人工知能 / 自然言語処理 / 並び替えモデル / 言語モデル / 統計的機械翻訳 |
Research Abstract |
本研究では、統計的機械翻訳におけるフレーズ並び替えモデルに焦点をあて、現在普及している代表的な3つのモデル(隣接フレーズモデル、構文モデル、言語モデル)の違いや利点と欠点を検討し、日英翻訳のような比較的遠い言語間の翻訳でも有効に機能する並び替えモデルを開発することを目的としている。平成21年度は、従来法の比較検討のフェーズとして位置づけ、比較的大規模な実験データ(特許文書から抽出された180万文の日英対訳データ)を用いて、実証的に各種モデルの優劣や利点と欠点、さらには言語モデルと他並び替えモデルとの親和性について検討した。 研究成果として、比較的高精度な日英統計的機械翻訳システムの場合、次の2点が明らかになった。1、言語モデルは単語の並び替えモデルとしでの働きがあり、言語モデルの高精度化は日英翻訳システム全体の高精度化に極めて有効である。2、日英翻訳においては、高精度な言語モデルを用いた場合、隣接フレーズモデルよりも構文モデルの方が高性能な翻訳を可能とするモデルであった。また、言語モデルとの親和性については次の2点を明らかにした。1、隣接フレーズモデルと言語モデルは競合的な性質がある。すなわち、どちらも最高性能のモデルを利用すると全体として精度が下がってしまう。2、構文モデルと言語モデルには親和性がある。すなわち、どちらも最高性能のモデルを用いた場合が全体としても最も性能が高くなった。今後の研究方向としては、特に構文モデルと言語モデルの親和性(協働して高性能となる)の性質を発展させ、翻訳モデル全体を含めた高性能なモデルを開発する予定である。
|
Research Products
(5 results)