2011 Fiscal Year Annual Research Report
Project/Area Number |
22650047
|
Research Institution | Nagoya University |
Principal Investigator |
佐藤 理史 名古屋大学, 工学研究科, 教授 (30205918)
|
Keywords | 多言語処理 / 機械翻訳 / 選択型翻訳 / 複合語 / 言語横断検索 / 情報検索支援 / ウィキペディア |
Research Abstract |
ウェブ上の百科事典『ウィキペディア』には、多くの言語の版がある。本研究では、その中で最大の『英語ウィキペディア(EnWiki)』を、日本語で引くことができるシステムを作成した。システムの中核は、日本語タームの英訳機構である。選択型翻訳(Non-Productive Machine Translation)と名付けた機構は、要素合成法で英訳候補を生成した後、ターゲットリストと呼ぶ大規模な訳語候補リストに含まれる候補のみを出力する。このターゲットリストに、EnWikiの見出し語リスト(590万件)を用いることにより、EnWikiを引くことができる訳語が得られる。 通常、日本語タームとその英訳には、構成要素間に対応関係がある。このため、要素合成法で利用する対訳辞書が完全であり、かつ、訳語がEnWikiの見出し語に存在すれば、上記の方法で必ず正しい訳語を得ることができる。しかし、実際のターム翻訳には、カタカナ表記による音訳、表記ゆれ、翻訳のゆれなどの現象が見られ、利用可能な対訳辞書は、これらの現象を十分にはカバーしない。この問題を解決するために、本研究では、選択型翻訳に7つの拡張機構を導入し、辞書の不備を補い、システムの能力を向上させた。本年度は、特に、これらの拡張機構について研究した。 システムの評価のために、3種類のテストセット(合計11,070件)を編纂した。評価実験により、いずれのテストセットに対しても、70%以上の日本語タームに対し、正しい訳語を出力できることを確認した。拡張機構の導入による性能の向上は9.4-20.4%であり、大きな効果があることがわかった。さらに、本システムの性能は、ウェブの翻訳サービスや市販翻訳ソフトを凌駕していることも確認した。
|