本研究の目的は、機械翻訳や言語横断情報検索の高度化の基盤となる「多義性が解消された多言語辞書」をいくつかの言語対の対訳辞書と各言語のテキストコーパスから自動構築する手法を開発することである。構築される辞書は多言語の同義語(対訳語)集合を構成要素とする辞書である。多義性の構造が言語によって異なるため、個々の言語からみると多義性が解消された辞書となっていることが特徴である。任意の個数の言語の組に適用可能な方法を目標とするが、具体的には日本語、英語、中国語の3言語を対象として研究を進める。 本年度は提案方法の基本部分の実装と予備評価を行った。提案方法は、(1)2言語対訳辞書の結合による対訳3つ組候補の生成、(2)3つ組を構成する各言語の語の共起語集合による特徴づけ、(3)共起語の言語間アラインメントに基づく共起語集合の語義対応部分集合への分割、(4)共起語部分集合の類似度に基づく3つ組のフィルタリング、の4つのステップから構成される。2言語対訳辞書としてEDR日英対訳辞書、LDC中英対訳辞書、EDR日中対訳辞書を、各言語のコーパスとして毎日新聞・読売新聞、LDC English Giga Wordコーパス(ニューヨークタイムズほか)・Daily Yomiuri、LDC Chinese GigaWordコーパス(新華社通信ほか)を用いて評価実験を行った。この結果、各言語の単言語コーパスを使用するため、共起語集合の類似度は信頼度が高くないという問題が明らかになった。次年度はこの点を中心に提案方法を改良する。
|