研究概要 |
本研究は,膠着語の性質に着目した多言語間翻訳システムの開発を目的とする.本年度は,その中でも,ウイグル語-日本語機械翻訳システムを目指して,以下の研究を行った. 1.ウイグル語音韻変化規則の体系化 本研究では,前年度に形態素解析システムMAJOを改良した日本語-ウイグル語機械翻訳システムを作成した.このシステムでは,出力文における音韻変化処理部が独立している.本年度の研究では,ウイグル語の音韻変化を処理するため,ウイグル語の音韻変化規則を調査・整理し,翻訳システム用の音韻変化規則を整備した. 2.日本語-ウイグル語辞書の半自動作成とその評価 機械翻訳には電子化された辞書が必要であるが,日本語-ウイグル語にはそうした辞書がなかった.そこでウイグル語-日本語辞書を電子化し,その逆辞書を半自動的に生成する形で語彙数約2万語の機械翻訳用辞書を作成した.本年度は,この辞書における基本語彙の収録率を調査した.その結果,基本語彙2000語ベースで,国立国語研究所の教育基本語彙の69.2%,EDRコーパスの頻出語の75.2%が収録されていることが分かった. 3.日本語-ウイグル語翻訳実験 本研究で作成した日本語-ウイグル語機械翻訳システムと対訳辞書を利用しての翻訳実験を行った.新聞の社説など136文を翻訳した結果では,最初名詞の47.8%,動詞の32.7%が辞書になかったが,それを登録した後の実験では,文節単位で82.4%の正解率であった. 4.言い換えを利用した日本語-ウイグル語辞書の拡充 3.で述べたように,翻訳辞書の収録単語数はまだまだ不十分であるが,その構築コストは多大であるので,計算機を利用した対訳辞書の拡充も検討した.これは,辞書の未登録語を同等の意味をもつ登録語に言い換えることで実現した.具体的には,辞書の語義文とシソーラスに基づく類似度を用いて日本語の言い換え獲得する手法を開発した.
|