研究概要 |
現在一般的な機械翻訳手法は、原言語文の形態素解析、構文解析を行って文を構文要素に分解し、それを目的言語の構文要素に変換してから各要素及び要素間の意味解析を行って翻訳結果を得るという形態が多い。しかしながら、漢字べた書きで表記され、かつ日本語の助詞のような格マーカーを持たない中国語文では、形態素ならびに構文の意味依存性が大きく、また多品詞語、多義語が多いために上のように各解析段階を分離する手法は適していない。 本研究では、このような性質を持つ中国語文の形態素解析を効率的に行うために、隣接する単語間の意味属性を利用して可能な場合は隣接語をあらかじめ複合化することにより、多品詞語、多義語に起因するあいまいさを解消する手法の研究を行った。本研究により得られた成果の概要を以下に示す。 1.中国語の教科書及び科学技術文献49編(1,862文)を調査し,基本的な中国語文における隣接語間の複合化規則25個を抽出した。また、これらの複合化規則を適用する際の優先順位を求め、4段階の順位があることを見出した。 2.これらの複合化規則及び優先順位と、特別な形式を持つ三向動詞、ならびに動詞、名詞のいずれにもなりうる兼用品詞を含む場合の処理規則を組み合わせ、隣接語からの複合語生成アルゴリズムを構成した。 3.このアルゴリズムに基づく複合語生成実験システムを構築した。 4.日本語教育用の教科書,科学技術文献などから選んだ400文(15,598字)について複合語の生成実験を行った結果,複合語になるべき語、総数437語のうち415語が正しく生成され,本アルゴリズムが良好な性能をもつことが確認された。
|