この研究は、機械翻訳などで必要とする意味解析技術の実現を狙って、日本語と英語の「表現意味辞書」の開発に必要な意味的構造パターンを自動的に抽出するため、大規模な日本語と英語の対訳コーパス対象に、意味的な対応関係にある表現構造を発見し抽出するためのプログラムを研究開発するものである。平成12年度は、(1)日英対訳データベースの構築、(2)文型抽出に適した要素置き換え方式の検討、(3)統語的文型パターン抽出方式の検討を行った。具体的には、(1)では、入手済みの日英対訳文ファイルを統合して対訳DBを作成する一方、対訳DBの形態素解析と構文解析を行い、タグ付きのDBを作成した。(2)では、既存の共起表現抽出プログラムを使用した実験的検討により、日本語の単文、名詞、句、複文・重文のパターン情報を抽出するのに適した文要素置き換え規則を求めた。また、(3)では部分試作を含め、(1)文間の係り受け構造の同一性と類似性を判定するアルゴリズム、(2)文間で係り受け関係が一致する文要素のみを発見して抽出するアルゴリズム、(3)抽出された日本語パターンに対応する英語表現の部分を発見するアルゴリズムの検討を行った。平成13年度は、初年度の検討結果に基づき、統語構造情報付きの文型パターン抽出プログラムを試作すると共に、日本語パターンに対応する英語部分表現の抽出プログラムを試作した。平成14年度は、100万件の日英対訳例文を対象に、半自動的に対訳文型パターンを抽出するための実験を開始し、抽出した文型パターンの評価と性能に関する検討を行った。 以上の結果、人で作業のみでは困難と見られていた大規模な対訳コーパスからの対訳文型パターンの抽出において、大幅なコスト削減ができる見通しとなり、この成果を用いて日英言語表現の意味辞書開発のプロジェクトを開始したところである。
|