研究概要 |
意味解析技術の実現を狙って、日本語と英語の「表現意味辞書」の開発に必要な意味的構造パターンを自動的に抽出するため、大規模な日本語と英語の対訳コーパス対象に、意味的な対応関係にある表現構造を発見し抽出するためのプログラムを研究開発する。 このため,H12年度は,まず,研究用の対訳データベースとして,すでに入手済みの対訳データから20万文の対訳原文DBを作成すると共に,日本文部分を対象に形態素解析を行い、タグ付きのDBを作成した。 次にこのデータベースを対象に,既存の共起表現抽出プログラムを使用した実験的検討を行い、日本語の複文・重文のパターン情報を抽出するのに適した文要素置き換え規則を求めた。ただし,ここでは,表現パターンは、字面と文法的属性のいずれかで記述されるものとした。また,統語的文型パターン抽出方式の検討として,文間の係り受け構造の同一性と類似性を判定するアルゴリズムについて検討し,試作した。 そのほか,文型パターンが表現の意味的な単位となるか否かについて判断するための情報を明らかにするため,日本語複文の意味的構造の分類,複合動詞の構成規則についての検討を行った。なお,これらの状況を「日本語表現の意味解析技術に関する状況」として,研究会で紹介した。
|