Research Abstract |
本研究の目的は,動詞などの述語とその項からなる述語項構造を事態表現の基本単位と仮定し,事態間すなわち述語項構造間の同義・含意関係を計算するための基本知識を整備することである.これに従い,本年度は以下のような成果を得た. (1)LCS辞書の記述項目の拡張および仕様作成 前年度に検討したLCS辞書の記述項目,および動詞4000語の種々の統語的振る舞いの検査データ(外注により作成)を基礎資料として,LCS辞書の仕様の洗練を進めた.具体的には主として,意志性,状態変化性,アスペクト特性,作用対象,状態変化の種類により動詞を語義ごとに分類する.分類の粒度はもっとも細かいもので400クラス程度である.この仕様に基づいて,昨年度サンプルした動詞4000語に対し注釈付けを行った.この成果は元辞書の使用権保持者であるNTTコミュニケーション基礎科学研究所と協議の上,来年度早々に公開する予定である. (2)動詞語釈文の構造化 国語辞典の語釈文に対し述語項構造と意味関係の情報を注釈付けすることによって,述語項構造間の基本的な意味関係を収集する研究に取り組んだ.例えば,岩波国語辞典によると,動詞「倒す」の意味は「立っている物に力を加え傾け、横にする」という語釈文で与えられており,この記述から「XがYを倒す→XがYを横にする」のような上位下位関係だけでなく,「XがYを倒す→XがYに力を加える」のような行為-手段関係や「XがYを倒す→(行為前は)Yが立っていた」のような前提関係など,多様な意味関係を収集することができる.本年度はこうした構造化作業の仕様を検討し,実際に岩波国語辞典第5版の収録動詞(11469語,17104語義)について語釈文から述語項構造を抽出し,見出し語の述語項構造との意味関係(上位・同義,結果状態,前提条件,付帯状況,手段,目的,反義,不可分の8種類),および項の対応関係を記述する作業を進めた.現時点で全体の約3分の1に対して作業が済んでおり,作業者1人週30時間あたり約800語義のペースで作業が進んでいる.このことから,コスト面でも十分見合うこと,また関係の分類は上述の8種類であれば作業者間でゆれなく安定して記述できることがわかった.このデータも来年度中に公開する予定である. (3)コーパスからの事態間関係知識の獲得 「〜したため〜した」のような特定の共起パターンを使って大規模なテキストデータから事態間関係知識を自動的に獲得する研究に取り組んだ.具体的には,用言だけでなく体言の中にも事態を表す,あるいは含意するもの(以下,事態含意名詞)が多数あることに着目し,事態含意名詞を含むより広範な共起パターンを利用して事態間関係を獲得する方法を検討し,公開されている大規模コーパスの一部約1億文を用いて種々の実験を行った.
|