研究課題/領域番号 |
23720225
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
今田 水穂 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクトPDフェロー (10579056)
|
キーワード | 名詞述語文 / 意味論 / オントロジー / アノテーション |
研究概要 |
京都大学テキストコーパスから名詞述語文を抽出し、格関係情報に基づいて主題・主格名詞句、属格名詞句、述語名詞句の特定を行った。これらの名詞句に対して、日本語WordNetおよびSUMO(Suggested Upper Merged Ontology)を用いた意味情報の自動アノテーションを実施し、約85%の名詞句にSUMO部分集合(SUMOから27の上位クラスを選定したもの)による意味タイプ情報を付与した。この結果に対して5名の作業者による人手修正、補完を行い、より確度の高いアノテーションデータを作成した。さらにGLML(Generative Lexicon Markup Language)などの意味情報アノテーション言語を参考として名詞句間のアノテーション方式を検討し、名詞述語文に生起する3項以上の関係を複数の2項関係の組み合わせによって表現する方法を策定した。この2項関係の類型としてis-a、attribute-ofなど7種の関係を設定し、5名の作業者による人手のアノテーション作業を試行した。またアノテーション作業の結果とSUMOの体系を述語論理の観点から分析し、今後のアノテーション作業の推進、修正方針を検討した。包括的なオントロジー体系を用いた意味分類基準の精緻化、および機械処理によるアノテーション作業の自動化により、本計画の目的である名詞述語文の体系的、網羅的な意味記述と大規模言語資料に対するアノテーション作業のに向けて大きく前進したと言うことができる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
GLMLやSUMOを参考として具体的なアノテーション仕様が定まりつつあり、また実際のアノテーション作業も進捗している点から、計画はおおむね順調に進展していると言える。
|
今後の研究の推進方策 |
実際のアノテーション作業を進めながらアノテーション仕様の細部を策定し、アノテーションコーパスの完成と公開を目指す。
|
次年度の研究費の使用計画 |
研究発表、論文作成など研究成果の公開のための使用を中心とし、必要に応じて人件費や消耗品費として使用する。
|