2012 Fiscal Year Research-status Report
RubyとMSXMLによる日本語名詞述語文の実例調査とコーパス分析ツールの構築
Project/Area Number |
23720225
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
今田 水穂 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクトPDフェロー (10579056)
|
Keywords | 名詞述語文 / 意味論 / オントロジー / アノテーション |
Research Abstract |
京都大学テキストコーパスから名詞述語文を抽出し、格関係情報に基づいて主題・主格名詞句、属格名詞句、述語名詞句の特定を行った。これらの名詞句に対して、日本語WordNetおよびSUMO(Suggested Upper Merged Ontology)を用いた意味情報の自動アノテーションを実施し、約85%の名詞句にSUMO部分集合(SUMOから27の上位クラスを選定したもの)による意味タイプ情報を付与した。この結果に対して5名の作業者による人手修正、補完を行い、より確度の高いアノテーションデータを作成した。さらにGLML(Generative Lexicon Markup Language)などの意味情報アノテーション言語を参考として名詞句間のアノテーション方式を検討し、名詞述語文に生起する3項以上の関係を複数の2項関係の組み合わせによって表現する方法を策定した。この2項関係の類型としてis-a、attribute-ofなど7種の関係を設定し、5名の作業者による人手のアノテーション作業を試行した。またアノテーション作業の結果とSUMOの体系を述語論理の観点から分析し、今後のアノテーション作業の推進、修正方針を検討した。包括的なオントロジー体系を用いた意味分類基準の精緻化、および機械処理によるアノテーション作業の自動化により、本計画の目的である名詞述語文の体系的、網羅的な意味記述と大規模言語資料に対するアノテーション作業のに向けて大きく前進したと言うことができる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
GLMLやSUMOを参考として具体的なアノテーション仕様が定まりつつあり、また実際のアノテーション作業も進捗している点から、計画はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
実際のアノテーション作業を進めながらアノテーション仕様の細部を策定し、アノテーションコーパスの完成と公開を目指す。
|
Expenditure Plans for the Next FY Research Funding |
研究発表、論文作成など研究成果の公開のための使用を中心とし、必要に応じて人件費や消耗品費として使用する。
|