研究課題
平成23年度は、1. 論文検索において有用なテキスト間関係のアノテーションスキーマの策定、2. テキストの同値性・含意関係認識の高精度化、3. テキスト間関係認識の基盤技術の研究、の3点について研究を行った。項目1については、情報科学論文のアブストラクト30件を対象としてアノテーション作業を行い、実際に論文中に現れるテキスト間関係の分析を行った。その結果、情報科学論文においては、生命科学分野におけるような確立された関係(タンパク質間相互作用など)を予め想定することができないことが明らかとなった。そこで、目的、結果、入力、出力、といった、一般的に現れるテキスト間関係を形式化するアノテーションスキーマを構築した。分析に用いた30件のアブストラクトにおいては、このアノテーションスキーマにより、論文アブストラクトで表現されているテキスト間関係をほぼ網羅的に形式化できることが示された。項目2については、含意関係認識の評価タスクを企画し、標準データセットの構築を行った。本データは、含意関係認識の研究のために公開されており、国内外の多くの研究機関が利用している。また、前年度の調査に基づき、このデータを評価データとして利用して含意関係認識システムの開発を行った。項目3については、基盤技術として構文解析の研究、および、テキスト間関係認識の予備実験を行った。テキスト間関係認識の予備実験では、既存の関係認識手法をそのまま適用すると認識精度が非常に低いという結果が得られたので、次年度にはこれを解決する手法について研究を行う予定である。
2: おおむね順調に進展している
アノテーションスキーマの策定に際し、生命科学論文における既存研究のような方法論が適用できないことが判明し、そのため用語や関係のアノテーション方法について再検討する必要が生じた。そのため、当初計画より研究期間を延長しているが、研究内容についてはほぼ計画通り達成している。
本年度の研究実績に基づき、翌年度は、1. テキスト間関係アノテーションデータの構築、2. 含意関係認識・テキスト間関係認識の高精度化、3. 論文検索プロトタイプシステムの開発、を推進する。これらは当初の研究計画の 6. テキストの同値性・含意関係認識の評価,高精度化, 7. テキスト間関係認識手法の開発,実装, 8. テキスト間関係認識を利用した論文検索システムの構築,評価, に相当しており、研究内容はほぼ計画通りである。
すべて 2011
すべて 雑誌論文 (3件) (うち査読あり 2件) 学会発表 (1件)
Proceedings of the 5th Linguistic Annotation Workshop
巻: 1 ページ: 56-64
Proceedings of BioNLP 2011 workshop
巻: 1 ページ: 164-173
Proceedings of NTCIR-9 workshop
巻: 1 ページ: 291-301