本年度は、1. 論文検索において有用なテキスト間関係のアノテーションデータの構築、2. テキスト間関係の自動認識手法の開発、および 3. テキスト間関係を利用した論文検索のプロトタイプシステムの開発を行った。 項目1については、前年度に策定したアノテーションガイドラインに基づき、情報科学分野の学術論文のアブストラクト100件に対し、テキスト間関係のアノテーションを行った。このアノテーション作業の課程で表出したガイドラインの問題については随時検討を行い、ガイドラインの修正を行った。また、最終的なガイドラインを用いて第3者によるアノテーション作業を行い、アノテーション作業の一貫性評価を行った。 項目2については、テキストからのイベント抽出の既存手法を応用した手法を開発し、項目1で開発したアノテーションデータを用いて評価実験を行った。学習データが小さいため認識精度はまだ十分ではないが、外部リソースや半教師あり学習などを利用することで、より精度を向上させることができると期待される。 項目3については、テキスト間関係を利用した論文検索システムを開発し、単なるキーワード検索ではなく、そのキーワードが論文で果たす役割(手段、入力、結果、評価など)に基づいて検索結果を分類することができることを示した。ここでは、項目2で開発した技術を応用し、情報科学分野の学術論文のアブストラクト約3000件に対してテキスト間関係を自動認識した結果を検索対象データとして用いている。
|