研究課題/領域番号 |
21650023
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 補助金 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究期間 (年度) |
2009 – 2011
|
研究課題ステータス |
完了 (2010年度)
|
配分額 *注記 |
3,100千円 (直接経費: 3,100千円)
2010年度: 1,600千円 (直接経費: 1,600千円)
2009年度: 1,500千円 (直接経費: 1,500千円)
|
キーワード | 数式検索 / XML / 情報検索 / 関係抽出 / 情報抽出 |
研究概要 |
本研究では、科学や教育のための数学知識共有基盤の構築を目的としている。具体的には、数式の構造を解析し、さらに数式と説明テキストを対応づけることにより、現在の検索エンジンでは限定的な扱いしかできない数式の高度な検索機能の実現を目指すものである。 研究期間では、(1)MathMLやlatexなどの標準形式で表現された数式の検索、(2)数式の近くにある説明文の解析、(3)両者の活用による数式意味のコンピュータによる理解、の3つの要素技術を中心に、数式の異なる利用環境にあわせて、以下の2通りのアプローチによる研究開発を行った。 第1は、数式を含む文書の理解支援環境の構築である。論文誌に掲載された科学技術論文を解析して、数式で使われている変数や関数の名前を抽出する手法を提案するとともに、数式の木構造に基づく類似数式検索を実現した。これに基づき、数式ごとに変数や関数の名前一覧を提示したり、他論文や外部の数式データベース上の類似数式を提示したりするシステムを開発した。情報処理分野の104論文を対象に変数・関数名抽出および数式検索の性能評価を行い、実際に支援環境を構築して理解支援における有用性を調べた。 第2は、拡張キーワードを用いた数式検索機能の強化である。索引対象となる数式と同一段落にある説明文から、その数式を参照する名前や記述を抽出することで、通常の検索エンジンによる数式の検索機能を高める手法を提案し、wikipediaの数学カテゴリ文書に含まれるlatex形式の数式を用いて実験による評価を行った。 以上に基づき本研究では、数式と周辺の説明テキストを組み合わせてアクセス支援に用いる枠組みを新たに提案し、有用性を示した。実験で作成したアノテーションや評価用データについては、今後整備して公開する予定である。
|