本研究では、科学や教育のための数学知識共有基盤の構築手法を検討する。具体的には、数式の構造を解析し、さらに数式と説明テキストを対応づけることにより、現在の検索エンジンでは限定的な扱いしかできない数式の高度な検索機能の実現を目指す。 数式を中心とした知識基盤の構築に関する研究は過去にあまり行われていないことから、初年度は、研究基盤となるデータの収集と整備を中心に検討を進めた。ここで、数式の検索法としては、XML形式で表現された数式木構造の類似度を計算する方法と、数式をキーワードに対応付けて類似度を計算する方法の2通りが考えられる。各々について独立に検討を進めるため、以下の2つのデータセットについて研究を進めた。 第1は、論文誌に掲載された科学技術論文(情報処理学会論文誌)であり、サンプリングした104論文について、PDF形式で表現された文書を専用ソフトおよび人手により変換し、MathML/Content Markupと呼ばれる形式にしたがって、数式の意味構造を記述した。また、木構造マッチングに基づく数式の類似度の計算法を提案し、数式検索システムのプロトタイプを試作した。 第2は、wikipediaの数学カテゴリ文書である。各数式に対して付与されたlatex形式の記述を抽出し、数学記号をキーワードに変換する対応表を適用してキーワードベクトルを生成することで、既存の検索方式の適用を可能にして課題を整理した。 以上により、各方式を用いた数式の検索法の提案とベースラインとなる検索システムの試作を行った。現在、数式周辺の自然言語テキストから関連情報を抽出する手法、および評価用データの作成法について検討しており、次年度も継続して研究を進める予定である。
|