数式は多くの科学技術分野で重要な役割を果たすが、非言語的な表現を含むことから、自然言語処理の研究対象として考慮されることは、これまでほとんどなかった。そこで本研究では、数式を独自の構造を持つ文書の言語的な構成要素として捉え、説明文と対応付けて解析することで、数式の意味を扱うための言語処理アプローチを研究して、数学的知識の活用基盤の実現へと結びつける。
平成27年度では、これまでの研究で得られた知見に基づき、情報検索の評価型ワークショップであるNTCIR-12において、数式検索に焦点をあてた「MathIR」を企画・提案してタスク運営に取り組んだ。海外3名の共同オーガナイザと連携しつつ、学術論文およびWikipedia数学関連記事の2種類のデータセットを整備して参加者に配布し、提出された結果のプーリングおよび上位文書の人手による適合性判定を行った。本タスクを通して構築したクエリや判定結果は、数式検索システムの開発や評価に有用な研究リソースとして、NTCIRの枠組みのもとで関連研究者に広く公開予定である。
数学知識アクセスのための基盤技術に関しては、まず、数式間の構造の依存関係を論文から自動抽出して情報を補完する手法の改良に取り組み、数式依存関係グラフの抽出性能を改善した。また、数式の部分構造やキーワードなど性質が異なる複数個の索引を最適に組み合わせる手法の有効性を検証した。さらに、変数を含む数式に対応するため、単一化を利用した再ランキングの仕組みを実現した。これらの手法を実装した数式検索システムを用いてNTCIR-12 MathIRタスクに参加し、すべてのタスクにおいて本研究で開発した数式検索システムが優れた性能を持つことを示した。
|