2014 Fiscal Year Annual Research Report
言語的アプローチによる数学的知識の理解と利用に関する研究
Project/Area Number |
24300062
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 数式検索 / 数式理解 / 自然言語処理 / 数学知識基盤 / MathML |
Outline of Annual Research Achievements |
数式は多くの科学技術分野で重要な役割を果たすが、非言語的な表現を含むことから、自然言語処理の研究対象として考慮されることは、これまでほとんどなかった。そこで本研究では、数式を独自の構造を持つ文書の言語的な構成要素として捉え、説明文と対応付けて解析することで、数式の意味を扱うための言語処理アプローチを研究して、数学的知識の活用基盤の実現へと結びつける。 平成26年度では、情報検索の評価型ワークショップであるNTCIR-11において「NTCIR-11 Math」タスクを運営し、海外の2名のオーガナイザと協力して数式検索開発・評価用のデータセットの構築に取り組んだ。2014.12に行われたワークショップでは8チーム20検索システムの手法と検索性能を集めて分析した結果を、コミュニティ全体の知見として公開した。 また、数学知識アクセスのための基盤技術として、言語的アプローチによる数式説明記述の抽出について、大規模なデータに適用するためのツール整備を進めるとともに、新たな拡張に取り組んだ。具体的には、これまで開発した手法に加えて、新たに数式間の構造の依存関係を利用して説明記述を補完する手法を提案し、数式検索における有効性を定量的に示して国際会議等で発表した。 さらに、これまでに構築したデータセットを用いて、大規模な数式データベースの高速検索技術という新たな課題に取り組んだ。まず、実際の論文やWikipedia記事で使われている数式木構造の特徴を統計的に分析するとともに、特に変数名の扱いに注目して検索質問を分析した。これに基づき次に、数式検索のための新たな木構造検索アルゴリズムを検討し、SHIGRE hash と呼ぶ新たな手法を提案し、データセットを用いた評価においてトップクラスの検索性能が得られることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、文書中に出現する数式の検索手法の検討に取り組み、(1)言語的なアプローチに基づく新たな数式検索手法の提案、(2)数式検索システムの開発や性能評価に役立つデータセットの構築と公開、の2点に取組んだ。 まず、数式検索や説明記述抽出について当初の計画通り研究を進め、数式検索や理解支援のための新たなアプローチを提案して有効性を示した。具体的には、文の意味構造に基づき数式とそれを説明する自然言語による記述を自動抽出する手法を開発し、数式検索における有効性を示した。また、数式の構造から依存関係を抽出することで説明記述を拡張することで検索性能がさらに向上することを示した。さらに、木構造の類似検索を高速に行うための数式検索手法の開発に取り組み、新たな手法を提案して有効性を示した。 また、数式検索評価用のテストコレクションの構築および公開については、国際的な情報検索の評価型ワークショップの1つであるNTCIRのもとで、平成25年度に数式検索では世界初となる評価用データセットを構築してパイロットタスクをオーガナイズした。平成26年度前半には、前年度の経験を踏まえて、本格的な評価用データセットの構築を進めた。ここで、当初は学術文献のみを対象とする予定であったが、より広範な適用分野についての比較評価を可能にするため、Wikipediaの数学カテゴリ記事を追加した。その結果、当初の予定よりデータセットの構築に時間を要することになったが、評価基盤としての有用性が高くなった。
|
Strategy for Future Research Activity |
NTCIR-11の数式検索タスクにおいて、これまで構築したデータセットの有用性の評価および、今後さらに解決するべき課題の検討を行った。その結果、長期的に再利用可能なデータセットを構築するためには、さらに評価の規模を拡大する必要があることがわかった。また、途中で新規に追加した Wikipediaデータセットについては、人手による正解付与は行わずシステムの簡易自動評価機能のみの評価となったが、この機能をオンラインで提供すると、数式検索システムの開発や調整に有効であることが確認された。 これを踏まえ、引き続き評価用データセットの構築に取り組むとともに、平成26年度の研究成果として得られたSIGRE hash および数式依存関係に基づく文脈拡張手法の2つについて、さらに有用性を検証し改良に取り組む予定である。
|
Causes of Carryover |
平成26年度に、数式検索手法に関する大規模データセットの構築を行ったが、これに基づく数式検索システムの評価において、検索手法に改善が必要であることが判明した。その後、問題点を解決する新しいアイディアが得られたため、計画を変更して新手法の開発に取り組んだことから、未使用額が生じた。
|
Expenditure Plan for Carryover Budget |
新しい数式検索手法の実装および評価を平成27年度に行うこととし、未使用額はその経費に充てることとしたい。
|