2012 Fiscal Year Annual Research Report
言語的アプローチによる数学的知識の理解と利用に関する研究
Project/Area Number |
24300062
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 数式検索 / MathML / 情報検索 / 数学知識 / 情報抽出 / XML構造 / 評価用データ |
Research Abstract |
本研究では、数式を独自の構造を持つ文書の構成要素として捉え、文書中の説明文と数式とを対応付けて解析することで、数式の意味を考慮した情報アクセスを実現することを目指す。このため、情報検索の評価型ワークショップであるNTCIR-10の新たなパイロットタスクとして、数式検索に特化した「NTCIR-10 Math」を立ち上げ、タスクの設計およびデータセット作成を進めた。海外の2名のオーガナイザと協力して、66の検索課題および適合度判定の結果、さらに説明記述を人手でアノテーションした45論文からなるデータセットを構築するとともに、検索タスクの参加チームとしてもtrec_eval性能でベスト性能をあげるなど、コミュニティに貢献する成果を残した。また、数学知識アクセスのための基盤技術として、以下の2つの研究課題に取り組んだ。①まず、言語的アプローチによる数式の意味構造の解析について、数式の表示方法を定めるMathML Presentation Markupから、意味構造を表すMathML Content Markupへの変換に統計的機械翻訳を適用する手法を新たに提案して有効性を評価した。②また、数式を含む論文から、数式とその説明記述の対応づけを抽出する問題について、人手によるアノテーションを訓練・評価用データに使って、パターンおよび機械学習に基づく自動抽出手法の適用を試みた。①②によるこれらの成果は、数式検索に言語処理の最新手法を取り込んだ先駆的なものであり、数式検索の性能向上や数式の理解支援に役立つことが期待される。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
数式検索や説明記述抽出について、当初の計画通り研究を進め、数式検索では世界初となる大規模な評価用データセットの構築を行った。また、構築したデータセットを用いて、数式のあいまい高速検索技術の初期実装と評価を行った。さらに、数式の意味構造解析および数式と言語記述の対応付けの2つの研究課題に取り組み、研究成果を雑誌論文や国際会議で発表した。
|
Strategy for Future Research Activity |
数式検索の評価用データセットの作成について、当初の想定より大規模なデータが入手可能であることが判明し、検索対象論文の規模を数千論文から数十万論文へと拡大した。これにより、大規模な数式データベースの高速検索技術という新たな課題に取り組むことが可能になり、平成26年度以降も検討を進める予定である。
|
Expenditure Plans for the Next FY Research Funding |
データの大規模化に伴い、プロトタイプシステムの開発スケジュールの見直しが必要となったため。 引き続き数式検索に目的を絞り込んで研究を進め、大規模な数式の高速検索についても検討に着手する予定である。
|
Research Products
(11 results)
-
-
-
-
-
[Presentation] Annotating Scientific Papers for Mathematical Formula Search2012
Author(s)
Giovanni Yoko Kristianto, Goran Topic, Minh-Quoc Nghiem and Akiko Aizawa
Organizer
The Fifth Workshop on Exploiting Semantic Annotations in Information Retrieval (ESAIR 2012) of The 21st ACM International Conference on Information and Knowledge Management (CIKM 2012)
Place of Presentation
Maui, Hawaii, USA
Year and Date
20121102-20121102
-
[Presentation] An Overview of NTCIR-10 Math Pilot Task2012
Author(s)
Akiko Aizawa, Michael Kohlhase and Iadh Ounis
Organizer
MIR 2012 Workshop ― Mathematics Information Retrieval at Conferences on Intelligent Computer Mathematics (CICM 2012)
Place of Presentation
Bremen, Germany
Year and Date
20120708-20120708
-
-
-
-
-