2012 年度実績報告書

言語的アプローチによる数学的知識の理解と利用に関する研究

研究課題

研究課題/領域番号	24300062
研究種目	基盤研究(B)
研究機関	国立情報学研究所
研究代表者	相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	数式検索 / MathML / 情報検索 / 数学知識 / 情報抽出 / XML構造 / 評価用データ
研究概要	本研究では、数式を独自の構造を持つ文書の構成要素として捉え、文書中の説明文と数式とを対応付けて解析することで、数式の意味を考慮した情報アクセスを実現することを目指す。このため、情報検索の評価型ワークショップであるNTCIR-10の新たなパイロットタスクとして、数式検索に特化した「NTCIR-10 Math」を立ち上げ、タスクの設計およびデータセット作成を進めた。海外の２名のオーガナイザと協力して、66の検索課題および適合度判定の結果、さらに説明記述を人手でアノテーションした45論文からなるデータセットを構築するとともに、検索タスクの参加チームとしてもtrec_eval性能でベスト性能をあげるなど、コミュニティに貢献する成果を残した。また、数学知識アクセスのための基盤技術として、以下の２つの研究課題に取り組んだ。①まず、言語的アプローチによる数式の意味構造の解析について、数式の表示方法を定めるMathML Presentation Markupから、意味構造を表すMathML Content Markupへの変換に統計的機械翻訳を適用する手法を新たに提案して有効性を評価した。②また、数式を含む論文から、数式とその説明記述の対応づけを抽出する問題について、人手によるアノテーションを訓練・評価用データに使って、パターンおよび機械学習に基づく自動抽出手法の適用を試みた。①②によるこれらの成果は、数式検索に言語処理の最新手法を取り込んだ先駆的なものであり、数式検索の性能向上や数式の理解支援に役立つことが期待される。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由数式検索や説明記述抽出について、当初の計画通り研究を進め、数式検索では世界初となる大規模な評価用データセットの構築を行った。また、構築したデータセットを用いて、数式のあいまい高速検索技術の初期実装と評価を行った。さらに、数式の意味構造解析および数式と言語記述の対応付けの２つの研究課題に取り組み、研究成果を雑誌論文や国際会議で発表した。
今後の研究の推進方策	数式検索の評価用データセットの作成について、当初の想定より大規模なデータが入手可能であることが判明し、検索対象論文の規模を数千論文から数十万論文へと拡大した。これにより、大規模な数式データベースの高速検索技術という新たな課題に取り組むことが可能になり、平成26年度以降も検討を進める予定である。
次年度の研究費の使用計画	データの大規模化に伴い、プロトタイプシステムの開発スケジュールの見直しが必要となったため。引き続き数式検索に目的を絞り込んで研究を進め、大規模な数式の高速検索についても検討に着手する予定である。

研究成果
(11件)

すべて 2013 2012 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (8件) 備考 (2件)

[雑誌論文] Using MathML Parallel Markup Corpora for Semantic Enrichment of Mathematical Expressions.2013
- 著者名/発表者名
  Minh-Quoc Nghiem, Giovanni Yoko Kristianto and Akiko Aizawa
- 雑誌名
  
  Journal of the Institute of Electronics, Information and Communication Engineers (IEICE)
  
  巻: E96-D ページ: 1707-1715
- DOI
  10.1587/transinf.E96.D.1707
- 査読あり
[学会発表] A Hybrid Approach for Semantic Enrichment of MathML Mathematical Expressions2013
- 著者名/発表者名
  Minh-Quoc Nghiem, Giovanni Yoko Kristianto, Goran Topic and Akiko Aizawa
- 学会等名
  The Conference on Intelligent Computer Mathematics (CICM 2013)
- 発表場所
  Bath, UK
- 年月日
  20130708-20130712
[学会発表] NTCIR-10 Math Pilot Task Overview2013
- 著者名/発表者名
  Akiko Aizawa, Michael Kohlhase and Iadh Ounis
- 学会等名
  The 10th NTCIR Conference
- 発表場所
  国立情報学研究所（東京）
- 年月日
  20130618-20130621
[学会発表] The MCAT Math Retrieval System for NTCIR-10 Math Track2013
- 著者名/発表者名
  Goran Topić, Giovanni Yoko Kristianto, Minh-Quoc Nghiem and Akiko Aizawa
- 学会等名
  The 10th NTCIR Conference
- 発表場所
  国立情報学研究所（東京）
- 年月日
  20130618-20130621
[学会発表] Annotating Scientific Papers for Mathematical Formula Search2012
- 著者名/発表者名
  Giovanni Yoko Kristianto, Goran Topic, Minh-Quoc Nghiem and Akiko Aizawa
- 学会等名
  The Fifth Workshop on Exploiting Semantic Annotations in Information Retrieval (ESAIR 2012) of The 21st ACM International Conference on Information and Knowledge Management (CIKM 2012)
- 発表場所
  Maui, Hawaii, USA
- 年月日
  20121102-20121102
[学会発表] An Overview of NTCIR-10 Math Pilot Task2012
- 著者名/発表者名
  Akiko Aizawa, Michael Kohlhase and Iadh Ounis
- 学会等名
  MIR 2012 Workshop ― Mathematics Information Retrieval at Conferences on Intelligent Computer Mathematics (CICM 2012)
- 発表場所
  Bremen, Germany
- 年月日
  20120708-20120708
[学会発表] Annotating Mathematical Expression Definitions for Automatic Detection2012
- 著者名/発表者名
  Giovanni Yoko Kristianto, Minh-Quoc Nghiem, Nobuo Inui, Goran Topic and Akiko Aizawa
- 学会等名
  MIR 2012 Workshop ― Mathematics Information Retrieval at Conferences on Intelligent Computer Mathematics (CICM 2012)
- 発表場所
  Bremen, Germany
- 年月日
  20120708-20120708
[学会発表] Automatic Approach to Understanding Mathematical Expressions Using MathML Parallel Markup Corpora2012
- 著者名/発表者名
  Minh-Quoc Nghiem, Giovanni Yoko Kristianto, Yuichiroh Matsubayashi and Akiko Aizawa
- 学会等名
  第26回人工知能学会全国大会(JSAI 2012) International Organized Session
- 発表場所
  山口県教育会館（山口）
- 年月日
  20120612-20120615
[学会発表] Extracting Definitions of Mathematical Expressions in Scientific Papers2012
- 著者名/発表者名
  Giovanni Yoko Kristianto, Minh-Quoc Nghiem, Yuichiroh Matsubayashi and Akiko Aizawa
- 学会等名
  第26回人工知能学会全国大会 (JSAI 2012) International Organized Session
- 発表場所
  山口県教育会館（山口）
- 年月日
  20120612-20120615
[備考] Aizawa-lab MathCat Group
- URL
  http://mathcat.nii.ac.jp/
[備考] NTCIR-10 Math Pilot Task Webpage
- URL
  http://ntcir-math.nii.ac.jp/

2012 年度 実績報告書

言語的アプローチによる数学的知識の理解と利用に関する研究

研究代表者

相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Using MathML Parallel Markup Corpora for Semantic Enrichment of Mathematical Expressions.2013

著者名/発表者名

雑誌名

DOI

[学会発表] A Hybrid Approach for Semantic Enrichment of MathML Mathematical Expressions2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] NTCIR-10 Math Pilot Task Overview2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] The MCAT Math Retrieval System for NTCIR-10 Math Track2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Annotating Scientific Papers for Mathematical Formula Search2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] An Overview of NTCIR-10 Math Pilot Task2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Annotating Mathematical Expression Definitions for Automatic Detection2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Automatic Approach to Understanding Mathematical Expressions Using MathML Parallel Markup Corpora2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Extracting Definitions of Mathematical Expressions in Scientific Papers2012

著者名/発表者名

学会等名

発表場所

年月日

[備考] Aizawa-lab MathCat Group

URL

[備考] NTCIR-10 Math Pilot Task Webpage

URL

2012 年度実績報告書

相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)