2013 年度実績報告書

言語的アプローチによる数学的知識の理解と利用に関する研究

研究課題

研究課題/領域番号	24300062
研究機関	国立情報学研究所
研究代表者	相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
研究期間 (年度)	2012-04-01 – 2016-03-31
キーワード	数式検索 / 数式理解 / 自然言語処理 / 数学知識基盤 / MathML
研究実績の概要	数式は多くの科学技術分野で重要な役割を果たすが、非言語的な表現を含むことから、自然言語処理の研究対象として考慮されることは、これまでほとんどなかった。そこで本研究では、数式を独自の構造を持つ文書の言語的な構成要素として捉え、説明文と対応付けて解析することで、数式の意味を扱うための言語処理アプローチを研究して、数学的知識の活用基盤の実現へと結びつける。平成24年度では、情報検索の評価型ワークショップであるNTCIR-10の新たなパイロットタスクとして、数式検索に特化した「NTCIR-10 Math」を立ち上げ、タスクの設計およびデータセット作成を進めた。続く平成25年度は、前年度で得られた知見に基づき、本格的な数式検索タスクである「NTCIR-11 Math-2」を立ち上げ、海外の２名のオーガナイザと協力して数式検索開発・評価用のデータセットの構築に取り組んだ。タスクでは8チーム20検索システムの検索結果を集約し、数式検索システムの開発・評価に有効なデータセットを構築した。また、数学知識アクセスのための基盤技術として、以下の２つの研究課題に取り組んだ。(1) まず、言語的アプローチによる数式の意味構造の解析について、H24年度に提案した統計的機械翻訳に基づく数式の意味構造解析手法を、新たに構築したデータセットを用いて評価して有効性を示した。(2) また、数式説明記述の抽出について、H24年度で作成した人手アノテーションを訓練・評価用データに使って自動抽出手を試みるとともに、新たに構築した評価用データセットを用いて数式検索における説明記述の有効性を定量的に調べた。これらの成果は国際会議や雑誌論文等で発表している。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由数式検索や説明記述抽出について当初の計画通り研究を進め、H25年度に数式検索では世界初となる評価用データセットを構築して、評価型ワークショップNTCIRのもとでパイロットタスクをオーガナイズした。構築したデータセットを用いて数式検索手法の研究に取り組み、数式検索や理解支援のための新たなアプローチを提案して有効性を示した。 H26年度には、前年度の経験を踏まえて、本格的な評価用データセットの構築に着手した。当初は学術文献のみを対象とする予定であったが、より広範な適用分野についての比較評価を可能にするため、Wikipediaの数学カテゴリ記事を追加した。その結果、当初の予定よりデータセットの構築に時間を要することになったが、評価基盤としての有用性が高くなった。新規に追加した Wikipediaデータセットではシステムの簡易自動評価が可能で、開発中の数式検索システムの開発基盤としての機能も強化された。
今後の研究の推進方策	数式検索の評価用データセットの作成について、当初の想定より大規模なデータが入手可能であることが判明し、検索対象論文の規模を数千論文から数十万論文へと拡大した。これにより、大規模な数式データベースの高速検索技術という新たな課題に取り組むことが可能になったことから、数式検索のための新たな木構造検索アルゴリズムの開発と評価に着手している。また、論文だけではなくWikipediaの記事にも対象を拡大するなど、タスク設計の工夫や評価法の改善によって、国際的にもユニークな評価用データセットを構築することができた。タスクを通して得られた検索システムの課題や評価における問題点について、さらに検討を進めて改善をはかる予定である。
次年度使用額が生じた理由	平成25年10月、当初の予想に反し、数式検索システムの評価に必要なデータセットの構築には、論文データのみでは多様性が十分ではないことが判明した。研究方式を検討した結果、多くの数式検索手法を比較評価すべきと判断した。
次年度使用額の使用計画	データセットを収集・構築・提供・公開し、平成26年度研究の比較評価に向けて整備することとした。

研究成果
(5件)

すべて 2014 2013

すべて学会発表 (5件)

[学会発表] Exploiting Textual Descriptions and Dependency Graph for Searching Mathematical Expressions in Scientific Papers2014
- 著者名/発表者名
  Giovanni Yoko Kristianto, Goran Topic, Akiko Aizawa
- 学会等名
  The 9th International Conference on Digital Internation Management (ICDIM 2014)
- 発表場所
  Bangkok, Thailand
- 年月日
  2014-09-29 – 2014-10-01
[学会発表] Which one is better: presentation-based or content-based math search?2014
- 著者名/発表者名
  Minh-Quoc Nghiem, Giovanni Yoko Kristianto, Goran Topic, Akiko Aizawa
- 学会等名
  The Conference on Intelligent Computer Mathematics (CICM 2014)
- 発表場所
  Coimbra, Portugal
- 年月日
  2014-07-07 – 2014-07-11
[学会発表] 表記が異なる同義の数式の高速な検索法2014
- 著者名/発表者名
  大橋駿介，高須淳宏，相澤彰子
- 学会等名
  第6回データ工学と情報マネジメントに関するフォーラム(第12回日本データベース学会年次大会)
- 発表場所
  淡路夢舞台＆ウェスティン淡路、淡路市
- 年月日
  2014-03-03 – 2014-03-05
[学会発表] 数式検索タスク NTCIR-11 Math-22013
- 著者名/発表者名
  相澤彰子，Michael Kohlhase，Iadh Ounis
- 学会等名
  情報アクセス技術の評価ワークショップ特別セッション： NTCIR-11, インタラクティブ情報アクセスと可視化マイニング(SIG-AM)第5回研究会
- 発表場所
  慶應義塾大学日吉キャンパス、横浜市
- 年月日
  2013-10-25 – 2013-10-25
[学会発表] Sense disambiguation: from natural language words to mathematical termsSense disambiguation: from natural language words to mathematical terms2013
- 著者名/発表者名
  Minh-Quoc Nghiem, Giovanni Yoko Kristianto, Goran Topic, Akiko Aizawa
- 学会等名
  The 6th International Joint Conference on Natural Language Processing (IJCNLP 2013)
- 発表場所
  名古屋国際会議場、名古屋市
- 年月日
  2013-10-14 – 2013-10-18

2013 年度 実績報告書

言語的アプローチによる数学的知識の理解と利用に関する研究

研究代表者

相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Exploiting Textual Descriptions and Dependency Graph for Searching Mathematical Expressions in Scientific Papers2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Which one is better: presentation-based or content-based math search?2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 表記が異なる同義の数式の高速な検索法2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 数式検索タスク NTCIR-11 Math-22013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Sense disambiguation: from natural language words to mathematical termsSense disambiguation: from natural language words to mathematical terms2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実績報告書

相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)