• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

言語的アプローチによる数学的知識の理解と利用に関する研究

Research Project

Project/Area Number 24300062
Research InstitutionNational Institute of Informatics

Principal Investigator

相澤 彰子  国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

Project Period (FY) 2012-04-01 – 2016-03-31
Keywords数式検索 / 数式理解 / 自然言語処理 / 数学知識基盤 / MathML
Outline of Annual Research Achievements

数式は多くの科学技術分野で重要な役割を果たすが、非言語的な表現を含むことから、自然言語処理の研究対象として考慮されることは、これまでほとんどなかった。そこで本研究では、数式を独自の構造を持つ文書の言語的な構成要素として捉え、説明文と対応付けて解析することで、数式の意味を扱うための言語処理アプローチを研究して、数学的知識の活用基盤の実現へと結びつける。
平成24年度では、情報検索の評価型ワークショップであるNTCIR-10の新たなパイロットタスクとして、数式検索に特化した「NTCIR-10 Math」を立ち上げ、タスクの設計およびデータセット作成を進めた。続く平成25年度は、前年度で得られた知見に基づき、本格的な数式検索タスクである「NTCIR-11 Math-2」を立ち上げ、海外の2名のオーガナイザと協力して数式検索開発・評価用のデータセットの構築に取り組んだ。タスクでは8チーム20検索システムの検索結果を集約し、数式検索システムの開発・評価に有効なデータセットを構築した。
また、数学知識アクセスのための基盤技術として、以下の2つの研究課題に取り組んだ。(1) まず、言語的アプローチによる数式の意味構造の解析について、H24年度に提案した統計的機械翻訳に基づく数式の意味構造解析手法を、新たに構築したデータセットを用いて評価して有効性を示した。(2) また、数式説明記述の抽出について、H24年度で作成した人手アノテーションを訓練・評価用データに使って自動抽出手を試みるとともに、新たに構築した評価用データセットを用いて数式検索における説明記述の有効性を定量的に調べた。これらの成果は国際会議や雑誌論文等で発表している。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

数式検索や説明記述抽出について当初の計画通り研究を進め、H25年度に数式検索では世界初となる評価用データセットを構築して、評価型ワークショップNTCIRのもとでパイロットタスクをオーガナイズした。構築したデータセットを用いて数式検索手法の研究に取り組み、数式検索や理解支援のための新たなアプローチを提案して有効性を示した。
H26年度には、前年度の経験を踏まえて、本格的な評価用データセットの構築に着手した。当初は学術文献のみを対象とする予定であったが、より広範な適用分野についての比較評価を可能にするため、Wikipediaの数学カテゴリ記事を追加した。その結果、当初の予定よりデータセットの構築に時間を要することになったが、評価基盤としての有用性が高くなった。新規に追加した Wikipediaデータセットではシステムの簡易自動評価が可能で、開発中の数式検索システムの開発基盤としての機能も強化された。

Strategy for Future Research Activity

数式検索の評価用データセットの作成について、当初の想定より大規模なデータが入手可能であることが判明し、検索対象論文の規模を数千論文から数十万論文へと拡大した。これにより、大規模な数式データベースの高速検索技術という新たな課題に取り組むことが可能になったことから、数式検索のための新たな木構造検索アルゴリズムの開発と評価に着手している。
また、論文だけではなくWikipediaの記事にも対象を拡大するなど、タスク設計の工夫や評価法の改善によって、国際的にもユニークな評価用データセットを構築することができた。タスクを通して得られた検索システムの課題や評価における問題点について、さらに検討を進めて改善をはかる予定である。

Causes of Carryover

平成25年10月、当初の予想に反し、数式検索システムの評価に必要なデータセットの構築には、論文データのみでは多様性が十分ではないことが判明した。研究方式を検討した結果、多くの数式検索手法を比較評価すべきと判断した。

Expenditure Plan for Carryover Budget

データセットを収集・構築・提供・公開し、平成26年度研究の比較評価に向けて整備することとした。

  • Research Products

    (5 results)

All 2014 2013

All Presentation (5 results)

  • [Presentation] Exploiting Textual Descriptions and Dependency Graph for Searching Mathematical Expressions in Scientific Papers2014

    • Author(s)
      Giovanni Yoko Kristianto, Goran Topic, Akiko Aizawa
    • Organizer
      The 9th International Conference on Digital Internation Management (ICDIM 2014)
    • Place of Presentation
      Bangkok, Thailand
    • Year and Date
      2014-09-29 – 2014-10-01
  • [Presentation] Which one is better: presentation-based or content-based math search?2014

    • Author(s)
      Minh-Quoc Nghiem, Giovanni Yoko Kristianto, Goran Topic, Akiko Aizawa
    • Organizer
      The Conference on Intelligent Computer Mathematics (CICM 2014)
    • Place of Presentation
      Coimbra, Portugal
    • Year and Date
      2014-07-07 – 2014-07-11
  • [Presentation] 表記が異なる同義の数式の高速な検索法2014

    • Author(s)
      大橋駿介,高須淳宏,相澤彰子
    • Organizer
      第6回データ工学と情報マネジメントに関するフォーラム(第12回日本データベース学会年次大会)
    • Place of Presentation
      淡路夢舞台&ウェスティン淡路、淡路市
    • Year and Date
      2014-03-03 – 2014-03-05
  • [Presentation] 数式検索タスク NTCIR-11 Math-22013

    • Author(s)
      相澤 彰子,Michael Kohlhase,Iadh Ounis
    • Organizer
      情報アクセス技術の評価ワークショップ特別セッション: NTCIR-11, インタラクティブ情報アクセスと可視化マイニング(SIG-AM)第5回研究会
    • Place of Presentation
      慶應義塾大学日吉キャンパス、横浜市
    • Year and Date
      2013-10-25 – 2013-10-25
  • [Presentation] Sense disambiguation: from natural language words to mathematical termsSense disambiguation: from natural language words to mathematical terms2013

    • Author(s)
      Minh-Quoc Nghiem, Giovanni Yoko Kristianto, Goran Topic, Akiko Aizawa
    • Organizer
      The 6th International Joint Conference on Natural Language Processing (IJCNLP 2013)
    • Place of Presentation
      名古屋国際会議場、名古屋市
    • Year and Date
      2013-10-14 – 2013-10-18

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi