研究課題/領域番号 |
24300062
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究期間 (年度) |
2012-04-01 – 2016-03-31
|
キーワード | 数式検索 / 数式理解 / 自然言語処理 / 数学知識基盤 / MathML |
研究実績の概要 |
数式は多くの科学技術分野で重要な役割を果たすが、非言語的な表現を含むことから、自然言語処理の研究対象として考慮されることは、これまでほとんどなかった。そこで本研究では、数式を独自の構造を持つ文書の言語的な構成要素として捉え、説明文と対応付けて解析することで、数式の意味を扱うための言語処理アプローチを研究して、数学的知識の活用基盤の実現へと結びつける。 平成24年度では、情報検索の評価型ワークショップであるNTCIR-10の新たなパイロットタスクとして、数式検索に特化した「NTCIR-10 Math」を立ち上げ、タスクの設計およびデータセット作成を進めた。続く平成25年度は、前年度で得られた知見に基づき、本格的な数式検索タスクである「NTCIR-11 Math-2」を立ち上げ、海外の2名のオーガナイザと協力して数式検索開発・評価用のデータセットの構築に取り組んだ。タスクでは8チーム20検索システムの検索結果を集約し、数式検索システムの開発・評価に有効なデータセットを構築した。 また、数学知識アクセスのための基盤技術として、以下の2つの研究課題に取り組んだ。(1) まず、言語的アプローチによる数式の意味構造の解析について、H24年度に提案した統計的機械翻訳に基づく数式の意味構造解析手法を、新たに構築したデータセットを用いて評価して有効性を示した。(2) また、数式説明記述の抽出について、H24年度で作成した人手アノテーションを訓練・評価用データに使って自動抽出手を試みるとともに、新たに構築した評価用データセットを用いて数式検索における説明記述の有効性を定量的に調べた。これらの成果は国際会議や雑誌論文等で発表している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
数式検索や説明記述抽出について当初の計画通り研究を進め、H25年度に数式検索では世界初となる評価用データセットを構築して、評価型ワークショップNTCIRのもとでパイロットタスクをオーガナイズした。構築したデータセットを用いて数式検索手法の研究に取り組み、数式検索や理解支援のための新たなアプローチを提案して有効性を示した。 H26年度には、前年度の経験を踏まえて、本格的な評価用データセットの構築に着手した。当初は学術文献のみを対象とする予定であったが、より広範な適用分野についての比較評価を可能にするため、Wikipediaの数学カテゴリ記事を追加した。その結果、当初の予定よりデータセットの構築に時間を要することになったが、評価基盤としての有用性が高くなった。新規に追加した Wikipediaデータセットではシステムの簡易自動評価が可能で、開発中の数式検索システムの開発基盤としての機能も強化された。
|
今後の研究の推進方策 |
数式検索の評価用データセットの作成について、当初の想定より大規模なデータが入手可能であることが判明し、検索対象論文の規模を数千論文から数十万論文へと拡大した。これにより、大規模な数式データベースの高速検索技術という新たな課題に取り組むことが可能になったことから、数式検索のための新たな木構造検索アルゴリズムの開発と評価に着手している。 また、論文だけではなくWikipediaの記事にも対象を拡大するなど、タスク設計の工夫や評価法の改善によって、国際的にもユニークな評価用データセットを構築することができた。タスクを通して得られた検索システムの課題や評価における問題点について、さらに検討を進めて改善をはかる予定である。
|
次年度使用額が生じた理由 |
平成25年10月、当初の予想に反し、数式検索システムの評価に必要なデータセットの構築には、論文データのみでは多様性が十分ではないことが判明した。研究方式を検討した結果、多くの数式検索手法を比較評価すべきと判断した。
|
次年度使用額の使用計画 |
データセットを収集・構築・提供・公開し、平成26年度研究の比較評価に向けて整備することとした。
|