研究課題/領域番号 |
24300062
|
研究種目 |
基盤研究(B)
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 数式検索 / MathML / 情報検索 / 数学知識 / 情報抽出 / XML構造 / 評価用データ |
研究概要 |
本研究では、数式を独自の構造を持つ文書の構成要素として捉え、文書中の説明文と数式とを対応付けて解析することで、数式の意味を考慮した情報アクセスを実現することを目指す。このため、情報検索の評価型ワークショップであるNTCIR-10の新たなパイロットタスクとして、数式検索に特化した「NTCIR-10 Math」を立ち上げ、タスクの設計およびデータセット作成を進めた。海外の2名のオーガナイザと協力して、66の検索課題および適合度判定の結果、さらに説明記述を人手でアノテーションした45論文からなるデータセットを構築するとともに、検索タスクの参加チームとしてもtrec_eval性能でベスト性能をあげるなど、コミュニティに貢献する成果を残した。また、数学知識アクセスのための基盤技術として、以下の2つの研究課題に取り組んだ。①まず、言語的アプローチによる数式の意味構造の解析について、数式の表示方法を定めるMathML Presentation Markupから、意味構造を表すMathML Content Markupへの変換に統計的機械翻訳を適用する手法を新たに提案して有効性を評価した。②また、数式を含む論文から、数式とその説明記述の対応づけを抽出する問題について、人手によるアノテーションを訓練・評価用データに使って、パターンおよび機械学習に基づく自動抽出手法の適用を試みた。①②によるこれらの成果は、数式検索に言語処理の最新手法を取り込んだ先駆的なものであり、数式検索の性能向上や数式の理解支援に役立つことが期待される。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
数式検索や説明記述抽出について、当初の計画通り研究を進め、数式検索では世界初となる大規模な評価用データセットの構築を行った。また、構築したデータセットを用いて、数式のあいまい高速検索技術の初期実装と評価を行った。さらに、数式の意味構造解析および数式と言語記述の対応付けの2つの研究課題に取り組み、研究成果を雑誌論文や国際会議で発表した。
|
今後の研究の推進方策 |
数式検索の評価用データセットの作成について、当初の想定より大規模なデータが入手可能であることが判明し、検索対象論文の規模を数千論文から数十万論文へと拡大した。これにより、大規模な数式データベースの高速検索技術という新たな課題に取り組むことが可能になり、平成26年度以降も検討を進める予定である。
|
次年度の研究費の使用計画 |
データの大規模化に伴い、プロトタイプシステムの開発スケジュールの見直しが必要となったため。 引き続き数式検索に目的を絞り込んで研究を進め、大規模な数式の高速検索についても検討に着手する予定である。
|