科学技術論文の出版数は加速度的に増大しており,個人が必要な論文を検索し,その全てに目を通すことは困難である.そこで本研究では,論文に含まれる本文,数式,図表などの領域や構造を解析し,XMLなどの構造化フォーマットへ自動変換するためのモデルおよびアルゴリズム構築を行った.特に,材料科学の文献を主なターゲットとして,図表や数式の領域は画像処理によって検出し,本文や表の構造は自然言語処理の構造解析技術を援用した統合的な解析手法を実現した.また,モデルの訓練や評価に必要な図表領域のデータセットや,本文および表の構造に関するデータセットなどのリソースを構築し,論文の統合的な構造解析を行う技術を確立した.
|