科学技術論文の出版数は加速度的に増大しており,個人が必要な論文を検索し,その全てに目を通すことは極めて困難な状況である.科学技術論文は,概要,本 文,数式,図表などで構成される構造化文章であり,PDFを構造化する技術が確立されれば,従来では困難であった論文の高度な検索や情報抽出が可能となる.そこで本研究では,論文PDFを解析してXMLなどの構造化フォーマットへ変換するためのモデルおよびアルゴリズム構築を目指している. 令和3年度は,昨年度に引き続き,材料科学文献からの情報抽出に着目し,個々の解析モデル(図表抽出,本文抽出,etc.)の統合およびツール化を進めた.また,新たな問題として,PDFからテキスト抽出を行う際に文字化けが発生する原因を明らかにした.文字化けの主な原因として,フォントデータ自体が誤っている場合と,フォントデータは正しいが,PDFへフォントを埋め込む際に必要なユニコード情報が欠落している問題が考えられるが,前者については,論文で使用されるフォントデータを広範囲に収集し,人手によって誤りを修正するというアノテーション作業を行い,フォントとユニコードの対応辞書を構築した.また,後者の問題にも対応するため,この辞書を用いてOCRモデルを学習し,文字化けが起こる割合を減少させることに成功した.このような文字化けは,主に数量表現(数値や単位)や数式で頻繁に発生するため,本研究の文字化け解消技術により,従来よりも正確に数量表現や数式を抽出できるようになった. 表の構造化については,フォントサイズや文字座標を正規化した特徴量を導入することにより,様々なスケールや位置の表に対して頑健に構造化できることを明らかにした.また,昨年度から実施している構造情報の教師データを作成するためのツール開発については,材料科学分野の研究者と連携し,ユーザーインターフェース設計の改善を実施した.
|