2021 年度実績報告書

科学技術論文からの統合的な構造解析に関する研究

研究課題

研究課題/領域番号	18K18109
研究機関	奈良先端科学技術大学院大学
研究代表者	進藤裕之奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)
研究期間 (年度)	2018-04-01 – 2022-03-31
キーワード	論文解析 / 構造解析 / PDF / XML
研究実績の概要	科学技術論文の出版数は加速度的に増大しており，個人が必要な論文を検索し，その全てに目を通すことは極めて困難な状況である．科学技術論文は，概要，本文，数式，図表などで構成される構造化文章であり，PDFを構造化する技術が確立されれば，従来では困難であった論文の高度な検索や情報抽出が可能となる．そこで本研究では，論文PDFを解析してXMLなどの構造化フォーマットへ変換するためのモデルおよびアルゴリズム構築を目指している．令和３年度は，昨年度に引き続き，材料科学文献からの情報抽出に着目し，個々の解析モデル（図表抽出，本文抽出，etc.）の統合およびツール化を進めた．また，新たな問題として，PDFからテキスト抽出を行う際に文字化けが発生する原因を明らかにした．文字化けの主な原因として，フォントデータ自体が誤っている場合と，フォントデータは正しいが，PDFへフォントを埋め込む際に必要なユニコード情報が欠落している問題が考えられるが，前者については，論文で使用されるフォントデータを広範囲に収集し，人手によって誤りを修正するというアノテーション作業を行い，フォントとユニコードの対応辞書を構築した．また，後者の問題にも対応するため，この辞書を用いてOCRモデルを学習し，文字化けが起こる割合を減少させることに成功した．このような文字化けは，主に数量表現（数値や単位）や数式で頻繁に発生するため，本研究の文字化け解消技術により，従来よりも正確に数量表現や数式を抽出できるようになった．表の構造化については，フォントサイズや文字座標を正規化した特徴量を導入することにより，様々なスケールや位置の表に対して頑健に構造化できることを明らかにした．また，昨年度から実施している構造情報の教師データを作成するためのツール開発については，材料科学分野の研究者と連携し，ユーザーインターフェース設計の改善を実施した．

研究成果
(5件)

すべて 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (4件) (うち国際学会 4件)

[雑誌論文] Machine extraction of polymer data from tables using XML versions of scientific articles2021
- 著者名/発表者名
  Hiroyuki Oka, Atsushi Yoshizawa, Hiroyuki Shindo, Yuji Matsumoto, Masashi Ishii
- 雑誌名
  
  SCIENCE AND TECHNOLOGY OF ADVANCED MATERIALS: METHODS
  
  巻: 1 ページ: 12-23
- DOI
  10.1080/27660400.2021.1899456
- 査読あり / オープンアクセス
[学会発表] A Generative Approach for End-to-End Relation Extraction2021
- 著者名/発表者名
  Shanshan Liu, Tatsuya Ishigaki, Yui Uehara, Hiroya Takamura, Chowdhury Mohammad Mahir Asef, Mutsunori Uenuma, Hiroyuki Shindo, Yuji Matsumoto
- 学会等名
  Fifth International Workshop on Scientific Document Analysis
- 国際学会
[学会発表] Automatic extraction of text data of synthesis process for papers on bulk thermoelectric materials2021
- 著者名/発表者名
  Mohammad Mahir Asef Chowdhury, Mutsunori Uenuma, Shanshan Liu, Hiroyuki Shindo, Yuji Matsumoto, Yukiharu Uraoka
- 学会等名
  Virtual Conference on Thermoelectrics
- 国際学会
[学会発表] Nested Named Entity Recognition via Explicitly Excluding the Influence of the Best Path2021
- 著者名/発表者名
  Yiran Wang, Hiroyuki Shindo, Yuji Matsumoto, Taro Watanabe
- 学会等名
  The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing
- 国際学会
[学会発表] Structured Refinement for Sequential Labeling2021
- 著者名/発表者名
  Yiran Wang, Hiroyuki Shindo, Yuji Matsumoto, Taro Watanabe
- 学会等名
  The Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Findings)
- 国際学会

2021 年度 実績報告書

科学技術論文からの統合的な構造解析に関する研究

研究代表者

進藤 裕之 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)

研究成果

[雑誌論文] Machine extraction of polymer data from tables using XML versions of scientific articles2021

著者名/発表者名

雑誌名

DOI

[学会発表] A Generative Approach for End-to-End Relation Extraction2021

著者名/発表者名

学会等名

[学会発表] Automatic extraction of text data of synthesis process for papers on bulk thermoelectric materials2021

著者名/発表者名

学会等名

[学会発表] Nested Named Entity Recognition via Explicitly Excluding the Influence of the Best Path2021

著者名/発表者名

学会等名

[学会発表] Structured Refinement for Sequential Labeling2021

著者名/発表者名

学会等名

2021 年度実績報告書

進藤裕之奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 特任准教授 (20734784)