• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実施状況報告書

科学技術論文からの統合的な構造解析に関する研究

研究課題

研究課題/領域番号 18K18109
研究機関奈良先端科学技術大学院大学

研究代表者

進藤 裕之  奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (20734784)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワード論文解析 / 構文解析 / PDF
研究実績の概要

科学技術論文の出版数は加速度的に増大しており,個人が必要な論文を検索し,その全てに目を通すことは極めて困難な状況である.科学技術論文は,概要,本文,数式,図表などで構成される構造化文章であり,PDFを構造化する技術が確立されれば,従来では困難であった論文の高度な検索や情報抽出が可能となる.そこで本研究では,論文を解析してXMLなどの構造化フォーマットへ変換するためのモデルおよびアルゴリズム構築を目指している.
平成31年度は,論文に含まれる表,数式,本文それぞれの構造化モデルを相互に組み合わせることにより,実際の論文を解析するモデルおよびアルゴリズムの構築を行った.具体的には,PDFから取得した文字とその位置情報に基づいて,機械学習により文字列にタグを付与することでセクションや段落などの構造を決定する.また,セクションや段落同士の関係性も機械学習により推定することで,PDF全体の木構造を決定することができる.
実際の専門分野への応用として,材料科学分野の文献を対象として,論文の構造化に関する実験を行った.材料科学文献では,物質名や物性値に関する情報の多くが表に含まれるため,表の構造化を正しく行うことが情報抽出にとって重要である.実験の結果,本文に関しては,非常に高い性能で構造化を実現することができた,また,おおよそ90%の表に関しては正しく解析を行うことができたが,行や列が連結された複雑な表については解析誤りが多く含まれることがわかった.今後の課題として,複雑な表の解析性能を向上させるためのモデル改善やアルゴリズム改善を実施する必要がある.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

おおむね順調に進展している.平成31年度は,予定通り,PDFを構造化するためのモデル構築およびアルゴリズム考案を進捗通りに進めることができた.次年度は,構造解析の更なる性能向上と,いくつかの専門分野の論文へ本技術を適用して評価することを中心として作業を進める予定である.

今後の研究の推進方策

令和2年度は,平成31年度の研究で明らかになった構造化性能の向上,特に複雑な表の解析に関して,モデルおよびアルゴリズムの両側面から改善を目指す.また,様々な専門分野(バイオロジー,材料科学など)で適用しても性能が下がらないように,分野適応や教師無し学習の知見を取り込んでいく予定である.
また,PDFを構造化および情報抽出について,バイオロジーや材料科学分野の研究者と協調し,どのような構造や情報が抽出できると実際に役に立つかということを考慮して技術開発に反映させていく.

次年度使用額が生じた理由

データ作成に関する謝金・外注費に関して,一部を次年度に回す方が効率的に研究開発を進めることができるため.

  • 研究成果

    (5件)

すべて 2019

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) (うち国際学会 3件)

  • [雑誌論文] Construction and Analysis of Multiword Expression-aware Dependency Corpus2019

    • 著者名/発表者名
      Kato Akihiko、Shindo Hiroyuki、Matsumoto Yuji
    • 雑誌名

      Journal of Natural Language Processing

      巻: 26 ページ: 663~688

    • DOI

      https://doi.org/10.5715/jnlp.26.663

    • 査読あり
  • [雑誌論文] Development of a computer-assisted Japanese functional expression learning system for Chinese-speaking learners2019

    • 著者名/発表者名
      Liu, J., Shindo, H. and Matsumoto, Y
    • 雑誌名

      Educational Technology Research and Development

      巻: 67 ページ: 1307~1331

    • DOI

      https://doi.org/10.1007/s11423-019-09669-0

    • 査読あり
  • [学会発表] Decomposed Local Models for Coordinate Structure Parsing2019

    • 著者名/発表者名
      Hiroki Teranishi, Hiroyuki Shindo, Yuji Matsumoto
    • 学会等名
      In Proceedings of NAACL
    • 国際学会
  • [学会発表] Stochastic Tokenization with a Language Model for Neural Text Classification2019

    • 著者名/発表者名
      Tatsuya Hiraoka, Hiroyuki Shindo, Yuji Matsumoto
    • 学会等名
      In Proceedings of ACL, 2019
    • 国際学会
  • [学会発表] Relation Classification Using Segment-Level Attention-based CNN and Dependency-based RNN2019

    • 著者名/発表者名
      Van-Hien Tran, Hiroyuki Shindo, Yuji Matsumoto
    • 学会等名
      In Proceedings of NAACL, 2019
    • 国際学会

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi