• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

科学技術論文からの統合的な構造解析に関する研究

Research Project

Project/Area Number 18K18109
Research InstitutionNara Institute of Science and Technology

Principal Investigator

進藤 裕之  奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (20734784)

Project Period (FY) 2018-04-01 – 2022-03-31
Keywords論文解析 / PDF / 構文解析
Outline of Annual Research Achievements

科学技術論文の出版数は加速度的に増大しており,個人が必要な論文を検索し,その全てに目を通すことは極めて困難な状況である.科学技術論文は,概要,本文,数式,図表などで構成される構造化文章であり,PDFを構造化できる技術が確立されれば,従来では困難であった論文の高度な検索や情報抽出が可能となる.そこで本研究では,論文を解析してXMLなどの構造化フォーマットへ変換するためのモデルおよびアルゴリズム構築を目指している.
令和2年度は,材料科学分野の論文を対象として,図表,数式,本文の構造化を行うアルゴリズムの改善および評価を行った.前年度で問題となっていた表の連結セルの解析誤りについては,教師データの開発およびアルゴリズムの改善によって解析誤りを緩和させられることを検証した.
また,モデルが広範囲な文脈を捉えられるために,自己注意型の機構を取り入れ,文書のレイアウトや潜在的な構造を特徴量として上手く抽出できることを確認した.また,従来のボトムアップ型の解析と比較して,トップダウン型のアルゴリズムによる解析の方が同等の性能かつ低コストで動作することを検証した.今後の課題として,シミュレーション技術による多様なデータ拡張を導入することにより,モデルの性能向上を実現することが挙げられる.
上記と並行して,構造情報の教師データを作成するためのツール開発も行っている.材料科学やバイオロジーなど,各分野の専門家が直感的に文献へアノテーションを行い,情報抽出を行うことをサポートできる環境を構築できた.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

おおむね順調に進展している.令和2年度は,材料科学文献を対象として,PDFを構造化するためのモデルやアルゴリズムの検証を進めることができた.また,従来より問題となっていた表の連結セルの解析誤りに対して,広い文脈を捉えるモデルや教師データの増強によって性能改善を実現することができた.今後の課題として,図表,数式,本文などの個別の解析に留まらず,それらの多様な情報を含む文書全体を統一的に解析するモデル構築を進める必要がある.

Strategy for Future Research Activity

令和3年度は,材料科学文献だけでなく,バイオロジーや医療などの専門分野へ対象を拡大して,これまでのモデルが適用可能であるか検証を行う.その際に,あらゆる専門分野で教師データを大量に用意することは非現実的であるため,シミュレーションによるデータ増強や転移学習を併用することにより,少量データでも頑健に動作する仕組みの構築を目指す.材料科学分野に関しては,情報抽出の形式やシステムのユーザーインターフェースを改善し,専門家が教師データを作成しやすい環境構築を行っていく.特に,テキスト中に出現する並列関係や照応関係をどのようにアノテーションするかということが課題で,専門家がなるべく直感的に教師データを作成できるようにシステムがサポートできれば,各専門分野へ本研究のモデルを適応する際に大幅な効率化が見込める.

Causes of Carryover

教師データ作成やツール開発に関する謝金・外注費に関して,一部を次年度に回す方が効率的に研究開発を進めることができるため.

  • Research Products

    (4 results)

All 2021 2020

All Presentation (4 results) (of which Int'l Joint Research: 2 results)

  • [Presentation] ラベルの不均衡を考慮したEnd-to-End情報抽出モデルの学習2021

    • Author(s)
      山口泰弘, 進藤裕之, 渡辺太郎
    • Organizer
      言語処理学会第27回年次大会(NLP2021)
  • [Presentation] 遺伝子二重欠失研究のための関連論文検索手法2021

    • Author(s)
      平野颯, 野村航, 進藤裕之, 渡辺太郎
    • Organizer
      言語処理学会第27回年次大会(NLP2021)
  • [Presentation] LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention2020

    • Author(s)
      Ikuya Yamada, Akari Asai, Hiroyuki Shindo, Hideaki Takeda, Yuji Matsumoto
    • Organizer
      In Proceedings of EMNLP
    • Int'l Joint Research
  • [Presentation] Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia2020

    • Author(s)
      Ikuya Yamada, Akari Asai, Jin Sakuma, Hiroyuki Shindo, Hideaki Takeda, Yoshiyasu Takefuji, Yuji Matsumoto
    • Organizer
      In Proceedings of EMNLP (demo)
    • Int'l Joint Research

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi