• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

Cost-Sensitive Information Extraction and Cyber-Physical Browsing Support for Academic Papers

Research Project

Project/Area Number 18K11989
Research InstitutionOkayama University

Principal Investigator

太田 学  岡山大学, 自然科学研究科, 教授 (10326019)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywords電子図書館 / 学術論文 / 情報抽出 / メタデータ / 閲覧支援 / サイバーフィジカル / 表構造解析
Outline of Annual Research Achievements

本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を利用したタブレット端末による新しい論文閲覧スタイルの提案を目的とする。本研究では、機械学習に基づく情報抽出器の精度と学習データ量(コスト)のトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御することで、コストセンシティブな情報抽出を実現する。さらに、学術論文から抽出した書誌情報、専門用語、実験情報などのサイバー空間の関連情報を知的に集約し、フィジカルな(紙の)読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。
令和元年度は、学術論文の参考文献欄から書誌情報を抽出するために開発した、ニューラルネットワークとConditional random field(CRF)のハイブリッドな書誌情報抽出器が必要とする学習データ量を定量的に評価し、学習データの削減に能動学習が有効であることを実験により確認した。またこの能動学習が、論文からの実験情報抽出(CRF抽出器)においても有効であることを確認した。これらの研究成果については国内のフォーラムなどで発表した。
一方、タブレット端末による論文閲覧支援の一環として、論文中の表の構造を自動解析してそのグラフを自動生成する手法を提案している。令和元年度は、機械学習を用いた精緻な表構造解析手法を提案し、それを用いて文書解析の著名な国際会議であるICDAR2013の表構造解析タスクのために提供された表の構造解析を行い、同タスクのコンペティション参加者の最良の結果を上回る解析精度が得られることを確認した。また、論文中の引用箇所にリンクすべき被引用文章の自動生成手法、ならびに開発中の学術論文ブラウザに実装する備忘録の詳細について検討した。これらの研究成果については国際会議や国内フォーラムなどで発表した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

コストセンシティブ情報抽出では、学術論文の参考文献欄からの書誌情報抽出器として開発中の、ニューラルネットワークとCRFのハイブリッドな抽出器の学習コストを定量的に評価し、能動学習により少量の学習データで高い抽出精度が実現できることを確認した。また論文から実験情報を抽出するCRF抽出器においても、この能動学習が有効であることを実験により確認した。一方、タブレット端末における学術論文閲覧支援の一環として、高精度な表構造解析手法を提案し、また被引用文章生成手法と学術論文ブラウザに組み込む備忘録について検討した。これらの研究成果について、国際会議で1件、国内フォーラムなどで5件発表した。

Strategy for Future Research Activity

令和2年度は、令和元年度に提案した機械学習による表構造解析手法を洗練して、高精度化のみならず多様な構造の表への適用可能性について検討する。また、サイバーフィジカル論文閲覧支援インタフェースでは、令和元年度に設計した備忘録を、開発中の学術論文ブラウザのプロトタイプに組み込んでいく。

Causes of Carryover

(理由)
令和元年度末に予定していた学会発表が中止やオンライン開催になるなどしたため生じた。
(使用計画)
主に雑誌論文の掲載料や研究成果発表の費用として支出する予定である。

  • Research Products

    (6 results)

All 2020 2019

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results)

  • [Journal Article] A Cell-detection-based Table-structure Recognition Method2019

    • Author(s)
      Manabu Ohta, Ryoya Yamada, Teruhito Kanazawa, Atsuhiro Takasu
    • Journal Title

      Proc. 19th ACM Symposium on Document Engineering (DocEng 2019)

      Volume: - Pages: 1-4

    • DOI

      10.1145/3342558.3345412

    • Peer Reviewed
  • [Presentation] 少量学習データとBi-directional LSTM-CNN-CRFによる参考文献書誌情報抽出2020

    • Author(s)
      荒川瞭平, 太田学, 金澤 輝一, 高須淳宏
    • Organizer
      第12回データ工学と情報マネジメントに関するフォーラム (DEIM2020)
  • [Presentation] 機械学習を用いた表構造解析の一手法2020

    • Author(s)
      山田凌也, 太田学, 金澤 輝一, 高須淳宏
    • Organizer
      第12回データ工学と情報マネジメントに関するフォーラム (DEIM2020)
  • [Presentation] 能動学習を用いた実験情報抽出の一手法2020

    • Author(s)
      八田谷翔太, 太田学
    • Organizer
      電子情報通信学会2020年総合大会 情報・システムソサイエティ特別企画 学生ポスターセッション
  • [Presentation] 学術論文の被引用文章生成の一手法2020

    • Author(s)
      田邊俊介, 太田学
    • Organizer
      電子情報通信学会2020年総合大会 情報・システムソサイエティ特別企画 学生ポスターセッション
  • [Presentation] 学術論文閲覧支援のための備忘録の設計2019

    • Author(s)
      岩本拓実, 高須淳宏, 太田学
    • Organizer
      第18回情報科学技術フォーラム (FIT2019)

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi