• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発

Research Project

Project/Area Number 23K25158
Project/Area Number (Other) 22H03904 (2022-2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2022-2023)
Section一般
Review Section Basic Section 90020:Library and information science, humanistic and social informatics-related
Research InstitutionOkayama University

Principal Investigator

太田 学  岡山大学, 環境生命自然科学学域, 教授 (10326019)

Co-Investigator(Kenkyū-buntansha) 金澤 輝一  国立情報学研究所, コンテンツ科学研究系, 准教授 (80796938)
上野 史  岡山大学, 環境生命自然科学学域, 助教 (30880687)
Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥16,900,000 (Direct Cost: ¥13,000,000、Indirect Cost: ¥3,900,000)
Fiscal Year 2024: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2023: ¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2022: ¥7,670,000 (Direct Cost: ¥5,900,000、Indirect Cost: ¥1,770,000)
Keywords電子図書館 / 論文メタ情報 / 情報抽出 / 論文閲覧支援 / サイバーフィジカル論文ブラウザ / 学術論文 / メタデータ / 書誌情報抽出 / 表構造解析 / 論文読解支援 / サイバーフィジカルブラウザ / 閲覧支援
Outline of Research at the Start

本研究では、論文から様々なメタ情報をコストセンシティブに抽出する方法を確立し、抽出したメタ情報を論文閲覧支援に活用したサイバーフィジカル論文ブラウザを開発する。とりわけ論文メタ情報として参考文献の書誌情報や表を抽出するための抽出器と、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。

Outline of Annual Research Achievements

本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を論文閲覧支援に活用するサイバーフィジカル論文ブラウザの開発を目的とする。とりわけ論文メタ情報として参考文献の書誌情報や表を自動抽出して解析する方法を確立し、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。参考文献書誌情報抽出では、機械学習に基づく情報抽出器の精度と学習データの生成コストのトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御できるコストセンシティブな情報抽出の実現を目指す。さらに、学術論文から抽出した書誌情報、表の情報、専門用語などとサイバー空間の関連情報を知的に集約し、紙に印刷されたフィジカルな論文の読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。
令和5年度は、学術論文の参考文献欄から書誌情報を抽出するために開発を進めてきたBidirectional Encoder Representations from Transformers(BERT)による参考文献書誌情報抽出器の抽出誤りを自動検出するため抽出結果に確信度を定義し、確信度に基づく抽出誤りの検出実験を行い、その検出精度ならびに見込まれる修正コストを評価した。また、開発しているエンドツーエンド表構造解析手法を利用して文書中の表を検出してその構造を解析し、その結果を利用して表中の数値データを自動で棒グラフ等に変換する手法を提案した。さらに、ChatGPTを用いて重要語のタグクラウドや提案手法のフローチャートなどを自動生成して、これらを論文PDFとともに読者に提示する論文ブラウザのプロトタイプを開発した。これらに関連する研究成果を電子図書館に関する国際会議ならびに国内研究会などで発表した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

コストセンシティブ論文メタ情報抽出では、学術論文の参考文献欄から参考文献の書誌情報を抽出するためにBERTによる参考文献書誌情報抽出器を開発している。令和5年度は、この抽出器の抽出結果に確信度を定義し、抽出誤りの自動検出を試みた。実験では、抽出後に参考文献文字列の約7%を人が確認して必要に応じて修正することで、99%以上の書誌情報抽出精度が得られることを確認した。また開発している表検出機能を含むエンドツーエンド表構造解析手法を利用し、PDF文書中の表を解析して表中の数値データを棒グラフ等に自動変換する手法を提案した。実験では、構造が比較的単純な表の9割以上、構造が比較的複雑な表でも7割以上について棒グラフ生成に成功した。一方、サイバーフィジカル論文閲覧支援では、論文中の重要語や要約文等の重要情報を提示することで論文を読みながらの理解を促進する読解支援手法を提案し、提示した論文の概要文や各節の要約文が有用であることを被験者実験により確認した。これらの研究成果について国際会議で1件、国内研究会などで4件発表した。

Strategy for Future Research Activity

令和6年度は、参考文献書誌情報抽出の誤り修正コストを削減するため、誤り検出手法の精度改善と汎化性能の向上について検討する。表構造解析については、様々な表を高精度かつ頑健に解析できるよう、開発しているエンドツーエンド表構造解析手法を改良する。論文読解支援機能をもつ論文ブラウザについては、タブレット端末で動作するプロトタイプを開発し、タブレット端末を利用した実証実験などを行いたい。

Report

(2 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • Research Products

    (12 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (11 results)

  • [Journal Article] An End-to-End Table Structure Analysis Method Using Graph Attention Networks2023

    • Author(s)
      Manabu Ohta, Hiroyuki Aoyagi, Fumito Uwano, Teruhito Kanazawa, Atsuhiro Takasu
    • Journal Title

      Proc. 25th International Conference on Asia-Pacific Digital Libraries (ICADL 2023)

      Volume: LNCS 14458 Pages: 230-239

    • DOI

      10.1007/978-981-99-8088-8_20

    • ISBN
      9789819980871, 9789819980888
    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Presentation] 確信度を用いたBERTによる参考文献書誌情報抽出の誤り検出の一手法2024

    • Author(s)
      中山竣平, 金澤輝一, 上野史, 太田学
    • Organizer
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • Related Report
      2023 Annual Research Report
  • [Presentation] 表構造情報を利用した棒グラフの自動生成の一手法2024

    • Author(s)
      田上歩夢, 金澤輝一, 上野史, 太田学
    • Organizer
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • Related Report
      2023 Annual Research Report
  • [Presentation] ChatGPTを利用した学術論文読解支援の一手法2024

    • Author(s)
      堺陸斗, 金澤輝一, 上野史, 太田学
    • Organizer
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • Related Report
      2023 Annual Research Report
  • [Presentation] 専門用語に着目した初学者向け学術論文閲覧支援の検討2023

    • Author(s)
      高橋春成, 金澤輝一, 上野史, 太田学
    • Organizer
      第19回 ARG Webインテリジェンスとインタラクション研究会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 文の類似度と Extractive QA による被引用文特定の一手法2023

    • Author(s)
      西海真祥, 金澤輝一, 上野史, 太田学
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • Related Report
      2022 Annual Research Report
  • [Presentation] BERTによる参考文献書誌情報抽出の誤り検出の評価2023

    • Author(s)
      中山竣平, 金澤輝一, 高須淳宏, 上野史, 太田学
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • Related Report
      2022 Annual Research Report
  • [Presentation] グラフニューラルネットワークを用いたエンドツーエンド表構造解析手法の提案2023

    • Author(s)
      青柳拓志, 金澤輝一, 高須淳宏, 上野史, 太田学
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • Related Report
      2022 Annual Research Report
  • [Presentation] ニューラルネットワークによる日本語を含む表の構造解析の一手法2023

    • Author(s)
      細谷亮太, 金澤輝一, 上野史, 太田学
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • Related Report
      2022 Annual Research Report
  • [Presentation] 初学者の論文閲覧支援のための日本語論文からの専門用語抽出の一手法2023

    • Author(s)
      高橋春成, 金澤輝一, 上野史, 太田学
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • Related Report
      2022 Annual Research Report
  • [Presentation] 引用意図を利用した初学者向け学術論文閲覧支援方法の検討2022

    • Author(s)
      西海真祥, 金澤輝一, 上野史, 太田学
    • Organizer
      第21回情報科学技術フォーラム (FIT2022)
    • Related Report
      2022 Annual Research Report
  • [Presentation] 表検出を含むエンドツーエンド表構造解析手法の評価2022

    • Author(s)
      青柳拓志, 金澤輝一, 高須淳宏, 上野史, 太田学
    • Organizer
      ARG 第18回Webインテリジェンスとインタラクション研究会
    • Related Report
      2022 Annual Research Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi