• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発

研究課題

研究課題/領域番号 23K25158
補助金の研究課題番号 22H03904 (2022-2023)
研究種目

基盤研究(B)

配分区分基金 (2024)
補助金 (2022-2023)
応募区分一般
審査区分 小区分90020:図書館情報学および人文社会情報学関連
研究機関岡山大学

研究代表者

太田 学  岡山大学, 環境生命自然科学学域, 教授 (10326019)

研究分担者 金澤 輝一  国立情報学研究所, コンテンツ科学研究系, 准教授 (80796938)
上野 史  岡山大学, 環境生命自然科学学域, 助教 (30880687)
研究期間 (年度) 2022-04-01 – 2025-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
16,900千円 (直接経費: 13,000千円、間接経費: 3,900千円)
2024年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2023年度: 4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2022年度: 7,670千円 (直接経費: 5,900千円、間接経費: 1,770千円)
キーワード電子図書館 / 論文メタ情報 / 情報抽出 / 論文閲覧支援 / サイバーフィジカル論文ブラウザ / 学術論文 / メタデータ / 書誌情報抽出 / 表構造解析 / 論文読解支援 / サイバーフィジカルブラウザ / 閲覧支援
研究開始時の研究の概要

本研究では、論文から様々なメタ情報をコストセンシティブに抽出する方法を確立し、抽出したメタ情報を論文閲覧支援に活用したサイバーフィジカル論文ブラウザを開発する。とりわけ論文メタ情報として参考文献の書誌情報や表を抽出するための抽出器と、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。

研究実績の概要

本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を論文閲覧支援に活用するサイバーフィジカル論文ブラウザの開発を目的とする。とりわけ論文メタ情報として参考文献の書誌情報や表を自動抽出して解析する方法を確立し、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。参考文献書誌情報抽出では、機械学習に基づく情報抽出器の精度と学習データの生成コストのトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御できるコストセンシティブな情報抽出の実現を目指す。さらに、学術論文から抽出した書誌情報、表の情報、専門用語などとサイバー空間の関連情報を知的に集約し、紙に印刷されたフィジカルな論文の読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。
令和5年度は、学術論文の参考文献欄から書誌情報を抽出するために開発を進めてきたBidirectional Encoder Representations from Transformers(BERT)による参考文献書誌情報抽出器の抽出誤りを自動検出するため抽出結果に確信度を定義し、確信度に基づく抽出誤りの検出実験を行い、その検出精度ならびに見込まれる修正コストを評価した。また、開発しているエンドツーエンド表構造解析手法を利用して文書中の表を検出してその構造を解析し、その結果を利用して表中の数値データを自動で棒グラフ等に変換する手法を提案した。さらに、ChatGPTを用いて重要語のタグクラウドや提案手法のフローチャートなどを自動生成して、これらを論文PDFとともに読者に提示する論文ブラウザのプロトタイプを開発した。これらに関連する研究成果を電子図書館に関する国際会議ならびに国内研究会などで発表した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

コストセンシティブ論文メタ情報抽出では、学術論文の参考文献欄から参考文献の書誌情報を抽出するためにBERTによる参考文献書誌情報抽出器を開発している。令和5年度は、この抽出器の抽出結果に確信度を定義し、抽出誤りの自動検出を試みた。実験では、抽出後に参考文献文字列の約7%を人が確認して必要に応じて修正することで、99%以上の書誌情報抽出精度が得られることを確認した。また開発している表検出機能を含むエンドツーエンド表構造解析手法を利用し、PDF文書中の表を解析して表中の数値データを棒グラフ等に自動変換する手法を提案した。実験では、構造が比較的単純な表の9割以上、構造が比較的複雑な表でも7割以上について棒グラフ生成に成功した。一方、サイバーフィジカル論文閲覧支援では、論文中の重要語や要約文等の重要情報を提示することで論文を読みながらの理解を促進する読解支援手法を提案し、提示した論文の概要文や各節の要約文が有用であることを被験者実験により確認した。これらの研究成果について国際会議で1件、国内研究会などで4件発表した。

今後の研究の推進方策

令和6年度は、参考文献書誌情報抽出の誤り修正コストを削減するため、誤り検出手法の精度改善と汎化性能の向上について検討する。表構造解析については、様々な表を高精度かつ頑健に解析できるよう、開発しているエンドツーエンド表構造解析手法を改良する。論文読解支援機能をもつ論文ブラウザについては、タブレット端末で動作するプロトタイプを開発し、タブレット端末を利用した実証実験などを行いたい。

報告書

(2件)
  • 2023 実績報告書
  • 2022 実績報告書
  • 研究成果

    (12件)

すべて 2024 2023 2022

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (11件)

  • [雑誌論文] An End-to-End Table Structure Analysis Method Using Graph Attention Networks2023

    • 著者名/発表者名
      Manabu Ohta, Hiroyuki Aoyagi, Fumito Uwano, Teruhito Kanazawa, Atsuhiro Takasu
    • 雑誌名

      Proc. 25th International Conference on Asia-Pacific Digital Libraries (ICADL 2023)

      巻: LNCS 14458 ページ: 230-239

    • DOI

      10.1007/978-981-99-8088-8_20

    • ISBN
      9789819980871, 9789819980888
    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [学会発表] 確信度を用いたBERTによる参考文献書誌情報抽出の誤り検出の一手法2024

    • 著者名/発表者名
      中山竣平, 金澤輝一, 上野史, 太田学
    • 学会等名
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 表構造情報を利用した棒グラフの自動生成の一手法2024

    • 著者名/発表者名
      田上歩夢, 金澤輝一, 上野史, 太田学
    • 学会等名
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • 関連する報告書
      2023 実績報告書
  • [学会発表] ChatGPTを利用した学術論文読解支援の一手法2024

    • 著者名/発表者名
      堺陸斗, 金澤輝一, 上野史, 太田学
    • 学会等名
      第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024)
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 専門用語に着目した初学者向け学術論文閲覧支援の検討2023

    • 著者名/発表者名
      高橋春成, 金澤輝一, 上野史, 太田学
    • 学会等名
      第19回 ARG Webインテリジェンスとインタラクション研究会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 文の類似度と Extractive QA による被引用文特定の一手法2023

    • 著者名/発表者名
      西海真祥, 金澤輝一, 上野史, 太田学
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] BERTによる参考文献書誌情報抽出の誤り検出の評価2023

    • 著者名/発表者名
      中山竣平, 金澤輝一, 高須淳宏, 上野史, 太田学
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] グラフニューラルネットワークを用いたエンドツーエンド表構造解析手法の提案2023

    • 著者名/発表者名
      青柳拓志, 金澤輝一, 高須淳宏, 上野史, 太田学
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] ニューラルネットワークによる日本語を含む表の構造解析の一手法2023

    • 著者名/発表者名
      細谷亮太, 金澤輝一, 上野史, 太田学
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 初学者の論文閲覧支援のための日本語論文からの専門用語抽出の一手法2023

    • 著者名/発表者名
      高橋春成, 金澤輝一, 上野史, 太田学
    • 学会等名
      第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 引用意図を利用した初学者向け学術論文閲覧支援方法の検討2022

    • 著者名/発表者名
      西海真祥, 金澤輝一, 上野史, 太田学
    • 学会等名
      第21回情報科学技術フォーラム (FIT2022)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 表検出を含むエンドツーエンド表構造解析手法の評価2022

    • 著者名/発表者名
      青柳拓志, 金澤輝一, 高須淳宏, 上野史, 太田学
    • 学会等名
      ARG 第18回Webインテリジェンスとインタラクション研究会
    • 関連する報告書
      2022 実績報告書

URL: 

公開日: 2022-04-19   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi