2023 Fiscal Year Annual Research Report
コストセンシティブ論文メタ情報抽出器とサイバーフィジカル論文ブラウザの開発
Project/Area Number |
22H03904
|
Allocation Type | Single-year Grants |
Research Institution | Okayama University |
Principal Investigator |
太田 学 岡山大学, 環境生命自然科学学域, 教授 (10326019)
|
Co-Investigator(Kenkyū-buntansha) |
金澤 輝一 国立情報学研究所, コンテンツ科学研究系, 准教授 (80796938)
上野 史 岡山大学, 環境生命自然科学学域, 助教 (30880687)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 電子図書館 / 学術論文 / メタデータ / 書誌情報抽出 / 表構造解析 / 論文読解支援 / サイバーフィジカルブラウザ |
Outline of Annual Research Achievements |
本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を論文閲覧支援に活用するサイバーフィジカル論文ブラウザの開発を目的とする。とりわけ論文メタ情報として参考文献の書誌情報や表を自動抽出して解析する方法を確立し、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。参考文献書誌情報抽出では、機械学習に基づく情報抽出器の精度と学習データの生成コストのトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御できるコストセンシティブな情報抽出の実現を目指す。さらに、学術論文から抽出した書誌情報、表の情報、専門用語などとサイバー空間の関連情報を知的に集約し、紙に印刷されたフィジカルな論文の読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。 令和5年度は、学術論文の参考文献欄から書誌情報を抽出するために開発を進めてきたBidirectional Encoder Representations from Transformers(BERT)による参考文献書誌情報抽出器の抽出誤りを自動検出するため抽出結果に確信度を定義し、確信度に基づく抽出誤りの検出実験を行い、その検出精度ならびに見込まれる修正コストを評価した。また、開発しているエンドツーエンド表構造解析手法を利用して文書中の表を検出してその構造を解析し、その結果を利用して表中の数値データを自動で棒グラフ等に変換する手法を提案した。さらに、ChatGPTを用いて重要語のタグクラウドや提案手法のフローチャートなどを自動生成して、これらを論文PDFとともに読者に提示する論文ブラウザのプロトタイプを開発した。これらに関連する研究成果を電子図書館に関する国際会議ならびに国内研究会などで発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コストセンシティブ論文メタ情報抽出では、学術論文の参考文献欄から参考文献の書誌情報を抽出するためにBERTによる参考文献書誌情報抽出器を開発している。令和5年度は、この抽出器の抽出結果に確信度を定義し、抽出誤りの自動検出を試みた。実験では、抽出後に参考文献文字列の約7%を人が確認して必要に応じて修正することで、99%以上の書誌情報抽出精度が得られることを確認した。また開発している表検出機能を含むエンドツーエンド表構造解析手法を利用し、PDF文書中の表を解析して表中の数値データを棒グラフ等に自動変換する手法を提案した。実験では、構造が比較的単純な表の9割以上、構造が比較的複雑な表でも7割以上について棒グラフ生成に成功した。一方、サイバーフィジカル論文閲覧支援では、論文中の重要語や要約文等の重要情報を提示することで論文を読みながらの理解を促進する読解支援手法を提案し、提示した論文の概要文や各節の要約文が有用であることを被験者実験により確認した。これらの研究成果について国際会議で1件、国内研究会などで4件発表した。
|
Strategy for Future Research Activity |
令和6年度は、参考文献書誌情報抽出の誤り修正コストを削減するため、誤り検出手法の精度改善と汎化性能の向上について検討する。表構造解析については、様々な表を高精度かつ頑健に解析できるよう、開発しているエンドツーエンド表構造解析手法を改良する。論文読解支援機能をもつ論文ブラウザについては、タブレット端末で動作するプロトタイプを開発し、タブレット端末を利用した実証実験などを行いたい。
|
Research Products
(5 results)