研究課題/領域番号 |
22H03904
|
配分区分 | 補助金 |
研究機関 | 岡山大学 |
研究代表者 |
太田 学 岡山大学, 自然科学学域, 教授 (10326019)
|
研究分担者 |
金澤 輝一 国立情報学研究所, コンテンツ科学研究系, 准教授 (80796938)
上野 史 岡山大学, 自然科学学域, 助教 (30880687)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 電子図書館 / 学術論文 / メタデータ / 書誌情報抽出 / 表構造解析 / 閲覧支援 / サイバーフィジカルブラウザ |
研究実績の概要 |
本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を論文閲覧支援に活用するサイバーフィジカル論文ブラウザの開発を目的とする。とりわけ論文メタ情報として参考文献の書誌情報や表を自動抽出して解析する方法を確立し、サイバー空間の関連情報を自動集約する機能などをもつ論文ブラウザを開発する。参考文献書誌情報抽出では、機械学習に基づく情報抽出器の精度と学習データの生成コストのトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御できるコストセンシティブな情報抽出の実現を目指す。さらに、学術論文から抽出した書誌情報、表の情報、専門用語などとサイバー空間の関連情報を知的に集約し、紙に印刷されたフィジカルな論文の読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。 令和4年度は、学術論文の参考文献欄から書誌情報を抽出するために開発を進めてきたBidirectional Encoder Representations from Transformers(BERT)による参考文献書誌情報抽出器の抽出誤りの自動検出を試み、実験によりその検出の精度ならびに見込まれる修正コストなどを評価した。また、表中の数値データの自動グラフ変換を行うために、ニューラルネットワークを利用して、文書から表を検出しその構造を解析するエンドツーエンド表構造解析手法を開発した。さらに、論文ブラウザによる初学者の論文閲覧支援のために、引用意図に基づく引用箇所の補足情報の自動生成手法について検討した。これらの研究成果について国内研究会などで発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
コストセンシティブ論文メタ情報抽出では、学術論文の参考文献欄から参考文献の書誌情報を抽出するためにBERTによる参考文献書誌情報抽出器を開発している。令和4年度は、この抽出器の抽出誤りの自動検出を試み、実験によりその検出精度ならびに見込まれる修正コストなどを評価した。また表検出機能を含むエンドツーエンド表構造解析手法を開発し、実験において商用ツールの一つのABBYY FineReader PDFと比較し、ほぼ同等といってよい表検出率と表構造解析精度を確認した。一方、サイバーフィジカル論文閲覧支援では、引用意図に基づく引用箇所の補足情報の自動生成において、引用文献以外の情報源から生成した補足情報が初学者の閲覧の役に立つ場合があることを被験者実験により確認した。これらの研究成果について国内研究会などで7件発表した。
|
今後の研究の推進方策 |
令和5年度は、参考文献書誌情報抽出の誤り修正コストを削減するため、誤り検出の確度を改善する方法を検討する。表構造解析については、様々な表を頑健に解析できるように、開発したエンドツーエンド表構造解析手法を改良する。論文閲覧支援機能については、著者の引用意図を考慮して論文閲覧支援情報を自動生成するため、その情報源の多角化と収集した情報の効果的な集約方法などについて詳細に検討する。
|