2021 Fiscal Year Research-status Report
Cost-Sensitive Information Extraction and Cyber-Physical Browsing Support for Academic Papers
Project/Area Number |
18K11989
|
Research Institution | Okayama University |
Principal Investigator |
太田 学 岡山大学, 自然科学学域, 教授 (10326019)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 電子図書館 / 学術論文 / 情報抽出 / メタデータ / 閲覧支援 / サイバーフィジカル / 表構造解析 |
Outline of Annual Research Achievements |
本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を利用したタブレット端末による新しい論文閲覧スタイルの提案を目的とする。本研究では、機械学習に基づく情報抽出器の精度と学習データ量(生成コスト)のトレードオフと抽出誤りに対する人的修正コストを実用レベルで制御できる、コストセンシティブな情報抽出の実現を目指す。さらに、学術論文から抽出した書誌情報、専門用語、実験情報などとサイバー空間の関連情報を知的に集約し、フィジカルな(紙の)読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。 令和3年度は、学術論文の参考文献欄から書誌情報を抽出するため、前年度から開発を進めてきたBidirectional Encoder Representations from Transformers(BERT)による参考文献書誌情報抽出器の学習データ量と抽出精度の関係を定量的に明らかにするとともに、自動生成した擬似学習データを利用することで、実際の学習データ量を削減できる見通しを得た。また、文書中の表の構造を自動解析するために開発中のニューラルネットワーク(NN)を利用した表構造解析手法を改良するとともに、文書中の表領域の自動検出について検討した。さらに、タブレット端末による論文閲覧支援の一環として、引用意図に基づいた論文中の引用箇所に付すべき閲覧補助情報の自動生成について検討した。これらの研究成果について国際会議で2件、国内研究会などで2件発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コストセンシティブ情報抽出では、学術論文の参考文献欄の書誌情報抽出器として開発中の、BERTベースの抽出器の抽出精度を実験により評価し、これまで開発していたNNと条件付確率場(CRF)のハイブリッドな抽出器の抽出精度を上回ることを確認した。さらに、このBERTベースの抽出器は擬似学習データの利用により実学習データが削減できることを確認し、また和文の参考文献文字列からの書誌情報抽出について分析した。表構造解析では、文書解析の著名な国際会議であるICDAR2013の表構造解析タスクで提供された表の構造解析を行い、同タスク参加者の最良の結果を上回る解析精度が得られることを示した。タブレット端末における学術論文閲覧支援では、引用箇所の補足情報の自動生成について検討した。これらの研究成果について、国際会議や国内フォーラムなどで発表した。
|
Strategy for Future Research Activity |
令和4年度は、表構造解析モジュールに表検出モジュールを組み合わせてエンドツーエンドな表構造解析手法を実現するとともに、複雑な構造をもつ表に対して頑健な構造解析手法を検討する。また、サイバーフィジカル論文閲覧支援では、引用意図に基づく論文閲覧支援情報の自動生成について、その情報源の多角化と収集した情報の効果的な集約方法などについて検討する。
|
Causes of Carryover |
(理由) 予定していた学会がオンライン開催になるなどしたため生じた。 (使用計画) 主に国際会議参加費や雑誌論文の掲載料など研究成果発表の費用として支出する予定である。
|