研究課題/領域番号 |
18K11989
|
研究機関 | 岡山大学 |
研究代表者 |
太田 学 岡山大学, 自然科学研究科, 教授 (10326019)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 電子図書館 / 学術論文 / 情報抽出 / メタデータ / 閲覧支援 / サイバーフィジカル / 表構造解析 |
研究実績の概要 |
本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を利用したタブレット端末による新しい論文閲覧スタイルの提案を目的とする。本研究では、機械学習に基づく情報抽出器の精度と学習データ量(生成コスト)のトレードオフと抽出誤りに対する人的修正コストを実用レベルで制御できる、コストセンシティブな情報抽出を実現する。さらに、学術論文から抽出した書誌情報、専門用語、実験情報などとサイバー空間の関連情報を知的に集約し、フィジカルな(紙の)読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。 令和2年度は、学術論文の参考文献欄から書誌情報を抽出するため、Bidirectional Encoder Representations from Transformers(BERT)を利用した参考文献書誌情報抽出器を開発した。これは、前年度まで開発していた、ニューラルネットワーク(NN)とConditional random field(CRF)のハイブリッドな書誌情報抽出器の抽出精度を上回ることを実験により確認した。また、実験情報などが記載されることが多い表に着目し、表の構造を自動解析してそのグラフを自動生成する方法を研究した。とくに令和元年度に提案したNNを利用した表構造解析手法を改良し、実験により表構造解析精度の改善を確認した。さらに、タブレット端末による論文閲覧支援の一環として、論文中の引用箇所の引用意図とそこにリンクすべき被引用情報の自動生成手法について検討した。また、閲覧支援機能を実装する開発中の学術論文ブラウザの検索履歴を利用して検索結果を個人化する手法を提案した。これらの研究成果について国内フォーラムなどで発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
コストセンシティブ情報抽出では、学術論文の参考文献欄からの書誌情報抽出器として開発中の、BERTベースの抽出器の抽出精度を実験により評価し、これまで開発していたNNとCRFのハイブリッドな抽出器の抽出精度を上回ることを確認した。今後、実用レベルでの学習コストや修正コストの評価を進める予定である。表構造解析では、文書解析の著名な国際会議であるICDAR2013の表構造解析タスクで提供された表の構造解析を行い、同タスク参加者の最良の結果を上回る解析精度が得られることを確認した。一方、タブレット端末における学術論文閲覧支援では、引用意図を利用した論文閲覧支援情報の自動生成について検討し、さらに学術論文ブラウザの検索履歴を利用した検索結果の個人化手法を提案した。これらの研究成果について、国内フォーラムなどで4件発表した。今後国際会議などでも成果発表を行う予定である。
|
今後の研究の推進方策 |
令和3年度は、NNモジュールを追加するなどして表構造解析手法をさらに洗練するとともに、様々な構造の表や表画像などの入力への対応について検討する。また、サイバーフィジカル論文閲覧支援では、引用意図に基づく論文閲覧支援情報の自動生成について、情報源の選定ならびに収集した情報の自動要約などを検討する。
|
次年度使用額が生じた理由 |
(理由) 予定していた学会がオンライン開催になるなどしたため生じた。 (使用計画) 主に国際会議参加費や雑誌論文の掲載料など研究成果発表の費用として支出する予定である。
|
備考 |
第13回データ工学と情報マネジメントに関するフォーラム 学生プレゼンテーション賞, 青柳拓志 (2021.3.3).
|