2019 Fiscal Year Research-status Report
Cost-Sensitive Information Extraction and Cyber-Physical Browsing Support for Academic Papers
Project/Area Number |
18K11989
|
Research Institution | Okayama University |
Principal Investigator |
太田 学 岡山大学, 自然科学研究科, 教授 (10326019)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 電子図書館 / 学術論文 / 情報抽出 / メタデータ / 閲覧支援 / サイバーフィジカル / 表構造解析 |
Outline of Annual Research Achievements |
本研究は、学術論文の電子文書から様々なメタ情報をコストセンシティブに抽出する方法の確立と、抽出したメタ情報を利用したタブレット端末による新しい論文閲覧スタイルの提案を目的とする。本研究では、機械学習に基づく情報抽出器の精度と学習データ量(コスト)のトレードオフと、抽出誤りに対する人的修正コストを実用レベルで制御することで、コストセンシティブな情報抽出を実現する。さらに、学術論文から抽出した書誌情報、専門用語、実験情報などのサイバー空間の関連情報を知的に集約し、フィジカルな(紙の)読者に提供するためのサイバーフィジカル論文閲覧支援インタフェースを提案する。 令和元年度は、学術論文の参考文献欄から書誌情報を抽出するために開発した、ニューラルネットワークとConditional random field(CRF)のハイブリッドな書誌情報抽出器が必要とする学習データ量を定量的に評価し、学習データの削減に能動学習が有効であることを実験により確認した。またこの能動学習が、論文からの実験情報抽出(CRF抽出器)においても有効であることを確認した。これらの研究成果については国内のフォーラムなどで発表した。 一方、タブレット端末による論文閲覧支援の一環として、論文中の表の構造を自動解析してそのグラフを自動生成する手法を提案している。令和元年度は、機械学習を用いた精緻な表構造解析手法を提案し、それを用いて文書解析の著名な国際会議であるICDAR2013の表構造解析タスクのために提供された表の構造解析を行い、同タスクのコンペティション参加者の最良の結果を上回る解析精度が得られることを確認した。また、論文中の引用箇所にリンクすべき被引用文章の自動生成手法、ならびに開発中の学術論文ブラウザに実装する備忘録の詳細について検討した。これらの研究成果については国際会議や国内フォーラムなどで発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コストセンシティブ情報抽出では、学術論文の参考文献欄からの書誌情報抽出器として開発中の、ニューラルネットワークとCRFのハイブリッドな抽出器の学習コストを定量的に評価し、能動学習により少量の学習データで高い抽出精度が実現できることを確認した。また論文から実験情報を抽出するCRF抽出器においても、この能動学習が有効であることを実験により確認した。一方、タブレット端末における学術論文閲覧支援の一環として、高精度な表構造解析手法を提案し、また被引用文章生成手法と学術論文ブラウザに組み込む備忘録について検討した。これらの研究成果について、国際会議で1件、国内フォーラムなどで5件発表した。
|
Strategy for Future Research Activity |
令和2年度は、令和元年度に提案した機械学習による表構造解析手法を洗練して、高精度化のみならず多様な構造の表への適用可能性について検討する。また、サイバーフィジカル論文閲覧支援インタフェースでは、令和元年度に設計した備忘録を、開発中の学術論文ブラウザのプロトタイプに組み込んでいく。
|
Causes of Carryover |
(理由) 令和元年度末に予定していた学会発表が中止やオンライン開催になるなどしたため生じた。 (使用計画) 主に雑誌論文の掲載料や研究成果発表の費用として支出する予定である。
|
Research Products
(6 results)