研究課題
学術論文を蓄積する電子図書館では、論文タイトルページに書かれた重要な書誌情報を自動抽出する技術が求められる。そこで、論文タイトルページの文書画像をOCRでレイアウト解析し、その結果得られる各テキスト行がいずれの書誌要素に該当するか、条件付確率場(CRF)により推定する方法を提案した。特に本研究では、推定誤りに現実的に対処するため、人手による後処理コストを評価した。具体的には、CRFによる書誌要素推定結果を解析し、書誌要素推定が困難な論文データを自動で判別するための指標(確信度)を提案した。確信度により書誌要素推定が困難な論文を検出し、それを人手で確認するコストとそれによって得られる精度を見積もった。評価実験の結果、学習データが300件でCRFによる書誌要素推定精度は情報処理学会論文誌で94%、電子情報通信学会英文論文誌で96%となり、各雑誌で全体の約1割に相当する確信度の低い論文を人手で確認すれば、99%以上という高い精度が得られることを確認した。また、提案した確信度は学習したCRFと論文データの適合性も示しているため、雑誌毎のレイアウトなどの違いの検出に有効であることを確認した。本研究ではさらに、抽出対象を論文のタイトルページだけでなく全文に拡張し、学術論文のテキストデータから、参考文献欄の書誌情報や図表などを自動抽出する方法を提案した。特に、参考文献文字列のテキストからCRFを用いて書誌情報を自動抽出する手法を提案し、複数の学術雑誌における抽出精度、確信度による抽出誤り検出性能、CRFの学習コストなどを評価した。電子図書館における有望なサービスとしては、論文から抽出した専門用語を利用して、ユーザの閲覧論文と関連がありかつ重要な論文のリストを推薦するシステムを提案した。また近年急速に普及している電子書籍閲覧端末によるオンラインでの学術論文閲覧支援方法を提案した。
すべて 2014
すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (5件)
Proc. of Third International Conference on Pattern Recognition Applications and Methods (ICPRAM 2014)
巻: - ページ: 438-444
10.5220/0004827204380444
Proc. of 11th IAPR International Workshop on Document Analysis Systems (DAS 2014)
巻: - ページ: 287-292