• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実績報告書

文書画像とウェブを活用した新しい電子図書館サービスに関する研究

研究課題

研究課題/領域番号 23700119
研究機関岡山大学

研究代表者

太田 学  岡山大学, 自然科学研究科, 教授 (10326019)

キーワード電子図書館 / 文書画像 / ウェブ / 情報抽出 / CRF / 電子書籍 / 閲覧支援 / 論文推薦
研究概要

学術論文を蓄積する電子図書館では、論文タイトルページに書かれた重要な書誌情報を自動抽出する技術が求められる。そこで、論文タイトルページの文書画像をOCRでレイアウト解析し、その結果得られる各テキスト行がいずれの書誌要素に該当するか、条件付確率場(CRF)により推定する方法を提案した。特に本研究では、推定誤りに現実的に対処するため、人手による後処理コストを評価した。具体的には、CRFによる書誌要素推定結果を解析し、書誌要素推定が困難な論文データを自動で判別するための指標(確信度)を提案した。確信度により書誌要素推定が困難な論文を検出し、それを人手で確認するコストとそれによって得られる精度を見積もった。評価実験の結果、学習データが300件でCRFによる書誌要素推定精度は情報処理学会論文誌で94%、電子情報通信学会英文論文誌で96%となり、各雑誌で全体の約1割に相当する確信度の低い論文を人手で確認すれば、99%以上という高い精度が得られることを確認した。また、提案した確信度は学習したCRFと論文データの適合性も示しているため、雑誌毎のレイアウトなどの違いの検出に有効であることを確認した。
本研究ではさらに、抽出対象を論文のタイトルページだけでなく全文に拡張し、学術論文のテキストデータから、参考文献欄の書誌情報や図表などを自動抽出する方法を提案した。特に、参考文献文字列のテキストからCRFを用いて書誌情報を自動抽出する手法を提案し、複数の学術雑誌における抽出精度、確信度による抽出誤り検出性能、CRFの学習コストなどを評価した。
電子図書館における有望なサービスとしては、論文から抽出した専門用語を利用して、ユーザの閲覧論文と関連がありかつ重要な論文のリストを推薦するシステムを提案した。また近年急速に普及している電子書籍閲覧端末によるオンラインでの学術論文閲覧支援方法を提案した。

  • 研究成果

    (7件)

すべて 2014

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (5件)

  • [雑誌論文] Rule management for information extraction from title pages of academic papers2014

    • 著者名/発表者名
      Atsuhiro Takasu and Manabu Ohta
    • 雑誌名

      Proc. of Third International Conference on Pattern Recognition Applications and Methods (ICPRAM 2014)

      巻: - ページ: 438-444

    • DOI

      10.5220/0004827204380444

    • 査読あり
  • [雑誌論文] Empirical evaluation of CRF-based bibliography extraction from reference strings2014

    • 著者名/発表者名
      Manabu Ohta, Daiki Arauchi, Atsuhiro Takasu, and Jun Adachi
    • 雑誌名

      Proc. of 11th IAPR International Workshop on Document Analysis Systems (DAS 2014)

      巻: - ページ: 287-292

    • 査読あり
  • [学会発表] CRFによる学術論文からの実験情報抽出の一手法2014

    • 著者名/発表者名
      平井 久貴, 新妻 弘崇, 太田 学
    • 学会等名
      電子情報通信学会2014年総合大会, 情報・システムソサイエティ特別企画学生ポスターセッション
    • 発表場所
      新潟大学(新潟)
    • 年月日
      20140318-20140320
  • [学会発表] 学術論文閲覧支援インタフェースの試作2014

    • 著者名/発表者名
      前野 明子, 太田 学, 高須 淳宏
    • 学会等名
      第6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)
    • 発表場所
      淡路夢舞台&ウェスティン淡路(兵庫)
    • 年月日
      20140303-20140305
  • [学会発表] 学術論文からの構成要素抽出の一手法2014

    • 著者名/発表者名
      樫本 達矢, 太田 学, 高須 淳宏
    • 学会等名
      第6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)
    • 発表場所
      淡路夢舞台&ウェスティン淡路(兵庫)
    • 年月日
      20140303-20140305
  • [学会発表] CRFによる学術論文からの参考文献文字列の抽出2014

    • 著者名/発表者名
      石本 茜, 太田 学, 高須 淳宏, 安達 淳
    • 学会等名
      第6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)
    • 発表場所
      淡路夢舞台&ウェスティン淡路(兵庫)
    • 年月日
      20140303-20140305
  • [学会発表] CRFによる参考文献書誌情報抽出のための学習コストの削減2014

    • 著者名/発表者名
      川上 尚慶, 太田 学, 高須 淳宏, 安達 淳
    • 学会等名
      第6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)
    • 発表場所
      淡路夢舞台&ウェスティン淡路(兵庫)
    • 年月日
      20140303-20140305

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi