• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

文書画像とウェブを活用した新しい電子図書館サービスに関する研究

研究課題

研究課題/領域番号 23700119
研究機関岡山大学

研究代表者

太田 学  岡山大学, 自然科学研究科, 准教授 (10326019)

キーワード電子図書館 / メタデータ / 情報抽出 / CRF / 文書画像 / 機関リポジトリ / ウェブ
研究概要

学術論文を蓄積する電子図書館では、論文タイトルページに書かれている重要な書誌要素を自動で判別する技術が求められる。そこで、論文タイトルページの文書画像をOCRでレイアウト解析し、その結果得られる各テキスト行がいずれの書誌要素に該当するか、条件付確率場(CRF)に基づき推定する方法を提案し、国内の複数の学術雑誌を対象に実験して評価した。本研究では、推定誤りに現実的に対処するため、人手による後処理コストの削減に取り組んだ。そこで、CRFが推定した書誌要素を解析し、書誌要素推定が困難な論文データを自動的に判別するための指標を提案した。提案指標により書誌要素推定が困難な論文を検出して、検出した論文のみを人手で修正する場合の、コストと精度を見積もった。評価実験の結果、CRFによる書誌要素推定精度が現状程度であれば、提案した方法によって推定結果の修正などの後処理コストが大幅に削減できる見通しを得た。
さらに、学術論文の参考文献文字列のテキストデータから、CRFを用いて書誌要素を自動抽出する手法を提案し、国内の複数の学術雑誌を対象に実験して評価した。本手法は、参考文献文字列のテキストをまずトークン列に変換し、CRFを用いて各トークンに著者名、表題、雑誌名などの書誌要素ラベルを付与することで書誌要素を抽出する。また論文タイトルページからの書誌要素抽出と同様に、書誌要素推定の困難さの指標である推定の確信度を定義し、確信度により推定が困難な参考文献文字列の自動検出も行った。実験において、電子情報通信学会論文誌の論文の参考文献文字列データから書誌要素を抽出し、確信度の低い参考文献文字列を検出した。その結果、全体の1/4程度に相当する確信度の低い参考文献文字列を人手で確認すれば、99%以上という高い抽出精度が保証できることを確認した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

電子図書館のための学術論文からの高精度書誌情報抽出では、CRFによる論文タイトルページの書誌要素推定に確信度を導入することで、書誌情報整備にかかる人的コストの削減が可能であることを示した。この意義は大きいが、当初計画していた様々な雑誌へ適用して汎用性を確認するという点では、3雑誌についての実験にとどまっており、さらなる検証が必要である。しかし今年度は、論文のタイトルページからだけでなく参考文献文字列からの書誌情報抽出と、確信度による抽出誤りの検出を提案した。この抽出精度は学術雑誌の種類によるばらつがあり改善の余地もあるが、論文のタイトルページの書誌情報抽出と同様の枠組みで抽出誤りの検出を行い、人手の修正コストについて評価することができた。その実験結果も、現実的な人手による後処理コストで、高精度の書誌要素抽出が実現可能であることを示唆している。一方、書誌情報データベース等を利用して抽出した論文を同定することや、その結果を利用してリンクを自動生成することなど、抽出した情報の活用については今後検討していきたい。
今年度は主に書誌情報抽出に関する研究成果について、国内外の学術雑誌や国際会議において発表した。

今後の研究の推進方策

平成24年度は、学術論文からの書誌情報抽出だけでなく、抽出した情報を活用した新しい電子図書館サービスについて検討する予定であったが、電子図書館の利便性向上のため、情報抽出の対象を論文タイトルページのみから参考文献欄を含む論文の全文に広げて実験を行った。このため、その研究成果発表と抽出した情報を活用した新サービスの検討を次年度に行う予定である。

次年度の研究費の使用計画

次年度の研究費は、国内外での研究成果発表のための費用や、学術論文から抽出した情報を活用した新サービスの検討のために必要な消耗品を購入するための経費等に充てる予定である。

  • 研究成果

    (7件)

すべて 2013 2012

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (3件)

  • [雑誌論文] Error detection of CRF-based bibliography extraction from reference strings2012

    • 著者名/発表者名
      Manabu Ohta, Daiki Arauchi, Atsuhiro Takasu, and Jun Adachi
    • 雑誌名

      Proc. of 14th International Conference on Asia-Pacific Digital Libraries (ICADL 2012)

      巻: LNCS 7634 ページ: 229-238

    • DOI

      10.1007/978-3-642-34752-8_29

    • 査読あり
  • [雑誌論文] A document analysis system for linking cross-document entities2012

    • 著者名/発表者名
      Manabu Ohta and Atsuhiro Takasu
    • 雑誌名

      Proc. of Fourth International Conference on Creative Content Technologies (CONTENT 2012)

      ページ: 14-20

    • URL

      http://www.thinkmind.org/index.php?view=article&articleid=content_2012_1_30_60066

    • 査読あり
  • [雑誌論文] CRFによる学術論文タイトルページからの書誌情報抽出における誤り検出2012

    • 著者名/発表者名
      太田 学, 井上 諒平, 高須 淳宏
    • 雑誌名

      日本データベース学会論文誌

      巻: 11 ページ: 37-42

    • 査読あり
  • [雑誌論文] Empirical evaluation of CRF-based bibliography extraction from research papers2012

    • 著者名/発表者名
      Manabu Ohta, Ryohei Inoue, and Atsuhiro Takasu
    • 雑誌名

      IADIS International Journal on Computer Science and Information Systems

      巻: 7 ページ: 18-31

    • 査読あり
  • [学会発表] データ工学に関する学術論文からの実験情報抽出の試み2013

    • 著者名/発表者名
      樫本 達矢, 荒内 大貴, 太田 学
    • 学会等名
      電子情報通信学会2013年総合大会, 情報・システムソサイエ ティ特別企画学生ポスターセッション
    • 発表場所
      岐阜大学(岐阜)
    • 年月日
      20130319-20130321
  • [学会発表] 文献種類別に分類した参考文献文字列からの書誌情報抽出の一手法2013

    • 著者名/発表者名
      川上 尚慶, 荒内 大貴, 太田 学, 高須 淳宏, 安達 淳
    • 学会等名
      第5回データ工学と情報マネジメントに関するフォーラム(DEIM 2013)
    • 発表場所
      ホテル華の湯(福島)
    • 年月日
      20130303-20130305
  • [学会発表] CRFによる和英文の参考文献文字列からの自動書誌要素抽出2012

    • 著者名/発表者名
      荒内 大貴, 太田 学, 高須 淳宏, 安達 淳
    • 学会等名
      情報処理学会第156回データベースシステム研究発表会
    • 発表場所
      キャンパスプラザ京都 (京都)
    • 年月日
      20121212-20121213

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi