• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実績報告書

機械学習による統合的書誌メタ情報編集システムの実装

研究課題

研究課題/領域番号 24300097
研究種目

基盤研究(B)

研究機関国立情報学研究所

研究代表者

安達 淳  国立情報学研究所, コンテンツ科学研究系, 教授 (80143551)

研究分担者 太田 学  岡山大学, 自然科学研究科, 准教授 (10326019)
研究期間 (年度) 2012-04-01 – 2015-03-31
キーワード書誌パージング / メタデータ / コーパス / CRF / 機関リポジトリ / テキストマイニング
研究概要

本研究は、統合的なメタ情報編集の環境として、電子文書の中からメタ情報を抽出し、その編集とともに他のデータベースと付き合わせて同定を精度良く行うためのシステムの実装を目指している。特に学術論文のような電子文書からメタ情報として書誌および引用文献情報を抽出し、書誌要素への分解なども行う。
平成24年度はまず、電子情報通信学会論文誌の和英文誌および情報処理学会論文誌の参考文献文字列コーパスをそれぞれ4千件以上作成した。次に、このコーパスを利用して書誌要素抽出等の実験を行った。具体的には、参考文献文字列のテキストをまずトークン列に変換し、条件付確率場(CRF, Conditional Random Field)を用いて各トークンに著者名、表題、雑誌名などの書誌要素ラベルを付与することで書誌要素を抽出した。さらに、書誌要素推定の困難さの指標である推定の確信度を定義し、確信度が低く推定が困難な参考文献文字列を自動検出した。電子情報通信学会和文論文誌のコーパスにおける実験では、全体の1/4程度に相当する確信度の低い参考文献文字列を人手で確認するプロセスを含めると、99%以上という高い抽出精度が実現できる見通しを得た。
また、論文タイトルページからCRFにより書誌要素を自動抽出し、その結果に参考文献文字列と同様に推定の確信度を定義して誤りを自動検出した。実験では、CRFによる書誌情報の自動抽出精度が約94%の情報処理学会論文誌と約96%の電子情報通信学会英文論文誌において、全体の約1割に相当する論文を人が確認すれば、最終的に目的とする99%の精度が実現可能であることを確認した。
統合的メタ情報編集環境のソフトウェアモジュール問のインタフェースについても検討した。例えば、開発中の書誌要素抽出器と既存の書誌情報同定器のインタフェースを設計し、それらが連携するプロトタイプの実装などを行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

平成24年度は、1万件程度の参考文献文字列コーパスの整備を予定していたが、3種類の学術論文誌の各1年分の論文から合計1万3千件以上のコーパスを作成し、実験等に活用した。
機械学習手法の一つであるCRFを利用して、学術論文の参考文献文字列およびタイトルページから、書誌情報を高精度に抽出する手法を提案した。平成24年度は、この自動抽出の高精度化を図るとともに、確信度を用いて抽出誤りを検出することで、抽出誤りに対する人手による修正コストが現実的かどうかを実験により検証した。これは、実用的なコストで誤りに対処できる柔軟なメタ情報編集システムの実現を、本研究が目指しているからである。その成果は良好であったため、国内外の学術雑誌や国際会議などで発表した。
また、統合的メタ情報編集環境の個々のモジュール間のインタフェースについても検討した。書誌要素抽出器と既存の書誌情報同定器のインタフェースなどを設計し、複数のモジュールが連携動作するプロトタイプをいくつか実装した。

今後の研究の推進方策

平成25年度は、PDFファイルを入力としてレイアウト解析を行うモジュール、レイアウト解析で得られる引用文献文字列をパージングして書誌要素を抽出するモジュールなどを作成する。また、既に研究代表者らが開発したサポートベクトルマシン(SVM)によるレコード同定システムのモジュールを結合し、既存の文字列編集のソフトウェアとも連携して動作するような統合的メタ情報編集環境システム(MWB)を作成する。個々の部品モジュールは、アルゴリズム開発の過程で整備する。一方、これらを有機的に結合しファイル等のデータを管理するためのシステムソフトウェアの開発作業を実施する。さらに、平成24年度に整備した参考文献文字列のコーパスを用いてアルゴリズムを磨くことにより、MWBのソフトウェア部品をデータ作成に活用して、正解データの判定作業を加速する予定である。

次年度の研究費の使用計画

当該助成金が発生したのは、主として研究分担者が学内業務のため平成24年度末に予定していた国際会議発表をとりやめたためである。よって当該助成金は、研究分担者が平成25年度における国際会議発表等の資金に充てる予定である。

  • 研究成果

    (7件)

すべて 2013 2012

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (3件)

  • [雑誌論文] A document analysis system for linking cross-document entities2012

    • 著者名/発表者名
      Manabu Ohta and Atsuhiro Takasu
    • 雑誌名

      Proc. of the Fourth International Conference on Creative Content Technologies (CONTENT 2012)

      ページ: 14-20

    • 査読あり
  • [雑誌論文] CRFによる学術論文タイトルページからの書誌情報抽出における誤り検出2012

    • 著者名/発表者名
      太田学, 井上諒平, 高須淳宏
    • 雑誌名

      日本データベース学会論文誌

      巻: 11 ページ: 37-42

    • 査読あり
  • [雑誌論文] Error detection of CRF-based bibliography extraction from reference strings2012

    • 著者名/発表者名
      Manabu Ohta, Daiki Arauchi, Atsuhiro Takasu, and Jun Adachi
    • 雑誌名

      Proc. of 14th International Conference on Asia-Pacific Digital Libraries (ICADL 2012)

      巻: LNCS 7634 ページ: 229-238

    • DOI

      10.1007/978-3-642-34752-8_29

    • 査読あり
  • [雑誌論文] Empirical evaluation of CRF-based bibliography extraction from research papers2012

    • 著者名/発表者名
      Manabu Ohta, Ryohei Inoue, and Atsuhiro Takasu
    • 雑誌名

      IADIS International Journal on Computer Science and Information Systems

      巻: 7 ページ: 18-31

    • 査読あり
  • [学会発表] データ工学に関する学術論文からの実験情報抽出の試み2013

    • 著者名/発表者名
      樫本達矢, 荒内大貴, 太田学
    • 学会等名
      電子情報通信学会2013年総合大会, 情報・システムソサイエティ特別企画学生ポスターセッション
    • 発表場所
      岐阜大学(岐阜)
    • 年月日
      20130319-20130321
  • [学会発表] 文献種類別に分類した参考文献文字列からの書誌情報抽出の一手法2013

    • 著者名/発表者名
      川上尚慶, 荒内大貴, 太田学, 高須淳宏, 安達淳
    • 学会等名
      第5回データ工学と情報マネジメントに関するフォーラム(DEIM 2013)
    • 発表場所
      ホテル華の湯(福島)
    • 年月日
      20130303-20130305
  • [学会発表] CRFによる和英文の参考文献文字列からの自動書誌要素抽出2012

    • 著者名/発表者名
      荒内大貴, 太田・学, 高須淳宏, 安達淳
    • 学会等名
      情報処理学会第156回データベースシステム研究発表会
    • 発表場所
      キャンパスプラザ京都(京都)
    • 年月日
      20121212-20121213

URL: 

公開日: 2014-07-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi