• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

多様な情報源からの書誌情報の統合法に関する研究

研究課題

研究課題/領域番号 15300084
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 情報図書館学・人文社会情報学
研究機関国立情報学研究所

研究代表者

高須 淳宏  国立情報学研究所, 実証研究センター, 教授 (90216648)

研究分担者 安達 淳  国立情報学研究所, ソフトウェア研究系, 教授 (80143551)
大山 敬三  国立情報学研究所, 人間・社会情報研究系, 教授 (90177022)
相澤 彰子  国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
研究期間 (年度) 2003 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
13,300千円 (直接経費: 13,300千円)
2005年度: 3,100千円 (直接経費: 3,100千円)
2004年度: 5,300千円 (直接経費: 5,300千円)
2003年度: 4,900千円 (直接経費: 4,900千円)
キーワード電子図書館 / 書誌マッチング / レコードリンケージ / 文書画像解析 / 近似文字列マッチング / 情報抽出
研究概要

本研究は、書誌統合を行うための書誌データモデルの構築、OCR処理された文書も含めた多様な情報源から得られる書誌情報の解析法の開発、メディアに依存しないロバストな書誌マッチングアルゴリズムの開発、統合された書誌データベースへの効率良いアクセス法の開発を目的としている。主な研究成果は下記のとおりである。
(1)書誌データモデルの構築に関しては、複数分野の参考文献文字列を解析して、その文法を記述するための統計モデルを提案した。この統計モデルは隠れマルコフを拡張した統計的なモデルで、参考文献文字列の構文規則とデータベース間やOCRの認識誤りによって生じる表記の揺れをモデル化することが可能になっている。本年度は、国立情報学研究所が所有する書誌データベースと文献画像から抽出した参考文献領域に対してOCRを適用して得られる参考文献文字列との照合を試み、90%程度の精度の参考文献文字列の解析と95%程度のマッチング精度を実現できることを確認した。
(2)書誌データベースのインデキシングについては、書誌レコードの高速近似検索のためのインデクス構造の研究を進めた。この研究では、参考文献文字列中に現れる部分文字列の頻出パターンに基づいてインデクス文字列を切り出し、部分文字列を共有する類似の参考文献文字列のクラスタを高速に作成する方法を提案した。
(3)書誌情報の収集に関しては、自律度の高い分散処理システムであるP2Pシステムを用いた情報収集法に関する研究を行った。この研究では、書誌データを有するノード間で、書誌データを効率よく交換するための分散インデキシング法の提案を行った。提案手法は、比較的に密に接続されたノードのグループをネットワーク全体のアクセス状況に応じて動的に構成するところに特徴があり、これによって、ネットワーク全体のトラフィックを抑えつつ、必要なインデックスをノード間に効果的に伝播させることが可能になった。

報告書

(4件)
  • 2005 実績報告書   研究成果報告書概要
  • 2004 実績報告書
  • 2003 実績報告書
  • 研究成果

    (26件)

すべて 2005 2004 2003 その他

すべて 雑誌論文 (20件) 文献書誌 (6件)

  • [雑誌論文] レコード同定問題に関する研究の課題と現状2005

    • 著者名/発表者名
      相澤彰子, 大山敬三, 高須淳宏, 安達淳
    • 雑誌名

      電子情報通信学会論文誌 J88-D-1・2

      ページ: 576-589

    • NAID

      110003207354

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] A Sequential Labeling Method Using Syntactical and Textual Patterns for Record Linkage2005

    • 著者名/発表者名
      Atsuhiro Takasu
    • 雑誌名

      Lecture Notes in Computer Science LNCS 3686

      ページ: 801-83

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2005 実績報告書 2005 研究成果報告書概要
  • [雑誌論文] Techniques and Research Trends in Record Linkage Studies2005

    • 著者名/発表者名
      Aizawa, Takasu, Oyama, Adachi
    • 雑誌名

      The Transactions on the IEICE D-I(in Japanese) Vol.J88-D-I, No.2

      ページ: 576-589

    • NAID

      110003207354

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] A Sequential Labeling Method Using Syntactical and Textual Patterns for Record Linkage2005

    • 著者名/発表者名
      Atsuhiro Takasu
    • 雑誌名

      Lecture Notes in computer Vol.LNCS3686,

      ページ: 199-208

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] Bibliographic Component Extraction from References Based on a Text Recognition Error Model2005

    • 著者名/発表者名
      Atsuhiro Takasu, Kenro Aihara
    • 雑誌名

      Systems and Computers in Japan 36・7

      ページ: 1-12

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Adaptive Replication Method Based on Peer Behavior Pattern in Unstructured Peer-to-Peer Systems2005

    • 著者名/発表者名
      Yamada, Aihara, Takasu, Adachi
    • 雑誌名

      International Special Workshop on Databases for Next Generation Researchers

      ページ: 80-83

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Link-Based Clustering for Finding Subrelevant Web Pages2005

    • 著者名/発表者名
      Masada, Takasu, Adachi
    • 雑誌名

      International Workshop on Web Document Analysis

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] レコード同定問題に関する研究の課題と現状2005

    • 著者名/発表者名
      相澤彰子, 大山敬三, 高須淳宏, 安達淳
    • 雑誌名

      電子情報通信学会論文誌 J88-D-I・2

      ページ: 576-589

    • NAID

      110003207354

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] A Topic-Based Index mechanism using Usefulness of Peers in Unstructured Peer-to-Peer Networks2005

    • 著者名/発表者名
      T.Yamada, K.Aihara, A.Takasu, J.Adachi
    • 雑誌名

      Proc. 23rd International Multi-Conference on Database and Applications

      ページ: 134-139

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] テキスト認識エラーモデルによる引用文献文字列からの書誌要素の抽出2004

    • 著者名/発表者名
      高須淳宏, 相原健郎
    • 雑誌名

      電子情報通信学会論文誌 J87-D-11・6

      ページ: 1298-1308

    • NAID

      110003171120

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] Bibliographic Component Extraction Using Support Vector Machines and Hidden Markov Models2004

    • 著者名/発表者名
      T.Okada, A.Takasu, J.Adachi
    • 雑誌名

      Proc.European Conf.Research and Advanced Technology for Digital Libraries

      ページ: 501-512

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] Peer-to-Peerシステム上での効率的なデータ配置による問い合わせ処理とロードバランスへの寄与2004

    • 著者名/発表者名
      山田太造, 相原健郎, 高須淳宏, 安達淳
    • 雑誌名

      情報処理学会論文誌データベース 45・SIG7

      ページ: 93-101

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2005 研究成果報告書概要 2004 実績報告書
  • [雑誌論文] Bibliographic Attribute Extraction from References Based on Text Recognit ion Error Model2004

    • 著者名/発表者名
      Atsuhiro Takasu, Kenro Aihara
    • 雑誌名

      The Transactions on the IEICE(in Japanese) Vol.J87-D-II, No.6

      ページ: 1298-1308

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] An Efficient Query Processing and Load-Balancing by Efficient Data Placement on Peer-to-peer Systems2004

    • 著者名/発表者名
      Yamada, Aihara, Takasu, Adachi
    • 雑誌名

      IPSJ Transactions on Databases(in Japanese) Vol.45, No.SIG 7

      ページ: 93-101

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] テキスト認識エラーモデルによる引用文献文字列からの書誌要素の抽出2004

    • 著者名/発表者名
      高須淳宏, 相原健郎
    • 雑誌名

      電子情報通信学会論文誌 J87-D-II・6

      ページ: 1298-1308

    • NAID

      110003171120

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Replica Placement for Effective Document Sharing Mechanisms in Peer-to=Peer Networks2004

    • 著者名/発表者名
      T.Yamada, K.Aihara, A.Takasu, J.Adachi
    • 雑誌名

      Proc.Intl.Conf. Internet and Multimedia Systems and Applications

      ページ: 144-149

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Bibliographic Component Extraction Using Support Vector Machines and Hidden Markov Models2004

    • 著者名/発表者名
      T.Okada, A.Takasu, J.Adachi
    • 雑誌名

      Proc. European Conf. Research and Advanced Technology for Digital Libraries

      ページ: 501-512

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Bibliographic Attribute Extraction from Erroneous References Based on a Statitical Model2003

    • 著者名/発表者名
      Atsuhiro Takasu
    • 雑誌名

      Proc. 3^rd ACM&IEEE Joint Conference on Digital Libraries

      ページ: 49-60

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] Bibliographic Attribute Extraction from Erroneous References Based on a Statistical Model2003

    • 著者名/発表者名
      Atsuhiro Takasu
    • 雑誌名

      Proc.3^<rd>, ACM & IEEE Joint Conference on Digital Libraries

      ページ: 49-60

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [雑誌論文] Bibliographic Component Extraction Using Support Vector Machines and Hidden Markov Models

    • 著者名/発表者名
      Okada, Takasu, Adachi
    • 雑誌名

      Proc.European Conf. on Research and Advanced Technology for Digital Libraries

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2005 研究成果報告書概要
  • [文献書誌] 高須淳宏, 相原健郎: "テキスト認識エラーモデルによる引用文献文字列からの書誌要素の抽出"電子情報通信学会論文誌. J87-D-II,6. (2004)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] 山田太造, 相原健郎, 高須淳宏, 安達淳: "Peer-to-peerシステム上での効率的なデータ配置による問い合わせ処理とロードバランシング"情報処理学会論文誌 データベース. TOD23. (2004)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] 相澤彰子, 高須淳宏, 大山敬三, 安達淳: "異種データベース間でのレコード照合に関する研究動向"NII Journal. No.8. 43-51 (2004)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Tomonari Masada, Atsuhiro Takasu, Jun Adachi: "Decomposing the Web Graph into Parameterized Connected Components"IEICE Transactions on Information and Systems. E87-D,2. 380-388 (2004)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Atsuhiro Takasu: "Bibliographic Attribute Extraction from Erroneous References Based on a Statitical Model"Proc.3^<rd> ACM & IEEE Joint Conference on Digital Libraries. 49-60 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Atsuhiro Takasu: "A Statistical Model for Flexible String Similarity"Proc.18^<th> International Joint Conference on Artificial Intelligence. 1420-1421 (2003)

    • 関連する報告書
      2003 実績報告書

URL: 

公開日: 2003-04-01   更新日: 2021-12-10  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi