研究課題/領域番号 |
15300084
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報図書館学・人文社会情報学
|
研究機関 | 国立情報学研究所 |
研究代表者 |
高須 淳宏 国立情報学研究所, 実証研究センター, 教授 (90216648)
|
研究分担者 |
安達 淳 国立情報学研究所, ソフトウェア研究系, 教授 (80143551)
大山 敬三 国立情報学研究所, 人間・社会情報研究系, 教授 (90177022)
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
|
研究期間 (年度) |
2003 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
13,300千円 (直接経費: 13,300千円)
2005年度: 3,100千円 (直接経費: 3,100千円)
2004年度: 5,300千円 (直接経費: 5,300千円)
2003年度: 4,900千円 (直接経費: 4,900千円)
|
キーワード | 電子図書館 / 書誌マッチング / レコードリンケージ / 文書画像解析 / 近似文字列マッチング / 情報抽出 |
研究概要 |
本研究は、書誌統合を行うための書誌データモデルの構築、OCR処理された文書も含めた多様な情報源から得られる書誌情報の解析法の開発、メディアに依存しないロバストな書誌マッチングアルゴリズムの開発、統合された書誌データベースへの効率良いアクセス法の開発を目的としている。主な研究成果は下記のとおりである。 (1)書誌データモデルの構築に関しては、複数分野の参考文献文字列を解析して、その文法を記述するための統計モデルを提案した。この統計モデルは隠れマルコフを拡張した統計的なモデルで、参考文献文字列の構文規則とデータベース間やOCRの認識誤りによって生じる表記の揺れをモデル化することが可能になっている。本年度は、国立情報学研究所が所有する書誌データベースと文献画像から抽出した参考文献領域に対してOCRを適用して得られる参考文献文字列との照合を試み、90%程度の精度の参考文献文字列の解析と95%程度のマッチング精度を実現できることを確認した。 (2)書誌データベースのインデキシングについては、書誌レコードの高速近似検索のためのインデクス構造の研究を進めた。この研究では、参考文献文字列中に現れる部分文字列の頻出パターンに基づいてインデクス文字列を切り出し、部分文字列を共有する類似の参考文献文字列のクラスタを高速に作成する方法を提案した。 (3)書誌情報の収集に関しては、自律度の高い分散処理システムであるP2Pシステムを用いた情報収集法に関する研究を行った。この研究では、書誌データを有するノード間で、書誌データを効率よく交換するための分散インデキシング法の提案を行った。提案手法は、比較的に密に接続されたノードのグループをネットワーク全体のアクセス状況に応じて動的に構成するところに特徴があり、これによって、ネットワーク全体のトラフィックを抑えつつ、必要なインデックスをノード間に効果的に伝播させることが可能になった。
|