2004 Fiscal Year Annual Research Report
Project/Area Number |
15300084
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 情報・システム研究機構 国立情報学研究所, 実証研究センター, 教授 (90216648)
|
Co-Investigator(Kenkyū-buntansha) |
安達 淳 情報・システム研究機構 国立情報学研究所, ソフトウェア研究系, 教授 (80143551)
大山 敬三 情報・システム研究機構 国立情報学研究所, 人間・社会情報研究系, 教授 (90177022)
相澤 彰子 情報・システム研究機構 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
|
Keywords | 電子図書館 / 書誌マッチング / レコードリンケージ / 文書画像解析 / 近似文字列マッチング / 情報抽出 |
Research Abstract |
本研究は、書誌統合を行うための書誌データモデルの構築、OCR処理された文書も含めた多様な情報源から得られる書誌情報の解析法の開発、メディアに依存しないロバストな書誌マッチングアルゴリズムの開発、統合された書誌データベースへの効率良いアクセス法の開発を目的としている。本年度は、昨年度考案した統計モデルを改良し引用文字列からの書誌項目抽出法の研究を行った。また、書誌データベース以外の情報源から書誌データを収集するための情報収集法の研究を行った。 書誌データモデルの改良に関しては、昨年度に考案した統計モデルを改良して、引用文字列から書誌項目を抽出する統計モデルを構築した。このモデルは、(1)区切り記号に基づいて引用文字列を分割し、(2)各セグメントに現れる単語に基づいて書誌要素の種類を推定するとともに、(3)統計モデルに記述されている構文情報を用いて分類精度を向上させる。この手法は、引用文字列に含まれるテキスト情報と引用文字列を構成する書誌項目の構文情報を同時に用いることによって、精度の高い情報抽出が可能になる点に特徴がある。本年度は、国立情報学研究所が所有する書誌データを用いて評価用データを構築し、この手法を適用したところ、98%程度の書誌項目抽出精度を達成した。 書誌情報の収集に関しては、自律度の高い分散処理システムであるP2Pシステムを用いた情報収集法に関する研究を行った。この研究では、書誌データを有するノード間で、書誌データを効率よく交換するための分散インデキシング法の提案を行った。提案手法は、比較的に密に接続されたノードのグループをネットワーク全体のアクセス状況に応じて動的に構成するところに特徴があり、これによって、ネットワーク全体のトラフィックを抑えつつ、必要なインデックスをノード間に効果的に伝播させることが可能になった。
|
Research Products
(6 results)