2005 Fiscal Year Annual Research Report
Project/Area Number |
15300084
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, 実証研究センター, 教授 (90216648)
|
Co-Investigator(Kenkyū-buntansha) |
安達 淳 国立情報学研究所, ソフトウェア研究系, 教授 (80143551)
大山 敬三 国立情報学研究所, 人間・社会情報研究系, 教授 (90177022)
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
|
Keywords | 電子図書館 / 書誌マッチング / レコードリンケージ / 文書画像解析 / 近似文字列マッチング / 情報抽出 |
Research Abstract |
本研究は、書誌統合を行うための書誌データモデルの構築、OCR処理された文書も含めた多様な情報源から得られる書誌情報の解析法の開発、メディアに依存しないロバストな書誌マッチングアルゴリズムの開発、統合された書誌データベースへの効率良いアクセス法の開発を目的としている。本年度は、昨年度までの研究を発展させるとともに、研究成果に基づいて電子図書館のプロトタイプシステムの構築を行った。 本年度は、書誌統合の精度を高めるために、引用文字列を書誌要素に分割する構文解析手法の研究を中心に研究を進めた。引用文字列は、カンマ等の区切り記号によって著者やタイトル等の書誌要素に分解できる。本年度は、昨年度までに構築したモデルに基づいて、引用文字列パターンの学習を行う研究を進めた。また、その学習アルゴリズムに基づいて国立情報学研究所が所有する書誌データの解析を行い手法の有効性を確認した。 一方、書誌情報の収集に関しては、昨年度まで行ってきたP2Pシステムによる情報収集法に関する研究を行った。本年度は特にデータの複製に関する研究を行った。 さらにこれまでの研究で得られた、引用文字列の解析法、書誌マッチング法、分散情報収集法を用いて、国立情報学研究所が保有する論文情報を核とし、複数情報源から得られる書誌情報を統合した電子図書館システムのプロトタイピングを行った。
|
Research Products
(4 results)