2003 Fiscal Year Annual Research Report
Project/Area Number |
15300084
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, 実証研究センター, 教授 (90216648)
|
Co-Investigator(Kenkyū-buntansha) |
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
大山 敬三 国立情報学研究所, 人間・社会情報研究系, 教授 (90177022)
安達 淳 国立情報学研究所, ソフトウェア研究系, 教授 (80143551)
|
Keywords | 電子図書館 / 書誌マッチング / レコードリンケージ / 文書画像解析 / 近似文字列マッチング / 情報抽出 |
Research Abstract |
本研究は、書誌統合を行うための書誌データモデルの構築、OCR処理された文書も含めた多様な情報源から得られる書誌情報の解析法の開発、メディアに依存しないロバストな書誌マッチングアルゴリズムの開発、統合書誌データベースの効率良いアクセス法の開発を目的としている。本年度は、書誌データを解析するためのデータモデルの構築と統合データベースのインデキシング法について研究を行い、書誌データベースの統合インデクスを構築することを目的として研究をスタートした。 書誌データモデルの構築に関しては、複数分野の参考文献文字列を解析して、その文法を記述するための統計モデルを提案した。この統計モデルは隠れマルコフを拡張した統計的なモデルで、参考文献文字列の構文規則とデータベース間やOCRの認識誤りによって生じる表記の揺れをモデル化することが可能になっている。本年度は、国立情報学研究所が所有する書誌データベースと文献画像から抽出した参考文献領域に対してOCRを適用して得られる参考文献文字列との照合を試み、90%程度の精度の参考文献文字列の解析と95%程度のマッチング精度を実現できることを確認した。 一方、書誌データベースのインデキシングについては、書誌レコードの高速近似検索のためのインデクス構造の研究を進めた。この研究では、参考文献文字列中に現れる部分文字列の頻出パターンに基づいてインデクス文字列を切り出し、部分文字列を共有する類似の参考文献文字列のクラスタを高速に作成する方法を提案した。クラスタ内の文献文字列に対して、より計算コストの高い近似文字列マッチングアルゴリズムを適用することによって、大規模データベースに対する精度の高いマッチング可能になる。
|
Research Products
(6 results)
-
[Publications] 高須淳宏, 相原健郎: "テキスト認識エラーモデルによる引用文献文字列からの書誌要素の抽出"電子情報通信学会論文誌. J87-D-II,6. (2004)
-
[Publications] 山田太造, 相原健郎, 高須淳宏, 安達淳: "Peer-to-peerシステム上での効率的なデータ配置による問い合わせ処理とロードバランシング"情報処理学会論文誌 データベース. TOD23. (2004)
-
[Publications] 相澤彰子, 高須淳宏, 大山敬三, 安達淳: "異種データベース間でのレコード照合に関する研究動向"NII Journal. No.8. 43-51 (2004)
-
[Publications] Tomonari Masada, Atsuhiro Takasu, Jun Adachi: "Decomposing the Web Graph into Parameterized Connected Components"IEICE Transactions on Information and Systems. E87-D,2. 380-388 (2004)
-
[Publications] Atsuhiro Takasu: "Bibliographic Attribute Extraction from Erroneous References Based on a Statitical Model"Proc.3^<rd> ACM & IEEE Joint Conference on Digital Libraries. 49-60 (2003)
-
[Publications] Atsuhiro Takasu: "A Statistical Model for Flexible String Similarity"Proc.18^<th> International Joint Conference on Artificial Intelligence. 1420-1421 (2003)