本研究は、今後大きな需要が予想される画像を中心とした学術情報データベースの構築法の研究を目的としている。この研究では、画像データベースの構築、管理、利用の各課題についての個別的な研究とこれらの要素技術を統合しシステムにまとめ上げる統合化技術についての研究を進めている。今年度は、3年間の研究期間の2年目にあたり、各要素技術の研究を進めるとともに、昨年度の研究成果の電子図書館システムへの応用を試みた。学術画像データベースを検索の観点から見た場合、テキスト情報が中心的な役割を果たす。特に本研究で対象としている学術文書に関しては、その画像データからテキスト情報を精度よく獲得するとともに、抽出されたテキスト情報を活用する技術が重要になる。テキストの獲得については、OCRの研究が勧められてきた。しかし、OCRで獲得された情報には必ず誤りが含まれるため、誤りを含んだテキストの検索技術が必要になる。本年度は、誤りを含んだテキストの検索手法として、確率モデルに基づいた近似検索手法の検討および、誤りを含んだ大量のテキストデータから効率良く情報を検索するための索引化技術について研究を行なった。基本的な考え方は、検索文字列のNグラムを用い、データベース中の文字列との近似マッチングを図るものである。テキスト情報の索引化も同様の考え方に基づいて行なった。一方、昨年度行なった書誌情報の近似マッチング手法に関しては、学術雑誌の目次画像データの解析技術と合わせて、電子図書館における書誌情報のハイパーテキストの自動構築システムへの応用を図り、手法の実用化に関する研究を進めた。
|