インターネットのようなオープンな環境に散在する多数のサイトに存在するスキーマや意味の異なったデータベースを対象とした統合問合せ処理を不完全データベース概念の導入により実現する方法を検討する。不完全データベースの処理は「知りたいことを問合せ」「知っていることを答える」ことを原則とする。オープン環境での多数のデータベースの全体を仮想的なデータベースと考え、各データベースはその一部を格納した不完全なデータベースと位置づける。また、各サイトではデータを圧縮したり異なった形式で格納しているので、そのような各種のデータをどのように高速検索するかも大きな課題である。例えば、サーチエンジンではデータを圧縮して格納装置を節約するとともに索引を用いて高速な索引を行っている。このような環境では圧縮効率と検索効率の両立が固いとなる。広域環境や複雑なデータ形式に適したトランザクション管理も問題になる。 統合問合せ処理の基礎となる不完全データベースは既存のデータベースシステムを用いて実現可能である。このようなシステムのシステム構成と問合せ処理方法を検討し実験システムを構築した。実験システムでは統合問合せ処理方式の基本部分のみを実装し、それをもとに情報統合実現のための課題と統合システムの構成を検討した。また、散在する多量のテキスト情報の要領削減と検索効率の向上のための圧縮方式を検討し、二段階圧縮方式を提案した。この方式では索引を用いた圧縮と通常の圧縮を組み合わせることにより、従来の方式と比較し圧縮率を落とすことなく検索速度の向上が可能である。
|