インターネットのようなオープンな環境に散在するデータベースを対象とした情報統合システムの実現方法を検討した。オープン環境での多数のデータベースの全体を仮想的なデータベースと考え、各データベースはその一部を格納した不完全なデータベースと位置づける。また、各サイトではデータを圧縮したり異なった形式で格納しているので、そのような各種のデータをどのように高速検索するかも大きな課題である。例えば、サーチエンジンではデータを圧縮して格納装置を節約するとともに索引を用いて高速な検索を行っている。このような環境では圧縮効率と検索効率の両立が課題となる。広域環境や複雑なデータ形式に適したトランザクション管理も問題になる。 統合問合せ処理の基礎となる不完全データベースは既存のデータベースシステムを用いて実現可能である。このようなシステムの実現方法を実験システムの構築を行い検討した。また、散在する多量のテキスト情報の容量削減と検索効率の向上のための圧縮方式を検討し、二段階圧縮方式を検討した。この方式では索引を用いた圧縮と通常の圧縮を組み合わせることにより、従来の方式と比較し圧縮率を落とすことなく検索速度の向上が可能である。 二段階圧縮法を実装し検索時間と圧縮率の検討を行った。ファイル毎に索引を作成すると圧縮率が良くないため、一括した索引を作成することにより改良できることがわかった。また新聞や雑誌記事を対象とした評価を行い、符号長を可変とする圧縮法の改良を検討した。二段階圧縮法は既存の圧縮法と組み合わせて使用するが、組み合わせる圧縮法により圧縮率が大きく変化することも明らかになった。
|