研究概要 |
本年度は,巨大なXMLデータを圧縮した状態で保存し,このデータに対して問い合わせを発行して必要な部分を抜き出したい場合に,全データを解凍することなく必要最小限の部分のみを解凍して問い合わせを処理できる圧縮形式の研究を行った.このような圧縮形式を用いることにより,大きなデータからごく小さい一部のデータを取り出したいような場合に,問い合わせ処理の計算コストを削減することができる.われわれの提案する圧縮形式は以下のような特徴を持つ. 1.木構造の情報と,葉中のテキストデータの情報を分離し,テキストデータの情報はさらにパスに応じて複数のデータコンテナに分類し,これらを別々に圧縮する.問い合わせ時には,まず木構造情報を解凍し,この上で問い合わせ処理を実行し,その上で必要になったデータコンテナのみを解凍する.これによつて,問い合わせ処理に全く関係ないデータコンテナは解凍せずに,問い合わせ処理が可能となる. 2.木構造情報の圧縮には,文法圧縮と呼ばれる手法を用いる.その理由は,多くのXMLデータの木構造はある文法に従ったような構造をしていることが多く,高い圧縮率が期待できるということと,解凍処理の際に,ある部分の解凍処理を途中まで計算した段階で,その部分は問い合わせの解にはなり得ないということを判定して,解凍処理の計算を最後までしなくてもすむ場合があるからである. 3.また,必要と判定されたデータコンテナについても,その全体を解凍せずに,必要な一部分のみを解凍できるように,データコンテナに対するインデックス情報を作成し,圧縮データ中に埋め込む.これにより,圧縮率は多少犠牲になるが,より少ない部分の解凍のみで,問い合わせが実行できるようになる.
|