研究課題/領域番号 |
15700089
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 京都大学 (2005) 北陸先端科学技術大学院大学 (2003-2004) |
研究代表者 |
田島 敬史 京都大学, 情報学研究科, 助教授 (60283876)
|
研究期間 (年度) |
2003 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
2,900千円 (直接経費: 2,900千円)
2005年度: 800千円 (直接経費: 800千円)
2004年度: 800千円 (直接経費: 800千円)
2003年度: 1,300千円 (直接経費: 1,300千円)
|
キーワード | XML / データ圧縮 / 検索 / 問合せ / 組み込み環境 / クラスタリング / XPath / 問合わせ処理 / 領域計算量 / CD-ROM / DVD-ROM / 問い合わせ / 文法圧縮 |
研究概要 |
今年度は、これまでに研究を行ってきた、記憶容量の乏しい環境のもとで大規模XMLデータを扱うための圧縮ツールについてさらに研究を行った。われわれがこれまでに開発した圧縮ツールでは、大規模XMLデータを圧縮して保存し、その一部のみを検索によって抜き出して使用したい場合には、データ全体をいったん解凍してから検索をするのではなく、圧縮した状態のまま検索を行い、必要な部分のみを解凍することができる。これは、データを複数のコンテナと呼ばれる単位に分割して、コンテナ毎に圧縮することで実現される。このコンテナ分割を行う際、同時に抜き出して使用されることが多いデータはできるだけ同じコンテナに入れられるようにコンテナへの分割を行えば、検索時に解凍する必要があるコンテナの個数が減り、さらに効率が改善できる。このような、データの検索時に同時にアクセスされる可能性が高いデータ同士を一箇所に集めて保存する考え方は、従来のデータベース技術におけるディスク上へのデータの配置に関して、これまでに研究されており、データのクラスタリングと呼ばれる。そこで、今年度は、われわれは、このクラスタリングの手法をわれわれの圧縮ツールにも応用し、より効率のよい圧縮ツールを開発した。この手法では、データの圧縮時に、どのような検索がどの程度の頻度で行われるかの情報を与えると、この情報に基づいて、検索時に解凍される必要のあるコンテナ数の期待値が最小になるような、データのコンテナへの分割を行う。これにより、圧縮率は平均するとわずかに悪化するものの、検索時の効率が大きく向上した。
|