研究概要 |
これまでに開発してきた簡潔データ構造をライブラリとして公開した.このライブラリは,ビット列,文字列を格納するデータ構造,文字列の検索を行うための圧縮接尾辞配列,圧縮接尾辞木の簡潔データ構造を含む.また,メモリに収まらない大きさの接尾辞配列を構築する2つのプログラムを公開した.1つは文字列のBW変換がメモリに収まるが接尾辞配列はメモリに収まらない場合に,BW変換を高速に実行するもので,もう1つは文字列のBW変換もメモリに収まらない場合にディスクを使って変換を行うものである.後者のプログラムを用いて,日本の特許5年分の全文書約110ギガバイトに対する圧縮接尾辞配列を構築することに成功した.接尾辞配列のサイズは680ギガバイトだが,これを圧縮した圧縮接尾辞配列のサイズは約22ギガバイトとなり,大幅な圧縮を達成した. また,文字列を文法圧縮するアルゴリズムを開発した.これにより,類似文字列が大量にある場合に高い圧縮率を達成することができる.さらに,高速復元可能な接尾辞配列圧縮法を開発した.これは圧縮接尾辞配列よりも圧縮率は悪いが,復元は高速である.
|