繰り返しを多く含む文書データはTBを超えて,今なお増加し続けている.本研究ではそのような増加し続ける巨大ストリームデータを圧縮サイズに比例した作業領域で高速に圧縮可能なデータ圧縮である文法圧縮及びORLBWTを開発した.また,その圧縮データ上で動作する様々な圧縮情報処理技術を開発した.当初の目的である巨大ストリームデータ上のリアルタイムキーワード検索可能な文法圧縮索引の開発には至らなかったが,ORLBWTの構築を実用的に高速化し,そのORLBWT上で動作する高速リアルタイムキーワード検索可能な圧縮索引[Bannai et al. TCS2020]への礎を築いた.
|