本研究ではTBを超えて増加し続ける世代管理システムやゲノムデータベース上の繰り返しの多い文書データを高速かつ省メモリに小さく圧縮しながら,その圧縮データ上でリアルタイムのキーワード検索可能な世界最小の作業領域の圧縮索引の開発を目指しています.本年度も引き続きデータ圧縮およびその圧縮索引への応用に関する以下の二つの成果を上げています.一つ目は文法圧縮と呼ばれるデータ圧縮の中で最高の圧縮率を達成する一方で,メモリ使用量が入力データの10倍近く必要なRePairのメモリ使用量を極限まで削減した,RePairの世界初のIn-Placeアルゴリズムの理論を完成させました.In-Placeアルゴリズムは入力データと定数領域のみのメモリ使用量だけで計算するアルゴリズムです.この成果は国際会議(PSC’20)および国際学術論文誌(Algorithms’20)に採択されています.二つ目は文法圧縮上で全てのデータを復元することなく,指定の位置の部分文字列の高速復元を圧縮データサイズのメモリ使用量で実行する研究です.実用的に59GBのゲノムデータに対して,既存の手法と同等のメモリ使用量を保ちつつ約3.6倍の高速化を果たしました.この成果は国際会議(SPIRE2020)に採択されています.以上のように最終年度もデータ圧縮と目指している圧縮索引の基盤技術に関して,それぞれ,国際会議および国際学術論文誌にて発表しています.
|