研究課題
BW変換は文字列中の各文字をその後ろに続く文字列(文脈)によってソートして得られる可逆変換である.それ自体では,文字を並べ替えただけなので圧縮になっていないが,文脈が似通っている文字を隣接する位置に配置することで同じ文字が連続しやすくなるため,連長圧縮などの単純な手法で圧縮することが可能となる.特に,高度反復文字列に対して,BW変換文字列の連長圧縮サイズは非常に小さくなり,データによっては数百分の一のサイズまで大幅に圧縮可能であることが知られている.BW変換は単に圧縮の前処理に止まらず,様々な文字列処理に応用されている.例えば,FerraginaとManziniはBW変換文字列を索引構造のように使えることを示し,文字列を簡潔な領域で保持しながら効率的なパターン照合機能を提供する簡潔データ構造を提案した.近年,BW変換文字列を連長圧縮した領域(RLBWT領域)で索引を実現するデータ構造(r-index)が提案された.本年度は,文法圧縮上で高速なランダムアクセスを可能にする符号化手法を提案した.また,その手法とRLBWT上の操作を併用し大規模ゲノム解析を行う手法を提案した.
2: おおむね順調に進展している
研究課題に対して成果が得られている.
引き続きRLBWTを含む様々な圧縮形式に関するアルゴリズムの開発および実装に取り組む.
新型コロナウィルスの影響で旅費による支出が無くなったため次年度使用額が生じた.リモートでの議論を行うための物品費にあてる.
すべて 2021 2020
すべて 雑誌論文 (4件) (うち国際共著 3件、 査読あり 4件、 オープンアクセス 1件) 学会発表 (3件) (うち国際学会 3件)
Proc. Data Compression Conference (DCC) 2021
巻: - ページ: 193~202
ACM Transactions on Algorithms
巻: 16(4) ページ: 1~53
10.1145/3398681
Algorithms
巻: 14(1) ページ: 1~20
10.3390/a14010005
Proc. 27th International Symposium on String Processing and Information Retrieval (SPIRE) 2020
巻: - ページ: 221~231
10.1007/978-3-030-59212-7_16