2019 Fiscal Year Research-status Report
BW変換技術の深化による大規模データ処理基盤技術の開発
Project/Area Number |
19K20213
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | BW変換 / 圧縮変換 / 圧縮文字列処理 |
Outline of Annual Research Achievements |
BW変換は文字列中の各文字をその後ろに続く文字列(文脈)によってソートして得られる可逆変換である.それ自体では,文字を並べ替えただけなので圧縮になっていないが,文脈が似通っている文字を隣接する位置に配置することで同じ文字が連続しやすくなるため,連長圧縮などの単純な手法で圧縮することが可能となる.特に,高度反復文字列に対して,BW変換文字列の連長圧縮サイズは非常に小さくなり,データによっては数百分の一のサイズまで大幅に圧縮可能であることが知られている.BW変換は単に圧縮の前処理に止まらず,様々な文字列処理に応用されている.例えば,FerraginaとManziniはBW変換文字列を索引構造のように使えることを示し,文字列を簡潔な領域で保持しながら効率的なパターン照合機能を提供する簡潔データ構造を提案した.近年,BW変換文字列を連長圧縮した領域(RLBWT領域)で索引を実現するデータ構造(r-index)が提案された.本研究ではr-indexの実用性と逐次的な構築の速度を向上させる手法を提案し実装を行った.また,文法圧縮のスケーラビリティを改善する手法を提案した.文法圧縮は圧縮領域でのランダムアクセスがしやすいという利点があるため,RLBWT上での操作と併用することでより豊かな圧縮文字列処理が実現できる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
RLBWT上の索引に関する研究成果をまとめた論文が国際学術誌 Theoretical Computer Science に掲載された.また,RLBWT から LZ77 圧縮形式に変換する実用的なアルゴリズムの開発および実装に着手した.
|
Strategy for Future Research Activity |
RLBWT から LZ77 圧縮形式を含む他の圧縮形式に変換する実用的なアルゴリズムの開発および実装に着手する.
|
Causes of Carryover |
新型コロナウィルスの影響で予定していた出張がキャンセルされたため次年度使用額が生じた.オンラインで開催される会議に参加するために必要な設備購入に充てる.
|
Research Products
(5 results)
-
-
-
[Journal Article] Rpair: Rescaling RePair with Rsync2019
Author(s)
Travis Gagie, Tomohiro I, Giovanni Manzini, Gonzalo Navarro, Hiroshi Sakamoto, Yoshimasa Takabatake
-
Journal Title
Proc. 26th International Symposium on String Processing and Information Retrieval (SPIRE) 2019
Volume: -
Pages: 35-44
DOI
Peer Reviewed / Int'l Joint Research
-
-