2021 Fiscal Year Research-status Report
BW変換技術の深化による大規模データ処理基盤技術の開発
Project/Area Number |
19K20213
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | データ圧縮 / 圧縮情報処理 |
Outline of Annual Research Achievements |
BW変換は文字列中の各文字をその後ろに続く文字列(文脈)によってソートして得られる可逆変換である.それ自体では,文字を並べ替えただけなので圧縮になっていないが,文脈が似通っている文字を隣接する位置に配置することになるため,同じ文字が連続しやすい文字列に変換される.従って,BW変換された文字列に対しては,連長圧縮などの単純な手法で圧縮することが可能となる.特に,長い共通部分文字列を多く含む高度反復文字列と呼ばれるデータ群に対して,BW変換文字列の連長圧縮サイズは非常に小さくなり,データによっては数百分の一のサイズまで大幅に圧縮可能であることが知られている.また,BW変換は単なる圧縮の前処理に止まらず,様々な文字列処理に応用されている.例えば,FerraginaとManziniはBW変換の性質を利用すると索引構造が設計できることを示し,文字列を簡潔な領域で保持しながら効率的なパターン照合機能を提供する簡潔データ構造を提案した.近年,BW変換文字列を連長圧縮した領域(RLBWT領域)で索引機能を実現するデータ構造(r-index)が提案され,RLBWT領域で様々な文字列処理を行うアルゴリズムの研究が盛んに行われている.本年度は,RLBWTからLZ77圧縮形式に変換する実用的なアルゴリズムを開発した.本成果をまとめた論文は Data Compression Conference 2022 に採択され発表を行った.LZ77は高い圧縮率を誇る辞書式圧縮手法でありその変種は広く一般の圧縮アルゴリズムとして利用されている.本研究の成果を使えば,RLBWTから圧縮したままLZ77に変換できるので,それぞれの圧縮手法の利点を最大限に活かすことが可能となる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究課題に対して成果が得られている.
|
Strategy for Future Research Activity |
引き続きRLBWTを含む様々な圧縮形式に関するアルゴリズムの開発および実装に取り組む.
|
Causes of Carryover |
参加を予定していた会議に遠隔で参加したため次年度使用額が発生した. 研究を推進するための計算機の購入にあてる.
|
Research Products
(2 results)