2023 Fiscal Year Research-status Report
高度反復データに対する圧縮性指標の研究と圧縮情報処理への応用
Project/Area Number |
22K11907
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | データ圧縮 / 圧縮性指標 |
Outline of Annual Research Achievements |
近年,計算機性能やセンシング技術の向上,通信ネットワークの発達などを背景に,計算機上のデータが爆発的に増加している.これらのデータを有効に保存・活用するためには圧縮技術の利用が不可欠だが,一般に可逆圧縮の限界として知られるシャノンの情報量は,繰り返しを多く含むデータの圧縮可能性を適切に捉えられていない.例えば,同一種のDNA配列は個体間で数パーセントの差異しかないため,共通する部分配列を参照しあうことで大幅な圧縮が可能になるが,各塩基の頻度情報のみを利用するエントロピー符号ではほとんど圧縮することができない.近年,このような繰り返しを多く含む高度反復データを対象とした圧縮手法が盛んに研究されている.本研究では,高度反復データが有する圧縮可能性を適切に捉える圧縮性指標に関する研究および圧縮情報処理技術への応用に関する研究を行う. 2023年度は,数ある圧縮手法の中でRun-length Straight-line Program (RLSLP)とCollage Systemに着目して研究を行なった.本研究では,与えられた文字列に対して,最小RLSLPのサイズや最小Collage Systemのサイズを計算することがNP困難であることを証明した.この成果により,一般に大きな文字列データに対して最小RLSLPや最小Collage Systemを計算する効率的なアルゴリズムを望むことができないことが判明したが,小さな文字列データに対してでも現実的な時間で計算することができれば,これらの圧縮性指標をより深く理解するために助けになる.そこで,本研究では,最小RLSLPをMAX-SATソルバーを用いて計算する手法を提案した.これらの成果をまとめた論文はData Compression Conference (DCC) 2024に採択され発表を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究課題に対して成果が得られている.
|
Strategy for Future Research Activity |
引き続き様々な圧縮性指標に関する諸問題に取り組む.
|
Causes of Carryover |
成果発表の出張の一つが2024年度にずれ込んだため,2024年度に使用する予定である.
|