高度反復データに対する圧縮性指標の研究と圧縮情報処理への応用

研究課題

研究課題/領域番号	22K11907
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60010:情報学基礎論関連
研究機関	九州工業大学
研究代表者	井智弘九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	データ圧縮 / 圧縮性指標 / 圧縮データ処理 / 圧縮情報処理
研究開始時の研究の概要	近年，爆発的に増加している繰り返しを多く含むデータ（高度反復データ）の圧縮可能性を適切に捉えるための圧縮性指標の研究を行う．まず，複数の圧縮性指標の間に成り立つ関係性を明らかにし，圧縮データ処理アルゴリズムへの応用について研究する．
研究実績の概要	近年，計算機性能やセンシング技術の向上，通信ネットワークの発達などを背景に，計算機上のデータが爆発的に増加している．これらのデータを有効に保存・活用するためには圧縮技術の利用が不可欠だが，一般に可逆圧縮の限界として知られるシャノンの情報量は，繰り返しを多く含むデータの圧縮可能性を適切に捉えられていない．例えば，同一種のDNA配列は個体間で数パーセントの差異しかないため，共通する部分配列を参照しあうことで大幅な圧縮が可能になるが，各塩基の頻度情報のみを利用するエントロピー符号ではほとんど圧縮することができない．近年，このような繰り返しを多く含む高度反復データを対象とした圧縮手法が盛んに研究されている．本研究では，高度反復データが有する圧縮可能性を適切に捉える圧縮性指標に関する研究および圧縮情報処理技術への応用に関する研究を行う． 2022年度は，連長圧縮された文字列上で文字列複雑度に基づいた圧縮性指標を効率的に計算する手法について研究を行い，成果をまとめた論文はInternational Symposium on String Processing and Information Retrieval (SPIRE) 2022に採択され発表を行った．現在まで様々な圧縮性指標が提案されているが，文字列複雑度に基づいた圧縮性指標は，効率的に計算できる点，文字列の局所的な変化に対して頑健である点など多くの良い性質を持つ．さらに，文字列複雑度に基づいた圧縮性指標が分かると，そのサイズに基づいた索引構造が効率的に計算できることが知られている．今回の研究成果により，この索引構造がより効率的に構築できるようになることが期待できる．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究課題に対して成果が得られている．
今後の研究の推進方策	引き続き様々な圧縮性指標に関する諸問題に取り組む．

報告書

(1件)

2022 実施状況報告書

研究成果

(2件)

すべて 2022

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件) (うち国際学会 1件)

[雑誌論文] Substring Complexities on Run-length Compressed Strings2022
- 著者名/発表者名
  Akiyoshi Kawamoto,Tomohiro I
- 雑誌名
  
  Proc. 29th International Symposium on String Processing and Information Retrieval (SPIRE) 2022
  
  巻: －ページ: 132-143
- DOI
  10.1007/978-3-031-20643-6_10
- ISBN
  9783031206429, 9783031206436
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[学会発表] Substring Complexities on Run-length Compressed Strings2022
- 著者名/発表者名
  Akiyoshi Kawamoto,Tomohiro I
- 学会等名
  29th International Symposium on String Processing and Information Retrieval (SPIRE) 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会

高度反復データに対する圧縮性指標の研究と圧縮情報処理への応用

研究代表者

井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Substring Complexities on Run-length Compressed Strings2022

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[学会発表] Substring Complexities on Run-length Compressed Strings2022

著者名/発表者名

学会等名

関連する報告書

井智弘九州工業大学, 大学院情報工学研究院, 准教授 (20773360)