研究課題/領域番号 |
22K11907
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 九州工業大学 |
研究代表者 |
井 智弘 九州工業大学, 大学院情報工学研究院, 准教授 (20773360)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | データ圧縮 / 圧縮性指標 / 圧縮データ処理 / 圧縮情報処理 |
研究開始時の研究の概要 |
近年,爆発的に増加している繰り返しを多く含むデータ(高度反復データ)の圧縮可能性を適切に捉えるための圧縮性指標の研究を行う.まず,複数の圧縮性指標の間に成り立つ関係性を明らかにし,圧縮データ処理アルゴリズムへの応用について研究する.
|
研究実績の概要 |
近年,計算機性能やセンシング技術の向上,通信ネットワークの発達などを背景に,計算機上のデータが爆発的に増加している.これらのデータを有効に保存・活用するためには圧縮技術の利用が不可欠だが,一般に可逆圧縮の限界として知られるシャノンの情報量は,繰り返しを多く含むデータの圧縮可能性を適切に捉えられていない.例えば,同一種のDNA配列は個体間で数パーセントの差異しかないため,共通する部分配列を参照しあうことで大幅な圧縮が可能になるが,各塩基の頻度情報のみを利用するエントロピー符号ではほとんど圧縮することができない.近年,このような繰り返しを多く含む高度反復データを対象とした圧縮手法が盛んに研究されている.本研究では,高度反復データが有する圧縮可能性を適切に捉える圧縮性指標に関する研究および圧縮情報処理技術への応用に関する研究を行う. 2022年度は,連長圧縮された文字列上で文字列複雑度に基づいた圧縮性指標を効率的に計算する手法について研究を行い,成果をまとめた論文はInternational Symposium on String Processing and Information Retrieval (SPIRE) 2022に採択され発表を行った.現在まで様々な圧縮性指標が提案されているが,文字列複雑度に基づいた圧縮性指標は,効率的に計算できる点,文字列の局所的な変化に対して頑健である点など多くの良い性質を持つ.さらに,文字列複雑度に基づいた圧縮性指標が分かると,そのサイズに基づいた索引構造が効率的に計算できることが知られている.今回の研究成果により,この索引構造がより効率的に構築できるようになることが期待できる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究課題に対して成果が得られている.
|
今後の研究の推進方策 |
引き続き様々な圧縮性指標に関する諸問題に取り組む.
|