Project/Area Number |
23K18466
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 60:Information science, computer engineering, and related fields
|
Research Institution | Kyushu University |
Principal Investigator |
稲永 俊介 九州大学, システム情報科学研究院, 教授 (60448404)
|
Project Period (FY) |
2023-06-30 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2025: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2024: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2023: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | データ圧縮 / データ構造 / 文字列処理 / アルゴリズム |
Outline of Research at the Start |
データ圧縮は,ストレージひっ迫と通信コスト増加に対抗しうる基盤技術である.データ圧縮法の評価指標として,(1) 圧縮率 と (2) 圧縮・展開時間 が伝統的に用いられ,2000年代以降はデータを圧縮したまま検索する (3) 圧縮検索速度 も重要視されている.しかしながら,これら旧来の評価指標は,データの編集操作をまったく考慮できていない.そこで本課題では,データ圧縮法の第4の評価軸として,入力データに編集操作を加えた前後における圧縮サイズの増加量を指標とする (4) 圧縮感度 を提案する.そして,感度と圧縮率を両立する新たな圧縮法の創出に挑戦する.
|
Outline of Annual Research Achievements |
いわゆるビッグデータの多くは,文字列(文字や記号の列)と見なすことができる.例えば,IoTやM2M通信によって蓄積されたサーバログ,あるいはGenbank等の配列データベースに蓄積された生物学的配列などは,大規模文字列データの代表的な例である.アルファベットΣ上の長さnの文字列Tに圧縮アルゴリズムCを適用した後の圧縮データサイズをC(T)と表す.Tを1文字編集して得られる任意の文字列をT'とおき,圧縮アルゴリズムCの最悪時感度(比)を,C(T')をC(T)で割った値の最大値とし,最悪時感度(差分)を C(T')からC(T)を減じた値の最大値と定める.長さnの文字列のほとんどは圧縮できない(ランダムな文字列は圧縮できない)ため,平均時ではなく最悪時の感度を評価する.感度は1からnまでの値をとり,感度が小さいほど優れている. 本年度は,RLBWT (run-length Burrows Wheeler Transform) と呼ばれる圧縮法について,1文字編集による感度(比)が log n に比例するインスタンスの拡張を与えた.従来の解析では,{a, b} からなる2進文字列(逆フィボナッチ列)に対して文字 b を先頭に加えた場合に限られていたが,同様の感度(比)を文字a, 文字c, および任意の位置で与える文字列の系列を与えた.さらに,√n に比例する感度(差分)を与える文字列の系列の発見にも成功した. 加えて,CDAWG (Compact Directed Acyclic Word Graph)と呼ばれるコンパクト索引構造について,先頭文字の編集による最悪時感度(比)の上界が2であることを示し,この上界と合致する下界を与える文字列の系列を示した.さらに,任意の位置における編集に対して,CDAWG の最悪時感度(比)が定数で抑えられることを証明した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
BWT (run-length Burrows Wheeler Transform) に基づく圧縮索引は,大規模配列データを取り扱うバイオインフォマティクス分野で実応用されている.その連長圧縮版である RLBWT について,本研究では1文字編集による感度(比)が log n に比例するインスタンスの拡張を与えた.従来の解析では,{a, b} からなる2進文字列(逆フィボナッチ列)に対して文字 b を先頭に加えた場合に限られていたが,同様の感度(比)を文字a, 文字c, および任意の位置で与える文字列の系列を与えた.さらに,√n に比例する感度(差分)を与える文字列の系列の発見にも成功した.このことは,RLBWT が感度の観点からは必ずしも優れていないことを示唆している. CDAWG は,最適時間でパターン照合可能な索引構造の中で最も省領域であり,近年では,RLBWT との深い関連が示されるなど,文字列処理分野で重要なデータ構造の1つである.この CDAWG に対して,先頭文字の編集による最悪時感度(比)の上界が2であることを示し,この上界と合致する下界を与える文字列の系列を示した.さらに,任意の位置における編集に対して,CDAWG の最悪時感度(比)が定数で抑えられることを証明した.特に,後者の結果は当初予想を超えるものであり,本結果の学術的・実用的意義は極めて高い.
|
Strategy for Future Research Activity |
上記のように,重要な圧縮法と圧縮データ構造について,感度の非自明な上界・下界を与えることに成功している.今後も,感度と圧縮率の両立可能性に関する研究を推進していく.
|