• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

感度と圧縮率を両立するデータ圧縮法の創出とその限界解明

研究課題

研究課題/領域番号 23K18466
研究種目

挑戦的研究(萌芽)

配分区分基金
審査区分 中区分60:情報科学、情報工学およびその関連分野
研究機関九州大学

研究代表者

稲永 俊介  九州大学, システム情報科学研究院, 教授 (60448404)

研究期間 (年度) 2023-06-30 – 2026-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2025年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2024年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワードデータ圧縮 / データ構造 / 文字列処理 / アルゴリズム
研究開始時の研究の概要

データ圧縮は,ストレージひっ迫と通信コスト増加に対抗しうる基盤技術である.データ圧縮法の評価指標として,(1) 圧縮率 と (2) 圧縮・展開時間 が伝統的に用いられ,2000年代以降はデータを圧縮したまま検索する (3) 圧縮検索速度 も重要視されている.しかしながら,これら旧来の評価指標は,データの編集操作をまったく考慮できていない.そこで本課題では,データ圧縮法の第4の評価軸として,入力データに編集操作を加えた前後における圧縮サイズの増加量を指標とする (4) 圧縮感度 を提案する.そして,感度と圧縮率を両立する新たな圧縮法の創出に挑戦する.

研究実績の概要

いわゆるビッグデータの多くは,文字列(文字や記号の列)と見なすことができる.例えば,IoTやM2M通信によって蓄積されたサーバログ,あるいはGenbank等の配列データベースに蓄積された生物学的配列などは,大規模文字列データの代表的な例である.アルファベットΣ上の長さnの文字列Tに圧縮アルゴリズムCを適用した後の圧縮データサイズをC(T)と表す.Tを1文字編集して得られる任意の文字列をT'とおき,圧縮アルゴリズムCの最悪時感度(比)を,C(T')をC(T)で割った値の最大値とし,最悪時感度(差分)を C(T')からC(T)を減じた値の最大値と定める.長さnの文字列のほとんどは圧縮できない(ランダムな文字列は圧縮できない)ため,平均時ではなく最悪時の感度を評価する.感度は1からnまでの値をとり,感度が小さいほど優れている.
本年度は,RLBWT (run-length Burrows Wheeler Transform) と呼ばれる圧縮法について,1文字編集による感度(比)が log n に比例するインスタンスの拡張を与えた.従来の解析では,{a, b} からなる2進文字列(逆フィボナッチ列)に対して文字 b を先頭に加えた場合に限られていたが,同様の感度(比)を文字a, 文字c, および任意の位置で与える文字列の系列を与えた.さらに,√n に比例する感度(差分)を与える文字列の系列の発見にも成功した.
加えて,CDAWG (Compact Directed Acyclic Word Graph)と呼ばれるコンパクト索引構造について,先頭文字の編集による最悪時感度(比)の上界が2であることを示し,この上界と合致する下界を与える文字列の系列を示した.さらに,任意の位置における編集に対して,CDAWG の最悪時感度(比)が定数で抑えられることを証明した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

BWT (run-length Burrows Wheeler Transform) に基づく圧縮索引は,大規模配列データを取り扱うバイオインフォマティクス分野で実応用されている.その連長圧縮版である RLBWT について,本研究では1文字編集による感度(比)が log n に比例するインスタンスの拡張を与えた.従来の解析では,{a, b} からなる2進文字列(逆フィボナッチ列)に対して文字 b を先頭に加えた場合に限られていたが,同様の感度(比)を文字a, 文字c, および任意の位置で与える文字列の系列を与えた.さらに,√n に比例する感度(差分)を与える文字列の系列の発見にも成功した.このことは,RLBWT が感度の観点からは必ずしも優れていないことを示唆している.
CDAWG は,最適時間でパターン照合可能な索引構造の中で最も省領域であり,近年では,RLBWT との深い関連が示されるなど,文字列処理分野で重要なデータ構造の1つである.この CDAWG に対して,先頭文字の編集による最悪時感度(比)の上界が2であることを示し,この上界と合致する下界を与える文字列の系列を示した.さらに,任意の位置における編集に対して,CDAWG の最悪時感度(比)が定数で抑えられることを証明した.特に,後者の結果は当初予想を超えるものであり,本結果の学術的・実用的意義は極めて高い.

今後の研究の推進方策

上記のように,重要な圧縮法と圧縮データ構造について,感度の非自明な上界・下界を与えることに成功している.今後も,感度と圧縮率の両立可能性に関する研究を推進していく.

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (9件)

すべて 2024 2023 その他

すべて 国際共同研究 (2件) 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件) 学会発表 (5件) (うち国際学会 3件)

  • [国際共同研究] University of Verona/University of Palermo(イタリア)

    • 関連する報告書
      2023 実施状況報告書
  • [国際共同研究] University of Chile(チリ)

    • 関連する報告書
      2023 実施状況報告書
  • [雑誌論文] On Sensitivity of?Compact Directed Acyclic Word Graphs2023

    • 著者名/発表者名
      Hiroto Fujimaru, Yuto Nakashima, Shunsuke Inenaga
    • 雑誌名

      Proc. 14th International Conference on Words (WORDS 2023)

      巻: LNCS 13899 ページ: 168-180

    • DOI

      10.1007/978-3-031-33180-0_13

    • ISBN
      9783031331794, 9783031331800
    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Bit Catastrophes for the Burrows-Wheeler Transform2023

    • 著者名/発表者名
      Sara Giuliani, Shunsuke Inenaga, Zsuzsanna Liptak, Giuseppe Romana, Marinella Sciortino, and Cristian Urbina
    • 雑誌名

      Proc. 27th International Conference on Developments in Language Theory (DLT 2023)

      巻: LNCS 13911 ページ: 86-99

    • DOI

      10.1007/978-3-031-33264-7_8

    • ISBN
      9783031332630, 9783031332647
    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / 国際共著
  • [学会発表] Sensitivity of string compressors and repetitiveness measures2024

    • 著者名/発表者名
      Shunsuke Inenaga
    • 学会等名
      Sequences in London 2024
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] On Sensitivity of Compact Directed Acyclic Word Graphs2023

    • 著者名/発表者名
      Hiroto Fujimaru, Yuto Nakashima, and Shunsuke Inenaga
    • 学会等名
      WORDS 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] Bit catastrophes for the Burrows-Wheeler Transform2023

    • 著者名/発表者名
      Sara Giuliani, Shunsuke Inenaga, Zsuzsanna Liptak, Giuseppe Romana, Marinella Sciortino, and Cristian Urbina
    • 学会等名
      DLT 2023
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] CDAWGの左端編集厳密感度2023

    • 著者名/発表者名
      藤丸 大翔, 中島 祐人, 稲永 俊介
    • 学会等名
      2023年度 夏のLAシンポジウム
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] CDAWGの定数感度2023

    • 著者名/発表者名
      濱井 陸哉, 藤丸 大翔, 中島 祐人, 稲永 俊介
    • 学会等名
      2023年度 夏のLAシンポジウム
    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-07-04   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi