研究課題/領域番号 |
23K18466
|
研究機関 | 九州大学 |
研究代表者 |
稲永 俊介 九州大学, システム情報科学研究院, 教授 (60448404)
|
研究期間 (年度) |
2023-06-30 – 2026-03-31
|
キーワード | データ圧縮 / データ構造 / 文字列処理 / アルゴリズム |
研究実績の概要 |
いわゆるビッグデータの多くは,文字列(文字や記号の列)と見なすことができる.例えば,IoTやM2M通信によって蓄積されたサーバログ,あるいはGenbank等の配列データベースに蓄積された生物学的配列などは,大規模文字列データの代表的な例である.アルファベットΣ上の長さnの文字列Tに圧縮アルゴリズムCを適用した後の圧縮データサイズをC(T)と表す.Tを1文字編集して得られる任意の文字列をT'とおき,圧縮アルゴリズムCの最悪時感度(比)を,C(T')をC(T)で割った値の最大値とし,最悪時感度(差分)を C(T')からC(T)を減じた値の最大値と定める.長さnの文字列のほとんどは圧縮できない(ランダムな文字列は圧縮できない)ため,平均時ではなく最悪時の感度を評価する.感度は1からnまでの値をとり,感度が小さいほど優れている. 本年度は,RLBWT (run-length Burrows Wheeler Transform) と呼ばれる圧縮法について,1文字編集による感度(比)が log n に比例するインスタンスの拡張を与えた.従来の解析では,{a, b} からなる2進文字列(逆フィボナッチ列)に対して文字 b を先頭に加えた場合に限られていたが,同様の感度(比)を文字a, 文字c, および任意の位置で与える文字列の系列を与えた.さらに,√n に比例する感度(差分)を与える文字列の系列の発見にも成功した. 加えて,CDAWG (Compact Directed Acyclic Word Graph)と呼ばれるコンパクト索引構造について,先頭文字の編集による最悪時感度(比)の上界が2であることを示し,この上界と合致する下界を与える文字列の系列を示した.さらに,任意の位置における編集に対して,CDAWG の最悪時感度(比)が定数で抑えられることを証明した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
BWT (run-length Burrows Wheeler Transform) に基づく圧縮索引は,大規模配列データを取り扱うバイオインフォマティクス分野で実応用されている.その連長圧縮版である RLBWT について,本研究では1文字編集による感度(比)が log n に比例するインスタンスの拡張を与えた.従来の解析では,{a, b} からなる2進文字列(逆フィボナッチ列)に対して文字 b を先頭に加えた場合に限られていたが,同様の感度(比)を文字a, 文字c, および任意の位置で与える文字列の系列を与えた.さらに,√n に比例する感度(差分)を与える文字列の系列の発見にも成功した.このことは,RLBWT が感度の観点からは必ずしも優れていないことを示唆している. CDAWG は,最適時間でパターン照合可能な索引構造の中で最も省領域であり,近年では,RLBWT との深い関連が示されるなど,文字列処理分野で重要なデータ構造の1つである.この CDAWG に対して,先頭文字の編集による最悪時感度(比)の上界が2であることを示し,この上界と合致する下界を与える文字列の系列を示した.さらに,任意の位置における編集に対して,CDAWG の最悪時感度(比)が定数で抑えられることを証明した.特に,後者の結果は当初予想を超えるものであり,本結果の学術的・実用的意義は極めて高い.
|
今後の研究の推進方策 |
上記のように,重要な圧縮法と圧縮データ構造について,感度の非自明な上界・下界を与えることに成功している.今後も,感度と圧縮率の両立可能性に関する研究を推進していく.
|
次年度使用額が生じた理由 |
今年度は,圧縮アルゴリズムの感度に関する数理モデルの構築のための基礎理論の確立に専念したため,研究内容も数学的な理論研究が主となり,計算機実験等を用いた大規模実験を行う必要性が生じなかったため,次年度使用額が発生した. 次年度以降は,圧縮アルゴリズムの感度の理論値と,実データ上での実際値に関する比較を行うために,大規模な計算機実験を計画している.また,国内外の研究者と緊密に連携するための研究討議のための出張,および成果報告のための国際会議参加,国内研究会参加を計画している.
|