2019 Fiscal Year Research-status Report
圧縮索引と文字列圧縮の組合せによる大規模データ高速情報処理技術
Project/Area Number |
18K18102
|
Research Institution | The University of Tokyo |
Principal Investigator |
伝住 周平 東京大学, 大学院情報理工学系研究科, 助教 (90755729)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | データ構造 / 文字列 / 索引 / 圧縮 / 系列二分決定グラフ / 文字列集合演算 / ゼロサプレス型二分決定グラフ / オンライン圧縮 |
Outline of Annual Research Achievements |
巨大なデータを予め圧縮してから処理することで計算資源を劇的に削減するための圧縮表現上での計算技術の開発を目的とし以下のような研究を行った.特に二分決定グラフというデータ構造の一群を主要な対象とした.二分決定グラフは離散構造を圧縮して表現し,その表現対象同士の演算もサポートするデータ構造である.ゼロサプレス型二分決定グラフは組合せ集合を表現し,その変種である系列二分決定グラフは文字列集合を表す. 文字列は繰り返し可能な要素が一列に並ぶもので,組合せと比べてより複雑である.系列二分決定グラフはゼロサプレス型二分決定グラフから継承した集合演算を有してはいるが,文字列処理に際し要求される多様な操作を実現するには不十分であった.そこで50を超える新たな系列二分決定グラフ操作アルゴリズムとともに,その時間・空間計算量の解析を行った結果を文字列集合を操作するオートマトンの専門家が集まる国際会議CIAA2019で発表した. 二分決定グラフは離散データを指数的に圧縮できる場合があるといえど,巨大なデータに対してはそれでもメモリに収まらないことがある.しかし,情報論的には可逆圧縮では指数的に圧縮することが限界である.そこで,ゼロサプレス型二分決定グラフにあえて本来は含まれない組合せをある程度追加することでデータ構造のメモリ使用量を大幅に削減する技術を開発した.本来の組合せ集合との差異は新たに挿入された誤った組合せのみであるため,得られるデータ構造は偽陽性を許容した索引として利用可能である.特に,ある組合せが本来の要素であるか容易に確かめることができる場合に効力を発揮する.さらに,元のゼロサプレス型二分決定グラフを構築しながらこの圧縮を実行するオンライン手法も実現した.この技術は部分的に系列二分決定グラフにも適用可能である.本成果は実用的なアルゴリズムの国際会議であるSEA^2 2019で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までの成果として,系列二分決定グラフを用いて表現した文字列集合を圧縮したまま操作する演算を豊富に用意し,その成果を発表することができた.たとえデータを非常に小さく圧縮できたとしてもその上で可能なことが検索や単純な集合演算だけでは不十分であった.しかし,圧縮したまま実現可能な操作が多様に存在することでデータ構造としての利点が大きく向上した.また処理系として広く受け入れられるために重要な点であるが,実装できる各種演算を広く公表することで文字列集合の処理系としての系列二分決定グラフの価値を高めることができた. また,誤りとして偽陽性のみを許容した近似的なゼロサプレス型二分決定グラフの構築手法を開発した.最適化問題や何らかの制約を満たすものを全て求める列挙問題においてはその解の数が膨大なものになる事態が頻発する.それは理論的に最高の圧縮を実現できたとしても計算機のメモリに入りきらないほど大きくなる場合があり,そういった状況にも対処できるような方策が待ち望まれていた.この成果では与えられたゼロサプレス型二分決定グラフに本来は含まれない組合せを挿入するという目的からすると一見直感に反する方法を用いてグラフとしてのサイズの削減を実現している.さらに元のゼロサプレス型二分決定グラフの構築と並行してこの圧縮を適用する技術を開発できたため,既存の手法ではメモリ上で扱えなかったような巨大なデータを近似的に扱う方法を確立することができた.生成されるデータ構造は従来のゼロサプレス型二分決定グラフと同じアルゴリズムで検索や操作演算することができる.この手法は他の二分決定グラフの仲間にも応用可能である. 上記の成果は巨大なデータを予め圧縮して小さくしてから処理することで計算時間や計算資源の劇的な削減を実現する圧縮表現上での計算技術の実現に有用であるため,本研究課題はおおむね順調に進展していると判断する.
|
Strategy for Future Research Activity |
引き続き既存の文字列圧縮に関する情報を収集し,系列二分決定グラフを圧縮するのに適当な手法を模索する.前年度の成果として系列二分決定グラフの一般化でありさらなる圧縮を可能にする場合がある項分岐系列決定グラフを提案したが,それをより一層コンパクトにするための技術を開発するべく関連データ構造を調べて研究を進めていく.特に,ある観点からは等価とみなせるような部分構造を探してそれらを一つにまとめることで空間計算量を削減する方法を試みる.さらに今年度の成果である系列二分決定グラフに対する多様な操作演算を発展させ,それらのうちいずれが項分岐系列決定グラフ上でも実現可能かを考察し自然に実行できるアルゴリズムを書き下す. また,過去に提案した密集型ゼロサプレス型のように簡潔データ構造を用いた省領域な二分決定グラフの構成方法を検討する.簡潔データ構造とは対象を情報論的下限のメモリ使用量で表現するデータ構造である.具体的な方針としては,木構造を圧縮するための既存手法を発展させて系列二分決定グラフを圧縮する手法の作成を目指す.系列二分決定グラフを含む二分決定グラフはいずれも巡回のない有向グラフとみなせるため,これを実現することができれば一般の非巡回有向グラフを圧縮するための汎用性の高い技法となることが予想される.それと項分岐系列決定グラフを融合させることでさらなるメモリ使用量削減を目指すこともできる. 他にも今年度と同様に,系列二分決定グラフの検索速度を改善するために圧縮後の索引上での検索を高速化できそうな手法に注目した文献調査を行う.有向非巡回グラフを対象とする既存のアルゴリズムのうち,圧縮後のグラフ上でも従来と同等かそれ以上の性能で実行可能なものが存在するかどうか,そのために満たすべき条件は何かを分析する.項分岐系列決定グラフをさらに圧縮するために適用できそうな文字列圧縮の技法も並行して調査する.
|
Research Products
(2 results)