研究課題/領域番号 |
18K18102
|
研究機関 | 東京大学 |
研究代表者 |
伝住 周平 東京大学, 大学院情報理工学系研究科, 助教 (90755729)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | データ構造 / 圧縮 / 決定図 / ゼロサプレス型二分決定図 / 項分岐決定図 / 簡潔データ構造 / 集合族 / 文字列集合 |
研究実績の概要 |
巨大なデータを予め圧縮して小さくしてから処理することで計算時間や計算資源の劇的な削減を実現する圧縮表現上での計算技術の開発を目的とし以下のような研究を行った.特に系列二分決定グラフというデータ構造を主要な対象とする.系列二分決定グラフは指数的な数の文字列を圧縮して表現可能で,文字列集合同士の多様な演算をサポートするデータ構造である. 論理関数を表現する二分決定グラフの一般化である項分岐二分決定グラフの技法を系列二分決定グラフに適用することで,文字列集合を表す項分岐二分決定グラフという新しいデータ構造を提案した.項分岐二分決定グラフは決定性有限オートマトンと同様のデータ構造である系列二分決定グラフを一般化したデータ構造であるが,同じ文字列集合を系列二分決定グラフよりも指数的に小さく表現できる場合がある.さらに,項分岐二分決定グラフによって表される文字列集合を操作するためのアルゴリズムも提案した.これらのアルゴリズムにより項分岐二分決定グラフによって圧縮表現された文字列表現を展開することなく和集合,積集合,連接を計算することができる.また,提案アルゴリズムの空間計算量と時間計算量の解析を行った. 組合せ集合を効率良く表現するゼロサプレス型二分決定グラフ,それを更新するための演算が必要ない場合により簡潔な表現を実現する密集ゼロサプレス型二分決定グラフに対する新たなアルゴリズムを提案した.これにより組合せ集合からランダムに組合せを取り出すランダムサンプリングを従来のゼロサプレス型二分決定グラフより高速に行うことが可能になった.また,密集ゼロサプレス型二分決定グラフの有効性を実験により示した.この技法は系列二分決定グラフにも適用できる. 上記の成果により,系列二分決定グラフより更にコンパクトなサイズで大規模な文字列集合を圧縮したまま,かつより高速に処理することが可能なデータ構造を実現した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
現在までの成果として,系列二分決定グラフの一般化として項分岐系列決定グラフを提案することができた.このデータ構造はある種の文字列集合を系列二分決定グラフよりも指数的に小さく表現できる.既存研究であるゼロサプレス型項分岐決定グラフから継承した基本的な集合演算に加え,文字列集合ならではの連接演算も備えている.さらに,項分岐系列決定グラフは系列二分決定グラフと比べて最良の場合で指数倍小さくなるが,最悪の場合でも多項式倍しか大きくならないことを証明した.また,以前に提案した密集ゼロサプレス型二分決定グラフ上での新たなアルゴリズムを提案しその有用性を高めることができた. 本研究の目的は巨大なデータを予め圧縮して小さくしてから処理することで計算時間や計算資源の劇的な削減を実現する圧縮表現上での計算技術の開発であり,上記の成果はそれを実現するものであるため本研究課題はおおむね順調に進展していると判断する.
|
今後の研究の推進方策 |
引き続き既存の文字列圧縮に関する情報を収集し,系列二分決定グラフを圧縮するのに適当な手法を模索する.系列二分決定グラフは検索速度に難があるため,調査した手法の中でも特に圧縮後の索引上での検索を高速化できそうなものに注目する.系列二分決定グラフは有向非巡回グラフであるが,有向非巡回グラフを対象とする既存のアルゴリズムのうち,圧縮後のグラフ上でも従来以上の性能で実行可能なものが存在するかどうか,そのための条件は何かを調査する. 項分岐系列決定グラフを改良しさらなる省空間化を目指す.項分岐系列決定グラフをさらに圧縮するために適用できる文字列圧縮の技法も並行して調査する.基本的な文字列集合演算だけではなくより高度な演算を項分岐系列決定グラフ上で実現するアルゴリズムを開発する.また,密集ゼロサプレス型二分決定グラフの空間使用量削減技術及び検索高速化技術を項分岐系列決定グラフに導入可能かどうか検討する.
|