2020 Fiscal Year Research-status Report
圧縮索引と文字列圧縮の組合せによる大規模データ高速情報処理技術
Project/Area Number |
18K18102
|
Research Institution | The University of Tokyo |
Principal Investigator |
伝住 周平 東京大学, 大学院情報理工学系研究科, 助教 (90755729)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | データ構造 / 圧縮 / 決定グラフ / ゼロサプレス型二分決定グラフ / 項分岐決定グラフ / 集合族 / 文字列 / anticover |
Outline of Annual Research Achievements |
当該年度においては3件の国際会議発表を行い,大規模なデータを圧縮して表しそのまま操作するための研究を実施した.文字列の性質に関する理論的な成果と,離散構造を表現するデータ構造である二分決定グラフの仲間をさらに発展させた構造を得ることができた.以下にそれぞれの発表の概要を記す. 1. 文字列xのk-anticoverとはxの長さkの相異なる部分文字列からなる集合であり,xの全ての位置をいずれかの部分文字列を高々1回使うことで被覆できるようなものである.文字列にk-anticoverが存在することは冗長性の無さを示し,計算生物学に応用が可能である.この論文では与えられた文字列にk-anticoverが存在するかどうか決定する問題がk≧3でNP完全であることを示し,k=2で多項式時間で解けると示した.また,指数時間で解を求めるアルゴリズムを提案した. 2. 項分岐決定グラフ(SDD)は二分決定グラフを一般化したデータ構造で論理関数を簡潔に正規形で表現し,解の数え上げや論理演算などの操作を行える.この論文では変数シフトSDD(VS-SDD)という更に簡潔な変種を提案した.VS-SDDはSDDより大きくなることはない上に指数関数的に小さくなりうることや,多数の演算がVS-SDDでも多項式時間実行可能と示した.実験においてもVS-SDDがSDDよりかなり小さくなることを確認した. 3. ゼロサプレス型二分決定グラフ(ZDD)は集合族を圧縮表現するデータ構造である.この論文はZDDをより省空間で表現するTop ZDDを提案した.Top ZDDは同一の部分グラフをまとめることでZDDを圧縮する.Top ZDD上の遷移がサイズの対数時間で行えることを示し,top ZDD のサイズがZDDより指数関数的に小さくなりうると示した.Top ZDDが実データに対しZDDより小さくなることを実験で確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までの成果として,本研究課題で目的とするところの大規模なデータを圧縮して処理するための技術の開発を進めることができた.文字列の圧縮に関する研究としては与えられた文字列に対しその冗長性を判断する指標の一つであるk-anticoverがあるかどうかを決定する問題が困難であることを証明した.この研究はUniversita di PisaとKing Saud University, King’s College Londonに所属する研究者らとの共同研究であり,これは2019年度にUniversita di Pisaに18日間滞在し集中的に議論を行い,また帰国後も遠隔で連絡を取り続けることで得られた国際的な研究体制による成果である.より省領域なデータ構造に関する研究においては従来の項分岐決定グラフに何の欠点も増やすことなくただ空間使用量を削減する新しいデータ構造を提案することができた.これにより理論的に指数的な圧縮が可能になる場合があるだけでなく,従来の項分岐決定グラフが備えていた多くの演算も元と同様かグラフの大きさに関連してより短い時間で実行可能になった.この成果は本研究課題の目的であるより高速な情報処理に役立つものである.さらに,ゼロサプレス型二分決定グラフにtop treeと呼ばれる木構造を圧縮して高速に扱う手法を適用することでより省領域で集合族を表現するデータ構造を実現した.この手法では与えられたゼロサプレス型二分決定グラフを指数的に圧縮できる場合が存在し,実データにおいても元より小さな領域で集合族を表すことができる.トレードオフとして節点間の遷移などが定数時間から対数時間に悪化してしまうのでアクセス頻度の少ないデータベースへの利用が有望である.上記のように,当該年度の成果は本研究課題の目指す内容に合致するものであるため本研究課題はおおむね順調に進展していると判断する.
|
Strategy for Future Research Activity |
これまでに得られた成果をさらに改善していく.まず,当該年度に得られたtop treeを用いたゼロサプレス型二分決定グラフの圧縮手法は二通りの発展方法があると考えられる.一つ目は圧縮する対象を各節点の出次数が2に決まっている二分決定グラフから一般の非巡回有向グラフに拡張するという方向性である.これによってより広い範囲のデータを圧縮表現するための手法として進化させられる可能性がある.二つ目は動的な更新に対応する方向性である.今回提案したデータ構造では与えられた静的なゼロサプレス型二分決定グラフを変換してより小さな表現にするというものであったため,このままではグラフに節点の追加などの更新があった際に対応できない.そこで動的なグラフの更新も行えるようなデータ構造に改良していく.加えて実データに関する実験を拡充し提案データ構造の有用性を確かめていく.他にもこれまでの二分決定グラフでは扱えなかったようなより高次の離散構造を表現するためのデータ構造の開発にも取り組む.従来は論理関数や集合族などの種類数が2の2のn乗で増加するものが主な対象であったが,集合族のさらに族や遺伝的有限集合といったより巨大なクラスを表現し操作する情報処理技術を開発する.二分決定グラフを基にこういった高次のクラスを取り扱うデータ構造を作り出し数理的に重要な諸概念をそのデータ構造上で列挙するアルゴリズムを考案する.また,引き続き既存の圧縮に関する情報を収集し二分決定グラフをより一層圧縮して省領域化するために有望な手法を調査するとともに,これまでの研究期間において未達成であったものがあればそれの完成を目指す.そして,大規模な実験を行い,本研究で提案した手法の性能を確認する.最終的に,これまでに研究成果として得られたアルゴリズムやデータ構造を実装し,ライブラリの形にして一般の人にも広く利用できるような状態にして公開する.
|
Causes of Carryover |
新型コロナウイルス感染症による影響のため研究打ち合わせや国内研究会,国際学会に参加するための旅費を当該年度に使用することができなかったため次年度使用額が生じた.これは遠隔での議論や発表をより円滑かつ充実したものにするための設備の増強等に使用する計画である.
|
-
-
-
-
[Presentation] Finding the Anticover of a String2020
Author(s)
Mai Alzamel, Alessio Conte, Shuhei Denzumi, Roberto Grossi, Costas S. Iliopoulos, Kazuhiro Kurita and Kunihiro Wasa
Organizer
The 31th Annual Symposium on Combinatorial Pattern Matching (CPM 2020), Leibniz International Proceedings in Informatics, Vol. 161, No. 2, pp. 1-11, Copenhagen, Denmark, June 17-19, 2020
Int'l Joint Research
-
-
[Presentation] Storing Set Families More Compactly with Top ZDDs2020
Author(s)
Kotaro Matsuda, Shuhei Denzumi and Kunihiko Sadakane
Organizer
The 18th Symposium on Experimental Algorithms (SEA 2020), Leibniz International Proceedings in Informatics, Vol. 160, No. 6, pp. 1-13, Catania, Italy (held online), June 16-18, 2020
Int'l Joint Research