2015 Fiscal Year Annual Research Report
二分決定グラフに基く非巡回有向グラフ処理アルゴリズムの研究
Project/Area Number |
15H06101
|
Research Institution | The University of Tokyo |
Principal Investigator |
伝住 周平 東京大学, 情報理工学(系)研究科, 助教 (90755729)
|
Project Period (FY) |
2015-08-28 – 2017-03-31
|
Keywords | 非巡回有向グラフ / 二分決定グラフ / アルゴリズム / データ構造 / 圧縮処理 / 完結データ構造 / 二分木 / ランダム生成 |
Outline of Annual Research Achievements |
本研究の目的は,二分決定木に対して簡約化規則を適用することで得られる二分決定グラフ(Binary Decision Diagram; BDD)というデータ構造を用いて,大規模データベースを巡回の無い有向グラフとして効率良く保持し,圧縮したまま解析処理する手法を開発することである. 大規模データベースを巡回の無い有向グラフとして圧縮表現する手法の開発,BDDに基くデータベース解析処理アルゴリズムの効率化の研究,本基盤技術の実データへの応用と性能評価及び課題のフィードバックを実施する. 1. 複数の要素を含んでいるデータベースを非巡回有向グラフに変換する手法の開発について:既に文字列集合や組合せ集合に関しては系列二分決定グラフやゼロサプレス型二分決定グラフといったデータ構造があるので,その他の離散構造を表現するデータ構造を模索する.二分木の集合を表すグラフを開発している. 2. 非巡回有向グラフを簡潔データ構造の組合せで表現する方法の改良について:所属研究室の教授と氏の指導していた学生とともに,筆者が2014年に提案した密集ゼロサプレス型二分決定グラフ(DenseZDD)をさらに改良したデータ構造の研究を行った.これは通常のゼロサプレス型二分決定グラフと完結データ構造によって圧縮して表現したものを並行して扱うハイブリッド手法であり,この結果はその学生によって国際学会SEA 2016で発表される予定である. 3. 決められた節点数の非巡回有向グラフを一様ランダムに生成する手法の開発について:非巡回有向グラフを対象とするアルゴリズムの開発において悩ましい点は実験データの確保である.そこで与えられた節点数をもつグラフを一様ランダムに生成することができれば,アルゴリズムの性能実験も簡単かつスムーズに実施することができる.二分決定グラフは多分木のペアによって表現できるため,そのような多分木対が有効である条件を調査し,そのランダム生成手法を考察した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1. 複数の要素を含んでいるデータベースを非巡回有向グラフに変換する手法の開発について:二分木の集合をグラフで表現する方法として,二分決定グラフではなく三分や四分決定グラフを用いることを考えている.実現可能という感触を得てはいるが,共有節点が発生しづらく効率があまり良くなさそうであることから一層の改善に取り組んでいる. 2. 非巡回有向グラフを簡潔データ構造の組合せで表現する方法の改良について:結果がトップに近いレベルの国際会議に採択されとても良く進展している.従来は理論でしか言及されていなかったハイブリッド手法が実装され,その構築及び更新アルゴリズムの明示により計算量が示された. 3. 決められた節点数の非巡回有向グラフを一様ランダムに生成する手法の開発について:事前に予期されていた通り難しい課題であり地道に進展させている.非巡回有向グラフの生成を考えるために,まずよく見られる完全二分木のランダム生成の既存研究を調査した.その結果,順序有り二分木のランダム生成生成は線形時間で実現できるが,無順序となると節点数に対し三乗の時間計算量が必要なナイーブ手法しか存在しないことがわかった.そこで厳密ではないが実用的に十分な精度でn節点の無順序木をランダム生成するアルゴリズムを構成し,その時間計算量が最悪でnの二乗,平均でn log nに比例することを示した. 4. 京都大学の加藤直樹教授のCRESTでのビッグデータを非巡回有向グラフとする手法の研究について:応募者は加藤教授のビッグデータCRESTのメンバーとなっており,その中でも劣線形データ構造チームと呼ばれるグループに属している.非巡回有向グラフは場合によってはその節点数に対し指数的に大きなデータを表現できる点で劣線形データ構造である.このCRESTのメンバーとして定期的に開催される会議に参加し,他のメンバーと議論を交わすことで上記を含む研究の進展を図っている.
|
Strategy for Future Research Activity |
1.高速な検索を可能にする部分文字列索引の構築アルゴリズムを非巡回有向グラフ入力へ拡張:非巡回有向グラフによって圧縮表現されている文字列集合に含まれる全ての部分文字列を格納する索引を構築するアルゴリズムを研究する.単一文字列に対する同目的のアルゴリズムには優れたものが多数存在するので,それらの技法を参考にしつつグラフへと拡張することによって実現する. 2.複数の文字列が非巡回有向グラフで与えられた時の近似文字列照合アルゴリズムの研究:複数の文字列が与えられた時に,互いに似ているものを発見したい場合がある.既存手法としては,文字列のペアを全て試す手法や全体を一度に処理できる代わりに近似解となる手法があるが,本研究では非巡回有向グラフで文字列集合をまとめて処理しつつ厳密解を求める手法の開発を目指す.また,計算途中で得られた候補を抜け無く格納し計算することで最終的な最適解を見落とすことなく求める方法を提案する. 3.筑波大学の佐久間淳准教授と協力し二分決定グラフを用いた匿名性の検証技術の研究:二分決定グラフの指数的に大きな数のパターンをコンパクトに列挙できるという特性を活かして,プライバシーを守れているかどうか検証を行う手法を開発する.個人情報が記録されているデータベースに複数の質問を投げかけていくと特定の個人の情報を引き出せてしまう場合がある.そこで,あらゆるパターンの質問の組合せを二分決定グラフで圧縮表現し,どの組合せでも個人を一意に特定できないどうか検証する手法を開発する. 4.開発したアルゴリズムを大規模実装し公開:現在のところ二分決定グラフを扱うプログラムは複数公開されているが,多種の離散構造を同じ環境で扱えるものは限られており,非巡回有向グラフの処理を容易に行えるパッケージは存在しない.そこでCやC++でそういった用途を満たすプログラムを作成し,インターネット上に公開する.
|
Research Products
(1 results)