2013 年度実績報告書

系列を表す二分決定グラフを用いた大規模データベースの解析処理アルゴリズムの研究

研究課題

研究課題/領域番号	13J01937
研究機関	北海道大学
研究代表者	伝住周平北海道大学, 大学院情報科学研究科, 特別研究員(DC2)
キーワード	知識発見とデータマイニング / アルゴリズム理論 / データ構造 / 情報検索 / 二分決定グラフ
研究概要	平成25年度は, 以下の3項目について研究・開発を進めた. (1)有向非巡回グラフに対する索引構造(伝住)既存の文字列検索のための索引構造は一般の文字列を対象にしているため, 複数の文字列に対して索引を構築する速度が遅い. しかし対象を有向非巡回グラフに拡張したアルゴリズムを開発することで索引構築速度を大幅に向上できる. 既存手法よりも構築が高速, 索引サイズが小さくなるデータ構造を提案した(PSC 2013). (2)DNA配列検索のための圧縮索引(伝住・津田)DNA配列検索において, 配列中のパターンの数を数えたり, パターンが出現する位置を求める演算は全ての解析処理において用いられる基本的な演算であるため, 実用的なデータ構造の開発は重要である. そこで部分文字列集合とその出現位置を大規模な系列データのための大規模知識索引技術SeqBDDによってメモリ上に生成・保持する効率的なアルゴリズムとデータ構造を開発した. さらに, データベースから抽出したパターンの出現位置をSeqBDDとして表現し, SeqBDD同士の演算処理により頻出領域を効率よく発見する手法の研究を進めた. (3)ZDDに対する簡潔データ構造(伝住・定兼)ZDDはデータベース解析処理において有効なデータ構造であるが, それらは動的なものであり, 静的なものは存在しなかった. そこで速度的にもサイズ的にも優れているZDDの簡潔データ構造を開発した. 理論的には, 基本的な全ての静的な演算を定数時間で実現し, データ構造のサイズも既存手法よりも小さい. 実際的には, 既存手法はデータ構造のサイズも大きく, 検索演算が遅かったが, 本研究で開発したデータ構造は動的な演算は実装されないものの, 高速な検索を実現することができた. また, すべての演算を実現できるように, 既存手法とのハイブリッド手法も示せた(SEA 2014, to appear).
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由初年度より、国際会議発表等の研究成果が順調に出ている. また当初の予定通り, 本研究め一中核一である大規模データベース解析処理アルゴリズムの開発と索引構築手法の確立に成功している. ZDDに対する簡潔データ構造もデータ構造のサイズ, 検索速度ともに当初の計画通り優れたものが開発できている. 学外の有力研究者とも共著で研究を進めることができ, 最終年度に向けた研究環境が整った.
今後の研究の推進方策	研究項目(1)~(3)の各項目について, 当初の計画通り進展しているので, そのまま研究計画を遂行する. いくつかの基本的なデータ構造が開発できたため, それらを用いて大量データ処理を高速に行う. 具体的には, DNA配列データなどに対する圧縮索引を作成し, その上での検索や知識発見を行う. 特に, 最終年度の平成26年度は, 実験と評価に重点を置いて研究開発を行い, 2年間の研究成果をまとめる予定である.

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] Compact Complete Inverted Files for Texts and Directed Acyclic Graphs Based on Sequence Binary Decision Diagrams2013
- 著者名/発表者名
  Shuhei Denzumi
- 学会等名
  Prague Stringology Conference 2013
- 発表場所
  Czech Technical University (Czech Republic)
- 年月日
  2013-09-04