研究実績の概要 |
本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている. 平成29年度は主として研究目標である”文字列データのための省メモリな索引の研究開発”に取り組んだ.特に,索引対象の文字列に繰り返し構造が多く含まれる場合,元データサイズよりも省領域を実現する圧縮索引の実現に取り組んだ.この課題は,バージョン管理システムやヒューマンゲノムシーケンスなど非常によく似た文字列の集合に対する索引構造を構築する際の重要な問題である. これを解決するために,申請者は全文索引の1つであるコンパクト有向非巡回語グラフ(Compacted directed acyclic word graph, CDAWG)のグラフ構造が元文字列を生成する文脈自由文法の構文木になっていることを示し,それを用いて圧縮領域でCDAWGを実現する方法を示した.CDAWGは接尾辞木の同型な部分木を1つにまとめ,サイクルがないグラフ構造である有向非巡回グラフとして表現されるものである.このCDAWGは申請者がこれまで主として研究してきた接尾辞木よりも必ず小さい領域で表現できることが知られている. 提案データ構造は元データよりも圧縮できる可能性があるにもかかわらず,検索クエリに要する時間は線形領域索引と変わらずパターン長に対して線形時間で可能である.また,CDAWGと文脈自由文法の関係を明らかにしたことも文字列組み合わせ分野としての1つの成果である.
|