研究課題
特別研究員奨励費
本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている.平成29年度は主として研究目標である”文字列データのための省メモリな索引の研究開発”に取り組んだ.特に,索引対象の文字列に繰り返し構造が多く含まれる場合,元データサイズよりも省領域を実現する圧縮索引の実現に取り組んだ.この課題は,バージョン管理システムやヒューマンゲノムシーケンスなど非常によく似た文字列の集合に対する索引構造を構築する際の重要な問題である.これを解決するために,申請者は全文索引の1つであるコンパクト有向非巡回語グラフ(Compacted directed acyclic word graph, CDAWG)のグラフ構造が元文字列を生成する文脈自由文法の構文木になっていることを示し,それを用いて圧縮領域でCDAWGを実現する方法を示した.CDAWGは接尾辞木の同型な部分木を1つにまとめ,サイクルがないグラフ構造である有向非巡回グラフとして表現されるものである.このCDAWGは申請者がこれまで主として研究してきた接尾辞木よりも必ず小さい領域で表現できることが知られている.提案データ構造は元データよりも圧縮できる可能性があるにもかかわらず,検索クエリに要する時間は線形領域索引と変わらずパターン長に対して線形時間で可能である.また,CDAWGと文脈自由文法の関係を明らかにしたことも文字列組み合わせ分野としての1つの成果である.
29年度が最終年度であるため、記入しない。
すべて 2017 2016 2015
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (14件) (うち国際学会 4件)
IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
巻: E100.A 号: 9 ページ: 1785-1793
10.1587/transfun.E100.A.1785
130006038281