研究課題/領域番号 |
15J01438
|
研究機関 | 北海道大学 |
研究代表者 |
髙木 拓也 北海道大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2015-04-24 – 2018-03-31
|
キーワード | コンパクトトライ / Sparse suffix tree / bit parallelism |
研究実績の概要 |
本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている. 研究目標であるスパース接尾辞木を用いた高速マルチストリーム索引を開発するためには,接尾辞木の各種操作を高速にサポートする必要がある.平成28年度は接尾辞木を含む様々な索引構造の元表現であるコンパクトトライの高速化に取り組んだ.これは,申請者が特別研究員に採用される前に提案したアルゴリズムの拡張であり,レジスタによる高速演算を利用したPacked stringのテクニックに加え,ハッシュ構造を利用した手法である.これにより接尾辞木のみならず枝に文字列が付随した木構造のアルゴリズムを高速化することが可能となる.この課題は,より高速な処理が求められる高速マルチストリーム索引を実現する重要な問題と言える. これを解決するために,申請者は与えられた大きな木をレジスタサイズの小さな木(micro trie)に分割するmicro trie decompositionを提案した.さらにmicro trie内を順序辞書とレジスタ演算を用いて高速に処理する手法を提案した.また,micro trieとハッシュ構造を組み合わせることで,より高速な処理が実現可能になった. 応用として,コンパクトトライを用いる様々なアルゴリズムの計算量を改良している.具体的には,全文索引であるスパース接尾辞木の構築や圧縮アルゴリズムであるLZD factorizationの高速化に成功している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度の年次計画の1つであった「亜線形時間を達成する簡潔文字列索引の開発」について,スパース接尾辞木の基礎となるコンパクトトライの高速化を達成することで,スパース接尾辞木の高速化が実現可能になった.これについて国際会議,学術雑誌ともに受理された.また,このアルゴリズムについての実装実験も行うことができた.よってこの研究項目については進展があったと考える. また,マルチストリームに対する接尾辞木構築に関する研究について,国際会議で発表を行った. 今年度の年次計画の1つ目である「与えられた上限以内でスパース接尾辞木を適応的に管理する索引」の研究開発については,来年度において論文執筆,発表が目標である. これら上記の結果を踏まえ,平成29年度は引き続き高速マルチストリーム索引の研究・開発を行う.
|
今後の研究の推進方策 |
平成29年度は,次の2つの項目について研究開発の推進を一層進める.(1)オンライン構築可能な省メモリ索引の研究開発.(2)与えられた上限以内でスパース接尾辞木を適応的に管理するアルゴリズムの研究開発. 1つ目の研究項目については,当初の年次計画にはなく,新しく設定する目標となる.近年増加するストリームデータを扱うためには,オンライン構築可能かつより省メモリな索引が必要である.そこで,圧縮索引と呼ばれる入力サイズよりも小さい索引をオンライン構築することを目標とする. 2つ目の研究項目については,初年度開発した複数ストリームに対する接尾辞木のオンライン構築アルゴリズムに対して,スライディングウィンドウによる適応的索引を開発することを目標とする.部分語グラフはデータの削除を高速に行うことが難しいため,部分語グラフと接尾辞木の組み合わせによるマルチストリーム索引の適応的構築は難しい.そこで,部分語グラフと,入力を反転したときの接尾辞木(逆接尾辞木)が密接な関係にあることに着目し,逆接尾辞木と接尾辞木の組み合わせによるマルチストリーム索引を開発し,その後適応的索引に応用したい.
|