研究課題/領域番号 |
15J01438
|
研究機関 | 北海道大学 |
研究代表者 |
髙木 拓也 北海道大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2015-04-24 – 2018-03-31
|
キーワード | 完全オンライン索引構築 / マルチストリーム索引 / 接尾辞木(Suffix tree) / 部分語グラフ(DAWG) |
研究実績の概要 |
本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている. 平成27年度は,オンライン接尾辞木構築アルゴリズムのマルチストリーム化(多重性)に取り組んだ. これは,単一情報源からの入力しか受け付けていなかった接尾辞木を,多数の情報源から非同期に到着するデータに対しても索引を作り直すことなく構築する問題であり,線形時間アルゴリズムの存在は文字列理論分野における20年来の未解決問題であった. 申請者は研究指導者の有村博紀教授と,九州大学の稲永俊介准教授との共同研究でこれを肯定的に解決し,マルチストリーム接尾辞木を線形時間で構築するアルゴリズムを与えた. 具体的には,まず複数の情報源に対する索引構築問題とし「完全オンライン構築問題」を定義した.次に,申請者は接尾辞木とは別の接尾辞系索引である部分語グラフ(Directed acyclic word graph, DAWG)が線形時間で完全オンライン構築可能であることを示した.しかしながら,接尾辞木の完全オンライン構築は,更新箇所の判別と葉ラベルの管理が難しいという問題点があった.そこで,部分語グラフの最長パスのみからなる木構造(Longest path tree, LPT)の分岐ノードと接尾辞木のノード間に対応が取れることに着目し,部分語グラフ-LPT-接尾辞木間でリンクを張り,木上のクエリである最近印付き祖先問題を解くことで部分語グラフの更新箇所を接尾辞木に伝えられることを示した.さらに葉ラベルの管理を部分語グラフ上で行う手法を提案し,最終的に,接尾辞木の完全オンライン構築を線形時間で行う初めてのアルゴリズムを与えた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
年次計画の1つである,「複数クライアントからの入力に対応するようなマルチストリーム処理のためのスパース接尾辞木の開発」については,スパース接尾辞木の基礎となる接尾辞木を複数クライアント入力に対応させることに成功した.これは部分語グラフと接尾辞木を対応させることで達成するアルゴリズムである.この結果は文字列理論分野の国際会議であるCPM2016に採択され,平成28年6月に発表予定である.よってこの研究項目については進展があったと考える. 年次計画の2つめである「亜線形時間を達成する簡潔文字列接尾辞木の開発」についても,接尾辞木などの基本構造である圧縮動的コンパクトトライを,レジスタ演算と順序辞書を用いた高速化に加えて,ハッシュ表を用いた高速化に成功した.これは,現在論文執筆中である.
|
今後の研究の推進方策 |
平成28年度は,次の3つの項目について年次計画である研究開発と初年度の研究実績の推進を一層進める.(1)省メモリ索引として初年度に開発した圧縮コンパクトトライを用いた索引の実装.(2)初年度で開発したマルチストリーム索引構築アルゴリズムに対して,与えられたメモリ上限以内で索引を適応的に管理する機構を組み込む.(3)時空間軌跡データのための,メッシュ分割に基づく索引を開発する. 1つ目の研究項目については,接尾辞木の基礎技術となる圧縮コンパクトトライを用いて,実際に接尾辞木索引を構築し,実データを用いてその性能を評価したい. 2つ目の研究項目については,初年度に引き続き理論的アプローチからの研究開発になる.部分語グラフや接尾辞木はデータの削除が容易ではない.特に部分語グラフは,時系列順にデータが削除されるスライディングウィンドウ構築が線形時間では行えないことが知られている.そのため,接尾辞木と部分語グラフの連携によるマルチストリーム索引の適応的構築は難しいと考えている.そこで,適応的マルチストリーム索引を実現する新しい索引を開発したい. 3つ目の項目については,応用技術を意識した研究になる.これまで申請者が提案した技術を用いて,自動車や人間などの移動体に代表される時空間ストリームデータのための効率良い索引を開発したい.
|