• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

スパース接尾辞木を用いた高速マルチストリーム索引の研究開発

Research Project

Project/Area Number 15J01438
Research InstitutionHokkaido University

Principal Investigator

髙木 拓也  北海道大学, 情報科学研究科, 特別研究員(DC1)

Project Period (FY) 2015-04-24 – 2018-03-31
Keywords完全オンライン索引構築 / マルチストリーム索引 / 接尾辞木(Suffix tree) / 部分語グラフ(DAWG)
Outline of Annual Research Achievements

本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている.
平成27年度は,オンライン接尾辞木構築アルゴリズムのマルチストリーム化(多重性)に取り組んだ.
これは,単一情報源からの入力しか受け付けていなかった接尾辞木を,多数の情報源から非同期に到着するデータに対しても索引を作り直すことなく構築する問題であり,線形時間アルゴリズムの存在は文字列理論分野における20年来の未解決問題であった.
申請者は研究指導者の有村博紀教授と,九州大学の稲永俊介准教授との共同研究でこれを肯定的に解決し,マルチストリーム接尾辞木を線形時間で構築するアルゴリズムを与えた.
具体的には,まず複数の情報源に対する索引構築問題とし「完全オンライン構築問題」を定義した.次に,申請者は接尾辞木とは別の接尾辞系索引である部分語グラフ(Directed acyclic word graph, DAWG)が線形時間で完全オンライン構築可能であることを示した.しかしながら,接尾辞木の完全オンライン構築は,更新箇所の判別と葉ラベルの管理が難しいという問題点があった.そこで,部分語グラフの最長パスのみからなる木構造(Longest path tree, LPT)の分岐ノードと接尾辞木のノード間に対応が取れることに着目し,部分語グラフ-LPT-接尾辞木間でリンクを張り,木上のクエリである最近印付き祖先問題を解くことで部分語グラフの更新箇所を接尾辞木に伝えられることを示した.さらに葉ラベルの管理を部分語グラフ上で行う手法を提案し,最終的に,接尾辞木の完全オンライン構築を線形時間で行う初めてのアルゴリズムを与えた.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

年次計画の1つである,「複数クライアントからの入力に対応するようなマルチストリーム処理のためのスパース接尾辞木の開発」については,スパース接尾辞木の基礎となる接尾辞木を複数クライアント入力に対応させることに成功した.これは部分語グラフと接尾辞木を対応させることで達成するアルゴリズムである.この結果は文字列理論分野の国際会議であるCPM2016に採択され,平成28年6月に発表予定である.よってこの研究項目については進展があったと考える.
年次計画の2つめである「亜線形時間を達成する簡潔文字列接尾辞木の開発」についても,接尾辞木などの基本構造である圧縮動的コンパクトトライを,レジスタ演算と順序辞書を用いた高速化に加えて,ハッシュ表を用いた高速化に成功した.これは,現在論文執筆中である.

Strategy for Future Research Activity

平成28年度は,次の3つの項目について年次計画である研究開発と初年度の研究実績の推進を一層進める.(1)省メモリ索引として初年度に開発した圧縮コンパクトトライを用いた索引の実装.(2)初年度で開発したマルチストリーム索引構築アルゴリズムに対して,与えられたメモリ上限以内で索引を適応的に管理する機構を組み込む.(3)時空間軌跡データのための,メッシュ分割に基づく索引を開発する.
1つ目の研究項目については,接尾辞木の基礎技術となる圧縮コンパクトトライを用いて,実際に接尾辞木索引を構築し,実データを用いてその性能を評価したい.
2つ目の研究項目については,初年度に引き続き理論的アプローチからの研究開発になる.部分語グラフや接尾辞木はデータの削除が容易ではない.特に部分語グラフは,時系列順にデータが削除されるスライディングウィンドウ構築が線形時間では行えないことが知られている.そのため,接尾辞木と部分語グラフの連携によるマルチストリーム索引の適応的構築は難しいと考えている.そこで,適応的マルチストリーム索引を実現する新しい索引を開発したい.
3つ目の項目については,応用技術を意識した研究になる.これまで申請者が提案した技術を用いて,自動車や人間などの移動体に代表される時空間ストリームデータのための効率良い索引を開発したい.

  • Research Products

    (6 results)

All 2016 2015

All Presentation (6 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Fully-online construction of suffix trees for multiple texts2016

    • Author(s)
      Takuya Takagi, Shunsuke Inenaga and Hiroki Arimura
    • Organizer
      27th Annual Symposium on Combinatorial Pattern Matching (CPM 2016)
    • Place of Presentation
      Tel Aviv
    • Year and Date
      2016-06-27 – 2016-06-29
    • Int'l Joint Research
  • [Presentation] 非同期に文字が入力される複数ストリームに対する一般化接尾辞木の線形時間構築アルゴリズム2016

    • Author(s)
      髙木拓也,稲永俊介,有村博紀
    • Organizer
      第8回データ工学と情報マネジメントに関するフォーラム(DEIM2016)
    • Place of Presentation
      福岡市,ヒルトン福岡シーホーク
    • Year and Date
      2016-02-26 – 2016-03-02
  • [Presentation] 任意伸長する文字列集合に対する接尾辞木構築2015

    • Author(s)
      髙木拓也,稲永俊介,有村博紀
    • Organizer
      JST ERATO 河原林巨大グラフプロジェクト「情報系 WINTER FESTA」
    • Place of Presentation
      東京都千代田区,一橋講堂
    • Year and Date
      2015-12-22 – 2015-12-23
  • [Presentation] 任意伸長する文字列集合に対するオンライン接尾辞木構築2015

    • Author(s)
      髙木拓也
    • Organizer
      JST ERATO湊離散構造処理系プロジェクト2013年度 秋のワークショップョップ
    • Place of Presentation
      千歳市,丸駒温泉
    • Year and Date
      2015-11-08 – 2015-11-10
  • [Presentation] 任意伸長を許す文字列集合に対するDAWGと接尾辞木の構築2015

    • Author(s)
      髙木拓也,稲永俊介,有村博紀
    • Organizer
      LAシンポジウム2015(夏)
    • Place of Presentation
      加賀市,ゆのくに天祥
    • Year and Date
      2015-07-14 – 2015-07-16
  • [Presentation] Ukkonenのオンライン接尾辞木構築アルゴリズムの多重ストリーム文字列への拡張について2015

    • Author(s)
      髙木拓也,有村博紀
    • Organizer
      コンピュテーション研究会
    • Place of Presentation
      札幌市,定山渓ビューホテル
    • Year and Date
      2015-06-12 – 2015-06-13

URL: 

Published: 2016-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi