• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

スパース接尾辞木を用いた高速マルチストリーム索引の研究開発

Research Project

Project/Area Number 15J01438
Research InstitutionHokkaido University

Principal Investigator

髙木 拓也  北海道大学, 情報科学研究科, 特別研究員(DC1)

Project Period (FY) 2015-04-24 – 2018-03-31
Keywordsコンパクトトライ / Sparse suffix tree / bit parallelism
Outline of Annual Research Achievements

本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている.
研究目標であるスパース接尾辞木を用いた高速マルチストリーム索引を開発するためには,接尾辞木の各種操作を高速にサポートする必要がある.平成28年度は接尾辞木を含む様々な索引構造の元表現であるコンパクトトライの高速化に取り組んだ.これは,申請者が特別研究員に採用される前に提案したアルゴリズムの拡張であり,レジスタによる高速演算を利用したPacked stringのテクニックに加え,ハッシュ構造を利用した手法である.これにより接尾辞木のみならず枝に文字列が付随した木構造のアルゴリズムを高速化することが可能となる.この課題は,より高速な処理が求められる高速マルチストリーム索引を実現する重要な問題と言える.
これを解決するために,申請者は与えられた大きな木をレジスタサイズの小さな木(micro trie)に分割するmicro trie decompositionを提案した.さらにmicro trie内を順序辞書とレジスタ演算を用いて高速に処理する手法を提案した.また,micro trieとハッシュ構造を組み合わせることで,より高速な処理が実現可能になった.
応用として,コンパクトトライを用いる様々なアルゴリズムの計算量を改良している.具体的には,全文索引であるスパース接尾辞木の構築や圧縮アルゴリズムであるLZD factorizationの高速化に成功している.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

昨年度の年次計画の1つであった「亜線形時間を達成する簡潔文字列索引の開発」について,スパース接尾辞木の基礎となるコンパクトトライの高速化を達成することで,スパース接尾辞木の高速化が実現可能になった.これについて国際会議,学術雑誌ともに受理された.また,このアルゴリズムについての実装実験も行うことができた.よってこの研究項目については進展があったと考える.
また,マルチストリームに対する接尾辞木構築に関する研究について,国際会議で発表を行った.
今年度の年次計画の1つ目である「与えられた上限以内でスパース接尾辞木を適応的に管理する索引」の研究開発については,来年度において論文執筆,発表が目標である.
これら上記の結果を踏まえ,平成29年度は引き続き高速マルチストリーム索引の研究・開発を行う.

Strategy for Future Research Activity

平成29年度は,次の2つの項目について研究開発の推進を一層進める.(1)オンライン構築可能な省メモリ索引の研究開発.(2)与えられた上限以内でスパース接尾辞木を適応的に管理するアルゴリズムの研究開発.
1つ目の研究項目については,当初の年次計画にはなく,新しく設定する目標となる.近年増加するストリームデータを扱うためには,オンライン構築可能かつより省メモリな索引が必要である.そこで,圧縮索引と呼ばれる入力サイズよりも小さい索引をオンライン構築することを目標とする.
2つ目の研究項目については,初年度開発した複数ストリームに対する接尾辞木のオンライン構築アルゴリズムに対して,スライディングウィンドウによる適応的索引を開発することを目標とする.部分語グラフはデータの削除を高速に行うことが難しいため,部分語グラフと接尾辞木の組み合わせによるマルチストリーム索引の適応的構築は難しい.そこで,部分語グラフと,入力を反転したときの接尾辞木(逆接尾辞木)が密接な関係にあることに着目し,逆接尾辞木と接尾辞木の組み合わせによるマルチストリーム索引を開発し,その後適応的索引に応用したい.

  • Research Products

    (4 results)

All 2017 2016

All Presentation (4 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] DAGの簡潔表現について2017

    • Author(s)
      髙木拓也
    • Organizer
      第9回データ工学と情報マネジメントに関するフォーラム(DEIM2017)
    • Place of Presentation
      高山市,高山グリーンホテル
    • Year and Date
      2017-03-06 – 2017-03-08
  • [Presentation] Word RAM 上におけるコンパクトトライの高速化2016

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2016年度 秋のワークショップ」
    • Place of Presentation
      札幌市,ガトーキングダム・サッポロ
    • Year and Date
      2016-11-20 – 2016-11-22
  • [Presentation] Packed Compact Tries: A Fast and Efficient Data Structure for Online String Processing2016

    • Author(s)
      Takuya Takagi, Shunsuke Inenaga, Kunihiko Sadakane and Hiroki Arimura
    • Organizer
      Combinatorial Algorithms - 27th International Workshop (IWOCA 2016)
    • Place of Presentation
      Helsinki, Finland
    • Year and Date
      2016-08-17 – 2016-08-19
    • Int'l Joint Research
  • [Presentation] 文字列集合に対する接尾辞木の完全オンライン構築2016

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2016年度 初夏のワークショップ」
    • Place of Presentation
      札幌市,北海道大学
    • Year and Date
      2016-06-17 – 2016-06-18

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi