• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

スパース接尾辞木を用いた高速マルチストリーム索引の研究開発

Research Project

Project/Area Number 15J01438
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Multimedia database
Research InstitutionHokkaido University

Principal Investigator

髙木 拓也  北海道大学, 情報科学研究科, 特別研究員(DC1)

Project Period (FY) 2015-04-24 – 2018-03-31
Project Status Completed (Fiscal Year 2017)
Budget Amount *help
¥2,800,000 (Direct Cost: ¥2,800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2016: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2015: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords全文索引 / 圧縮索引 / コンパクト有向非巡回語グラフ / CDAWG / コンパクトトライ / Sparse suffix tree / bit parallelism / 完全オンライン索引構築 / マルチストリーム索引 / 接尾辞木(Suffix tree) / 部分語グラフ(DAWG)
Outline of Annual Research Achievements

本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている.
平成29年度は主として研究目標である”文字列データのための省メモリな索引の研究開発”に取り組んだ.特に,索引対象の文字列に繰り返し構造が多く含まれる場合,元データサイズよりも省領域を実現する圧縮索引の実現に取り組んだ.この課題は,バージョン管理システムやヒューマンゲノムシーケンスなど非常によく似た文字列の集合に対する索引構造を構築する際の重要な問題である.
これを解決するために,申請者は全文索引の1つであるコンパクト有向非巡回語グラフ(Compacted directed acyclic word graph, CDAWG)のグラフ構造が元文字列を生成する文脈自由文法の構文木になっていることを示し,それを用いて圧縮領域でCDAWGを実現する方法を示した.CDAWGは接尾辞木の同型な部分木を1つにまとめ,サイクルがないグラフ構造である有向非巡回グラフとして表現されるものである.このCDAWGは申請者がこれまで主として研究してきた接尾辞木よりも必ず小さい領域で表現できることが知られている.
提案データ構造は元データよりも圧縮できる可能性があるにもかかわらず,検索クエリに要する時間は線形領域索引と変わらずパターン長に対して線形時間で可能である.また,CDAWGと文脈自由文法の関係を明らかにしたことも文字列組み合わせ分野としての1つの成果である.

Research Progress Status

29年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

29年度が最終年度であるため、記入しない。

Report

(3 results)
  • 2017 Annual Research Report
  • 2016 Annual Research Report
  • 2015 Annual Research Report
  • Research Products

    (15 results)

All 2017 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (14 results) (of which Int'l Joint Research: 4 results)

  • [Journal Article] Packed Compact Tries: A Fast and Efficient Data Structure for Online String Processing2017

    • Author(s)
      Takuya Takagi, Shunsuke Inenaga, Kunihiko Sadakane, Hiroki Arimura
    • Journal Title

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      Volume: E100.A Issue: 9 Pages: 1785-1793

    • DOI

      10.1587/transfun.E100.A.1785

    • NAID

      130006038281

    • ISSN
      0916-8508, 1745-1337
    • Related Report
      2017 Annual Research Report
    • Peer Reviewed
  • [Presentation] DAGの簡潔表現について2017

    • Author(s)
      髙木拓也
    • Organizer
      第9回データ工学と情報マネジメントに関するフォーラム(DEIM2017)
    • Place of Presentation
      高山市,高山グリーンホテル
    • Year and Date
      2017-03-06
    • Related Report
      2016 Annual Research Report
  • [Presentation] (Towards) Online Construction of Linear-size CDAWGs2017

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2017年度 秋のワークショップ」
    • Related Report
      2017 Annual Research Report
  • [Presentation] Linear-size CDAWG: new repetition-aware indexing and grammar compression2017

    • Author(s)
      Takuya Takagi, Keisuke Goto, Yuta Fujishige, Shunsuke Inenaga and Hiroki Arimura
    • Organizer
      the 24th International Symposium on String Processing and Information Retrieval (SPIRE 2017)
    • Related Report
      2017 Annual Research Report
    • Int'l Joint Research
  • [Presentation] On Reverse Engineering the Lyndon Tree2017

    • Author(s)
      Yuto Nakashima, ○Takuya Takagi, Shunsuke Inenaga, Hideo Bannai and Masayuki Takeda
    • Organizer
      the 21st Prague Stringology Conference (PSC2017)
    • Related Report
      2017 Annual Research Report
    • Int'l Joint Research
  • [Presentation] CDAWGに基づく繰り返しが多いテキストに対する圧縮全文索引2017

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2017年度 初夏のワークショップ」
    • Related Report
      2017 Annual Research Report
  • [Presentation] Word RAM 上におけるコンパクトトライの高速化2016

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2016年度 秋のワークショップ」
    • Place of Presentation
      札幌市,ガトーキングダム・サッポロ
    • Year and Date
      2016-11-20
    • Related Report
      2016 Annual Research Report
  • [Presentation] Packed Compact Tries: A Fast and Efficient Data Structure for Online String Processing2016

    • Author(s)
      Takuya Takagi, Shunsuke Inenaga, Kunihiko Sadakane and Hiroki Arimura
    • Organizer
      Combinatorial Algorithms - 27th International Workshop (IWOCA 2016)
    • Place of Presentation
      Helsinki, Finland
    • Year and Date
      2016-08-17
    • Related Report
      2016 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Fully-online construction of suffix trees for multiple texts2016

    • Author(s)
      Takuya Takagi, Shunsuke Inenaga and Hiroki Arimura
    • Organizer
      27th Annual Symposium on Combinatorial Pattern Matching (CPM 2016)
    • Place of Presentation
      Tel Aviv
    • Year and Date
      2016-06-27
    • Related Report
      2015 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 文字列集合に対する接尾辞木の完全オンライン構築2016

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2016年度 初夏のワークショップ」
    • Place of Presentation
      札幌市,北海道大学
    • Year and Date
      2016-06-17
    • Related Report
      2016 Annual Research Report
  • [Presentation] 非同期に文字が入力される複数ストリームに対する一般化接尾辞木の線形時間構築アルゴリズム2016

    • Author(s)
      髙木拓也,稲永俊介,有村博紀
    • Organizer
      第8回データ工学と情報マネジメントに関するフォーラム(DEIM2016)
    • Place of Presentation
      福岡市,ヒルトン福岡シーホーク
    • Year and Date
      2016-02-26
    • Related Report
      2015 Annual Research Report
  • [Presentation] 任意伸長する文字列集合に対する接尾辞木構築2015

    • Author(s)
      髙木拓也,稲永俊介,有村博紀
    • Organizer
      JST ERATO 河原林巨大グラフプロジェクト「情報系 WINTER FESTA」
    • Place of Presentation
      東京都千代田区,一橋講堂
    • Year and Date
      2015-12-22
    • Related Report
      2015 Annual Research Report
  • [Presentation] 任意伸長する文字列集合に対するオンライン接尾辞木構築2015

    • Author(s)
      髙木拓也
    • Organizer
      JST ERATO湊離散構造処理系プロジェクト2013年度 秋のワークショップョップ
    • Place of Presentation
      千歳市,丸駒温泉
    • Year and Date
      2015-11-08
    • Related Report
      2015 Annual Research Report
  • [Presentation] 任意伸長を許す文字列集合に対するDAWGと接尾辞木の構築2015

    • Author(s)
      髙木拓也,稲永俊介,有村博紀
    • Organizer
      LAシンポジウム2015(夏)
    • Place of Presentation
      加賀市,ゆのくに天祥
    • Year and Date
      2015-07-14
    • Related Report
      2015 Annual Research Report
  • [Presentation] Ukkonenのオンライン接尾辞木構築アルゴリズムの多重ストリーム文字列への拡張について2015

    • Author(s)
      髙木拓也,有村博紀
    • Organizer
      コンピュテーション研究会
    • Place of Presentation
      札幌市,定山渓ビューホテル
    • Year and Date
      2015-06-12
    • Related Report
      2015 Annual Research Report

URL: 

Published: 2015-11-26   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi