• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

スパース接尾辞木を用いた高速マルチストリーム索引の研究開発

Research Project

Project/Area Number 15J01438
Research InstitutionHokkaido University

Principal Investigator

髙木 拓也  北海道大学, 情報科学研究科, 特別研究員(DC1)

Project Period (FY) 2015-04-24 – 2018-03-31
Keywords全文索引 / 圧縮索引 / コンパクト有向非巡回語グラフ / CDAWG
Outline of Annual Research Achievements

本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている.
平成29年度は主として研究目標である”文字列データのための省メモリな索引の研究開発”に取り組んだ.特に,索引対象の文字列に繰り返し構造が多く含まれる場合,元データサイズよりも省領域を実現する圧縮索引の実現に取り組んだ.この課題は,バージョン管理システムやヒューマンゲノムシーケンスなど非常によく似た文字列の集合に対する索引構造を構築する際の重要な問題である.
これを解決するために,申請者は全文索引の1つであるコンパクト有向非巡回語グラフ(Compacted directed acyclic word graph, CDAWG)のグラフ構造が元文字列を生成する文脈自由文法の構文木になっていることを示し,それを用いて圧縮領域でCDAWGを実現する方法を示した.CDAWGは接尾辞木の同型な部分木を1つにまとめ,サイクルがないグラフ構造である有向非巡回グラフとして表現されるものである.このCDAWGは申請者がこれまで主として研究してきた接尾辞木よりも必ず小さい領域で表現できることが知られている.
提案データ構造は元データよりも圧縮できる可能性があるにもかかわらず,検索クエリに要する時間は線形領域索引と変わらずパターン長に対して線形時間で可能である.また,CDAWGと文脈自由文法の関係を明らかにしたことも文字列組み合わせ分野としての1つの成果である.

Research Progress Status

29年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

29年度が最終年度であるため、記入しない。

  • Research Products

    (5 results)

All 2017

All Journal Article (1 results) Presentation (4 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Packed Compact Tries: A Fast and Efficient Data Structure for Online String Processing2017

    • Author(s)
      TAKAGI Takuya、INENAGA Shunsuke、SADAKANE Kunihiko、ARIMURA Hiroki
    • Journal Title

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      Volume: E100.A Pages: 1785~1793

    • DOI

      https://doi.org/10.1587/transfun.E100.A.1785

  • [Presentation] (Towards) Online Construction of Linear-size CDAWGs2017

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2017年度 秋のワークショップ」
  • [Presentation] Linear-size CDAWG: new repetition-aware indexing and grammar compression2017

    • Author(s)
      Takuya Takagi, Keisuke Goto, Yuta Fujishige, Shunsuke Inenaga and Hiroki Arimura
    • Organizer
      the 24th International Symposium on String Processing and Information Retrieval (SPIRE 2017)
    • Int'l Joint Research
  • [Presentation] On Reverse Engineering the Lyndon Tree2017

    • Author(s)
      Yuto Nakashima, ○Takuya Takagi, Shunsuke Inenaga, Hideo Bannai and Masayuki Takeda
    • Organizer
      the 21st Prague Stringology Conference (PSC2017)
    • Int'l Joint Research
  • [Presentation] CDAWGに基づく繰り返しが多いテキストに対する圧縮全文索引2017

    • Author(s)
      髙木拓也
    • Organizer
      基盤(S) 離散構造処理系プロジェクト 「2017年度 初夏のワークショップ」

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi