• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

スパース接尾辞木を用いた高速マルチストリーム索引の研究開発

研究課題

研究課題/領域番号 15J01438
研究種目

特別研究員奨励費

配分区分補助金
応募区分国内
研究分野 マルチメディア・データベース
研究機関北海道大学

研究代表者

髙木 拓也  北海道大学, 情報科学研究科, 特別研究員(DC1)

研究期間 (年度) 2015-04-24 – 2018-03-31
研究課題ステータス 完了 (2017年度)
配分額 *注記
2,800千円 (直接経費: 2,800千円)
2017年度: 900千円 (直接経費: 900千円)
2016年度: 900千円 (直接経費: 900千円)
2015年度: 1,000千円 (直接経費: 1,000千円)
キーワード全文索引 / 圧縮索引 / コンパクト有向非巡回語グラフ / CDAWG / コンパクトトライ / Sparse suffix tree / bit parallelism / 完全オンライン索引構築 / マルチストリーム索引 / 接尾辞木(Suffix tree) / 部分語グラフ(DAWG)
研究実績の概要

本研究課題は,大規模なマルチストリームデータに対する検索やマイニングのために,スパース接尾辞木に基づいた低メモリ性と,オンライン性,多重性,適応性をもつ高速マルチストリーム索引の構築方法と周辺アルゴリズムを開発することを目標としている.
平成29年度は主として研究目標である”文字列データのための省メモリな索引の研究開発”に取り組んだ.特に,索引対象の文字列に繰り返し構造が多く含まれる場合,元データサイズよりも省領域を実現する圧縮索引の実現に取り組んだ.この課題は,バージョン管理システムやヒューマンゲノムシーケンスなど非常によく似た文字列の集合に対する索引構造を構築する際の重要な問題である.
これを解決するために,申請者は全文索引の1つであるコンパクト有向非巡回語グラフ(Compacted directed acyclic word graph, CDAWG)のグラフ構造が元文字列を生成する文脈自由文法の構文木になっていることを示し,それを用いて圧縮領域でCDAWGを実現する方法を示した.CDAWGは接尾辞木の同型な部分木を1つにまとめ,サイクルがないグラフ構造である有向非巡回グラフとして表現されるものである.このCDAWGは申請者がこれまで主として研究してきた接尾辞木よりも必ず小さい領域で表現できることが知られている.
提案データ構造は元データよりも圧縮できる可能性があるにもかかわらず,検索クエリに要する時間は線形領域索引と変わらずパターン長に対して線形時間で可能である.また,CDAWGと文脈自由文法の関係を明らかにしたことも文字列組み合わせ分野としての1つの成果である.

現在までの達成度 (段落)

29年度が最終年度であるため、記入しない。

今後の研究の推進方策

29年度が最終年度であるため、記入しない。

報告書

(3件)
  • 2017 実績報告書
  • 2016 実績報告書
  • 2015 実績報告書
  • 研究成果

    (15件)

すべて 2017 2016 2015

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (14件) (うち国際学会 4件)

  • [雑誌論文] Packed Compact Tries: A Fast and Efficient Data Structure for Online String Processing2017

    • 著者名/発表者名
      Takuya Takagi, Shunsuke Inenaga, Kunihiko Sadakane, Hiroki Arimura
    • 雑誌名

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      巻: E100.A 号: 9 ページ: 1785-1793

    • DOI

      10.1587/transfun.E100.A.1785

    • NAID

      130006038281

    • ISSN
      0916-8508, 1745-1337
    • 関連する報告書
      2017 実績報告書
    • 査読あり
  • [学会発表] DAGの簡潔表現について2017

    • 著者名/発表者名
      髙木拓也
    • 学会等名
      第9回データ工学と情報マネジメントに関するフォーラム(DEIM2017)
    • 発表場所
      高山市,高山グリーンホテル
    • 年月日
      2017-03-06
    • 関連する報告書
      2016 実績報告書
  • [学会発表] (Towards) Online Construction of Linear-size CDAWGs2017

    • 著者名/発表者名
      髙木拓也
    • 学会等名
      基盤(S) 離散構造処理系プロジェクト 「2017年度 秋のワークショップ」
    • 関連する報告書
      2017 実績報告書
  • [学会発表] Linear-size CDAWG: new repetition-aware indexing and grammar compression2017

    • 著者名/発表者名
      Takuya Takagi, Keisuke Goto, Yuta Fujishige, Shunsuke Inenaga and Hiroki Arimura
    • 学会等名
      the 24th International Symposium on String Processing and Information Retrieval (SPIRE 2017)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] On Reverse Engineering the Lyndon Tree2017

    • 著者名/発表者名
      Yuto Nakashima, ○Takuya Takagi, Shunsuke Inenaga, Hideo Bannai and Masayuki Takeda
    • 学会等名
      the 21st Prague Stringology Conference (PSC2017)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] CDAWGに基づく繰り返しが多いテキストに対する圧縮全文索引2017

    • 著者名/発表者名
      髙木拓也
    • 学会等名
      基盤(S) 離散構造処理系プロジェクト 「2017年度 初夏のワークショップ」
    • 関連する報告書
      2017 実績報告書
  • [学会発表] Word RAM 上におけるコンパクトトライの高速化2016

    • 著者名/発表者名
      髙木拓也
    • 学会等名
      基盤(S) 離散構造処理系プロジェクト 「2016年度 秋のワークショップ」
    • 発表場所
      札幌市,ガトーキングダム・サッポロ
    • 年月日
      2016-11-20
    • 関連する報告書
      2016 実績報告書
  • [学会発表] Packed Compact Tries: A Fast and Efficient Data Structure for Online String Processing2016

    • 著者名/発表者名
      Takuya Takagi, Shunsuke Inenaga, Kunihiko Sadakane and Hiroki Arimura
    • 学会等名
      Combinatorial Algorithms - 27th International Workshop (IWOCA 2016)
    • 発表場所
      Helsinki, Finland
    • 年月日
      2016-08-17
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Fully-online construction of suffix trees for multiple texts2016

    • 著者名/発表者名
      Takuya Takagi, Shunsuke Inenaga and Hiroki Arimura
    • 学会等名
      27th Annual Symposium on Combinatorial Pattern Matching (CPM 2016)
    • 発表場所
      Tel Aviv
    • 年月日
      2016-06-27
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] 文字列集合に対する接尾辞木の完全オンライン構築2016

    • 著者名/発表者名
      髙木拓也
    • 学会等名
      基盤(S) 離散構造処理系プロジェクト 「2016年度 初夏のワークショップ」
    • 発表場所
      札幌市,北海道大学
    • 年月日
      2016-06-17
    • 関連する報告書
      2016 実績報告書
  • [学会発表] 非同期に文字が入力される複数ストリームに対する一般化接尾辞木の線形時間構築アルゴリズム2016

    • 著者名/発表者名
      髙木拓也,稲永俊介,有村博紀
    • 学会等名
      第8回データ工学と情報マネジメントに関するフォーラム(DEIM2016)
    • 発表場所
      福岡市,ヒルトン福岡シーホーク
    • 年月日
      2016-02-26
    • 関連する報告書
      2015 実績報告書
  • [学会発表] 任意伸長する文字列集合に対する接尾辞木構築2015

    • 著者名/発表者名
      髙木拓也,稲永俊介,有村博紀
    • 学会等名
      JST ERATO 河原林巨大グラフプロジェクト「情報系 WINTER FESTA」
    • 発表場所
      東京都千代田区,一橋講堂
    • 年月日
      2015-12-22
    • 関連する報告書
      2015 実績報告書
  • [学会発表] 任意伸長する文字列集合に対するオンライン接尾辞木構築2015

    • 著者名/発表者名
      髙木拓也
    • 学会等名
      JST ERATO湊離散構造処理系プロジェクト2013年度 秋のワークショップョップ
    • 発表場所
      千歳市,丸駒温泉
    • 年月日
      2015-11-08
    • 関連する報告書
      2015 実績報告書
  • [学会発表] 任意伸長を許す文字列集合に対するDAWGと接尾辞木の構築2015

    • 著者名/発表者名
      髙木拓也,稲永俊介,有村博紀
    • 学会等名
      LAシンポジウム2015(夏)
    • 発表場所
      加賀市,ゆのくに天祥
    • 年月日
      2015-07-14
    • 関連する報告書
      2015 実績報告書
  • [学会発表] Ukkonenのオンライン接尾辞木構築アルゴリズムの多重ストリーム文字列への拡張について2015

    • 著者名/発表者名
      髙木拓也,有村博紀
    • 学会等名
      コンピュテーション研究会
    • 発表場所
      札幌市,定山渓ビューホテル
    • 年月日
      2015-06-12
    • 関連する報告書
      2015 実績報告書

URL: 

公開日: 2015-11-26   更新日: 2024-03-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi