• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実績報告書

文字列圧縮に基づく文字列パターン発見・文字列データ分類の研究

研究課題

研究課題/領域番号 22680014
研究機関九州大学

研究代表者

坂内 英夫  九州大学, システム情報科学研究科(研究院, 准教授 (20323644)

研究期間 (年度) 2010-04-01 – 2013-03-31
キーワード圧縮文字列処理 / 直線的プログラム
研究概要

本年度も単一の文字列を導出するチョムスキー標準形の文脈自由文法である,直線的プログラム (Straight line program, 以下 SLP) によって圧縮表現された文字列を対象に研究を行った.主な成果は以下の通りである.1)長さ N の文字列 T とそれを表現する大きさ n の SLPが与えられたとき,T の長さ q の全部分文字列の情報が,大きさN’ = N - α ≦ N のトライ構造で表現できる(ここで α は q と SLP 表現の圧縮性能に関連した非負整数を表し,N’ ≦ qn が成り立つ),という昨年度得られた成果を応用し,次の2つの成果を得た.A)長さ m のパターン文字列と大きさ N’ の木に対する畳み込みが O(N’ log m) 時間で計算できることを示し,更にこのことにより,パターンと長さ N の文字列との畳み込みの時間計算量を従来の O(N log m) 時間から O(N + N’ log m) 時間に短縮することに成功した.B) SLP で表現された文字列を陽に展開することなく,その LZ78 分解を求めるアルゴリズムを提案した。この成果により,LZ78 を用いた正規化圧縮距離 (NCD) の計算,ひいては NCD に基づくデータの分類などを,圧縮表現のまま効率良く行うことを可能となる.2)連長圧縮表現された文字列を LZ78 分解する効率的なアルゴリズム,また,逆に SLP 表現から連長圧縮表現への変換を高速に行うアルゴリズムを考案した.3)SLP で表現された文字列が,連続して2回出現する部分文字列 (square) を含むかどうかを検証する多項式時間アルゴリズムを考案した.

現在までの達成度 (区分)
理由

24年度が最終年度であるため、記入しない。

今後の研究の推進方策

24年度が最終年度であるため、記入しない。

  • 研究成果

    (10件)

すべて 2013 2012

すべて 雑誌論文 (6件) (うち査読あり 2件) 学会発表 (4件)

  • [雑誌論文] From Run Length Encoding to LZ78 and Back Again2013

    • 著者名/発表者名
      Yuya Tamakoshi, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, and Masayuki Takeda
    • 雑誌名

      Proc. Data Compression Conference 2013 (DCC 2013)

      ページ: 143-152

  • [雑誌論文] Computing convolution on grammar-compressed text2013

    • 著者名/発表者名
      Toshiya Tanaka, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, and Masayuki Takeda
    • 雑誌名

      Proc. Data Compression Conference 2013 (DCC 2013)

      ページ: 451-460

  • [雑誌論文] Fast q-gram mining on SLP compressed strings2013

    • 著者名/発表者名
      Keisuke Goto, Hideo Bannai, Shunsuke Inenaga, and Masayuki Takeda
    • 雑誌名

      Journal of Discrete Algorithms

      巻: 18 ページ: 89-99

  • [雑誌論文] Simpler and Faster Lempel Ziv Factorization2013

    • 著者名/発表者名
      Keisuke Goto and Hideo Bannai
    • 雑誌名

      Proc. Data Compression Conference 2013 (DCC 2013)

      巻: DCC 2013 ページ: 133-142

    • DOI

      10.1109/DCC.2013.21

    • 査読あり
  • [雑誌論文] An Efficient Algorithm to Test Square-Freeness of Strings Compressed by Straight-Line Programs2012

    • 著者名/発表者名
      Hideo Bannai, Travis Gagie, Tomohiro I, Shunsuke Inenaga, Gad M. Landau, and Moshe Lewenstein
    • 雑誌名

      Information Processing Letters

      巻: 112(19) ページ: 711-714

  • [雑誌論文] Efficient LZ78 factorization of grammar compressed text2012

    • 著者名/発表者名
      Hideo Bannai, Shunsuke Inenaga, and Masayuki Takeda
    • 雑誌名

      Proceedings of the 19th International Symposium on String Processing and Information Retrieval (SPIRE 2012)

      巻: LNCS 7608 ページ: 86-98

    • DOI

      10.1007/978-3-642-34109-0_10

    • 査読あり
  • [学会発表] Computing convolution on grammar-compressed text2013

    • 著者名/発表者名
      Toshiya Tanaka, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, and Masayuki Takeda
    • 学会等名
      Data Compression Conference 2013 (DCC 2013)
    • 発表場所
      Snowbird, Utah, USA
    • 年月日
      20130320-20130322
  • [学会発表] From Run Length Encoding to LZ78 and Back Again2013

    • 著者名/発表者名
      Yuya Tamakoshi, Tomohiro I, Shunsuke Inenaga, Hideo Bannai, and Masayuki Takeda
    • 学会等名
      Data Compression Conference 2013 (DCC 2013)
    • 発表場所
      Snowbird, Utah, USA
    • 年月日
      20130320-20130322
  • [学会発表] Simpler and Faster Lempel Ziv Factorization2013

    • 著者名/発表者名
      Keisuke Goto and Hideo Bannai
    • 学会等名
      Data Compression Conference 2013 (DCC 2013)
    • 発表場所
      Snowbird, Utah, USA
    • 年月日
      20130320-20130320
  • [学会発表] Efficient LZ78 factorization of grammar compressed text,2012

    • 著者名/発表者名
      Hideo Bannai, Shunsuke Inenaga, and Masayuki Takeda
    • 学会等名
      19th International Symposium on String Processing and Information Retrieval (SPIRE 2012)
    • 発表場所
      Cartagena, Colombia
    • 年月日
      20121021-20121025

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi