• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

文字列圧縮に基づく文字列パターン発見・文字列データ分類の研究

Research Project

Project/Area Number 22680014
Research InstitutionKyushu University

Principal Investigator

坂内 英夫  九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)

Keywords圧縮文字列処理 / 直線的プログラム / 文字n-グラム / 文字列パターン発見 / 文字列データ分類
Research Abstract

本年度は昨年度た引き続き,単一の文字列を生成するチョムスキー標準形の文法である直線的プログラム(Straight line program, SLP)によって圧縮表現された文字列を対象に研究を行った.主な成果は以下の通りである.
与えられた文字列に対して,その文字列に含まれるすべての長さqの部分文字列(q-グラム)のそれぞれの出現頻度は,その文字列の性質を捉える有用な特徴である.そのため,q-グラム頻度は文字列の分類やパターン発見においてよく使われており,これを高速・省領域で計算できることには大きな意義がある.本研究では(1)SLPで表現された文字列上の(重複する出現を数える)q-グラム頻度問題に対して,昨年度開発したアルゴリズムを理論・実用の両面で更に大きく改良することに成功した.具体的には,長さNのテキスト文字列Tを表現する大きさnのSLPと整数qに対して昨年度のアルゴリズムがO(qn)時間・領域であったのに対し,新しいアルゴリズムはO(N-α)時間・領域である.ここでαはqとSLP表現の圧縮性能に関連した非負整を表しており,N-α≦qnが成り立つ.計算上機実験において、新しいアルゴリズムはほとんどの場合に昨年度のアルゴリズムよりも高速であること,また,昨年度のアルゴリズムと違い,qが大きい場合でも非圧縮のテキスト文字列からq-グラム頻度を求めるO(N)アルゴリズムと比べて大幅に遅くなることはなく,場合によってはより高速になることを示した.(2)SLPで表現された文字列上の(重複する出現を数えない)q-グラム非重複頻度問題に対しO(q^2n)時間O(qn)領域アルゴリズムを開発し,この問題に対してq>2の場合の初めての多項式時間アルゴリズムを与えた.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

圧縮文字列上でのq-グラム頻度を求める効率の良いアルゴリズムの開発に成功したごとで,当初の目的の1つである「高速・省メモリな文字列パターン発見・文字列データ分類アルゴリズムの開発」をある程度達成することが出来た.また,まだ論文として成果をまとめてはいないものの,今までの研究で得られた知見や成果から,当初は扱いが難しいと考えていたLZ系の圧縮法等とSLP表現との新たな関係が見えて来ており,今後研究を更に大きく展開できそうであるため.

Strategy for Future Research Activity

今まで行ってきた研究を継続すると共に,更に次の2点についても取り組む.1.様々なアルゴリズムによって得られる文字列の圧縮表現を,表現を陽に展開すること無くかつ効率良く相互に変換する手法の研究.2.本研究課題で開発したアルゴリズムをより広範囲に実データへ適用すること,また,来年度が本研究課題の最終年度であることを踏まえ,作成したソフトウェア等の研究成果を公開するための準備を進める.

  • Research Products

    (6 results)

All 2012 2011

All Journal Article (4 results) (of which Peer Reviewed: 3 results) Presentation (2 results)

  • [Journal Article] Finding Characteristic Substrings from Compressed Texts2012

    • Author(s)
      Shunsuke Inenaga, Hideo Bannai
    • Journal Title

      International Journal of Foundations of Computer Science

      Volume: 23(2) Pages: 261-280

  • [Journal Article] Computing q-gram Non-overlapping Frequencies on SLP Compressed Texts2012

    • Author(s)
      Keisuke Goto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • Journal Title

      Proceedings of the 38th International Conference on Current Trends in Theory and Practice of Computer Science (SOFSEM 2012)

      Volume: LNOS7147 Pages: 301-312

    • DOI

      10.1007/978-3-642-27660-6_25

    • Peer Reviewed
  • [Journal Article] Speeding up q-gram mining on grammar-based compressed texts2012

    • Author(s)
      Keisuke Goto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • Journal Title

      Proceedings of the 23rd Annual Symposium on Combinatorial Pattern Matching (CPM 2012)

      Volume: (掲載決定)

    • Peer Reviewed
  • [Journal Article] Fast q-gram Mining on SLP Compressed Strings2011

    • Author(s)
      Keisuke Goto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • Journal Title

      Proceedings of the 18th International Symposium on String Processing and Information Retrieval (SPIRE 2011)

      Volume: LNCS7024 Pages: 278-289

    • DOI

      10.1007/978-3-642-24583-1_27

    • Peer Reviewed
  • [Presentation] Improved q-gram Mining on SLP Compressed Strings2012

    • Author(s)
      Keisuke Goto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • Organizer
      London Stringology Days/London Algorithmic Workshop 2012 (LSD & LAW 2012)
    • Place of Presentation
      King's College London, London, United Kingdom
    • Year and Date
      2012-02-09
  • [Presentation] Fast q-gram Mining on SLP Compressed Strings2011

    • Author(s)
      Keisuke Goto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • Organizer
      Second Workshop on Algorithms for Large-Scale Information Processing in Knowledge Discovery (ALSIP 2011)
    • Place of Presentation
      サンポートホール高松(高松市)
    • Year and Date
      2011-12-01

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi