• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

文字列圧縮に基づく文字列パターン発見・文字列データ分類の研究

Research Project

Project/Area Number 22680014
Research InstitutionKyushu University

Principal Investigator

坂内 英夫  九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)

Keywords圧縮文字列処理 / 文字列パターン発見 / 文字列データ分類 / q-gram
Research Abstract

本年度は主に単一の文字列を生成するチョムスキー標準形の文法である直線的プログラム(Straight line program, SLP)によって圧縮表現された文字列を対象に研究を行い,以下の成果が得られた.1.テキスト文字列Tを表現する大きさnのSLPと,長さmのパターン文字列Pに対して,PのTにおける部分列としての極小な出現を数え上げるO(nm)時間アルゴリズムを開発した.これは最近[Tiskin 2011]によって提案されたO(nm log m)アルゴリズムよりも効率的である.また,このアルゴリズムを拡張することで,SLP表現されたテキスト文字列に対してdon't care文字を含んだパターン照合を行う初のアルゴリズムを提案した.2.テキスト文字列Tを表現する大きさnのSLPと整数qに対して,Tに出現するすべてのq-gramとその出現頻度を求めるO(qn)時間アルゴリズムを開発した.これは従来アルファベットの大きさに対して指数的であったO(|Σ|^qqn^2)時間アルゴリズムに比べて大幅に改善されている.また,実データに対する計算機実験により,qがある程度小さい場合にはSLP表現からq-gram頻度を求める方が,非圧縮のテキスト文字列からq-gramを求めるよりも高速であることを示した.更に,このアルゴリズムを応用することで,(1)大きさnのSLPで表現されたテキストTの最頻出q-gramを求める問題をO(qn)時間,(2)大きさがそれぞれn_1,n_2であるSLPで表現された二つのテキストに対してq-スペクトラムカーネルの計算をO(q(n_1+n_2))時間,(3)総SLPサイズNの,SLPで表現された2つの文字列集合を区別する最適弁別q-gramパターン発見問題をO(qN)時間、でそれぞれ解くアルゴリズムを得ることができ,圧縮文字列処理のパターン発見・テキスト分類分野への有用性を初めて示した.

  • Research Products

    (6 results)

All 2011 2010

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results)

  • [Journal Article] Faster Subsequence and Don't-Care Pattern Matching on Compressed Texts2011

    • Author(s)
      Takanori Yamamoto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • Journal Title

      Proceedings of the 22nd Annual Symposium on Combinatorial Pattern Matching (CPM 2011)

      Volume: (掲載確定)

    • Peer Reviewed
  • [Journal Article] Sparse Substring Pattern Set Discovery using Linear Programming Boosting2010

    • Author(s)
      Kazuaki Kashihara, Kohei Hatano, Hideo Bannai, Masayuki Takeda
    • Journal Title

      Proceedings of the 13th International Conference on Discovery Science (DS 2010)

      Volume: LNAI 6332 Pages: 132-143

    • Peer Reviewed
  • [Presentation] 圧縮テキスト上でのn-gram非重複頻度の効率的な計算とその応用2011

    • Author(s)
      後藤啓介, 坂内英夫, 稲永俊介, 竹田正幸
    • Organizer
      第134回アルゴリズム研究発表会
    • Place of Presentation
      琉球大学
    • Year and Date
      2011-03-07
  • [Presentation] 圧縮テキスト上でのVLDCパターン照合問題2011

    • Author(s)
      山本卓典, 坂内英夫, 稲永俊介, 竹田正幸
    • Organizer
      第134回アルゴリズム研究発表会
    • Place of Presentation
      琉球大学
    • Year and Date
      2011-03-07
  • [Presentation] 圧縮文字列上でのn-gram頻度の高速な計算方法2011

    • Author(s)
      後藤啓介, 坂内英夫, 稲永俊介, 竹田正幸
    • Organizer
      冬のLAシンポジウム2010
    • Place of Presentation
      京都大学
    • Year and Date
      2011-02-02
  • [Presentation] 圧縮テキスト上での高速エピソードパターン照合2011

    • Author(s)
      山本卓典, 坂内英夫, 稲永俊介, 竹田正幸
    • Organizer
      冬のLAシンポジウム2010
    • Place of Presentation
      京都大学
    • Year and Date
      2011-02-02

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi