• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

文字列圧縮に基づく文字列パターン発見・文字列データ分類の研究

研究課題

研究課題/領域番号 22680014
研究機関九州大学

研究代表者

坂内 英夫  九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)

キーワード圧縮文字列処理 / 文字列パターン発見 / 文字列データ分類 / q-gram
研究概要

本年度は主に単一の文字列を生成するチョムスキー標準形の文法である直線的プログラム(Straight line program, SLP)によって圧縮表現された文字列を対象に研究を行い,以下の成果が得られた.1.テキスト文字列Tを表現する大きさnのSLPと,長さmのパターン文字列Pに対して,PのTにおける部分列としての極小な出現を数え上げるO(nm)時間アルゴリズムを開発した.これは最近[Tiskin 2011]によって提案されたO(nm log m)アルゴリズムよりも効率的である.また,このアルゴリズムを拡張することで,SLP表現されたテキスト文字列に対してdon't care文字を含んだパターン照合を行う初のアルゴリズムを提案した.2.テキスト文字列Tを表現する大きさnのSLPと整数qに対して,Tに出現するすべてのq-gramとその出現頻度を求めるO(qn)時間アルゴリズムを開発した.これは従来アルファベットの大きさに対して指数的であったO(|Σ|^qqn^2)時間アルゴリズムに比べて大幅に改善されている.また,実データに対する計算機実験により,qがある程度小さい場合にはSLP表現からq-gram頻度を求める方が,非圧縮のテキスト文字列からq-gramを求めるよりも高速であることを示した.更に,このアルゴリズムを応用することで,(1)大きさnのSLPで表現されたテキストTの最頻出q-gramを求める問題をO(qn)時間,(2)大きさがそれぞれn_1,n_2であるSLPで表現された二つのテキストに対してq-スペクトラムカーネルの計算をO(q(n_1+n_2))時間,(3)総SLPサイズNの,SLPで表現された2つの文字列集合を区別する最適弁別q-gramパターン発見問題をO(qN)時間、でそれぞれ解くアルゴリズムを得ることができ,圧縮文字列処理のパターン発見・テキスト分類分野への有用性を初めて示した.

  • 研究成果

    (6件)

すべて 2011 2010

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (4件)

  • [雑誌論文] Faster Subsequence and Don't-Care Pattern Matching on Compressed Texts2011

    • 著者名/発表者名
      Takanori Yamamoto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
    • 雑誌名

      Proceedings of the 22nd Annual Symposium on Combinatorial Pattern Matching (CPM 2011)

      巻: (掲載確定)

    • 査読あり
  • [雑誌論文] Sparse Substring Pattern Set Discovery using Linear Programming Boosting2010

    • 著者名/発表者名
      Kazuaki Kashihara, Kohei Hatano, Hideo Bannai, Masayuki Takeda
    • 雑誌名

      Proceedings of the 13th International Conference on Discovery Science (DS 2010)

      巻: LNAI 6332 ページ: 132-143

    • 査読あり
  • [学会発表] 圧縮テキスト上でのn-gram非重複頻度の効率的な計算とその応用2011

    • 著者名/発表者名
      後藤啓介, 坂内英夫, 稲永俊介, 竹田正幸
    • 学会等名
      第134回アルゴリズム研究発表会
    • 発表場所
      琉球大学
    • 年月日
      2011-03-07
  • [学会発表] 圧縮テキスト上でのVLDCパターン照合問題2011

    • 著者名/発表者名
      山本卓典, 坂内英夫, 稲永俊介, 竹田正幸
    • 学会等名
      第134回アルゴリズム研究発表会
    • 発表場所
      琉球大学
    • 年月日
      2011-03-07
  • [学会発表] 圧縮文字列上でのn-gram頻度の高速な計算方法2011

    • 著者名/発表者名
      後藤啓介, 坂内英夫, 稲永俊介, 竹田正幸
    • 学会等名
      冬のLAシンポジウム2010
    • 発表場所
      京都大学
    • 年月日
      2011-02-02
  • [学会発表] 圧縮テキスト上での高速エピソードパターン照合2011

    • 著者名/発表者名
      山本卓典, 坂内英夫, 稲永俊介, 竹田正幸
    • 学会等名
      冬のLAシンポジウム2010
    • 発表場所
      京都大学
    • 年月日
      2011-02-02

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi