2010 年度実績報告書

文字列圧縮に基づく文字列パターン発見・文字列データ分類の研究

研究課題

研究課題/領域番号	22680014
研究機関	九州大学
研究代表者	坂内英夫九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)
キーワード	圧縮文字列処理 / 文字列パターン発見 / 文字列データ分類 / q-gram
研究概要	本年度は主に単一の文字列を生成するチョムスキー標準形の文法である直線的プログラム(Straight line program, SLP)によって圧縮表現された文字列を対象に研究を行い,以下の成果が得られた.1.テキスト文字列Tを表現する大きさnのSLPと,長さmのパターン文字列Pに対して,PのTにおける部分列としての極小な出現を数え上げるO(nm)時間アルゴリズムを開発した.これは最近[Tiskin 2011]によって提案されたO(nm log m)アルゴリズムよりも効率的である.また,このアルゴリズムを拡張することで,SLP表現されたテキスト文字列に対してdon't care文字を含んだパターン照合を行う初のアルゴリズムを提案した.2.テキスト文字列Tを表現する大きさnのSLPと整数qに対して,Tに出現するすべてのq-gramとその出現頻度を求めるO(qn)時間アルゴリズムを開発した.これは従来アルファベットの大きさに対して指数的であったO(\|Σ\|^qqn^2)時間アルゴリズムに比べて大幅に改善されている.また,実データに対する計算機実験により,qがある程度小さい場合にはSLP表現からq-gram頻度を求める方が,非圧縮のテキスト文字列からq-gramを求めるよりも高速であることを示した.更に,このアルゴリズムを応用することで,(1)大きさnのSLPで表現されたテキストTの最頻出q-gramを求める問題をO(qn)時間,(2)大きさがそれぞれn_1,n_2であるSLPで表現された二つのテキストに対してq-スペクトラムカーネルの計算をO(q(n_1+n_2))時間,(3)総SLPサイズNの,SLPで表現された2つの文字列集合を区別する最適弁別q-gramパターン発見問題をO(qN)時間、でそれぞれ解くアルゴリズムを得ることができ,圧縮文字列処理のパターン発見・テキスト分類分野への有用性を初めて示した.

研究成果
(6件)

すべて 2011 2010

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (4件)

[雑誌論文] Faster Subsequence and Don't-Care Pattern Matching on Compressed Texts2011
- 著者名/発表者名
  Takanori Yamamoto, Hideo Bannai, Shunsuke Inenaga, Masayuki Takeda
- 雑誌名
  
  Proceedings of the 22nd Annual Symposium on Combinatorial Pattern Matching (CPM 2011)
  
  巻: (掲載確定)
- 査読あり
[雑誌論文] Sparse Substring Pattern Set Discovery using Linear Programming Boosting2010
- 著者名/発表者名
  Kazuaki Kashihara, Kohei Hatano, Hideo Bannai, Masayuki Takeda
- 雑誌名
  
  Proceedings of the 13th International Conference on Discovery Science (DS 2010)
  
  巻: LNAI 6332 ページ: 132-143
- 査読あり
[学会発表] 圧縮テキスト上でのn-gram非重複頻度の効率的な計算とその応用2011
- 著者名/発表者名
  後藤啓介, 坂内英夫, 稲永俊介, 竹田正幸
- 学会等名
  第134回アルゴリズム研究発表会
- 発表場所
  琉球大学
- 年月日
  2011-03-07
[学会発表] 圧縮テキスト上でのVLDCパターン照合問題2011
- 著者名/発表者名
  山本卓典, 坂内英夫, 稲永俊介, 竹田正幸
- 学会等名
  第134回アルゴリズム研究発表会
- 発表場所
  琉球大学
- 年月日
  2011-03-07
[学会発表] 圧縮文字列上でのn-gram頻度の高速な計算方法2011
- 著者名/発表者名
  後藤啓介, 坂内英夫, 稲永俊介, 竹田正幸
- 学会等名
  冬のLAシンポジウム2010
- 発表場所
  京都大学
- 年月日
  2011-02-02
[学会発表] 圧縮テキスト上での高速エピソードパターン照合2011
- 著者名/発表者名
  山本卓典, 坂内英夫, 稲永俊介, 竹田正幸
- 学会等名
  冬のLAシンポジウム2010
- 発表場所
  京都大学
- 年月日
  2011-02-02

2010 年度 実績報告書

文字列圧縮に基づく文字列パターン発見・文字列データ分類の研究

研究代表者

坂内 英夫 九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)

研究成果

[雑誌論文] Faster Subsequence and Don't-Care Pattern Matching on Compressed Texts2011

著者名/発表者名

雑誌名

[雑誌論文] Sparse Substring Pattern Set Discovery using Linear Programming Boosting2010

著者名/発表者名

雑誌名

[学会発表] 圧縮テキスト上でのn-gram非重複頻度の効率的な計算とその応用2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 圧縮テキスト上でのVLDCパターン照合問題2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 圧縮文字列上でのn-gram頻度の高速な計算方法2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 圧縮テキスト上での高速エピソードパターン照合2011

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

坂内英夫九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)