2009 Fiscal Year Annual Research Report
文字列パターン発見および文字列データ分類におけるモデル選択アルゴリズムの研究
Project/Area Number |
20700141
|
Research Institution | Kyushu University |
Principal Investigator |
坂内 英夫 Kyushu University, システム情報科学研究院, 准教授 (20323644)
|
Keywords | パターン発見 / パラメータ化文字列 / 繰り返し構造 |
Research Abstract |
本年度はパラメータ化文字列パターンおよび繰り返し構造パターンに着目し,より高速にデータを処理するためのデータ構造お上び構築アルゴリズムの研究を行った.得られた主な成果は以下の通りである。(1) パラメータ化パターン照合を高速に行うためのデータ構造としてパラメータ化接尾辞配列を提案し,その高速な構築方法を考案した.また,パラメータ化接尾辞配列に対する最長共通接頭辞長配列に関しても高速に構築するアルゴリズムを考案した.これらのデータ構造を合わせて用いることで,最適パラメータ化部分文字列パターン発見のアルゴリズム,及びパラメータ化部分文字列カーネルを高速に計算するアルゴリズムを実現した.(2) パラメータ化文字列の組み合わせ的性質をより深く理解するために,パラメータ化ボーダー配列の逆問題と列挙問題に取り組んだ.バイナリ文字列の場合,それぞれの問題について入力長および出力長に比例する時間で解くアルゴリズムを示した.(3) 繰りの返し構造発見問題に関して,特に短い文字列に対して極めて高速に動作するビット並列手法に基づくアルゴリズムを開発した.従来の線形時間アルゴリズムはLZ分解など複雑な操作が必要であったのに対し,提案手法は非常に簡潔であり,大量の文字列に対して処理を並列化することが容易であった.実際にアルゴリズムを用いて長さ48以下のすべてのバイナリ文字列に対する繰り返し構造を列挙することができ,その性質について幾つかの知見を得た.
|