2008 Fiscal Year Annual Research Report
文字列パターン発見および文字列データ分類におけるモデル選択アルゴリズムの研究
Project/Area Number |
20700141
|
Research Institution | Kyushu University |
Principal Investigator |
坂内 英夫 Kyushu University, 大学院・システム情報科学研究院, 准教授 (20323644)
|
Keywords | アルゴリズム / データ構造 / 文字列 |
Research Abstract |
本年度は主にパターン発見/テキスト分類のための高速なアルゴリズム・データ構造の研究に取り組み, 以下の成果が得られた. これらの成果は今後, 様々なパターンクラスを用いた文字列パターン発見および文字列データ分類を種々のデータに対して適用し, 有効性を比較する上で重要となる. 具体的には1. アルファベットの入れ替えという曖昧性を許したパラメータ化文字列パターンのクラスを考えた. パラメータ化文字パターンの照合を効率良く行うため, 従来のパラメータ化接尾辞木よりも省メモリであるパラメータ化接尾辞配列を提案し, その効率的な構築アルゴリズムを示した. アルファベットが2文字のみからなる場合には文字列の長さに対して線形時間で動作するパラメータ化接尾辞配列構築アルゴリズムを示し, また, 一般のアルファベットに対しては最悪計算量の理論値は変わらないものの, 様々なデータに対して素朴なアルゴリズムよりも大幅に高速なアルゴリズムを開発した. このデータ構造により, パラメータ化文字列パターンの発見, およびそれに基づく文字列カーネルの効率的計算が可能となる. 2. 文字列パターンに基づく文字列カーネルとして, 従来の部分列カーネルおよび部分文字列カーネルの特徴空間を含む, VLDC(Variable Length Don' t Care)パターンに基づくVLDCカーネルを設計し, WDAWG(Wildcard DAWG)と呼ばれるデータ構造を用いてカーネル値を計算するアルゴリズムを開発した. 計算機実験において, データによっては部分列カーネルよりも精度が良い場合があることを示した.
|