研究概要 |
大量のテキストデータの中から自明でない規則を抽出しようという,いわゆるテキストマイニングの技法の開発には大きな期待が寄せられている.実際上のアプリケーションにおいては,その探索空間の広大さと現実の計算機パワーとの間の埋めがたいギャップのため,ほとんどの場合について,問題固有の知識を利用しながら探索を制御し,探索経路の組み合わせ的爆発に対する工夫を行うことが必要となっている.本研究では,特に力点を文字列としてのパターン抽出におき,文字列集合を特徴付ける規則を高速に発見するための高速なアルゴリズムの開発を行うことを目標としている. 本年度は,特に部分的な不一致を許したパターンの発見に力点を置いた.すなわち,データそのものの観測誤差やノイズなどに柔軟に対応できる頑健なアルゴリズムを構築することを目的として,パターンのマッチングに不一致数のパラーメータを導入し,このパラーメータの探索そのものも半自動的に行うための方法論を探求した.一般に,パターンマッチングだけを取ってみても,このような不一致を許すととたんに計算量が増大することが知られている.そこで,これまで段階的に取り組んできた部分文字列パターンと部分列パターン,エピソードパターンに対して,それぞれこの不一致を許したマッチングへの対応方法を根本から再検討した.そしてこれらの一般形であるVLDCパターンをさらに一般化して,可変長のみならず定数長の文字列代入を表すワイルドカード記号を導入したFVLDCパターンを提唱し,そのパターンを効率よく発見するアルゴリズムを開発した.そして,ある範囲内でのミスマッチの合計値を抑える形で近似パターンとして使えることを示し,そのためのアルゴリズムも与えた.また,部分列パターンのマッチングを高速に行うためのデータ構造である部分列オートマトンについて,その状態数の下限を証明することにも成功した.
|