配分額 *注記 |
11,200千円 (直接経費: 11,200千円)
2003年度: 2,600千円 (直接経費: 2,600千円)
2002年度: 4,000千円 (直接経費: 4,000千円)
2001年度: 4,600千円 (直接経費: 4,600千円)
|
研究概要 |
文字列に対する索引構造として,接尾辞木(suffix tree)や有向無閉路文字列グラフ(DAWG)がよく知られているが,我々はその両方の性質を持つ,よりコンパクトなデータ構造であるコンパクト有向無閉路文字列(CDAWG)に着目し,そのためのオンライン構築アルゴリズムを示した.また,文字列のすべての接頭辞に対するDAWGを合わせた構造に対する構築アルゴリズムを示し,与えられた文字列のすべての部分列を受理するオートマトン(部分列オートマトン)の状態数の下限の証明も行った.これらの結果はいずれも,アプリケーションの高速化の基盤技術として用いられている.また,日本語テキストなど,アルファベットサイズが大きい場合に有効なDAWGの実装技術として,三分木構造を活用したデータ構造を提唱し,その有効性を実証した. 一方,これら文字列に対するデータ構造の性質をより探求するために,グラフ構造からそれに適合する文字列を推論するという逆問題を新たに提案し,DAWG,部分列オートマトン,そして接尾辞配列に対する線形時間アルゴリズムの開発した.さらに,文字列の代数的な性質として,1変数の文字列方程式の解の長さの上限を初めて明示的に証明することに成功した. データ圧縮に関しては,まず我々はテキストに対応したコンパクトな文脈自由文法を出力する枠組みにおいて,出力される文法のサイズの近似率を保証した,領域効率もよいアルゴリズムの開発とその解析に成功した.また,長さ優先で置換を行っていくヒューリスティクスに関しても,全行程を線形時間で行うことを可能にするアルゴリズムを与えた. また、大量のデータから現実的な時間内に有用な規則を抽出しようとするパターン発見アルゴリズムに関しても,より一般化したさまざまなパターンについてそれぞれ独自の高速ナルゴリズムを開発することに成功した.特に,誤りを許した近似パターンについても,効率のよいアルゴリズムを与え,その効果を計算機実験によって検証した.
|