研究概要 |
圧縮データ上のパターン照合アルゴリズムの開発に関しては,理論的観点からのアプローチとして,辞書式データ圧縮法の統一的枠組み(Collage system)を開発し,その枠組みの上で,Knuth-Morris-Pratt型(KMP)とBoyer-Moore型(BM)の両方の照合アルゴリズムを開発することに成功した.KMPとBMは,通常のテキストに対する最も基本的な照合アルゴリズムである.これらをByte-Pair-Encoding(BPE)圧縮に適合させることで,実用上,最も高速な圧縮文字列照合アルゴリズムが得られることを実験的に確認した.さらに,このCollage Systemに対して,一般的な複数文字列照合アルゴリズムの開発にも成功した.この手法は,近似文字列照合を行う際にも有用であることも確認できた.この手法を,有望な圧縮プログラムSequiturに対して容易に適用でき,また実用上も有用であることが明らかになった.さらに,テキストのみならずパターンも圧縮された設定において,平衡直線的プログラムに対する圧縮文字列照合アルゴリズムの開発も行った.この平衡直線的プログラムは,圧縮率という観点からは一般の直線的プログラムよりも劣るが,しかしながら圧縮文字列照合の観点からはより有用であることがわかった.また,文字列の部分列を判定するための効率のよいデータ構造である部分列オートマトンを高速に構築するオンラインアルゴリズムの開発を行った.このアルゴリズムは,現在知られている中で最も高速であり,知識発見システムの実行速度を上げるためにも有用であることを確認した.一方,データベースからの知識発見に関しても,例から木の変換規則を学習するアルゴリズムや,大きなテキストデータベースから語の最適な結合規則を見つけるアルゴリズムを開発できた.
|