研究概要 |
本研究では,データ圧縮という古典的研究分野に「機械発見処理の高速化」という新しい価値基準を導入し,この視点から,データ圧縮で用いられる各要素技術の再評価を行ない,機械発見システム構築のための基礎技術を確立することを目的とする.本研究では,対象を陽には構造をもたない文字列データに絞り,文字列データを対象とした機械発見の問題を扱う.データ圧縮と機械発見を統一的に扱うために文字列記述の形式的体系を導入し,このもとで,機械発見に必要な文字列処理問題の計算量を解析してその階層を究明する.また,実用的に有用なクラスに関して,文字列照合や文字列データ圧縮の分野の最新の結果を積極的に取り入れ,高速なアルゴリズムを開発することを目指す. (1)類似性指標の計算量的階層の究明 申請者らの提案した枠組みによれば,類似性指標は,パターンの集合とパターンスコア関数の組として記述される.類似度計算の計算量は,この二つに依存して定まる.そこで,類似性指標の階層を究明することにより,計算量的視点から指標選択の基準をあたえた. (2)類似性指標の実用的階層の細分化 (1)で得た階層をもとに,多項式時間・領域で計算可能なクラスをさらに細分化した.大量の文字列データに対して,すべての組み合わせについて類似度を計算する目的からは,0(n)〜0(n^3)程度で動作するアルゴリズム以外は,実用にならない.そこで,そのようなアルゴリズムの存在する指標のクラスを見出すことに成功した. (3)小規模ブロトタイプシステムの構築 (2)で得たクラスに対し,比例常数の点からも高速なアルゴリズムを開発し,計算機上に実装した.このアルゴリズムを核としたプロトタイプシステムを構築し,小規模なデータに対して,そのパフォーマンス評価を行なった.
|