研究概要 |
本研究は,データベースのレコードを説明する規則の正確さについて,「例をどれだけ正しく説明できるか」で定義した「最大合意問題」を,さらに発展させ,例からの規則抽出の問題一般に最適化手法を適用するための枠組みを提案することを目的としていた.特に,効率のよい近似アルゴリズムを設計するための理論構築を行い,同時に実用性を確かめるためのプロトタイピングを行うことを目標にしている. 今年度は,最大合意問題の一般化された定式化を行い,広範囲の問題に適用して近似困難性の解析を行うことを目的とした.また,設計したアルゴリズムの実装評価を一部行うことも目標とした.最大合意問題の一般化された定式化としては,テキストデータから近接相関パターンを高速データマイニングする問題について,(1)評価関数の一般化,多様化を許した定式化への拡張を行い,(2)従来のデータマイニングが最大合意問題の部分問題としてとらえられるよう問題を拡張した.これにより,評価基準を従来の分類誤差だけでなく,エントロピー関数,Gini関数などに拡張できるようになり,実際のアプリケーションにおける実用性が高まったと考えられる. さらに(3)オーダー評価だけでなく,実システムとしての時間効率を重視したアルゴリズムを設計し,実装と計算実験によってその有効性を確認した.これは,パターンの部分を枚挙するためのデータ構造をSuffix TreeからSuffix Arrayに変更し,Suffix Arrayを用いてTreeを模倣するためのアルゴリズムを開発することで可能となった. その他,関連する近似アルゴリズムの基礎研究も行っている.
|