問題 アソシエーションルールとは「条件1かつ条件2かつ・・・条件kならば目的条件」という形の規則である。過去の研究においては、ルールの価値をサポートと確信度という2つの基準で評価して、これら基準がある閾値を超えるようなルールを全て枚挙するアルゴリズムが考察されてきた。しかしながら、前提部「条件1かつ条件2かつ・・・条件k」と結論部「目的条件」の間にどれだけ有意な相関関係があるかが、ルールを評価する基準として統計学的根拠が高い。例えば、2事象間の独立性の検定では、カイ二乗値が相関関係の重要性を測る基準として標準的に使われろ。そこで、「数多くの条件からカイ二乗値を最適化する条件の組合せを前提部に対して効率的に計算できるか?」というファンダメンタルな疑問に答えようとするのがこの研究の目的である。この問題は、国際的にも興味がもたれており、例えばデータマイニング研究の中心地である米国スタンフォード大学のチームも部分的解法を提案している。研究実績 我々はまずこの問題の計算量を考察し、NP困難問題であることを示した。これは効率的に計算することの本質的困難さを示しいるので、残念ながら実用的には嬉しい結果ではない。そこで我々は現実的な解法を模索し、NP困難問題を解くための典型的アプローチである「探索+岐限定法」をこの問題に対して構成することを考察した。効果的な分岐限定法をつくることは自明な問題でなかったが、カイ二乗関数の性質を吟味することで次善の方法を導き、実験でも良好な結果を得ることができ、現実には探索空間を大幅に圧縮できることがわかった。さらに計算効率を上げるため、並列計算機を用いた探索の並列化を試みた。探索の並列化は過去様々な研究があるものの、探索したノードのリストを動的に管理して探索の2重化を防ぐ方法が主流である。しかしこの方法では計算のボトルネックを生むため、超並列環境での台数効果をあげることが困難である。我々は、リストで管理することなく探索木をノードがダブルことなく構成する新手法を開発し、SMP型SUN並列機(64ノード)上で良好な台数効果を確かめた。来年度は、本ソフトウエアのより詳細な性能チューニングを行う計画である。
|