アソシエーションルールとは「条件1 かつ条件2かつ … 条件kならば 目的条件」という形の規則である。過去の研究においては、ルールの価値をサポートと確信度という2つの基準で評価して、これら基準がある閾値を超えるようなルールを全て枚挙するアルゴリズムが考察されてきた。しかしながら、前提部と結論部の間にどれだけ有意な相関関係があるかが、ルールを評価する基準として統計学的根拠がある。そこで、「数多くの条件からカイ二乗値を最適化する条件の組合せを前提部に対して効率的に計算できるか?」というファンダメンタルな疑問に答えようとするのがこの研究の目的である。昨年度はこの問題の計算量を考察し、NP困難問題であることを示し、「探索分岐限定法」を考案し、現実には探索空間を大幅に圧縮できることがわかった。さらに計算効率を上げるため、並列計算機を用いた探索の並列化を試みた。平成11年度は、我々は、リストで管理することなく探索木をノードがダブルことなく構成する新手法を開発し、SMP型SUN並列機(64ノード)上で良好な台数効果を確かめた。さらにNUMA型の並列計算機であるOrigin 2000 においても良好な台数効果がでるようなソフトウエア開発に成功した。これらの結果は、国内はもとより国際会議において評価されている。このように、今までの研究の流れは、高価な並列計算機を使うことにより、現実には困難とされている問題も解くことを可能にすることであった。次に我々が取り組んでいるのは、通常のワークステーションクラスの計算機でも並列化せずに問題を解くことができないかという問題である。我々が特に注目しているのは、1994年に米国 IBM 社 Almaden 研究所の研究者が提案した Apriori アルゴリズムを改良することである。ところが過去の研究でカイ二乗値などの統計学的な関数は Apripri では扱えない困難さがあることが知られている。我々は、カイ二乗値の上限を評価する手法を開発し、Apripri アルゴリズムの戦略にマッチさせることが理論的に可能であることを導いた。平成12年度はこの考え方を実装し、性能評価を行う予定である。
|