1999 年度実績報告書

データマイニング問合せ最適化技術

研究課題

研究課題/領域番号	10480066
研究機関	東京大学
研究代表者	森下真一東京大学, 大学院・新領域創成科学研究科, 助教授 (90292854)
キーワード	データマイニング / 知識発見
研究概要	アソシエーションルールとは「条件1 かつ条件2かつ … 条件kならば目的条件」という形の規則である。過去の研究においては、ルールの価値をサポートと確信度という2つの基準で評価して、これら基準がある閾値を超えるようなルールを全て枚挙するアルゴリズムが考察されてきた。しかしながら、前提部と結論部の間にどれだけ有意な相関関係があるかが、ルールを評価する基準として統計学的根拠がある。そこで、「数多くの条件からカイ二乗値を最適化する条件の組合せを前提部に対して効率的に計算できるか?」というファンダメンタルな疑問に答えようとするのがこの研究の目的である。昨年度はこの問題の計算量を考察し、NP困難問題であることを示し、「探索分岐限定法」を考案し、現実には探索空間を大幅に圧縮できることがわかった。さらに計算効率を上げるため、並列計算機を用いた探索の並列化を試みた。平成11年度は、我々は、リストで管理することなく探索木をノードがダブルことなく構成する新手法を開発し、SMP型SUN並列機(64ノード)上で良好な台数効果を確かめた。さらにNUMA型の並列計算機であるOrigin 2000 においても良好な台数効果がでるようなソフトウエア開発に成功した。これらの結果は、国内はもとより国際会議において評価されている。このように、今までの研究の流れは、高価な並列計算機を使うことにより、現実には困難とされている問題も解くことを可能にすることであった。次に我々が取り組んでいるのは、通常のワークステーションクラスの計算機でも並列化せずに問題を解くことができないかという問題である。我々が特に注目しているのは、1994年に米国 IBM 社 Almaden 研究所の研究者が提案した Apriori アルゴリズムを改良することである。ところが過去の研究でカイ二乗値などの統計学的な関数は Apripri では扱えない困難さがあることが知られている。我々は、カイ二乗値の上限を評価する手法を開発し、Apripri アルゴリズムの戦略にマッチさせることが理論的に可能であることを導いた。平成12年度はこの考え方を実装し、性能評価を行う予定である。

研究成果

(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] Shinichi Morishita and Akihiro Nakaya: "Parallel Branch-and-Bound Graph Search for Correlated Associated Pules"Prof.of ACM SIG KDD workshop on Large-Scale Parallel KDD System. 25-34 (1999)
[文献書誌] Shinichi Morishita and Akihoro Nakaya: "Expressive Tests for Classification and Regression"Transaction of IEICE. Vol.E83-D No.1. 52-60 (2000)
[文献書誌] 森下真一、中谷明弘: "データマイニングの理論と実装"コンピュータソフトウェア. Vol.17 No.1. 59-72 (2000)