1999 Fiscal Year Annual Research Report
大規模並列プロセッサを用いた相関ルールマイニングの超並列処理方式に関する研究
Project/Area Number |
11558030
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | The University of Tokyo |
Principal Investigator |
喜連川 優 東京大学, 生産技術研究所, 教授 (40161509)
|
Co-Investigator(Kenkyū-buntansha) |
林 周志 東京大学, 生産技術研究所, 助手 (50282596)
中山 雅哉 東京大学, 大型計算機センター, 助教授 (90217943)
中野 美由紀 東京大学, 生産技術研究所, 助手 (30227863)
鳥居 俊一 日立製作所, システム開発本部, 技術主幹(研究職)
|
Keywords | データマイニング処理 / 並列データベース処理 / 分散処理 |
Research Abstract |
本研究では、超並列相関ルールマイニングアルゴリズムを開発し、大規模並列コンピュータ(100プロセッサ)上に実現することで、その超高性能化を試み、従来、全く処理不能と考えられてきた巨大データのマイニングを可能とする基板技術の実用化を目的とする。 本年度は、時系列データに対する概念階層を考慮した相関ルールマイニング並列処理アルゴリズムの設計を行った。従来はトランザクションデータのみをノード群に分散していたのに対し、候補ルールに関してもハッシュ関数を利用して分散する新しい超並列化手法を提案した。過去我々が提案してきた単純化された並列相関ルーマイニングは16ノードからなるIBM社製SP-2での実験で一部に行ったにすぎず、超並列アルゴリズム設計を行うとともに、数十台規模のPCクラスタを用いて予備実験を行った。 さらに実行時動的負荷分散手法の開発について検討を行った。ルールはデータに偏りがあることから抽出される。逆に考えると偏りがなければそのデータには何ら特徴がないこととなり、ルールは存在しないことになる。一方で並列処理に於ける最終的な課題はいかに負荷を均等に分散させ並列台数効果を上げるかに集約される。そこで、出現頻度の高いルールは各プロセッサでローカルに処理を行い、通信を減らすことで効率化を図れるが、概念階層を考慮したタスク分割を行わなければ、逆に通信オーバーヘッドが大幅に増加するし、1000プロセッサ環境では著しい性能低下を招く。概念階層と出現頻度を考慮した新しい負荷分散方式を提案した。
|
-
[Publications] Iko Pramdino,Takahiko Shintani,Takayuki Tamura,Masaru Kitagawa: "Parallel SQL Based Association Rule Mining on Large Scale PC Cluster : Performance Comparison with Directly Coded C Implementation"Proceedings of Third Pacific-Asea Conference on Knowledge Discovery and Data Mining (PAKDD99). 94-98 (1999)
-
[Publications] Takahiko Shintani,Masaru Kitsuregawa: "Parallel Generalized Association rule Mining on Large Scale PC Cluster"Proceedings of Workshop on Large-Scale Parallel KDD Systems. 35-44 (1999)
-
[Publications] Iko Pramdiono,Takahiko Shintani,Takayuki Tamura,Masaru Kitsuregawa: "Mining Generalized Association Rule using Parallel RBD Engine on PC Cluster"Proceedings of First International Conference on Data Warehousing and Knoledege Discovery (DAWAK99). 281-292 (1999)
-
[Publications] Takahiko Shintani,Masato Oguchi,Masaru Kitsuregawa: "Performance Analysis for Parallel Generalized Association Rule Mining on a Large Scale PC Cluster"Euro-par'99 Parallel Processing 5th International Euro-Par Conference. 1455-1459 (1999)