2010 Fiscal Year Annual Research Report
クラウド環境での機械学習アルゴリズムの高速分散実行機構
Project/Area Number |
22700048
|
Research Institution | Waseda University |
Principal Investigator |
秋岡 明香 早稲田大学, IT研究機構, 准教授 (90333533)
|
Keywords | 学習アルゴリズム / Frequent Pattern Mining / 並列分散コンピューティング / GPGPU |
Research Abstract |
本研究提案は、学習アルゴリズムの並列分散を実行可能とし、対象とする計算環境や計算機アーキテクチャに特化した高速化ライブラリを構築することを目的としている。初年度である平成22年度は、比較的研究が進められているアルゴリズムから着手する予定であったことから、頻出パターン検出アルゴリズムの並列化とGPUを用いた高速化に着手した。バスケット解析などに代表される頻出パターン検出問題は、実社会での需要が高い解析手法のひとつであり、近年では超大規模データの解析に対する要求が高まっていることから、高速化への需要が多いアルゴリズムのひとつである。 頻出パターン検出アルゴリズムの逐次実行アルゴリズムとしては、FP-growthが最も高速であるとされている。FP-growthは、入力データを木構造で表現し、最底辺の葉から根に辿ることで解を探索する。したがって、従来の手法よりも入力データスキャンの回数を大幅に削減可能であり、また問題探索空間を小さくすることが可能であるため、高速であるとされている。一方で、FP-growthで用いる木構造は、多くの場合には枝の数が一定でなく、深さもバラバラであるため、FP-growthアルゴリズムをそのまま並列化しても、十分な高速化を実現することが難しい。 以上の状況を踏まえ、本プロジェクトでは、GPGPUによるFP-growthアルゴリズムの並列化手法を実装・提案した。具体的には、並列化効率を下げる木構造でのデータ表現ではなく、GPGPUに適したバイナリ表記でのデータ表現を用いた。また、木探索ではなく、ビット演算による解探索手法を提案した。
|