本研究では、データベースとHadoopをハイブリッドに利用したスケーラブルな機械学習手法を開発した。バッチ学習をHadoop上で行い、逐次的な学習処理を関係データベースの一種であるPostgreSQL上で行う。 KDD Cup 2012, Track 2の商用広告データセットを用いた回帰分析タスクで提案手法の有効性の評価を行い、State-of-the-artな機械学習フレームワーク(Vowpal Wabbit、Bismarck)等の比較を行い、Vowpal Wabbitに対して5倍、Bismarckに対して5倍から7.65倍の学習速度が得られるという結果を得た。
|