研究実績の概要 |
大規模な機械学習を実現するためのアプローチとして代表的なものに、関係データベース内で高度なデータ解析処理を行うIn-Database AnalyticsとMapReduceを用いて機械学習を並列処理するアプローチがある。テラバイト~ペタバイト級の大規模なデータ解析に行うにあたってはシステム間のデータ移動が非常に時間の要する課題となる。In-Database Analyticsはビジネスデータが存在するデータベース内でデータ解析を行うという点でデータ移動のコストを省けるため有効である。一方で、関係データベースは時間の要する解析処理をバッチ処理する上で重要な耐障害性や性能劣化ノードの扱いに課題を残している。
そこで、本研究ではバッチ学習をMapReduce/Hadoopを用いて行い、インクリメンタルな学習を関係データベース上で行うハイブリッドな機械学習手法を開発した。スループット重視のバッチ学習は、Hadoop上に構築した32台の並列学習器により約2,300,000 tuples/secのトレーニング速度を実現した。また、レイテンシ重視のインクリメンタル学習はPostgreSQL上に実装し、70,000 tuples/secのトランザクショナルな更新に対してインクリメンタルな学習モデルのメンテナンスを約5 secのレイテンシで行うことができることを確認した。
学術成果を国際会議2件(IEEE 2nd International Congress on Big DataとNIPS 2013 Workshop on Machine Learning Open Source Software)、及び国内学術論文誌(情報処理学会論文誌:データベース)、及び2014 Hadoop summitで外部発表を行った。また研究成果の産業分野への成果適用として、オンライン広告関連会社との共同研究を進め、研究成果について企業からのプレスリリースに行った。
|