2014 Fiscal Year Annual Research Report
ストリーム処理とデータ分析処理を統合した戦略的データ活用基盤の開発
Project/Area Number |
24700111
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
油井 誠 独立行政法人産業技術総合研究所, 情報技術研究部門, 主任研究員 (10586712)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | MapReduce / オンライン学習 / 並列処理 / 機械学習 / 確率的勾配降下法 / 関係データベース |
Outline of Annual Research Achievements |
大規模な機械学習を実現するためのアプローチとして代表的なものに、関係データベース内で高度なデータ解析処理を行うIn-Database AnalyticsとMapReduceを用いて機械学習を並列処理するアプローチがある。テラバイト~ペタバイト級の大規模なデータ解析に行うにあたってはシステム間のデータ移動が非常に時間の要する課題となる。In-Database Analyticsはビジネスデータが存在するデータベース内でデータ解析を行うという点でデータ移動のコストを省けるため有効である。一方で、関係データベースは時間の要する解析処理をバッチ処理する上で重要な耐障害性や性能劣化ノードの扱いに課題を残している。
そこで、本研究ではバッチ学習をMapReduce/Hadoopを用いて行い、インクリメンタルな学習を関係データベース上で行うハイブリッドな機械学習手法を開発した。スループット重視のバッチ学習は、Hadoop上に構築した32台の並列学習器により約2,300,000 tuples/secのトレーニング速度を実現した。また、レイテンシ重視のインクリメンタル学習はPostgreSQL上に実装し、70,000 tuples/secのトランザクショナルな更新に対してインクリメンタルな学習モデルのメンテナンスを約5 secのレイテンシで行うことができることを確認した。
学術成果を国際会議2件(IEEE 2nd International Congress on Big DataとNIPS 2013 Workshop on Machine Learning Open Source Software)、及び国内学術論文誌(情報処理学会論文誌:データベース)、及び2014 Hadoop summitで外部発表を行った。また研究成果の産業分野への成果適用として、オンライン広告関連会社との共同研究を進め、研究成果について企業からのプレスリリースに行った。
|
Research Products
(4 results)