2012 Fiscal Year Research-status Report
ストリーム処理とデータ分析処理を統合した戦略的データ活用基盤の開発
Project/Area Number |
24700111
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
油井 誠 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10586712)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 機械学習 / MapReduce / 関係データベース / オンライン学習 / 並列処理 / 確率的勾配降下法 |
Research Abstract |
大規模な機械学習を実現するためのアプローチとして代表的なものに、関係データベース内で高度なデータ解析処理を行うIn-Database AnalyticsとMapReduceを用いて機械学習を並列処理するアプローチがある。 テラバイト~ペタバイト級の大規模なデータ解析に行うにあたってはシステム間のデータ移動が非常に時間の要する課題となる。In-Database Analyticsはビジネスデータが存在するデータベース内でデータ解析を行うという点でデータ移動のコストを省けるため有効である。一方で、関係データベースは時間の要する解析処理をバッチ処理する上で重要な耐障害性や性能劣化ノードの扱いに課題を残している。 そこで、本研究ではバッチ学習をMapReduce/Hadoopを用いて行い、インクリメンタルな学習を関係データベース上で行うハイブリッドな機械学習手法を開発した。スループット重視のバッチ学習は、Hadoop上に構築した32台の並列学習器により約2,300,000 tuples/secのトレーニング速度を実現した。また、レイテンシ重視のインクリメンタル学習はPostgreSQL上に実装し、70,000 tuples/secのトランザクショナルな更新に対してインクリメンタルな学習モデルのメンテナンスを約5 secのレイテンシで行うことができることを確認した。 提案手法の評価として、KDD Cup 2012の広告クリック率推定タスクを用い、State-of-the-artな機械学習フレームワーク(Vowpal Wabbit、Bismarck)との比較を行い、Vowpal Wabbitに対して5倍、Bismarckに対して7.65倍の学習速度が得られるという結果を得た。 研究成果の成果適用として、オンライン広告関連会社との共同研究を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
MapReduceによるバッチ学習と関係データベース上でのインクリメンタルな学習の組合せによるハイブリッドな機械学習手法を開発し、大規模なクリックストリームデータを利用した評価実験まで既に終えている。当該手法は国際会議に論文投稿中である。 交付申請書段階では、CEP処理系を利用することを想定していたが、申請者が入手可能なクリックストリームデータを取り扱う上で技術的に必須事項ではないことが判明したため、優先事項から外し、平成24年度は大規模データのための機械学習手法の開発に注力した。 実現手法と研究対象は、より機械学習寄りのものとなったが、ストリーム処理と蓄積型のバッチ処理のハイブリッドな手法という点で当初の研究目的から逸れておらず、おおむね順調に進展している。
|
Strategy for Future Research Activity |
平成25年度の計画では、並列分散環境でのオンライン学習、決定木を用いて意思決定問合せを抽出することを目的としていたが、並列分散環境でのオンライン学習に注力していく予定である。特に、分散メモリ環境で、メモリ内に収まらない巨大データのストリームをいかに効率的に扱うか、という点に注力して研究を進める予定である。データの不必要な点を積極的に忘却していくことで、巨大データのストリームも扱えることを検証する予定である。 非定常性のデータを扱う上では、Concept Driftといった問題により、過去の学習モデルを利用することが予測に適さないことがあることが知られている。こうしたConcept Driftといった問題に適切な分散メモリのキャッシュ管理ポリシを開発することが課題となる。
|
Expenditure Plans for the Next FY Research Funding |
平成24年度で設備環境はほぼ整ったため、本年度の研究費の利用はジャーナルの別刷り代、国際会議・国内会議の参加費、旅費、英文校正の謝金といった項目での利用が主となる。その他、計算ノードのディスク容量を上げるためのディスク増設やネットワークカードの追加を見込んでいる。
|