研究課題/領域番号 |
24700111
|
研究機関 | 独立行政法人産業技術総合研究所 |
研究代表者 |
油井 誠 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10586712)
|
キーワード | 関係データベース / 機械学習 / 並列処理 / MapReduce / オンライン学習 |
研究概要 |
大規模な機械学習を実現するための代表的なアプローチとして、関係データベース内で高度なデータ解析処理を行うIn-Database Analyticsと、MapReduceを用いた機械学習の並列処理の2つがある。テラバイト~ペタバイト級の大規模なデータ解析を行うにあたっては、システム間のデータ移動に非常に時間を要することが課題であり、In-Database Analyticsはビジネスデータが存在するデータベース内でデータ解析を行うという点でデータ移動のコストを省けるため有効である。一方で、関係データベースは、時間を要する解析処理をバッチ処理する上で重要な耐障害性や性能劣化ノードの扱いに課題を残している。 そこで本研究では、バッチ学習をMapReduce/Hadoopを用いて行い、インクリメンタルな学習を関係データベース上で行う、ハイブリッドな機械学習手法を開発した。 3年計画の2年度目にあたる平成25年度は、前年度に作成したハイブリッドな機械学習手法を論文としてまとめ、ビッグデータ分野の主要な会の一つであるIEEE 2nd International Congress on Big Dataで発表を行った。 また、開発成果をオープンソースソフトウェアのHivemallとして公開した。公開したソフトウェアに関する発表は、機械学習分野の最難関会議であるNIPSのワークショップ(NIPS 2013 Workshop on Machine Learning Open Source Software)や採択率2割をきる産業界からの注目度の高いエンジニアリングカンファレンスのHadoop Summit 2014に採択された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
MapReduceによるバッチ学習と関係データベース上でのインクリメンタルな学習の組合せによるハイブリッドな機械学習手法を開発し、大規模なクリックストリームデータを利用した評価実験まで既に終えている。 当該手法は平成25年度に国際会議2件で発表済みの他、平成26年度に向けて論文誌投稿中1件、Hadoop summitでの発表予定と研究成果の発表も順調に進んでいる。 交付申請書段階では、CEP処理系を利用することを想定していたが、申請者が入手可能なクリックストリームデータを取り扱う上で技術的に必須事項ではないことが判明したため、優先事項から外し、大規模データのための機械学習手法の開発に注力した。 実現手法と研究対象は、より機械学習寄りのものとなったが、ストリーム処理と蓄積型のバッチ処理のハイブリッドな手法という点で当初の研究目的から逸れておらず、おおむね順調に進展している。
|
今後の研究の推進方策 |
平成26年度の計画では、「商用サイトにおける実地テストによる提案システムの評価と改善」を行う予定であるが、既に民間のオンライン広告関連企業との共同研究で実データの提供を受け、提案システムの評価を行っており、当初計画通りの予定で研究を推進していく予定である。 他方で、「決定木からの分析問合せの推薦アルゴリズムの開発」については計画を変更し、引き続きストリーム処理と蓄積型のバッチ処理のハイブリッドな機械学習手法の開発に注力する予定である。 平成26年度は最終年度ということもあり、研究成果の対外発表を行っていく。年度内に論文誌発表1件、国際会議発表1件、国内会議発表1件を目標とする。
|