• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Research-status Report

ストリーム処理とデータ分析処理を統合した戦略的データ活用基盤の開発

Research Project

Project/Area Number 24700111
Research InstitutionNational Institute of Advanced Industrial Science and Technology

Principal Investigator

油井 誠  独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10586712)

Keywords関係データベース / 機械学習 / 並列処理 / MapReduce / オンライン学習
Research Abstract

大規模な機械学習を実現するための代表的なアプローチとして、関係データベース内で高度なデータ解析処理を行うIn-Database Analyticsと、MapReduceを用いた機械学習の並列処理の2つがある。テラバイト~ペタバイト級の大規模なデータ解析を行うにあたっては、システム間のデータ移動に非常に時間を要することが課題であり、In-Database Analyticsはビジネスデータが存在するデータベース内でデータ解析を行うという点でデータ移動のコストを省けるため有効である。一方で、関係データベースは、時間を要する解析処理をバッチ処理する上で重要な耐障害性や性能劣化ノードの扱いに課題を残している。
そこで本研究では、バッチ学習をMapReduce/Hadoopを用いて行い、インクリメンタルな学習を関係データベース上で行う、ハイブリッドな機械学習手法を開発した。
3年計画の2年度目にあたる平成25年度は、前年度に作成したハイブリッドな機械学習手法を論文としてまとめ、ビッグデータ分野の主要な会の一つであるIEEE 2nd International Congress on Big Dataで発表を行った。
また、開発成果をオープンソースソフトウェアのHivemallとして公開した。公開したソフトウェアに関する発表は、機械学習分野の最難関会議であるNIPSのワークショップ(NIPS 2013 Workshop on Machine Learning Open Source Software)や採択率2割をきる産業界からの注目度の高いエンジニアリングカンファレンスのHadoop Summit 2014に採択された。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

MapReduceによるバッチ学習と関係データベース上でのインクリメンタルな学習の組合せによるハイブリッドな機械学習手法を開発し、大規模なクリックストリームデータを利用した評価実験まで既に終えている。
当該手法は平成25年度に国際会議2件で発表済みの他、平成26年度に向けて論文誌投稿中1件、Hadoop summitでの発表予定と研究成果の発表も順調に進んでいる。
交付申請書段階では、CEP処理系を利用することを想定していたが、申請者が入手可能なクリックストリームデータを取り扱う上で技術的に必須事項ではないことが判明したため、優先事項から外し、大規模データのための機械学習手法の開発に注力した。
実現手法と研究対象は、より機械学習寄りのものとなったが、ストリーム処理と蓄積型のバッチ処理のハイブリッドな手法という点で当初の研究目的から逸れておらず、おおむね順調に進展している。

Strategy for Future Research Activity

平成26年度の計画では、「商用サイトにおける実地テストによる提案システムの評価と改善」を行う予定であるが、既に民間のオンライン広告関連企業との共同研究で実データの提供を受け、提案システムの評価を行っており、当初計画通りの予定で研究を推進していく予定である。
他方で、「決定木からの分析問合せの推薦アルゴリズムの開発」については計画を変更し、引き続きストリーム処理と蓄積型のバッチ処理のハイブリッドな機械学習手法の開発に注力する予定である。
平成26年度は最終年度ということもあり、研究成果の対外発表を行っていく。年度内に論文誌発表1件、国際会議発表1件、国内会議発表1件を目標とする。

  • Research Products

    (5 results)

All 2014 2013 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results) Remarks (1 results)

  • [Journal Article] A Database-Hadoop Hybrid Approach to Scalable Machine Learning2013

    • Author(s)
      Makoto Yui, Isao Kojima
    • Journal Title

      Proc. IEEE 2nd International Congress on Big Data, July 2013.

      Volume: - Pages: 1~8

    • DOI

      10.1109/BigData.Congress.2013.10

    • Peer Reviewed
  • [Presentation] Hivemall: Scalable Machine Learning Library for Apache Hive2014

    • Author(s)
      Makoto Yui
    • Organizer
      Hadoop summit 2013
    • Place of Presentation
      San Jose, CA, USA
    • Year and Date
      20140603-20140603
  • [Presentation] Hivemall: Hive scalable machine learning library2013

    • Author(s)
      Makoto Yui, Isao Kojima
    • Organizer
      NIPS 2013 Workshop on Machine Learning Open Source Software: Towards Open Workflows
    • Place of Presentation
      Lake Tahoe, Nevada, USA
    • Year and Date
      20131210-20131210
  • [Presentation] A Database-Hadoop Hybrid Approach to Scalable Machine Learning2013

    • Author(s)
      Makoto Yui, Isao Kojima
    • Organizer
      IEEE 2nd International Congress on Big Data
    • Place of Presentation
      Santa Clara, CA, USA
    • Year and Date
      20130630-20130630
  • [Remarks] Hivemall: Hive scalable machine learning library

    • URL

      https://github.com/myui/hivemall

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi