• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実施状況報告書

大規模機械学習のための並列計算基盤の研究

研究課題

研究課題/領域番号 16K00116
研究機関国立研究開発法人産業技術総合研究所

研究代表者

中田 秀基  国立研究開発法人産業技術総合研究所, 人工知能研究センター, 研究チーム長 (80357631)

研究期間 (年度) 2016-04-01 – 2019-03-31
キーワード機械学習 / 分散計算 / 分散ファイルシステム / ネットワーク構成 / 耐故障性
研究実績の概要

大規模なデータを対象とする機械学習を実現するための、並列計算基盤の研究開発を行う。インターネットの普及により大規模なデータの蓄積が容易になり、それを対象とした機械学習技術が大きく発展している。しかし、IoT(Internetof Things)の今後の発展によってより大規模なデータが日々生成されること、さらに機械学習技術の発達により機械学習の計算量が増大することを考慮すると、現在の処理手法では対応することが難しいと思われる。本研究提案では、大容量データと計算量の大きい機械学習技術に特化した大規模並列計算基盤の研究を行う。
機械学習の大規模化においては2つの独立した課題がある。1つは、大量の学習データを効率よく機械学習機に提供する大容量データ入力問題、もう1つは並列に機械学習計算を行う問題である。
大容量データ入力に関しては、従来の分散ファイルシステムでは多数の計算機からのランダムに近いデータ要求に対して十分な性能を確保することができないため、メモリ上に確保されたキャッシュを効率的に用いることが鍵となる。本課題では並列分散システムSparkの中間データキャッシュ機構に着目し改良を進めた。
機械学習の並列化においては大別してモデル並列とデータ並列という2つの方向がある。モデル並列は単一モデルの内部を並列化するのに対して、データ並列は復数のモデルを同時並行して学習させ、間欠的にモデルを同期することで計算を行う手法である。本課題ではデータ並列機械学習を対象に、耐故障性に関する解析と、ネットワーク構成との関係に関する解析を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

大容量データ入力に関してはApache Sparkを対象に中間データ保持機構の最適化を行った。従来の手法ではメモリ上のキャッシュとディスク上のキャッシュの連携が不十分であったため、不必要なデータ移動が頻発し性能が低下していた。われわれはこの点に着目し、連携アルゴリズムを改良することで、典型的なプログラムにおいて大きな性能向上を得ることができた。本件に関しては研究会発表1件、ワークショップ発表1件、ポスター発表1件を行っている。
データ並列機械学習の耐故障性に関しては、シミュレータを用いて、さまざまな耐故障アルゴリズムの定量的比較を行い、モデル同期手法の一つであるパラメータサーバを用いた方法では、この方法に固有の耐故障アルゴリズムによって効率的に耐故障性が実現できることを示した。本件に関しては査読付き国際会議発表1件、研究会発表1件を行っている。
データ並列機械学習を実行する計算機におけるネットワークへの要件を明らかにするために、シミュレーションによる定量的評価を行った。いくつかのモデル同期手法に対して、さまざまなネットワーク構成でのネットワーク通信コストを評価した。この結果、データ並列機械学習におけるネットワーク負荷は、通常のいわゆる高性能計算における通信と比較して遥かに小さく、したがってネットワークへの要請が小さいことを明らかにした。本件に関しては、ワークショップ発表1件、ポスター発表1件を行っている。
以上のようにそれぞれの項目に関して着実な成果を上げており、研究はおおむね順調に進展していると言える。

今後の研究の推進方策

平成29年度には、28年度の研究でえられた知見をもとに、既存のディープラーニングシステムの分散並列実装を行うとともに、Sparkにおけるキャッシュのさらなる効率化に取り組む。
ディープラーニングの分散並列実装においてはSparkを用いた比較的シンプルなプロトタイプをまず作製した上で、標準的な通信ライブラリであるMPIを用いた効率重視の実装を行う予定である。Sparkを用いたバージョンは実装が比較的容易であるとともにデプロイが容易で、学習データの供給が容易であることが期待できるが、通信が非効率的になるため性能的には劣ることが予想される。MPIを用いた実装では、通信は遥かに効率的になり性能面では優れていることが期待できるが、学習データを供給する方法が難しいことが予想される。この点に関してはテンポラリな分散ファイルシステムを用いるなど、別途手当をする予定である。

次年度使用額が生じた理由

投稿し発表した国際会議が偶然にも28年度は国内での開催であったため、旅費が予定していたよりも低額であった。また、計算機調達においても予定価格よりも安価に購入できた。

次年度使用額の使用計画

効率的な研究のためにディープラーニング用計算機を新たに調達することを予定している。

  • 研究成果

    (7件)

すべて 2017 2016

すべて 雑誌論文 (3件) (うち謝辞記載あり 3件、 査読あり 1件) 学会発表 (4件)

  • [雑誌論文] A Quantitative Analysis of Fault Tolerance Mechanisms for Parallel Machine Learning Systems with Parameter Servers2017

    • 著者名/発表者名
      Mingxi Li, Yuusuke Tanimura, Hidemoto Nakada
    • 雑誌名

      Proc. of ACM IMCOM 2017

      巻: - ページ: -

    • 査読あり / 謝辞記載あり
  • [雑誌論文] Spark RDDの入出力性能の高速化に関する検討2016

    • 著者名/発表者名
      張 凱輝, 谷村 勇輔, 中田 秀基, 小川 宏高
    • 雑誌名

      信学技報

      巻: 177 ページ: 77, 82

    • 謝辞記載あり
  • [雑誌論文] パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション2016

    • 著者名/発表者名
      黎 明曦, 谷村 勇輔, 中田 秀
    • 雑誌名

      信学技報

      巻: 177 ページ: 125, 130

    • 謝辞記載あり
  • [学会発表] Spark RDD の入出力性能の高速化2017

    • 著者名/発表者名
      張 凱輝, 谷村 勇輔, 中田 秀基, 小川 宏高
    • 学会等名
      cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming
    • 発表場所
      虎ノ門ヒルズフォーラム(東京)
    • 年月日
      2017-04-24 – 2017-04-26
  • [学会発表] 大規模機械学習向けクラスタにおけるネットワークバンド幅とパラメータ交換手法に関する考察2017

    • 著者名/発表者名
      黎 明曦, 谷村 勇輔, 中田 秀基
    • 学会等名
      cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming
    • 発表場所
      虎ノ門ヒルズフォーラム(東京)
    • 年月日
      2017-04-24 – 2017-04-26
  • [学会発表] Spark におけるディスクを用いた RDD キャッシングの高速化と効果的な利用に関する検討2017

    • 著者名/発表者名
      張 凱輝, 谷村 勇輔, 中田 秀基, 小川 宏高
    • 学会等名
      cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming
    • 発表場所
      虎ノ門ヒルズフォーラム(東京)
    • 年月日
      2017-04-24 – 2017-04-26
  • [学会発表] 大規模機械学習向けクラスタにおけるネットワーク構造とパラメータ交換手法2017

    • 著者名/発表者名
      黎 明曦, 谷村 勇輔, 中田 秀基
    • 学会等名
      cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi