2018 年度実績報告書

機械学習向けハードウェアとの親和性が高い連立一次方程式の解法

研究課題

研究課題/領域番号	18H03248
研究機関	東京工業大学
研究代表者	横田理央東京工業大学, 学術国際情報センター, 准教授 (20760573)
研究分担者	伊田明弘東京大学, 情報基盤センター, 特任准教授 (80742121) 大島聡史九州大学, 情報基盤研究開発センター, 助教 (40570081)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	H行列 / 階層的低ランク近似法 / テンソルコア / 機械学習向けハードウェア
研究実績の概要	本研究はこれから主流になるであろう機械学習向けのプロセッサに対して、計算科学アプリケーションの代表的なアルゴリズムである連立一次方程式の高速解法の最適化を行う。特に反復法による連立一次方程式の解法の前処理に注目し、機械学習向けプロセッサと相性の良い前処理法として階層的低ランク近似法を提案する。ただし、階層的低ランク近似法はそのままでは機械学習向けプロセッサに必要なテンソル積の演算を行うことはできない。平成30年度は、Volta GPUのテンソルコアを階層的低ランク近似法の中で用いるための最適なデータ構造を明らかにするために、H行列、H^2行列、HSS、HODLR、BLRの全ての階層的低ランク行列形式を自在に表現できるC++コードの開発を行なった。Dense, LowRank, Hierarhicalの3つのクラスのみを用いて、それぞれの間の演算子を定義することで非常にシンプルな形で全ての階層的低ランク近似法のアルゴリズムに自在に対応できるコードを開発することができた。これにより、平成30年度の目的であったテンソルコアを用いるのに最適なデータ構造の探索が容易になった。そこで次にbatched QR分解のテンソルコアを用いた実装を行なった。QR分解の内部カーネルには複数の行列積があるため、その部分をテンソルコアで実装した。精度の検証のために入出力もノルムの計算も単精度で行った場合、入出力は半精度でノルムの計算は単精度で行なった場合、両方を半精度で行なった場合と、それぞれの行列積をテンソルコアで行なった場合の計６通りの実験を行なった。その結果、単精度と変わらない精度でV100を１台用いて10TFLOPSの演算性能でQR分解を行うことができることが分かった。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由平成30年度の目標を達成しただけでなく、その過程でツールとして階層的低ランク近似法の全てのアルゴリズムに変幻自在に対応できるフレームワークを構築することができた。さらに、このコードのGPU化、MPI化、行列積だけでなくLU分解や　QR分解などへの適用もほぼできており、機能面では世界の他のどのコードよりも優れているものとなっている。平成31年度の目標であった低精度演算の有効活用においても既に顕著な成果が得られている。特に、単精度と変わらない精度でV100を１台用いて10TFLOPSの演算性能でQR分解を行うことができたのは世界でも他に例がなく、最終的に低ランク近似計算のホットスポットとなる部分でこのような性能のカーネルが早期に構築できたことは意義深い。
今後の研究の推進方策	機械学習向けプロセッサの開発競争は申請当初よりも激化しており、今後ますます多くの機械学習向けプロセッサが開発されると予想される。本研究がVolta GPUのテンソルコアを有効活用するために培った技術は、これらの新型プロセッサにも応用できる可能性があるため、できるだけ多くのプロセッサを用いた実験を行なって行きたい。その一例としてPEZY SC2を利用できるように契約を進めている。階層的低ランク近似法のコード開発に関しては、GPU化とMPI化、LU分解やQR分解への拡張を早期に完成させ、機能の拡張を行うフェーズから、性能のチューニングを行うフェーズに移行していく予定である。GPU化とMPI化に関しては、StarPUなどのランタイムを活用することで非同期的にタスクの依存関係やデータの依存関係を解析しながら処理していく方法を採用している。行列積に比べてLU分解やQR分解のGPU化やMPI化は難易度が高く、世界でも他にこの組み合わせを実現できている例はない。今年度中にこれらの実装が完成すれば、トップの論文誌や国際会議に掲載できる成果が数多く生み出せる可能性は高い。具体的には、H行列のLU分解の分散並列化に関するもの、H行列のQR分解の分散並列化に関するもの、H行列のLU分解のGPU化に関するもの、H行列のQR分解のGPU化に関するもの、などの組み合わせでいずれも新規性や有意性は十分にある。

研究成果
(12件)

すべて 2019 2018 その他

すべて国際共同研究 (2件) 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (8件) (うち国際学会 7件、招待講演 2件)

[国際共同研究] University of Tennessee/Sandia National Laboratories(米国)
- 国名
  米国
- 外国機関名
  University of Tennessee/Sandia National Laboratories
[国際共同研究] KAUST(サウジアラビア)
- 国名
  サウジアラビア
- 外国機関名
  KAUST
[雑誌論文] Highly Productive, High-Performance Application Frameworks for Post-Petascale Computing2018
- 著者名/発表者名
  N. Maruyama, T. Aoki, K. Taura, R. Yokota, M. Wahib, M. Matsuda, K. Fukuda, T. Shimokawabe, N. Onodera, M. Muller, S. Iwasaki
- 雑誌名
  
  Advanced Software Technologies for Post-Peta Scale Computing
  
  巻: none ページ: 77--98
- DOI
  https://doi.org/10.1007/978-981-13-1924-2_5
- 査読あり
[雑誌論文] Application of hierarchical matrices to large-scale electromagnetic field analyses of coils wound with coated conductors2018
- 著者名/発表者名
  N. Tominaga, T. Mifune, A. Ida, Y. Sogabe, T. Iwashita, N. Amemiya
- 雑誌名
  
  IEEE Transactions on Applied Superconductivity
  
  巻: 28 ページ: 1--5
- DOI
  10.1109/TASC.2017.2780821
- 査読あり
[学会発表] Tensorコアを用いたBatched QR分解2019
- 著者名/発表者名
  大友広幸, 横田理央
- 学会等名
  第81回情報処理学会全国大会
[学会発表] Analyzing Performance of BiCGStab with Hierarchical Matrix on GPU clusters2018
- 著者名/発表者名
  Ichitaro Yamazaki, Ahmad Abdelfattah, Akihiro Ida, Satoshi Ohshima, Stanimire Tomov, Rio Yokota, Jack Dongarra
- 学会等名
  32nd IEEE International Parallel & Distributed Processing Symposium
- 国際学会
[学会発表] Optimization of Hierarchical Matrix Computation on GPU2018
- 著者名/発表者名
  Satoshi Ohshima, Ichitaro Yamazaki, Akihiro Ida, Rio Yokota
- 学会等名
  SC Asia
- 国際学会
[学会発表] Accelerating Convolutional Neural Networks Using Low Precision Arithmetic2018
- 著者名/発表者名
  Hiroki Naganuma, Rio Yokota
- 学会等名
  HPC Asia
- 国際学会
[学会発表] Energy Conserving Fast Multipole Methods for the Calculation of Long-range Interactions2018
- 著者名/発表者名
  Rio Yokota
- 学会等名
  Mathematics in Action: Modeling and analysis in molecular biology and electrophysiology
- 国際学会 / 招待講演
[学会発表] Can we use Hierarchical Low-Rank Approximation for Deep Learning?2018
- 著者名/発表者名
  Rio Yokota
- 学会等名
  HPC Saudi
- 国際学会 / 招待講演
[学会発表] Design of Parallel BEM Analyses Framework for SIMD Processors2018
- 著者名/発表者名
  Tetsuya Hoshino, Akihiro Ida, Toshihiro Hanawa, Kengo Nakajima
- 学会等名
  The International Conference on Computational Science
- 国際学会
[学会発表] Lattice H-Matrices on Distributed-Memory Systems2018
- 著者名/発表者名
  Akihiro Ida
- 学会等名
  32nd IEEE International Parallel & Distributed Processing Symposium
- 国際学会

2018 年度 実績報告書

機械学習向けハードウェアとの親和性が高い連立一次方程式の解法

研究代表者

横田 理央 東京工業大学, 学術国際情報センター, 准教授 (20760573)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] University of Tennessee/Sandia National Laboratories(米国)

国名

外国機関名

[国際共同研究] KAUST(サウジアラビア)

国名

外国機関名

[雑誌論文] Highly Productive, High-Performance Application Frameworks for Post-Petascale Computing2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Application of hierarchical matrices to large-scale electromagnetic field analyses of coils wound with coated conductors2018

著者名/発表者名

雑誌名

DOI

[学会発表] Tensorコアを用いたBatched QR分解2019

著者名/発表者名

学会等名

[学会発表] Analyzing Performance of BiCGStab with Hierarchical Matrix on GPU clusters2018

著者名/発表者名

学会等名

[学会発表] Optimization of Hierarchical Matrix Computation on GPU2018

著者名/発表者名

学会等名

[学会発表] Accelerating Convolutional Neural Networks Using Low Precision Arithmetic2018

著者名/発表者名

学会等名

[学会発表] Energy Conserving Fast Multipole Methods for the Calculation of Long-range Interactions2018

著者名/発表者名

学会等名

[学会発表] Can we use Hierarchical Low-Rank Approximation for Deep Learning?2018

著者名/発表者名

学会等名

[学会発表] Design of Parallel BEM Analyses Framework for SIMD Processors2018

著者名/発表者名

学会等名

[学会発表] Lattice H-Matrices on Distributed-Memory Systems2018

著者名/発表者名

学会等名

2018 年度実績報告書

横田理央東京工業大学, 学術国際情報センター, 准教授 (20760573)