• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

機械学習向けハードウェアとの親和性が高い連立一次方程式の解法

研究課題

研究課題/領域番号 18H03248
研究機関東京工業大学

研究代表者

横田 理央  東京工業大学, 学術国際情報センター, 准教授 (20760573)

研究分担者 大島 聡史  名古屋大学, 情報基盤センター, 准教授 (40570081)
伊田 明弘  東京大学, 情報基盤センター, 特任准教授 (80742121)
研究期間 (年度) 2018-04-01 – 2021-03-31
キーワード高性能計算 / H行列 / TensorCore
研究実績の概要

本研究では,機械学習向けハードウェアと親和性の高い連立一次方程式の解法としてH行列を対象とする.H行列では密行列を対角ブロックが小さくなるように階層的に分割し,それぞれ大きさの異なる非対角ブロックに対して低ランク近似を行う.その結果小さな密行列の演算が無数に発生する点に着目し,batched MAGMAを用いたGPU実装を行ったところ,cuBLASのカーネルを毎回呼ぶ方法に比べて大幅な性能向上が得られた.また,低精度演算を有効利用する方法としてTensorCoreを用いた演算を行列積だけでなく,H行列の圧縮時に用いるQR分解でも実現した.TensorCoreでは入力行列が半精度に変換されるため,従来は精度の低い演算にしか用いることができなかったが,精度補正を行なうことで単精度の精度を維持しながらも2倍程度の性能向上を実現できる手法を開発した.省電力に関しても TensorCoreを用いることで,Flops/W を大幅に向上することができた.H行列を用いると密行列のLU分解の演算量をO(N^3)からO(Nlog^2N)に低減できることがこれまでに報告されていたが,本研究ではこれをO(N)にまで低減できることを示した.また,ブロックLU分解では左上のブロックから逐次的に処理をする必要があるため,本質的に並列度が出にくいアルゴリズムとであるが,H行列の場合はブロックごとの演算量にばらつきが生じるため負荷分散の問題もより深刻になる.本研究では,StarPUなどのランタイムを用いることで,ブロック間の依存関係を解析し,最適な順番で処理を行うことで並列化効率を大幅に向上させることができた.さらに,LU分解だけでなく,QR分解にもH行列を拡張し,従来法にくらべて直交性の良い QR分解をO(N^2)で実現する手法を開発した.

現在までの達成度 (段落)

令和2年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和2年度が最終年度であるため、記入しない。

  • 研究成果

    (7件)

すべて 2020 その他

すべて 国際共同研究 (2件) 学会発表 (5件) (うち国際学会 5件)

  • [国際共同研究] Sandia National Laboratories/University of Tennessee(米国)

    • 国名
      米国
    • 外国機関名
      Sandia National Laboratories/University of Tennessee
  • [国際共同研究] KAUST(サウジアラビア)

    • 国名
      サウジアラビア
    • 外国機関名
      KAUST
  • [学会発表] Distributed Memory Task-Based Block Low Rank Direct Solver2020

    • 著者名/発表者名
      Sameer Deshmukh, Rio Yokota
    • 学会等名
      ISC High Performance 2020 (Research Poster)
    • 国際学会
  • [学会発表] Randomized SVD on TensorCores2020

    • 著者名/発表者名
      Hiroyuki Ootomo, Rio Yokota
    • 学会等名
      ISC High Performance 2020, (Research Poster)
    • 国際学会
  • [学会発表] Effect of Mixed Precision Computing on H-Matrix Vector Multiplication in BEM Analysis2020

    • 著者名/発表者名
      Rise Ooi, Takeshi Iwashita, Takeshi Fukaya, Akihiro Ida, Rio Yokota
    • 学会等名
      HPC Asia 2020
    • 国際学会
  • [学会発表] Distributed Memory Task-Based Block Low Rank Direct Solver2020

    • 著者名/発表者名
      Sameer Deshmukh, Rio Yokota
    • 学会等名
      HPC Asia 2020 (poster)
    • 国際学会
  • [学会発表] QR Decomposition of Block Low-Rank Matrices2020

    • 著者名/発表者名
      Muhammad Ridwan Apriansyah, Rio Yokota
    • 学会等名
      HPC Asia 2020 (poster)
    • 国際学会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi