Acceleration of large-scale deep learning by optimizing parallel I/O
Project/Area Number |
20K19811
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
Sato Kento 国立研究開発法人理化学研究所, 計算科学研究センター, チームリーダー (50739696)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2020: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | 高性能計算 / 大規模計算 / 深層学習 / 機械学習 / I/O / ストレージ / 富岳 / Arm / チューニング / 並列I/O |
Outline of Research at the Start |
近年、深層学習が盛んに行われているが、よりサイズの大きな学習モデルを用いてより複雑な問題を学習するために、大規模計算機の利用が不可欠となっている。しかし、複数のユーザーが利用する大規模共用計算機における大規模深層学習では、共有グローバルファイルシステム(GFS)の性能が計算性能に比べ低いため、いくら学習に使用する計算資源(CPUやGPUの数)を増やしても学習の速度はそれ以上向上しない「大規模深層学習のスケール化の問題」が起こる。本研究計画調書では、大規模共用計算環境において10倍以上の並列I/O性能の向上により大規模深層学習の高速化を実現する。
|
Outline of Final Research Achievements |
Applications that read large amounts of training data, such as large-scale distributed deep learning, have insufficient system I/O performance, thereby, I/O performance is becoming increasingly important to support such applications. To optimize I/O performance, we investigated I/O performance on the supercomputer Fugaku and accelerated I/O by data compression. In particular, our finding from our project partly contributed to the development of software for deep learning frameworks and the benchmark evaluation of MLPerf HPC. As a result, we achieved the world's fastest performance on CosmoFlow, one of the MLPerf HPC benchmarks by using about the half number of Fugaku nodes.
|
Academic Significance and Societal Importance of the Research Achievements |
近年、深層学習に代表される人工知能の研究が盛んに行われており、産業界でも人工知能は様々な形で実用化レベルまで到達している。この深層学習における計算処理には、学習モデルを構築する「学習フェーズ」と、構築された学習モデルを使って、実際に画像認識などの予測・認識を行う「推論フェーズ」に分かれている。深層学習では、より正確な予測・認識を可能にする学習モデルを高速に構築することが重要な要素となっている。本研究は、スーパーコンピュータなどの大規模システムにおける学習フェーズの高速化を達成する研究課題であり、学術的・社会的意義は高いと考る。
|
Report
(3 results)
Research Products
(14 results)