2020 Fiscal Year Research-status Report
Acceleration of large-scale deep learning by optimizing parallel I/O
Project/Area Number |
20K19811
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
佐藤 賢斗 国立研究開発法人理化学研究所, 計算科学研究センター, チームリーダー (50739696)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Keywords | 並列I/O / 深層学習 / 大規模計算 |
Outline of Annual Research Achievements |
大規模分散深層学習などの大量の学習データ読み込むアプリケーションでは、システムのI/Oの性能が不十分であり、このような深層学習などの新しいアプリケーションに対応するため、I/O性能の重要性が高まっている。このためI/Oの最適化のために(項目1) スーパーコンピューター富岳におけるI/O性能の調査、(項目2) データ圧縮によるI/Oの高速化、(項目3)大規模深層学習ベンチマークであるMLPerf HPCのABCI/富岳での評価を行なった。 (項目1)では、大規模分散機械学習のデータ読み込みの高速化に向け、分散機械学習における I/O 性能を富岳上で測定しその結果を分析した。具体的には、第一階層ストレージである LLIO のデータスループットおよびメタデータアクセスの性能測定、ジョブ内の別計算ノードのメモリからのデータ読み込みの性能を行い、富岳におけるI/Oの特性を明らかにした。(項目2)では、深層学習を活用したデータ圧縮ツールであるTEZIPの開発を行なった。具体的には、PredNetと呼ばれるRecurrent Neural Networkを学習させ、ベースフレームに基づいて将来の画像フレームを予測し、その結果得られる予測フレームと実際のフレームとの差分(デルタフレーム)に対し、量子化などの様々なエンコードを行うことで、高い圧縮率が達成できることを確認した。(項目3)では、富士通、産総研、理研および株式会社富士通研究所と共同開発した深層学習フレームワーク向けソフトウェアスタックや (1) (2)でのI/O性能特性調査やデータ圧縮での知見を活用し、機械学習処理ベンチマークMLPerf HPCをABCIおよび富岳において性能評価を行った。その結果、ABCIにおいて世界第1位の、富岳において世界第2位の性能を達成した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
(項目2)において、深層学習を活用したデータ圧縮ツールであるTEZIPの開発を行い、10種類の学習データセットの圧縮評価を行った結果、可逆圧縮モードでは3種類、非可逆圧縮モードでは全ての学習データセットにおいて10倍以上の圧縮率を達成した。これはデータサイズが1/10以下になることからI/Oに費やす時間が1/10になることにほぼ等しい、つまりデータ読み込みがボトルネックとなるような大規模深層学習では10倍の性能向上が達成されることが期待される。(項目1)でのI/O性能の調査や(項目2)でのデータ圧縮ツールの開発における知見を活かし、I/O性能を向上させMLPerf HPCベンチマークの世界ランキングにおいて、国内の産学連携で世界第1, 2位を獲得した。このように、TEZIPによるデータ圧縮を行うことで大規模深層学習の10倍性能向上が見込めるところまで来ており、また実環境でMLPerf HPCベンチマークにおいて高い性能を達成することができている。このため、本研究課題の目標である大規模深層学習の10倍性能向上を達成しつつあることから、当初の計画以上に進展していると考える。
|
Strategy for Future Research Activity |
今後は研究計画に沿って、(1)グローバルファイルシステム(GFS)の性能を引き出すことができるミニバッチ生成方法と学習モデルの精度のトレードオフモデルを構築と(2)トレードオフモデルに基づき、学習モデルの精度の許容範囲内で、I/O 性能を最大化するための並列 I/O 最適化をより精緻に行い。その後、(3)GFSを介さずに計算ノード間でシャッフルを行うことによりスケーラブルなシャッフルを実現し、最終的に(4)スーパーコンピュータ「富岳」やその他の大規模共用計算機上での検証実験し、本研究課題の目標である大規模深層学習の10倍性能向上を達成する。
|
Causes of Carryover |
新型コロナウイルスの影響で旅費の支出額が減ったっため、次年度使用額が生じた。
|
Remarks |
【富岳における深層学習フレームワーク構築・最適化とMLPerf HPC ベンチマーク】 富士通、産総研、理研および株式会社富士通研究所との深層学習フレームワーク向けソフトウェアスタックの構築と最適化に関する共同研究に参画し、その成果として機械学習処理ベンチマークMLPerf HPCにて最高レベルの速度を達成した。
|
Research Products
(6 results)