スーパーコンピュータとクラウドが融合した大規模並列環境である人工知能クラウド上での最重要カーネルである分散深層学習 を対象に,1) 実環境での精緻な性能モデリングによる分散深層学習のI/Oワークロードの性能解析,2) 細粒度なアクセスパタ ーンに応じてI/O性能を最適化するためのメモリ・ストレージ階層の深化を考慮したデータのライフサイクル管理アルゴリズムの開発と分散I/Oフレームワークへの実装,3) 既存のデファクトな分散深層学習フレームワークへの分散I/Oフレームワークの 組み込み・統合化をコデザインすることで,次世代のAIクラウド上でのメモリ・ストレージI/Oの高速化のためのシステムソフ トウェアの要素技術の設計と開発を行い,更にその先のBig Data/AIのRebooting Computingのための要求要件の明確化や設計情報となるを目指す.本年度は、近い将来に登場すると見込まれる、次世代NVIDIA GPU、Intel Nervana,富士通DLUなどのアクセラレータ,ポスト「京」スパコンを目指したHPC向けのARMなどのプロセッサ,Intel Apache Pass技術による3D XPoint等の不揮発性メモリ,InfninibandやOmni-Pathなど高性能ネットワー クなど最先端のコモディティデバイスを想定してメモリ・ストレージへのI/Oに関する性能モデリングを行うための基礎の性能評価として、ImageNet1Kのオープンデータセットを対象にI/Oの高速化を行った。具体的には、パラメタ設定を行うことで分散処理を行い、各プロセスが担当するデータをDRAMメモリへのキャッシュ、及びネットワークI/Oを考慮した集団通信の最適化を行うことで、大幅な性能向上を達成することを産総研AI橋渡しクラウド(ABCI)上で確認し、基礎的な性能解析を行った。
|