2023 Fiscal Year Annual Research Report
大規模分散深層学習をIn-Network Computingで加速する相互結合網
Project/Area Number |
20K19788
|
Research Institution | National Institute of Informatics |
Principal Investigator |
河野 隆太 国立情報学研究所, アーキテクチャ科学研究系, 特任助教 (90855751)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 相互結合網 / 大規模分散深層学習 / ビッグデータ / In-Network Computing / データセンタ |
Outline of Annual Research Achievements |
深層学習をビッグデータに適用するためのデータレベル並列性の活用が喫緊の課題となっている。その解決策として、データセンタ内にドメイン特化型アーキテクチャ (Domain Specific Architecture; DSA) と呼ばれるプロセッサを数十万ノードの規模で分散配置し、学習を行うシステムが有望とされているが、エンドプロセッサ間での勾配の最適化・集約のための通信が高遅延・高頻度となりボトルネック化する。高帯域性や拡張性を重視する従来のデータセンタ向けネットワークでは、大規模分散深層学習の高速化が困難である。本研究では、ネットワーク上の中間スイッチ内で勾配最適化・集約を行うIn-Network Computingを活用し、低遅延・低頻度の通信と、従来のネットワーク同様の高帯域性・拡張性を両立可能なスイッチ間相互結合網の開発に取り組んでいる。 最終年度である第四年度では、これまで開発してきた相互結合網の最適化技術をニューラルネットワーク・アーキテクチャへ応用することを探求した。コンピュータビジョンの画像認識技術において、ニューラルネットワーク・アーキテクチャに基づく深層学習が有効とされている。深層学習モデルを設計する際、モデル選択やハイパーパラメータの調整を手動で行うか、膨大な計算コストが要求されるNeural Architecture Searchを用いる必要がある。 こうした中、申請者はノード間最小ネットワークをニューラルネットワークのレイヤ間に用いる初期的研究を行い、従来手法に比べ優れた認識精度が得られることを示した。この根本的学理を探求すると共に、応用範囲を広げていくことを探求した。 今後の展開として、現在盛んに研究が行われている生成AIの根幹技術となるTransformerといった新たなモデルへの適用可能性も含め、幅広い成果が得られる見込みである。
|