2020 Fiscal Year Research-status Report
大規模分散深層学習をIn-Network Computingで加速する相互結合網
Project/Area Number |
20K19788
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
河野 隆太 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (90855751)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 相互結合網 / 大規模分散深層学習 / ビッグデータ / In-Network Computing / データセンタ |
Outline of Annual Research Achievements |
深層学習をビッグデータに適用するためのデータレベル並列性の活用が喫緊の課題となっている。その解決策として、データセンタ内にドメイン特化型アーキテクチャ (Domain Specific Architecture; DSA) と呼ばれるプロセッサを数十万ノードの規模で分散配置し、学習を行うシステムが有望とされているが、エンドプロセッサ間での勾配の最適化・集約のための通信が高遅延・高頻度となりボトルネック化する。高帯域性や拡張性を重視する従来のデータセンタ向けネットワークでは、大規模分散深層学習の高速化が困難である。本研究では、ネットワーク上の中間スイッチ内で勾配最適化・集約を行うIn-Network Computingを活用し、低遅延・低頻度の通信と、従来のネットワーク同様の高帯域性・拡張性を両立可能なスイッチ間相互結合網の開発に取り組んでいる。 第一年度である2020年度において研究代表者は、(1) In-Network Computingに必要な低遅延通信と、低配線コストを両立可能なネットワーク・トポロジの構成手法の開発に取り組んだ。さらに、(2) 従来のデータセンタ・ネットワークに必要な高帯域通信を実現するためのルーティング手法の開発に取り組んだ。 (1)について、スイッチ間ネットワークの配線コストに対し達成可能な遅延性能の上界を求めるための新たな理論を確立した。さらに、この理論に基づき、配線コストに対して通信遅延を最適化可能なネットワーク・トポロジの構成手法を提案した。 また、(2)について、低直径なスイッチ間ネットワーク上で既存の複数経路ルーティングを用いた場合、ネットワーク上の経路の多様性を活かせず、通信帯域が悪化することが分かっている。そこで、通信帯域の最大化問題をモデル化した線形プログラムを利用し、最適な複数経路を選択する新たなルーティング手法を探求した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究代表者は第一年度である2020年度において、研究開始時に着眼点として見出した (1) 商用データセンタ向けの低遅延通信を実現可能なネットワーク、および (2) データセンタ・ネットワーク上で高帯域通信を実現するためのルーティング手法の2つの課題に取り組んだ。そして、これらの課題に対するオリジナルな手法をそれぞれ提案し、評価を行った。 (1)の手法は、従来高性能計算機向けとされてきた低遅延・高帯域ネットワークを商用データセンタ向けに妥当な設計コストで実用化するために必要不可欠なものである。本手法内で、これまで明らかになっていなかったネットワークの配線コストに対し実現可能な通信性能の限界を求めるための理論の確立に成功し、今後のデータセンタ・ネットワーク設計に対する普遍的な指針を示した。さらに、本理論に基づき理論限界を達成可能なネットワークの提案に初めて成功した。 (2) の手法については、(1) で提案したネットワークを含めた低遅延・高帯域な最適ネットワークに対し広く適用可能な高帯域パケット・ルーティングを実現するための手法であり、高性能ネットワークのデータセンタへの実用化に向けて必要不可欠なものである。 これらの成果について、国内研究会・国際会議において対外発表を行ったほか、国際論文誌に採録された。このように、業績面での進捗は当初の計画通り順調であると言える。
|
Strategy for Future Research Activity |
第二年度である2021年度において研究代表者は、以下の(1)', (2)' について研究予定を立てている。 (1)’ 勾配集約のためのアルゴリズムの協調設計: 学習時にプロセッサ間でやり取り・集約される勾配データのルーティング到達性を保証するためのマッピングアルゴリズムを開発する。本研究課題の対象である分散深層学習において、従来のBinary TreeやRecursive Doublingなどのマッピングアルゴリズムは、Treeベースの規則的なスイッチ間結合網を想定している。こうしたアルゴリズムを第一年度で開発した最適ネットワークに適用した場合、非最短経路の利用による遅延悪化が懸念される。そこで、こうした最適ネットワークの最短経路を用いつつ、各プロセッサからの演算データを集約し全ての他プロセッサに演算結果を到達させる。 (2)’ 輻輳回避・耐故障性向上のためのルーティングの動的修正手法を開発する。データセンタ・ネットワークに用いられるスイッチング機構は高性能計算システム向けネットワークと比べ信頼性が低く、スイッチノードやスイッチ間リンクでの故障や輻輳が頻発する。Treeベースの従来アルゴリズムを第一年度に探求した最適ネットワークに適用した場合、Treeのルートスイッチ付近でのこうした障害が致命的となる。本手法では、ノード・リンク故障発生時に故障個所を回避するようルーティングを動的に修正することにより、最適ネットワーク内の多数の代替経路を活用し、システムレベルでの低信頼性の影響を最小限に抑える。
|
Causes of Carryover |
次年度使用額が生じた理由: 大規模並列シミュレーションを行うための環境構築としてラックマウント計算サーバとして物品費を計上していたが,2020年度は研究代表者が着任した北陸先端科学技術大学院大学の保有する並列計算環境を用いてシミュレーション評価を行った。このため、計算サーバのための物品費は0となった。また、県外・国外への出張自粛により当初予定していた外部研究者との研究打ち合わせをオンラインで行ったため、旅費は0となった。 次年度使用額の使用計画: 初年度で提案したデータセンタ向けネットワークを実システムへ実装するためのInfiniBand スイッチとして物品費を計上する。また、国内外の学会参加費も支出予定である。
|