研究課題/領域番号 |
21K17751
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分60090:高性能計算関連
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
Nguyen Truong 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60835346)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | Distributed Training / Large Model / Large dataset / Large scale system / Deep Learning / Large Scale / Distributed Computing / Non-IID / Large-scale / Distributed computing / Hybrid parallelism |
研究開始時の研究の概要 |
This proposal try to find techniques that help to speed-up the training/inference process of Distributed Deep Learning. The proposed research project includes several research topics: (1) Hybrid-parallelism design:(1.1) Study the limitation of different parallelism strategies and (1.2) find novel fine-grained hybrid parallelism strategies for each type of specific applications (2) Method to reduce communication time via (2.1) optimizing the communication mechanism for each type of network architecture in supercomputers and (2.2)study the method to reduce network contention.
|
研究成果の概要 |
大規模なデータセットを使用した大規模なディープラーニングのトレーニングでは、3D 並列処理 (データ + パイプライン + テンソル) が標準になることがわかりました。このトレーニング プロセスを高速化する方法を提案しました。I/O 時間を短縮するために、ローカル シャッフルとペアワイズデータ交換およびモデル交換を使用して、モデルの精度を維持します。計算時間を短縮するために、トレーニング中に重要でないサンプルを削除します。ネットワークアーキテクチャと集団通信を共同設計することで、通信時間を短縮します。論文8件、ポスター2件を発表し、賞を2つ獲得しました。
|
研究成果の学術的意義や社会的意義 |
Our research helps to support the research and development of big models. It brings a groundbreaking new solution with the requirements of the urgent AI, e.g.,ChatGPT. It can be ultimately contributing to the advancement of AI models, particularly foundational models, in the context of social 5.0.
|