2022 Fiscal Year Final Research Report
Scalable System Software for Machine Learning on Heterogeneous Parallel Computing Environments
Project/Area Number |
20H04165
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 60050:Software-related
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
Endo Toshio 東京工業大学, 学術国際情報センター, 教授 (80396788)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 深層学習 / GPU / メモリ階層 / DSL |
Outline of Final Research Achievements |
Deep learning is computationally intensive and requires lots of high performance processors such as GPUs. However, in order to achieve high performance, it is necessary to consider the characteristics of complex computer architectures, which hinders the incorporation of new learning algorithms. This research targets both high performance and software development cost reduction. As one of the integrated results, we constructed a hybrid parallel learning framework to improve learning on a supercomputer with many GPUs.
|
Free Research Field |
高性能計算ソフトウェア
|
Academic Significance and Societal Importance of the Research Achievements |
LLMの隆盛に代表されるように、機械学習処理には社会を変革する力があると考えられるが、アルゴリズムの改良と大規模な計算機アーキテクチャを活用するための技術の双方が必要である。本研究では主に後者の立場から、GPUなどのプロセッサ内の処理効率化と、多数GPU搭載計算機をよどみなく活用するフレームワーク等を実現した。これら基盤技術により、LLMのさらなる改善への応用が期待される。
|