Project/Area Number |
20K19791
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60060:Information network-related
|
Research Institution | Kindai University |
Principal Investigator |
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 広域分散コンピューティング / 分散学習 / 分散ニューラルネットワーク / ネットワーク管理 / 情報ネットワーク / オーバレイネットワーク / 構造化オーバレイネットワーク / P2P / サーバ連携 / 深層学習 |
Outline of Research at the Start |
本研究では,大規模なニューラルネットワークを膨大な数のサーバにて自律的かつ永続的に管理をしつつ,学習の規模拡張性を向上させる分散サーバ連携技術を創出することを目的とする.具体的には,ニューラルネットワークの構成に応じて,自律的にニューラルネットワーク上の計算タスク等をどのサーバに割り当てるかを決定する手法,およびサーバの追加や故障に応じて,サーバ間で計算結果を委譲・復元する手法の確立を目指す.
|
Outline of Final Research Achievements |
In this study, we aim to construct a distributed neural network execution platform by developing core technologies. First, we used structured overlay network technology to quickly restore the distributed platform. This method's strength is in estimating the union of failure nodes and quickly propagating failure information to them. This approach reduces unnecessary failure information propagation and shortens the platform's Mean Time to Repair (MTTR). Secondly, we integrated distributed federated learning techniques into the platform to manage scalable learning nodes. We proposed an efficient scalable node management tree architecture that balances learning efficiency and high fault tolerance. Finally, we developed various schemes for traffic data estimation and control within the platform. By combining these technologies, we expect to maintain a robust and fault-tolerant future distributed neural network management platform.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究では,自律的なニューラルネットワークの分散実行基盤の構築において,学習・推論の永続的な実行をサポートするサーバ連携技術および学習状況の管理手法の提案を行った.サーバ連携技術では,構造化オーバレイ技術を活用し,基盤内で発生するサーバの故障対応を高速化する手法を創出した.学習状況の管理手法については,連合学習フレームワーク上で学習・推論の円滑な同時実行を実現する技術を開発した.さらに,分散実行基盤内で発生するデータの制御・解析に関する技術の創出も行った.これらの技術は,当該研究分野において重要な貢献を果たしており,今後のさらなる研究や実用化の基盤となると考えられる.
|