A study of server management technology for sustaining a large scale distributed neural network
Project/Area Number |
20K19791
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60060:Information network-related
|
Research Institution | Kindai University |
Principal Investigator |
水谷 后宏 近畿大学, 情報学部, 准教授 (40845939)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 情報ネットワーク / オーバレイネットワーク / 分散ニューラルネットワーク / 分散学習 / 構造化オーバレイネットワーク / P2P / サーバ連携 / 深層学習 |
Outline of Research at the Start |
本研究では,大規模なニューラルネットワークを膨大な数のサーバにて自律的かつ永続的に管理をしつつ,学習の規模拡張性を向上させる分散サーバ連携技術を創出することを目的とする.具体的には,ニューラルネットワークの構成に応じて,自律的にニューラルネットワーク上の計算タスク等をどのサーバに割り当てるかを決定する手法,およびサーバの追加や故障に応じて,サーバ間で計算結果を委譲・復元する手法の確立を目指す.
|
Outline of Annual Research Achievements |
本年度の研究実績は以下の2つである。 1. 大規模連合学習を実現する構造化オーバレイネットワーク技術の開発 連合学習と呼ばれる手法では、ニューラルネットワークを個々の計算機に分配し、学習させ、そのモデルを統合する。これまでの研究では、統合時のデータ通信量削減やニューラルネットワークの選別方法に焦点が当てられており、連合学習自体を実現する基盤についての検討が十分に進められていなかった。今年度の研究では、複数の計算機が連携してニューラルネットワークの統合を円滑に実現する分散計算基盤技術を開発し、連合学習の学習効率を向上できることを確認した。本内容については現在IEEEの著名会議への投稿準備を行っている。 2. 計算機の地理位置情報を考慮した大規模ニューラルネットワークの分割学習技術の開発 各計算機に分割されたニューラルネットワークを割り当て、大規模なニューラルネットワークを実現する場合、分割されたニューラルネットワーク同士の因果関係を考慮した最適な分割が必要である。特に、ニューラルネットワーク上で隣接する層間の通信が頻繁に発生するため、地理的に近い計算機への割り当てが重要である。本年度の研究成果では、Content-Addressable Network(CAN)を用いて、各計算機を緯度・経度順に高速に配置する技術を開発した。この技術では、緯度・経度が類似する計算機間でニューラルネットワークの隣接する層を配置する。本研究についても、国内外の学会への投稿準備を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ニューラルネットワークを分割して管理する手法に着目した研究を実施する予定であったが、学習データを分散化させ、分散的に学習したニューラルネットワークを統合する連合学習が主流となっているため、本研究課題についても、連合学習に対するアプローチを検討することにした。特に、学習データを持つ計算機の故障やその地域性を考慮したニューラルネットワークの統合手法に着目することで、学習データを分散させた際に発生する通信遅延や学習遅延を改善する分散学習データ管理アルゴリズムの実現する方向に舵を切った。ニューラルネットワークを分割して管理しつつ、データも分散化させる手法(前述の両手法のハイブリッド型手法)については、データだけでなくニューラルネットワークの分割モデルを同時に分散させるアルゴリズムを、前述のアルゴリズムに導入する予定となっている。
|
Strategy for Future Research Activity |
これまでの研究では、シミュレーションによる実験を中心に研究成果の検証を行ってきた。今後はエミュレーション実験に焦点を当て、実用性の観点から検証を実施する予定である。大量のサーバを利用できる環境を想定し、計算機をスレッドを用いて実装することで、スレッド間通信を利用した構造化オーバレイや分散学習基盤の構築を目指す。評価項目としては、ニューラルネットワークの統合に際して発生する通信量や通信回数について、計算機の追加・故障頻度を変えて評価し、学習効率を多角的に評価することを計画している。
|
Report
(3 results)
Research Products
(9 results)