2021 Fiscal Year Research-status Report
A study of server management technology for sustaining a large scale distributed neural network
Project/Area Number |
20K19791
|
Research Institution | Kindai University |
Principal Investigator |
水谷 后宏 近畿大学, 理工学部, 講師 (40845939)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | オーバレイネットワーク / 分散学習 / 構造化オーバレイネットワーク / P2P |
Outline of Annual Research Achievements |
本研究では、膨大なニューラルネットワークの分散学習手法について、通信ネットワークおよびその構成機器となるサーバの有機的な連携を通して、学習効率を向上させることを目的としていた。特に、分割したニューラルネットワークを分散的に管理する上で、ニューラルネットワークの部分構造を維持するサーバの故障によって、ニューラルネットワーク全体の学習効率が下がる問題を解決する分散ニューラルネットワーク管理技術の確立を目指した。2021年度では、当該問題を解決および明確にするため、以下の研究開発を実施した。(1)複雑な構造を持つニューラルネットワークを分散管理する手法に着目し、高速かつニューラルネットワークの演算処理効率の低下を防ぐ分散ネットワーク復旧手法に関する研究を実施した。具体的には、連携しているサーバ間にて、サーバの故障を他のサーバが発見した際に、故障サーバの代わりとなるサーバを短時間かつ低負荷にて発見する手法を開発した。(2)故障・演算効率が低下したサーバに対して演算要求の割当を自律的に防ぐ手法に関する研究も実施した。具体的には、サーバ同士の相互連携によって、通常とは異なる処理速度になったサーバを発見し、そのサーバに割り当てる演算処理を回避する手法を開発した。(3)さらに、複雑なニューラルネットワークの演算処理効率について、学習データ量・データ自体の複雑さ・ニューラルネットワーク自体の複雑さが、どのように寄与しているかの調査を行い、ニューラルネットワークの分散化を最適化するための考察を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2021年度の研究計画では、シミュレーション・エミュレーション実験を通して複雑な構造を持つニューラルネットワークの分散管理実験を行う予定であった。複雑なニューラルネットワークを分散管理する際、各管理サーバが持つ情報も複雑化する傾向がある。そのため、サーバの故障によって失われる分散管理情報のデータ量が多くなり、復旧までの遅延時間が増大する問題があった。本問題を解決するため、分散管理情報のデータ量を削減しつつ、高速復旧させるための分散復旧アルゴリズムの開発を行った。本アルゴリズムは、ニューラルネットワークの分散管理にて利用される構造化オーバレイと呼ばれる分散データ管理アルゴリズムに適用できるだけでなく、簡素なアルゴリズムのため、短い計算時間にて動作させることが可能である。そのため、各サーバ上で実行されるニューラルネットワークの演算処理への割り込み処理を防ぐこともできることが分かった。復旧の高速化を検討するだけでなく、故障した・処理効率が低下したサーバに対して、演算処理の依頼を抑制するアルゴリズムの検討も行った。具体的には、強化学習と呼ばれるアルゴリズムを用いて、サーバ間で相互に処理効率を監視し、処理効率の落ちたサーバを自律的に発見し、そのサーバに対して処理を委譲することを防ぐことに成功した。
|
Strategy for Future Research Activity |
現在、ニューラルネットワークを分割して管理する手法に着目した研究開発を行っているが、学習データを分散化させる手法が注目されるようになったため、学習データを分散させた際に発生する通信遅延や学習遅延を改善する分散学習データ管理アルゴリズムの実現も検討し、その基礎評価の実施を行いたいと考えている。また、ニューラルネットワークを分割して管理しつつ、データも分散化させる手法(前述の両手法のハイブリット型手法)についての検討も、同時に実施していく予定である。
|
Causes of Carryover |
前年度に購入した機材を用いた基礎評価を行ったことと、アルゴリズム開発および論文投稿に注力したため、機材購入等の支出がなかったため。さらに、コロナウイルスの流行による渡航費および学会活動費用の支出がなかったため。次年度での使用については、アルゴリズム開発用の機材購入や、これまでの研究成果をアピールするための外部投稿にかかわる費用に補填したいと考えている。
|
Research Products
(5 results)