A machine learning based approach to automatic derivation of critical executions of distributed softwares
Project/Area Number |
21K19770
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 60:Information science, computer engineering, and related fields
|
Research Institution | Osaka University |
Principal Investigator |
増澤 利光 大阪大学, 大学院情報科学研究科, 教授 (50199692)
|
Co-Investigator(Kenkyū-buntansha) |
泉 泰介 大阪大学, 大学院情報科学研究科, 准教授 (20432461)
北村 直暉 大阪大学, 大学院情報科学研究科, 助教 (30963657)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2023: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2022: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 分散システム / 分散ソフトウェア / 分散アルゴリズム / 機械学習 |
Outline of Research at the Start |
分散ソフトウェアの重大な欠陥を開発時に見逃してしまうのは,ネットワーク形状と各計算機への入力,計算機負荷やネットワーク輻輳に起因する非同期性や故障パタンの多様性のために生じうる,無数と言ってもよいほどの実行経過の中からシステム障害を発生させるクリティカルな実行経過を見つけることができないためである.そこで本研究では,分散ソフトウェアの信頼性向上を実現するために,ネットワークパタン,非同期パタン,および,故障パタンを決定する敵対的エージェントを導入し,深層強化学習により,分散ソフトウェアに深刻な障害を引き起こすクリティカルな実行経過を自動導出することを目指す.
|
Outline of Annual Research Achievements |
本研究では,分散ソフトウェアに深刻な障害を引き起こしうるクリティカルな実行経過を,機械学習によって自動導出するという挑戦的研究に取り組む.今年度は,以下の課題に取り組んだ. (1) 同期式分散ソフトウェアに対し,クリティカルなネットワークパタンの自動導出:ネットワークパタン(ネットワーク形状と各計算機への入力)を決めれば実行経過が一意に定まる,故障のない環境での同期式分散ソフトウェアを対象に,多くの実行時間やメッセージを必要とするクリティカルな実行経過を生じさせるネットワークパタンの自動導出を目指している.リーダ選出を対象に,メッセージ数が最大となる実行を生じさせる各計算機への入力の特徴付けとその自動導出の可能性に関する研究を進めた. (2) 非同期式分散ソフトウェアに対し,クリティカルな非同期パタンの自動導出:非同期式分散ソフトウェアでは,ネットワークパタンを固定しても,非同期パタン(計算機の動作遅延やメッセージ遅延)により,さまざまな実行経過が生じうる.そこで,本課題では,クリティカルな実行経過を生じさせる非同期パタンの自動導出を目指している.完全ネットワークでの最短経路木構成について,非同期性がメッセージ数に及ぼす影響の解明を試み,メッセージ数が最大となる実行の自動導出の可能性について検討した. (3) 同期式分散ソフトウェアに対し,クリティカルな故障パタンの自動導出:同期式分散ソフトウェアに対し,故障の影響が深刻になるクリティカルな実行経過を生じさせる故障パタン(どの計算機がどのタイミングで故障するか)の特徴付けを試み,その自動導出の可能性について検討した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の予定通り,前年度に引き続き,研究課題(1)「同期式分散ソフトウェアに対し,クリティカルなネットワークパタンの自動導出」,(2)「非同期式分散ソフトウェアに対し,クリティカルな非同期パタンの自動導出」に取り組むとともに,今年度から研究課題(3)「同期式分散ソフトウェアに対し,クリティカルな故障パタンの自動導出」への取り組みを開始した.それぞれの研究課題に対し,一定の成果を出しつつある. 機械学習を用いてクリティカルな実行を導出することを目指し,理論的考察や予備実験を行っているが,対象によって機械学習の効果に大きな差が生じることが分かってきた.そこで,当初予定の課題に加えて,機械学習が効果的な対象の理論的な特徴づけについても検討している.このため,実際の機械学習を用いた適用実験が遅れており,「やや遅れている」と評価している.
|
Strategy for Future Research Activity |
分散ソフトウェアに深刻な障害を引き起こしうるクリティカルな実行経過を,機械学習によって自動導出することを目指す.次年度には,当初の予定通り,以下の研究課題(1), (2), (3)に引き続き取り組み,これまでに得られた成果の改善を目指す.さらに,機械学習が効果的な対象の特徴づけにも取り組む. (1) 同期式分散ソフトウェアに対し,クリティカルなネットワークパタンの自動導出 (2) 非同期式分散ソフトウェアに対し,クリティカルな非同期パタンの自動導出 (3) 同期式分散ソフトウェアに対し,クリティカルな故障パタンの自動導出
|
Report
(2 results)
Research Products
(1 results)