Scheduling method for data transfer of jobs with deadlines based on reinforcement learning
Project/Area Number |
22K12004
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60060:Information network-related
|
Research Institution | National Institute of Informatics |
Principal Investigator |
栗本 崇 国立情報学研究所, アーキテクチャ科学研究系, 准教授 (80768185)
|
Co-Investigator(Kenkyū-buntansha) |
塩本 公平 東京都市大学, 情報工学部, 教授 (00535750)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | デッドライン付きデータ転送 / ジョブスケジューリング / ランダムパターン / 強化学習 / 機械学習 / ランダム性 |
Outline of Research at the Start |
本研究の目的は,環境がランダムな振る舞いをするデッドライン付きデータ転送のジョブスケジューリングに適用可能な強化学習アルゴリズムを研究することである.つまりランダムなジョブの到着パターンに対して適切なスケジューリングを行う機械学習手法の研究を行う.スケジューリングすることが困難なジョブの到着パターンを学習させ,さまざまなパターンで到着するジョブに対して,デッドラインを守ったスケジューリングを行うことを仮説とし,本研究では環境がランダムに変化する問題に強化学習を適用するための学習エピソードを明らかにすることを目的とする.
|
Outline of Annual Research Achievements |
科学技術計算や大規模データセンタで注目されているデッドライン付きデータ転送ジョブのスケジューリングに強化学習を適用する手法について研究を進めている。従来の強化学習では主に環境が確定的に変化する状況を対象としていていたが、デッドライン付きデータ転送ジョブでは環境がランダムに変化する点が大きく異なる。そこで環境がランダムに変化する問題に強化学習を適用することが本研究の特徴である。本研究への取り組みにおいて、大きく2つの観点が挙げられる。第一点目は、強化学習において効果的に学習を可能とするための、学習エピソードの選択であり、第二点目は、適した強化学習方法を明らかにすることである。 本年度は、主に第一点目に着目し研究を進めた。ランダムに到着するジョブパターンから学習エピソードの難易度を考慮しながら学習エピソードを選択し強化学習を行い、強化学習の結果に基づいてジョブスケジュールを行うことで、ジョブのデッドライン成功率が向上するかの評価を進めた。深層強化学習アルゴリズムとしては、PolicyGradient法を適用した。学習エピソードは、広く知られているEarly Deadline First(EDF)アルゴリズムでは理想的なスケジューリングができないパターンを、難易度を変えて複数選択し実験を行った。実験の結果、難易度が低いパターンについて、EDFに対して提案手法がより理想的なスケジューリングを行うこと結果を得た。一方、難易度が高い場合においては、EDFに対して提案手法がより理想的なスケジューリングを行う結果を得ることが出来なかった。そこでカリキュラムラーニング(難易度が低い学習エピソードにて学習し続けて難易度が高い学習エピソードを用いて学習を行う)を適用し学習を行った。本結果から、僅かながらにカリキュラムラーニングの効果が確認された。本研究結果を取りまとめ、電子情報通信学会CQ研究会(5月)にて報告を行う。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
環境がランダムに変化する問題において効果的な学習エピソードを用いた強化学習方法を明らかにすることを目的に、回線帯域の使用効率を向上させつつ、デッドラインを守るスケジューリング方法を得るための強化学習方法に着目し研究を進めた。学習エピソードとしてスケジューリング難易度の高いジョブセットを選択し、強化学習を行った。結果、難易度が高い場合においては、カリキュラムラーニング(難易度が低い学習エピソードにて学習し続けて難易度が高い学習エピソードを用いて学習を行う)の効果を確認することができた。
|
Strategy for Future Research Activity |
昨年度は、環境がランダムに変化する問題において効果的な学習エピソードを用いた強化学習方法を明らかにすることを目的に、デッドラインを守るスケジューリング方法を得るための強化学習方法に着目し研究を進めた。今後の展望としては、以下の3点について推進する。第一に最適な学習エピソードの選定において、より多くのバリエーションを用いて評価を進める。具体的には、難易度が高いパターンを集中的に学習する方式に加え、簡単なパターンと難易度が高いパターンの組合せ、等によるより効率的に学習可能な学習エピソードの選定を進める。第二に、適した強化学習方法の明確化に着手する。具体的には現在Policyベースの強化学習手法であるPolicyGradient法を用いて学習しているが、Policyベースの強化学習ではStochasticなポリシー選択を行うため、最適なアクションが分かっていてもそれ以外のアクション選択することが起こる。このため、理想から大きくずれるケースが発生する。そのため今後は確定的なアクション選択を行うValueベースのアルゴリズム(例えば、Q学習等)とPolicy Gradient法を併用した新しい強化学習アルゴリズムについて検討する。第三に、確率的な振る舞いをする環境に対応する強化学習のアルゴリズムについて検討する。従来研究として2019年にICLRで発表された論文「VARIANCE REDUCTION FOR REINFORCEMENT LEARNING IN INPUT-DRIVEN ENVIRONMENTS」においては、Meta Learningのアプローチを適応した方法が提案されている。我々が対象とするDeadline-Awareなデータ転送に対して、当該手法の再現実験を行い適応性を検証すると同時に、当該手法のさらなる改善について取り組む。
|
Report
(1 results)
Research Products
(1 results)