2022 年度実施状況報告書

デッドライン付きデータ転送ジョブのスケジューリングに対する強化学習の適用研究

研究課題

研究課題/領域番号	22K12004
研究機関	国立情報学研究所
研究代表者	栗本崇国立情報学研究所, アーキテクチャ科学研究系, 准教授 (80768185)
研究分担者	塩本公平東京都市大学, 情報工学部, 教授 (00535750)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	デッドライン付きデータ転送 / ジョブスケジューリング / ランダムパターン / 強化学習
研究実績の概要	科学技術計算や大規模データセンタで注目されているデッドライン付きデータ転送ジョブのスケジューリングに強化学習を適用する手法について研究を進めている。従来の強化学習では主に環境が確定的に変化する状況を対象としていていたが、デッドライン付きデータ転送ジョブでは環境がランダムに変化する点が大きく異なる。そこで環境がランダムに変化する問題に強化学習を適用することが本研究の特徴である。本研究への取り組みにおいて、大きく２つの観点が挙げられる。第一点目は、強化学習において効果的に学習を可能とするための、学習エピソードの選択であり、第二点目は、適した強化学習方法を明らかにすることである。本年度は、主に第一点目に着目し研究を進めた。ランダムに到着するジョブパターンから学習エピソードの難易度を考慮しながら学習エピソードを選択し強化学習を行い、強化学習の結果に基づいてジョブスケジュールを行うことで、ジョブのデッドライン成功率が向上するかの評価を進めた。深層強化学習アルゴリズムとしては、PolicyGradient法を適用した。学習エピソードは、広く知られているEarly Deadline First(EDF)アルゴリズムでは理想的なスケジューリングができないパターンを、難易度を変えて複数選択し実験を行った。実験の結果、難易度が低いパターンについて、EDFに対して提案手法がより理想的なスケジューリングを行うこと結果を得た。一方、難易度が高い場合においては、EDFに対して提案手法がより理想的なスケジューリングを行う結果を得ることが出来なかった。そこでカリキュラムラーニング（難易度が低い学習エピソードにて学習し続けて難易度が高い学習エピソードを用いて学習を行う）を適用し学習を行った。本結果から、僅かながらにカリキュラムラーニングの効果が確認された。本研究結果を取りまとめ、電子情報通信学会CQ研究会（5月）にて報告を行う。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由環境がランダムに変化する問題において効果的な学習エピソードを用いた強化学習方法を明らかにすることを目的に、回線帯域の使用効率を向上させつつ、デッドラインを守るスケジューリング方法を得るための強化学習方法に着目し研究を進めた。学習エピソードとしてスケジューリング難易度の高いジョブセットを選択し、強化学習を行った。結果、難易度が高い場合においては、カリキュラムラーニング（難易度が低い学習エピソードにて学習し続けて難易度が高い学習エピソードを用いて学習を行う）の効果を確認することができた。
今後の研究の推進方策	昨年度は、環境がランダムに変化する問題において効果的な学習エピソードを用いた強化学習方法を明らかにすることを目的に、デッドラインを守るスケジューリング方法を得るための強化学習方法に着目し研究を進めた。今後の展望としては、以下の３点について推進する。第一に最適な学習エピソードの選定において、より多くのバリエーションを用いて評価を進める。具体的には、難易度が高いパターンを集中的に学習する方式に加え、簡単なパターンと難易度が高いパターンの組合せ、等によるより効率的に学習可能な学習エピソードの選定を進める。第二に、適した強化学習方法の明確化に着手する。具体的には現在Policyベースの強化学習手法であるPolicyGradient法を用いて学習しているが、Policyベースの強化学習ではStochasticなポリシー選択を行うため、最適なアクションが分かっていてもそれ以外のアクション選択することが起こる。このため、理想から大きくずれるケースが発生する。そのため今後は確定的なアクション選択を行うValueベースのアルゴリズム（例えば、Q学習等）とPolicy Gradient法を併用した新しい強化学習アルゴリズムについて検討する。第三に、確率的な振る舞いをする環境に対応する強化学習のアルゴリズムについて検討する。従来研究として2019年にICLRで発表された論文「VARIANCE REDUCTION FOR REINFORCEMENT LEARNING IN INPUT-DRIVEN ENVIRONMENTS」においては、Meta Learningのアプローチを適応した方法が提案されている。我々が対象とするDeadline-Awareなデータ転送に対して、当該手法の再現実験を行い適応性を検証すると同時に、当該手法のさらなる改善について取り組む。
次年度使用額が生じた理由	物品購入において、想定金額よりも安価に購入することができたため。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- 著者名/発表者名
  匂阪竜也、塩本公平、栗本　崇
- 学会等名
  電子情報通信学会CQ研究会