デッドライン付きデータ転送ジョブのスケジューリングに対する強化学習の適用研究

研究課題

研究課題/領域番号	22K12004
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60060:情報ネットワーク関連
研究機関	国立情報学研究所
研究代表者	栗本崇国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)
研究分担者	塩本公平東京都市大学, 情報工学部, 教授 (00535750)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
キーワード	デッドラインアウェア / スケジューリング / 機械学習 / ランダム性 / デッドライン付きデータ転送 / ジョブスケジューリング / ランダムパターン / 強化学習
研究開始時の研究の概要	本研究の目的は，環境がランダムな振る舞いをするデッドライン付きデータ転送のジョブスケジューリングに適用可能な強化学習アルゴリズムを研究することである．つまりランダムなジョブの到着パターンに対して適切なスケジューリングを行う機械学習手法の研究を行う．スケジューリングすることが困難なジョブの到着パターンを学習させ，さまざまなパターンで到着するジョブに対して，デッドラインを守ったスケジューリングを行うことを仮説とし，本研究では環境がランダムに変化する問題に強化学習を適用するための学習エピソードを明らかにすることを目的とする．
研究実績の概要	科学技術計算や大規模データセンタで注目されているデッドライン付きデータ転送ジョブのスケジューリングに強化学習を適用する手法について研究を進めている。データセンタ間の通信分野でデータ転送を行う場合、デッドラインと呼ばれる期限を考慮してデータ転送を行う手法がある。このようなデータ転送はデッドラインを考慮したジョブと呼ばれる。デッドラインを考慮したジョブのスケジューリングは容易ではなく、EDF(Earliest Deadline First)などの既存の手法は、将来到着するジョブを考慮しないため最適とは言えない。デッドライン付きデータ転送ジョブのスケジューリングへの強化学習の適用においては、従来の強化学習では主に環境が確定的に変化する状況を対象としているのに対し、環境がランダムに変化する点が大きく異なる。そこで環境がランダムに変化する問題に強化学習を適用することが本研究の特徴である。本研究への取り組みにおいて、大きく２つの観点が挙げられる。第一点目は、強化学習において効果的に学習を可能とするための、学習エピソードの選択であり、第二点目は、適した強化学習方法を明らかにすることである。本年度は、EDFでは高い報酬が得られない難易度が高いジョブパターンに対して、深層強化学習が有効であるかどうかを見るため、EDFが不得意なジョブ到着パターンを難易度の高いジョブパターンとして抽出し学習データとして学習することとした。その際、コードの可読性の改善のため、深層強化学習アルゴリズムの実装を見直し、その際、より新しいActor-Critic法を実装した。そして、 EDFでは理想的なスケジューリングに比べて報酬が大幅に低下するようなトリッキーなジョブパターンを一つ用意して性能評価を行った結果、深層強化学習により大きな改善効果が得られることを示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由昨年度はランダムに到着するジョブパターンの中で難易度が低いパターンに関しては、理想的なスケジューリングを行うことができないこともあることを確認したが、本年度は、その原因究明のため、EDFでは高い報酬が得られない難易度が高いジョブパターンに対して、深層強化学習が有効であるかどうかを見るため、EDFが不得意なジョブ到着パターンを難易度の高いジョブパターンとして抽出し学習データとして学習することとした。その際、コードの可読性の改善のため、深層強化学習アルゴリズムの実装を見直し、その際、より新しいActor-Critic法を実装した。そして、 EDFでは理想的なスケジューリングに比べて報酬が大幅に低下するようなトリッキーなジョブパターンを一つ用意して性能評価を行った結果、深層強化学習により大きな改善効果が得られることを示した。この結果を取りまとめ、国際会議NoF（8月）に報告を行った。つぎに、確率的にジョブが到着する前提を置き、処理待ちジョブを生じる一連の複数のジョブ到着過程（＝BusyPeriod_jobsetと呼ぶ）を疑似的に生成した。このようにして生成したジョブパターンの中から、難易度の高いものを抽出するため、本BusyPeriod_jobsetをEDFでスケジューリングを行った場合の得点（＝achived rewardと呼ぶ）が閾値thr以下となるBusyPeriod_jobsetをnセット集める方法を考案した。難易度の高いジョブパターンを効率的に抽出するために、thrとnを変えて機械学習のデータセットを用意して実験を行ったが、深層強化学習でも EDFを超える性能を達成することができていないことが判明した。1エピソード内に同一ジョブパターンを複数回繰り返す方法や複数のジョブパターンを混ぜて学習する方法を評価しているところである。
今後の研究の推進方策	確率的にジョブが到着する前提を置き、生成したジョブパターンの中から、難易度の高いものを抽出する方法について継続して検討する。難易度の高いジョブパターンを効率的に抽出するため、 EDFでスケジューリングを行った場合の報酬が閾値thr以下となるジョブセットをnセット集める方法に関して、thrとnを変えて機械学習のデータセットを用意して実験を行い、1エピソード内に同一ジョブパターンを複数回繰り返す方法や複数のジョブパターンを混ぜて学習する方法を評価し、知見をまとめてジャーナル論文に投稿する。並行して、確率的な振る舞いをする環境に対応する強化学習のアルゴリズムについて検討する。確率的な振る舞いをする環境における強化学習の課題としては、サンプル効率の低下があげられる。サンプル効率の改善のための研究が近年活発化しており、「VARIANCE REDUCTION FOR REINFORCEMENT LEARNING IN INPUT-DRIVEN ENVIRONMENTS」などをはじめとした関連論文を精査し、サンプル効率、処理量、実装の複雑さなどの観点から評価分析を進め、サンプル効率の改善方法を検討する。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(5件)

すべて 2023

すべて雑誌論文 (2件) (うち査読あり 1件) 学会発表 (3件) (うち国際学会 1件)

[雑誌論文] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023
- 著者名/発表者名
  Sagisaka Tatsuya、Shiomoto Kohei、Kurimoto Takashi
- 雑誌名
  
  14th International Conference on Network of the Future(nof2023), 2023
  
  巻: - ページ: 52-56
- DOI
  10.1109/nof58724.2023.10302803
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- 著者名/発表者名
  匂阪竜也,　塩本公平,　栗本　崇
- 雑誌名
  
  電子情報通信学会コミュニケーションクオリティ研究会（CQ）
  
  巻: vol. 123, no. 33 ページ: 1-6
- 関連する報告書
  2023 実施状況報告書
[学会発表] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023
- 著者名/発表者名
  Shiomoto Kohei
- 学会等名
  14th International Conference on Network of the Future(nof2023), 2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- 著者名/発表者名
  塩本浩平
- 学会等名
  電子情報通信学会コミュニケーションクオリティ研究会（CQ）
- 関連する報告書
  2023 実施状況報告書
[学会発表] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- 著者名/発表者名
  匂阪竜也、塩本公平、栗本　崇
- 学会等名
  電子情報通信学会CQ研究会
- 関連する報告書
  2022 実施状況報告書

デッドライン付きデータ転送ジョブのスケジューリングに対する強化学習の適用研究

研究代表者

栗本 崇 国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリ ングにおける無効ジョブの選別性能について2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリ ングにおける無効ジョブの選別性能について2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023

著者名/発表者名

学会等名

関連する報告書

栗本崇国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)

[雑誌論文] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023

[学会発表] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023