Scheduling method for data transfer of jobs with deadlines based on reinforcement learning

Research Project

Project/Area Number	22K12004
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 60060:Information network-related
Research Institution	National Institute of Informatics
Principal Investigator	栗本崇国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)
Co-Investigator(Kenkyū-buntansha)	塩本公平東京都市大学, 情報工学部, 教授 (00535750)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Keywords	デッドラインアウェア / スケジューリング / 機械学習 / ランダム性 / デッドライン付きデータ転送 / ジョブスケジューリング / ランダムパターン / 強化学習
Outline of Research at the Start	本研究の目的は，環境がランダムな振る舞いをするデッドライン付きデータ転送のジョブスケジューリングに適用可能な強化学習アルゴリズムを研究することである．つまりランダムなジョブの到着パターンに対して適切なスケジューリングを行う機械学習手法の研究を行う．スケジューリングすることが困難なジョブの到着パターンを学習させ，さまざまなパターンで到着するジョブに対して，デッドラインを守ったスケジューリングを行うことを仮説とし，本研究では環境がランダムに変化する問題に強化学習を適用するための学習エピソードを明らかにすることを目的とする．
Outline of Annual Research Achievements	科学技術計算や大規模データセンタで注目されているデッドライン付きデータ転送ジョブのスケジューリングに強化学習を適用する手法について研究を進めている。データセンタ間の通信分野でデータ転送を行う場合、デッドラインと呼ばれる期限を考慮してデータ転送を行う手法がある。このようなデータ転送はデッドラインを考慮したジョブと呼ばれる。デッドラインを考慮したジョブのスケジューリングは容易ではなく、EDF(Earliest Deadline First)などの既存の手法は、将来到着するジョブを考慮しないため最適とは言えない。デッドライン付きデータ転送ジョブのスケジューリングへの強化学習の適用においては、従来の強化学習では主に環境が確定的に変化する状況を対象としているのに対し、環境がランダムに変化する点が大きく異なる。そこで環境がランダムに変化する問題に強化学習を適用することが本研究の特徴である。本研究への取り組みにおいて、大きく２つの観点が挙げられる。第一点目は、強化学習において効果的に学習を可能とするための、学習エピソードの選択であり、第二点目は、適した強化学習方法を明らかにすることである。本年度は、EDFでは高い報酬が得られない難易度が高いジョブパターンに対して、深層強化学習が有効であるかどうかを見るため、EDFが不得意なジョブ到着パターンを難易度の高いジョブパターンとして抽出し学習データとして学習することとした。その際、コードの可読性の改善のため、深層強化学習アルゴリズムの実装を見直し、その際、より新しいActor-Critic法を実装した。そして、 EDFでは理想的なスケジューリングに比べて報酬が大幅に低下するようなトリッキーなジョブパターンを一つ用意して性能評価を行った結果、深層強化学習により大きな改善効果が得られることを示した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 昨年度はランダムに到着するジョブパターンの中で難易度が低いパターンに関しては、理想的なスケジューリングを行うことができないこともあることを確認したが、本年度は、その原因究明のため、EDFでは高い報酬が得られない難易度が高いジョブパターンに対して、深層強化学習が有効であるかどうかを見るため、EDFが不得意なジョブ到着パターンを難易度の高いジョブパターンとして抽出し学習データとして学習することとした。その際、コードの可読性の改善のため、深層強化学習アルゴリズムの実装を見直し、その際、より新しいActor-Critic法を実装した。そして、 EDFでは理想的なスケジューリングに比べて報酬が大幅に低下するようなトリッキーなジョブパターンを一つ用意して性能評価を行った結果、深層強化学習により大きな改善効果が得られることを示した。この結果を取りまとめ、国際会議NoF（8月）に報告を行った。つぎに、確率的にジョブが到着する前提を置き、処理待ちジョブを生じる一連の複数のジョブ到着過程（＝BusyPeriod_jobsetと呼ぶ）を疑似的に生成した。このようにして生成したジョブパターンの中から、難易度の高いものを抽出するため、本BusyPeriod_jobsetをEDFでスケジューリングを行った場合の得点（＝achived rewardと呼ぶ）が閾値thr以下となるBusyPeriod_jobsetをnセット集める方法を考案した。難易度の高いジョブパターンを効率的に抽出するために、thrとnを変えて機械学習のデータセットを用意して実験を行ったが、深層強化学習でも EDFを超える性能を達成することができていないことが判明した。1エピソード内に同一ジョブパターンを複数回繰り返す方法や複数のジョブパターンを混ぜて学習する方法を評価しているところである。
Strategy for Future Research Activity	確率的にジョブが到着する前提を置き、生成したジョブパターンの中から、難易度の高いものを抽出する方法について継続して検討する。難易度の高いジョブパターンを効率的に抽出するため、 EDFでスケジューリングを行った場合の報酬が閾値thr以下となるジョブセットをnセット集める方法に関して、thrとnを変えて機械学習のデータセットを用意して実験を行い、1エピソード内に同一ジョブパターンを複数回繰り返す方法や複数のジョブパターンを混ぜて学習する方法を評価し、知見をまとめてジャーナル論文に投稿する。並行して、確率的な振る舞いをする環境に対応する強化学習のアルゴリズムについて検討する。確率的な振る舞いをする環境における強化学習の課題としては、サンプル効率の低下があげられる。サンプル効率の改善のための研究が近年活発化しており、「VARIANCE REDUCTION FOR REINFORCEMENT LEARNING IN INPUT-DRIVEN ENVIRONMENTS」などをはじめとした関連論文を精査し、サンプル効率、処理量、実装の複雑さなどの観点から評価分析を進め、サンプル効率の改善方法を検討する。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(5 results)

All 2023

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Journal Article] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023
- Author(s)
  Sagisaka Tatsuya、Shiomoto Kohei、Kurimoto Takashi
- Journal Title
  
  14th International Conference on Network of the Future(nof2023), 2023
  
  Volume: - Pages: 52-56
- DOI
  10.1109/nof58724.2023.10302803
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- Author(s)
  匂阪竜也,　塩本公平,　栗本　崇
- Journal Title
  
  電子情報通信学会コミュニケーションクオリティ研究会（CQ）
  
  Volume: vol. 123, no. 33 Pages: 1-6
- Related Report
  2023 Research-status Report
[Presentation] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023
- Author(s)
  Shiomoto Kohei
- Organizer
  14th International Conference on Network of the Future(nof2023), 2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- Author(s)
  塩本浩平
- Organizer
  電子情報通信学会コミュニケーションクオリティ研究会（CQ）
- Related Report
  2023 Research-status Report
[Presentation] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023
- Author(s)
  匂阪竜也、塩本公平、栗本　崇
- Organizer
  電子情報通信学会CQ研究会
- Related Report
  2022 Research-status Report

Scheduling method for data transfer of jobs with deadlines based on reinforcement learning

Principal Investigator

栗本 崇 国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリ ングにおける無効ジョブの選別性能について2023

Author(s)

Journal Title

Related Report

[Presentation] On the performance of screening invalid jobs using the policy gradient method in deadline-aware data transfer scheduling2023

Author(s)

Organizer

Related Report

[Presentation] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリ ングにおける無効ジョブの選別性能について2023

Author(s)

Organizer

Related Report

[Presentation] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023

Author(s)

Organizer

Related Report

栗本崇国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)

[Journal Article] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023

[Presentation] デッドラインアウェアなジョブのポリシー勾配法を用いたスケジューリングにおける無効ジョブの選別性能について2023