研究課題/領域番号 |
22K12004
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60060:情報ネットワーク関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
栗本 崇 国立情報学研究所, アーキテクチャ科学研究系, 教授 (80768185)
|
研究分担者 |
塩本 公平 東京都市大学, 情報工学部, 教授 (00535750)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | デッドラインアウェア / スケジューリング / 機械学習 / ランダム性 / デッドライン付きデータ転送 / ジョブスケジューリング / ランダムパターン / 強化学習 |
研究開始時の研究の概要 |
本研究の目的は,環境がランダムな振る舞いをするデッドライン付きデータ転送のジョブスケジューリングに適用可能な強化学習アルゴリズムを研究することである.つまりランダムなジョブの到着パターンに対して適切なスケジューリングを行う機械学習手法の研究を行う.スケジューリングすることが困難なジョブの到着パターンを学習させ,さまざまなパターンで到着するジョブに対して,デッドラインを守ったスケジューリングを行うことを仮説とし,本研究では環境がランダムに変化する問題に強化学習を適用するための学習エピソードを明らかにすることを目的とする.
|
研究実績の概要 |
科学技術計算や大規模データセンタで注目されているデッドライン付きデータ転送ジョブのスケジューリングに強化学習を適用する手法について研究を進めている。データセンタ間の通信分野でデータ転送を行う場合、デッドラインと呼ばれる期限を考慮してデータ転送を行う手法がある。このようなデータ転送はデッドラインを考慮したジョブと呼ばれる。デッドラインを考慮したジョブのスケジューリングは容易ではなく、EDF(Earliest Deadline First)などの既存の手法は、将来到着するジョブを考慮しないため最適とは言えない。デッドライン付きデータ転送ジョブのスケジューリングへの強化学習の適用においては、従来の強化学習では主に環境が確定的に変化する状況を対象としているのに対し、環境がランダムに変化する点が大きく異なる。そこで環境がランダムに変化する問題に強化学習を適用することが本研究の特徴である。本研究への取り組みにおいて、大きく2つの観点が挙げられる。第一点目は、強化学習において効果的に学習を可能とするための、学習エピソードの選択であり、第二点目は、適した強化学習方法を明らかにすることである。 本年度は、EDFでは高い報酬が得られない難易度が高いジョブパターンに対して、深層強化学習が有効であるかどうかを見るため、EDFが不得意なジョブ到着パターンを難易度の高いジョブパターンとして抽出し学習データとして学習することとした。その際、コードの可読性の改善のため、深層強化学習アルゴリズムの実装を見直し、その際、より新しいActor-Critic法を実装した。そして、 EDFでは理想的なスケジューリングに比べて報酬が大幅に低下するようなトリッキーなジョブパターンを一つ用意して性能評価を行った結果、深層強化学習により大きな改善効果が得られることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度はランダムに到着するジョブパターンの中で難易度が低いパターンに関しては、理想的なスケジューリングを行うことができないこともあることを確認したが、本年度は、その原因究明のため、EDFでは高い報酬が得られない難易度が高いジョブパターンに対して、深層強化学習が有効であるかどうかを見るため、EDFが不得意なジョブ到着パターンを難易度の高いジョブパターンとして抽出し学習データとして学習することとした。その際、コードの可読性の改善のため、深層強化学習アルゴリズムの実装を見直し、その際、より新しいActor-Critic法を実装した。そして、 EDFでは理想的なスケジューリングに比べて報酬が大幅に低下するようなトリッキーなジョブパターンを一つ用意して性能評価を行った結果、深層強化学習により大きな改善効果が得られることを示した。この結果を取りまとめ、国際会議NoF(8月)に報告を行った。 つぎに、確率的にジョブが到着する前提を置き、処理待ちジョブを生じる一連の複数のジョブ到着過程(=BusyPeriod_jobsetと呼ぶ)を疑似的に生成した。このようにして生成したジョブパターンの中から、難易度の高いものを抽出するため、本BusyPeriod_jobsetをEDFでスケジューリングを行った場合の得点(=achived rewardと呼ぶ)が閾値thr以下となるBusyPeriod_jobsetをnセット集める方法を考案した。難易度の高いジョブパターンを効率的に抽出するために、thrとnを変えて機械学習のデータセットを用意して実験を行ったが、深層強化学習でも EDFを超える性能を達成することができていないことが判明した。1エピソード内に同一ジョブパターンを複数回繰り返す方法や複数のジョブパターンを混ぜて学習する方法を評価しているところである。
|
今後の研究の推進方策 |
確率的にジョブが到着する前提を置き、生成したジョブパターンの中から、難易度の高いものを抽出する方法について継続して検討する。難易度の高いジョブパターンを効率的に抽出するため、 EDFでスケジューリングを行った場合の報酬が閾値thr以下となるジョブセットをnセット集める方法に関して、thrとnを変えて機械学習のデータセットを用意して実験を行い、1エピソード内に同一ジョブパターンを複数回繰り返す方法や複数のジョブパターンを混ぜて学習する方法を評価し、知見をまとめてジャーナル論文に投稿する。 並行して、確率的な振る舞いをする環境に対応する強化学習のアルゴリズムについて検討する。確率的な振る舞いをする環境における強化学習の課題としては、サンプル効率の低下があげられる。サンプル効率の改善のための研究が近年活発化しており、「VARIANCE REDUCTION FOR REINFORCEMENT LEARNING IN INPUT-DRIVEN ENVIRONMENTS」などをはじめとした関連論文を精査し、サンプル効率、処理量、実装の複雑さなどの観点から評価分析を進め、サンプル効率の改善方法を検討する。
|