研究課題/領域番号 |
17H01730
|
研究機関 | 静岡大学 |
研究代表者 |
峰野 博史 静岡大学, 情報学部, 教授 (40359740)
|
研究分担者 |
水野 忠則 愛知工業大学, 情報科学部, 教授 (80252162)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | モバイルネットワーク / データオフローディング / 深層強化学習 |
研究実績の概要 |
送信レート制御モデルを構築するための学習方法として,Q学習に深層学習を適用したDDQNを用いた.DDQNでは行動選択と評価に異なるモデルを使用するため,行動の過大評価を回避できる.さらにDueling networkをDDQNに採用することで,行動の値を用いることなく状態価値を学習可能となり学習の効率化を図った.状態s(UE情報(残コンテンツ量,遅延耐性時間),相対情報(コンテンツ最大値・中央値・最小値),eNB情報(利用可能帯域,現状負荷,理想負荷,現在時刻)),行動a(5段階のQoSレベル),報酬r(制御後の理想負荷に対する現状負荷で算出)に対し行動価値関数Q(s,a)を最大化するよう学習を繰り返し,帯域利用効率を最大化する送信レート制御モデルの構築を行った.本手法によって制御目標値を超過するデータ量を既存手法と比べ35%削減し,最大超過量と最大超過時間を改善できることを確認した.深層強化学習の適用によるUE送受信制御手法獲得の基礎評価など計画通り順調に進展している. 一方,eNBの負荷分散に加えて,遅延を許容できないデータの通信を行うUEのQoSを高めるように,遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した.既存のハンドオーバを拡張し,IoT機器に対しては低負荷なeNBのカバレッジを広げ,積極的に低負荷なeNBへ負荷分散のためのハンドオーバを行う.一方で遅延を許容できないUEは,低負荷なeNBのカバレッジを狭め,負荷分散のためのハンドオーバを消極的に行う.ネットワークシミュレーションの結果,本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき,高負荷なeNBの負荷を低負荷なeNBへ負荷分散しつつ遅延耐性を考慮することでリアルタイムなデータ通信を行うUEの送信量を約30%向上できることを明らかにした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
送信レート制御モデルを構築するための学習方法として,Q学習に深層学習を適用したDDQNを用いた.DDQNでは行動選択と評価に異なるモデルを使用するため,行動の過大評価を回避できる.さらにDueling networkをDDQNに採用することで,行動の値を用いることなく状態価値を学習可能となり学習の効率化を図った.状態s(UE情報(残コンテンツ量,遅延耐性時間),相対情報(コンテンツ最大値・中央値・最小値),eNB情報(利用可能帯域,現状負荷,理想負荷,現在時刻)),行動a(5段階のQoSレベル),報酬r(制御後の理想負荷に対する現状負荷で算出)に対し行動価値関数Q(s,a)を最大化するよう学習を繰り返し,帯域利用効率を最大化する送信レート制御モデルの構築を行った.本手法によって制御目標値を超過するデータ量を既存手法と比べ35%削減し,最大超過量と最大超過時間を改善できることを確認した.深層強化学習の適用によるUE送受信制御手法獲得の基礎評価など計画通り順調に進展している. 一方,eNBの負荷分散に加えて,遅延を許容できないデータの通信を行うUEのQoSを高めるように,遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した.既存のハンドオーバを拡張し,IoT機器に対しては低負荷なeNBのカバレッジを広げ,積極的に低負荷なeNBへ負荷分散のためのハンドオーバを行う.一方で遅延を許容できないUEは,低負荷なeNBのカバレッジを狭め,負荷分散のためのハンドオーバを消極的に行う.ネットワークシミュレーションの結果,本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき,高負荷なeNBの負荷を低負荷なeNBへ負荷分散しつつ遅延耐性を考慮することでリアルタイムなデータ通信を行うUEの送信量を約30%向上できることを明らかにした.
|
今後の研究の推進方策 |
深層強化学習の適用によるUE送受信制御手法の獲得について発展的評価を進める.特に,UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか,深層強化学習手法の改善を図る.具体的には,これまで強化学習の一種であるQ学習に深層学習を適用したDQNを用いて送信レート制御モデルの構築を行ってきたが,DQNを用いる方法では実環境で想定される複数ユーザ端末に対して効率の良い学習が難しい.そこで,分散学習の手法を取り入れたA3CやApe-Xといった手法を導入し,状態の改善として複数ユーザ端末の持つコンテンツ特性やeNB負荷状態など,行動の改善として対象UEへ帯域を割り当てる優先度など,報酬の改善としてこれら状態と行動に対するユーザ満足度などを設定することで,ユーザの満足度である報酬の最大化を意識した学習を検討する.また,実環境を抽象化したシミュレータのみでの学習は,実環境への適用時にシミュレーションと同等性能を得られるとは限らないため,シミュレーションでユーザの満足度が向上するよう学習した後で,同モデルへ実環境の特性を取り入れるための実環境評価による学習も進める.シミュレーションと実環境での学習を交互に行うことで実環境に適用可能な段階的スパイラル学習の検討を進め送信レート制御手法の改善を図る.
|