2018 Fiscal Year Annual Research Report

Study on Mobile Data 3D Offloading using Deep Reinforcement Learning

Research Project

Project/Area Number	17H01730
Research Institution	Shizuoka University
Principal Investigator	峰野博史静岡大学, 情報学部, 教授 (40359740)
Co-Investigator(Kenkyū-buntansha)	水野忠則愛知工業大学, 情報科学部, 教授 (80252162)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	モバイルネットワーク / データオフローディング / 深層強化学習
Outline of Annual Research Achievements	送信レート制御モデルを構築するための学習方法として，Q学習に深層学習を適用したDDQNを用いた．DDQNでは行動選択と評価に異なるモデルを使用するため，行動の過大評価を回避できる．さらにDueling networkをDDQNに採用することで，行動の値を用いることなく状態価値を学習可能となり学習の効率化を図った．状態s（UE情報（残コンテンツ量，遅延耐性時間），相対情報（コンテンツ最大値・中央値・最小値），eNB情報（利用可能帯域，現状負荷，理想負荷，現在時刻）），行動a（5段階のQoSレベル），報酬r（制御後の理想負荷に対する現状負荷で算出）に対し行動価値関数Q(s,a)を最大化するよう学習を繰り返し，帯域利用効率を最大化する送信レート制御モデルの構築を行った．本手法によって制御目標値を超過するデータ量を既存手法と比べ35%削減し，最大超過量と最大超過時間を改善できることを確認した．深層強化学習の適用によるUE送受信制御手法獲得の基礎評価など計画通り順調に進展している．一方，eNBの負荷分散に加えて，遅延を許容できないデータの通信を行うUEのQoSを高めるように，遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した．既存のハンドオーバを拡張し，IoT機器に対しては低負荷なeNBのカバレッジを広げ，積極的に低負荷なeNBへ負荷分散のためのハンドオーバを行う．一方で遅延を許容できないUEは，低負荷なeNBのカバレッジを狭め，負荷分散のためのハンドオーバを消極的に行う．ネットワークシミュレーションの結果，本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき，高負荷なeNBの負荷を低負荷なeNBへ負荷分散しつつ遅延耐性を考慮することでリアルタイムなデータ通信を行うUEの送信量を約30%向上できることを明らかにした．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 送信レート制御モデルを構築するための学習方法として，Q学習に深層学習を適用したDDQNを用いた．DDQNでは行動選択と評価に異なるモデルを使用するため，行動の過大評価を回避できる．さらにDueling networkをDDQNに採用することで，行動の値を用いることなく状態価値を学習可能となり学習の効率化を図った．状態s（UE情報（残コンテンツ量，遅延耐性時間），相対情報（コンテンツ最大値・中央値・最小値），eNB情報（利用可能帯域，現状負荷，理想負荷，現在時刻）），行動a（5段階のQoSレベル），報酬r（制御後の理想負荷に対する現状負荷で算出）に対し行動価値関数Q(s,a)を最大化するよう学習を繰り返し，帯域利用効率を最大化する送信レート制御モデルの構築を行った．本手法によって制御目標値を超過するデータ量を既存手法と比べ35%削減し，最大超過量と最大超過時間を改善できることを確認した．深層強化学習の適用によるUE送受信制御手法獲得の基礎評価など計画通り順調に進展している．一方，eNBの負荷分散に加えて，遅延を許容できないデータの通信を行うUEのQoSを高めるように，遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した．既存のハンドオーバを拡張し，IoT機器に対しては低負荷なeNBのカバレッジを広げ，積極的に低負荷なeNBへ負荷分散のためのハンドオーバを行う．一方で遅延を許容できないUEは，低負荷なeNBのカバレッジを狭め，負荷分散のためのハンドオーバを消極的に行う．ネットワークシミュレーションの結果，本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき，高負荷なeNBの負荷を低負荷なeNBへ負荷分散しつつ遅延耐性を考慮することでリアルタイムなデータ通信を行うUEの送信量を約30%向上できることを明らかにした．
Strategy for Future Research Activity	深層強化学習の適用によるUE送受信制御手法の獲得について発展的評価を進める．特に，UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか，深層強化学習手法の改善を図る．具体的には，これまで強化学習の一種であるQ学習に深層学習を適用したDQNを用いて送信レート制御モデルの構築を行ってきたが，DQNを用いる方法では実環境で想定される複数ユーザ端末に対して効率の良い学習が難しい．そこで，分散学習の手法を取り入れたA3CやApe-Xといった手法を導入し，状態の改善として複数ユーザ端末の持つコンテンツ特性やeNB負荷状態など，行動の改善として対象UEへ帯域を割り当てる優先度など，報酬の改善としてこれら状態と行動に対するユーザ満足度などを設定することで，ユーザの満足度である報酬の最大化を意識した学習を検討する．また，実環境を抽象化したシミュレータのみでの学習は，実環境への適用時にシミュレーションと同等性能を得られるとは限らないため，シミュレーションでユーザの満足度が向上するよう学習した後で，同モデルへ実環境の特性を取り入れるための実環境評価による学習も進める．シミュレーションと実環境での学習を交互に行うことで実環境に適用可能な段階的スパイラル学習の検討を進め送信レート制御手法の改善を図る．

Research Products
(8 results)

All 2019 2018 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 2 results) Remarks (1 results) Patent(Industrial Property Rights) (1 results) (of which Overseas: 1 results)

[Journal Article] モバイルデータ負荷分散のための遅延耐性を考慮したハンドオーバ制御手法2019
- Author(s)
  安孫子悠, 望月大輔, 齊藤隆仁, 片桐雅二, 池田大造, 水野忠則, 峰野博史
- Journal Title
  
  電子情報通信学会論文誌 B
  
  Volume: J102-B(6) Pages: 423-434
- DOI
  10.14923/transcomj.2018MOP0001
- Peer Reviewed / Open Access
[Presentation] コンテンツ情報と通信環境を考慮したIoTアプリケーション向け優先度制御通信の実装と評価2019
- Author(s)
  内山　仁, 笠原永丞, 吉田敬正, 峰野博史
- Organizer
  第81回情報処理学会全国大会
[Presentation] 深層強化学習を用いたモバイルデータオフローディング手法の紹介2018
- Author(s)
  望月大輔, 安孫子悠, 齊藤隆仁, 片桐雅二, 池田大造, 峰野博史
- Organizer
  Scenargie Workshop2018
[Presentation] 遅延耐性を考慮したハンドオーバ制御に基づくモバイルデータオフローディング手法の評価2018
- Author(s)
  安孫子悠, 望月大輔, 齊藤隆仁, 片桐雅二, 池田大造, 水野忠則, 峰野博史
- Organizer
  Scenargie Workshop2018
[Presentation] Deep Reinforcement Leaning-Based Method of Mobile Data Offloading2018
- Author(s)
  Daisuke Mochizuki, Yu Abiko, Hiroshi Mineno, Takato Saito, Daizo Ikeda, Masaji Katagiri
- Organizer
  11th International Conference on Mobile Computing and Ubiquitous Networking (ICMU)
- Int'l Joint Research
[Presentation] Proposal of IoT system with SmartContract on BlockChain2018
- Author(s)
  Tetsuo Furuichi, Hiroshi Mineno
- Organizer
  IWIN (International Workshop on Informatics) 2018
- Int'l Joint Research
[Remarks] モバイルトラフィックオフローディンググループ概要
- URL
  http://www.minelab.jp/?p=4682
[Patent(Industrial Property Rights)] 機械学習システム及び機械学習方法2019
- Inventor(s)
  峰野博史, 若森和昌, 望月大輔
- Industrial Property Rights Holder
  峰野博史, 若森和昌, 望月大輔
- Industrial Property Rights Type
  特許
- Industrial Property Number
  PCT/JP2019/4061
- Overseas

2018 Fiscal Year Annual Research Report

Study on Mobile Data 3D Offloading using Deep Reinforcement Learning

Principal Investigator

峰野 博史 静岡大学, 情報学部, 教授 (40359740)

Current Status of Research Progress

Reason

Research Products

[Journal Article] モバイルデータ負荷分散のための遅延耐性を考慮したハンドオーバ制御手法2019

Author(s)

Journal Title

DOI

[Presentation] コンテンツ情報と通信環境を考慮したIoTアプリケーション向け優先度制御通信の実装と評価2019

Author(s)

Organizer

[Presentation] 深層強化学習を用いたモバイルデータオフローディング手法の紹介2018

Author(s)

Organizer

[Presentation] 遅延耐性を考慮したハンドオーバ制御に基づくモバイルデータオフローディング手法の評価2018

Author(s)

Organizer

[Presentation] Deep Reinforcement Leaning-Based Method of Mobile Data Offloading2018

Author(s)

Organizer

[Presentation] Proposal of IoT system with SmartContract on BlockChain2018

Author(s)

Organizer

[Remarks] モバイルトラフィックオフローディンググループ概要

URL

[Patent(Industrial Property Rights)] 機械学習システム及び機械学習方法2019

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

峰野博史静岡大学, 情報学部, 教授 (40359740)