2019 Fiscal Year Annual Research Report

Study on Mobile Data 3D Offloading using Deep Reinforcement Learning

Research Project

Project/Area Number	17H01730
Research Institution	Shizuoka University
Principal Investigator	峰野博史静岡大学, 情報学部, 教授 (40359740)
Co-Investigator(Kenkyū-buntansha)	水野忠則愛知工業大学, 情報科学部, 教授 (80252162)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	モバイルネットワーク / データオフローディング / 深層強化学習
Outline of Annual Research Achievements	空間利用効率の最大化を目指す本モバイルデータ3Dオフローディング手法の評価に関し，UEがどのような条件でどのようにデータ送信すれば，eNB負荷を適切に平滑化できるか，様々な条件設定を用いたネットワークシミュレーションへ深層強化学習を適用した．特に，UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか，深層強化学習手法の改善を図った．具体的には，これまで，強化学習の一種であるQ学習に深層学習を適用したDQNを用いて送信レート制御モデルの構築を行ってきたが，DQNを用いる方法では実環境で想定される複数ユーザ端末に対して効率の良い学習が難しい．そこで，分散学習の手法を取り入れたA3CやApe-Xといった手法を導入し，状態の改善として複数ユーザ端末の持つコンテンツ特性やeNB負荷状態など，行動の改善として対象UEへ帯域を割り当てる優先度など，報酬の改善としてこれら状態と行動に対するユーザ満足度などを設定することで，ユーザの満足度である報酬の最大化を意識した学習を検討した．また，第5世代のモバイル通信では，限りあるネットワーク資源を有効活用しながら様々なサービスに適したネットワークの提供が不可欠である．そのため，サービスに適したネットワークを提供するネットワークスライシングを想定し，深層強化学習の一種であるApe-Xを用いてスライス数に依存しないネットワーク資源の割当て手法を検討した．Ape-X内の一つのモデルが一つのスライスにネットワーク資源を割り当てるよう設計することでスライス数の変化の影響を受けず柔軟なネットワーク資源の割当てを深層強化学習可能なことを確認した．これまでに引き続き研究代表者の峰野が研究統括として実装や評価を進め，研究分担者の水野と議論しながら分散処理部分や本手法実証のための研究を深めていく．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason eNBの負荷分散に加えて，遅延を許容できないデータの通信を行うUEのQoSを高めるように，遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した．スマートフォンで通信される動画などのリアルタイムなデータや，IoT機器で通信される遅延を許容できるセンサデータなど，通信を行う端末ごとに遅延耐性が異なることを利用し，トラフィックの収容効率向上だけでなく遅延を許容できないリアルタイム通信を行う端末のQoSを向上させられるようなハンドオーバ制御手法である．ネットワークシミュレーションの結果，本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき，高負荷な基地局の負荷を低負荷な基地局へ負荷分散しつつ，遅延耐性を考慮することで既存手法と比べてリアルタイムなデータ通信を行う端末の送信量を約30%向上できることを確認した．また，ネットワークスライシングにおいてApe-Xを用いた柔軟なリソースブロック（RB）割当て手法の検討を進めた．本手法では，Ape-Xの一つのActorが，一つのスライスにRBを割り当てる．これによりスライス数が変動してもActorの数を変更することで，スライス数に依存せずに複数スライスへRBの割当てが可能となる．ランダムに生成されたシナリオで汎化性能を評価した結果，比較手法の中で最も高いネットワークスライス要求満足度（NSRS: Network Slice Requirement Satisfaction）が約97%，平均リソースブロック使用率（RBUR: Resource Block Usage Ratio）が約77%であることが確認でき，提案手法がRBを効率的にスライスへ割当て，様々なスライス要件をほぼ満足する高い汎化性能を保持できることを確認した．
Strategy for Future Research Activity	UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか，深層強化学習手法の改善を図ってきた．これまで強化学習の一種であるQ学習に深層学習を適用したDQNを用いて，送信レート制御モデルの構築を行ってきたが，分散深層強化学習を用いて様々な条件に依存しないネットワーク資源割当てによる適切な通信リソース制御の獲得の効率化を図る．具体的にはApe-Xを用いた手法の詳細検討を深める，リソース単位の変化の影響を受けず柔軟なネットワーク資源の割り当てが可能か検証する．また，シミュレータ上で取得される情報と，実環境で取得されるデータには差異があり，実環境で正しく動作する送受信制御手法になるとは限らない．そのため，最終ステップとして，これまで研究開発してきたMDOP実機実装やHiFEEと連携させることで，シミュレータ上で取得される情報を実環境に近づける．さらに，シミュレータ上の深層強化学習と，実機での深層強化学習を段階的かつ相補的に繰り返すことで，実機での学習が困難な複雑な挙動も効果的に深層強化学習できる可能性がある．これらにより，実機での適切な評価が規模的に困難かつ，解析モデルやネットワークシミュレーションによる評価では条件設定やモデル構築を現実に近づけるのが困難な情報ネットワーク研究開発に，段階的スパイラル学習法を用いてMDOP実装へ深層強化学習を適用し，遅延耐性データを用いて空間利用効率最大化を図るモバイルデータ3Dオフローディング手法の有効性を実証する．

Research Products
(10 results)

All 2019 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (6 results) (of which Int'l Joint Research: 2 results, Invited: 3 results) Remarks (1 results) Patent(Industrial Property Rights) (1 results)

[Journal Article] モバイルデータ負荷分散のための遅延耐性を考慮したハンドオーバ制御手法2019
- Author(s)
  安孫子悠, 望月大輔, 齊藤隆仁, 片桐雅二, 池田大造, 水野忠則, 峰野博史
- Journal Title
  
  電子情報通信学会論文誌 B
  
  Volume: J102-B(6) Pages: 423-434
- DOI
  10.14923/transcomj.2018MOP0001
- Peer Reviewed / Open Access
[Journal Article] Delay-Tolerance-Based Mobile Data Offloading Using Deep Reinforcement Learning2019
- Author(s)
  Daisuke Mochizuki, Yu Abiko, Takato Sito, Daizo Ikeda, Hiroshi Mineno
- Journal Title
  
  Sensors
  
  Volume: 19(7):1674 Pages: 1-16
- DOI
  10.3390/s19071674
- Peer Reviewed / Open Access
[Presentation] 協創モバイルプラットフォームへの期待2019
- Author(s)
  峰野博史
- Organizer
  NTT DOCOMO テクニカル・ジャーナル
- Invited
[Presentation] Radio Resource Allocatino Method for Network Slicing using Deep Reinforcement Learning2019
- Author(s)
  Yu Abiko, Takato Saito, Daizo Ikeda, Ken Ohta, Tadanori Mizuno, Hiroshi Mineno
- Organizer
  The 34th International Conference on Information Networking (ICOIN)
- Int'l Joint Research
[Presentation] 深層強化学習を用いたモバイルデータオフローディングの研究2019
- Author(s)
  峰野博史
- Organizer
  超知性ネットワーキングに関する分野横断型研究会（RISING2019）
- Invited
[Presentation] Proposal of Allocating Radio Resources to Multiple Slices in 5G using Deep Reinforcement Learning2019
- Author(s)
  Yu Abiko, Daisuke Mochizuki, Takato Saito, Daizo Ikeda, Tadanori Mizuno, Hiroshi Mineno
- Organizer
  IEEE 8th Global Conference on Consumer Electronics (GCCE)
- Int'l Joint Research
[Presentation] 高精細無線LANエミュレーション環境HiFEE2019
- Author(s)
  峰野博史
- Organizer
  FIT2019
- Invited
[Presentation] 先度を考慮した送信制御が可能なP-MQTTの開発と評価2019
- Author(s)
  内山仁, 峰野博史
- Organizer
  情報処理学会マルチメディア, 分散, 協調とモバイル(DICOMO 2019)
[Remarks] モバイルトラフィックオフローディンググループ概要
- URL
  http://www.minelab.jp/?p=4682
[Patent(Industrial Property Rights)] 制御量算出装置及び制御量算出方式2019
- Inventor(s)
  峰野博史, 安孫子悠
- Industrial Property Rights Holder
  峰野博史, 安孫子悠
- Industrial Property Rights Type
  特許
- Industrial Property Number
  特願2020-058499

2019 Fiscal Year Annual Research Report

Study on Mobile Data 3D Offloading using Deep Reinforcement Learning

Principal Investigator

峰野 博史 静岡大学, 情報学部, 教授 (40359740)

Current Status of Research Progress

Reason

Research Products

[Journal Article] モバイルデータ負荷分散のための遅延耐性を考慮したハンドオーバ制御手法2019

Author(s)

Journal Title

DOI

[Journal Article] Delay-Tolerance-Based Mobile Data Offloading Using Deep Reinforcement Learning2019

Author(s)

Journal Title

DOI

[Presentation] 協創モバイルプラットフォームへの期待2019

Author(s)

Organizer

[Presentation] Radio Resource Allocatino Method for Network Slicing using Deep Reinforcement Learning2019

Author(s)

Organizer

[Presentation] 深層強化学習を用いたモバイルデータオフローディングの研究2019

Author(s)

Organizer

[Presentation] Proposal of Allocating Radio Resources to Multiple Slices in 5G using Deep Reinforcement Learning2019

Author(s)

Organizer

[Presentation] 高精細無線LANエミュレーション環境HiFEE2019

Author(s)

Organizer

[Presentation] 先度を考慮した送信制御が可能なP-MQTTの開発と評価2019

Author(s)

Organizer

[Remarks] モバイルトラフィックオフローディンググループ概要

URL

[Patent(Industrial Property Rights)] 制御量算出装置及び制御量算出方式2019

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

峰野博史静岡大学, 情報学部, 教授 (40359740)