2019 年度実績報告書

深層強化学習を用いたモバイルデータ3Dオフローディングの研究

研究課題

研究課題/領域番号	17H01730
研究機関	静岡大学
研究代表者	峰野博史静岡大学, 情報学部, 教授 (40359740)
研究分担者	水野忠則愛知工業大学, 情報科学部, 教授 (80252162)
研究期間 (年度)	2017-04-01 – 2021-03-31
キーワード	モバイルネットワーク / データオフローディング / 深層強化学習
研究実績の概要	空間利用効率の最大化を目指す本モバイルデータ3Dオフローディング手法の評価に関し，UEがどのような条件でどのようにデータ送信すれば，eNB負荷を適切に平滑化できるか，様々な条件設定を用いたネットワークシミュレーションへ深層強化学習を適用した．特に，UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか，深層強化学習手法の改善を図った．具体的には，これまで，強化学習の一種であるQ学習に深層学習を適用したDQNを用いて送信レート制御モデルの構築を行ってきたが，DQNを用いる方法では実環境で想定される複数ユーザ端末に対して効率の良い学習が難しい．そこで，分散学習の手法を取り入れたA3CやApe-Xといった手法を導入し，状態の改善として複数ユーザ端末の持つコンテンツ特性やeNB負荷状態など，行動の改善として対象UEへ帯域を割り当てる優先度など，報酬の改善としてこれら状態と行動に対するユーザ満足度などを設定することで，ユーザの満足度である報酬の最大化を意識した学習を検討した．また，第5世代のモバイル通信では，限りあるネットワーク資源を有効活用しながら様々なサービスに適したネットワークの提供が不可欠である．そのため，サービスに適したネットワークを提供するネットワークスライシングを想定し，深層強化学習の一種であるApe-Xを用いてスライス数に依存しないネットワーク資源の割当て手法を検討した．Ape-X内の一つのモデルが一つのスライスにネットワーク資源を割り当てるよう設計することでスライス数の変化の影響を受けず柔軟なネットワーク資源の割当てを深層強化学習可能なことを確認した．これまでに引き続き研究代表者の峰野が研究統括として実装や評価を進め，研究分担者の水野と議論しながら分散処理部分や本手法実証のための研究を深めていく．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 eNBの負荷分散に加えて，遅延を許容できないデータの通信を行うUEのQoSを高めるように，遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した．スマートフォンで通信される動画などのリアルタイムなデータや，IoT機器で通信される遅延を許容できるセンサデータなど，通信を行う端末ごとに遅延耐性が異なることを利用し，トラフィックの収容効率向上だけでなく遅延を許容できないリアルタイム通信を行う端末のQoSを向上させられるようなハンドオーバ制御手法である．ネットワークシミュレーションの結果，本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき，高負荷な基地局の負荷を低負荷な基地局へ負荷分散しつつ，遅延耐性を考慮することで既存手法と比べてリアルタイムなデータ通信を行う端末の送信量を約30%向上できることを確認した．また，ネットワークスライシングにおいてApe-Xを用いた柔軟なリソースブロック（RB）割当て手法の検討を進めた．本手法では，Ape-Xの一つのActorが，一つのスライスにRBを割り当てる．これによりスライス数が変動してもActorの数を変更することで，スライス数に依存せずに複数スライスへRBの割当てが可能となる．ランダムに生成されたシナリオで汎化性能を評価した結果，比較手法の中で最も高いネットワークスライス要求満足度（NSRS: Network Slice Requirement Satisfaction）が約97%，平均リソースブロック使用率（RBUR: Resource Block Usage Ratio）が約77%であることが確認でき，提案手法がRBを効率的にスライスへ割当て，様々なスライス要件をほぼ満足する高い汎化性能を保持できることを確認した．
今後の研究の推進方策	UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか，深層強化学習手法の改善を図ってきた．これまで強化学習の一種であるQ学習に深層学習を適用したDQNを用いて，送信レート制御モデルの構築を行ってきたが，分散深層強化学習を用いて様々な条件に依存しないネットワーク資源割当てによる適切な通信リソース制御の獲得の効率化を図る．具体的にはApe-Xを用いた手法の詳細検討を深める，リソース単位の変化の影響を受けず柔軟なネットワーク資源の割り当てが可能か検証する．また，シミュレータ上で取得される情報と，実環境で取得されるデータには差異があり，実環境で正しく動作する送受信制御手法になるとは限らない．そのため，最終ステップとして，これまで研究開発してきたMDOP実機実装やHiFEEと連携させることで，シミュレータ上で取得される情報を実環境に近づける．さらに，シミュレータ上の深層強化学習と，実機での深層強化学習を段階的かつ相補的に繰り返すことで，実機での学習が困難な複雑な挙動も効果的に深層強化学習できる可能性がある．これらにより，実機での適切な評価が規模的に困難かつ，解析モデルやネットワークシミュレーションによる評価では条件設定やモデル構築を現実に近づけるのが困難な情報ネットワーク研究開発に，段階的スパイラル学習法を用いてMDOP実装へ深層強化学習を適用し，遅延耐性データを用いて空間利用効率最大化を図るモバイルデータ3Dオフローディング手法の有効性を実証する．

研究成果
(10件)

すべて 2019 その他

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (6件) (うち国際学会 2件、招待講演 3件) 備考 (1件) 産業財産権 (1件)

[雑誌論文] モバイルデータ負荷分散のための遅延耐性を考慮したハンドオーバ制御手法2019
- 著者名/発表者名
  安孫子悠, 望月大輔, 齊藤隆仁, 片桐雅二, 池田大造, 水野忠則, 峰野博史
- 雑誌名
  
  電子情報通信学会論文誌 B
  
  巻: J102-B(6) ページ: 423-434
- DOI
  10.14923/transcomj.2018MOP0001
- 査読あり / オープンアクセス
[雑誌論文] Delay-Tolerance-Based Mobile Data Offloading Using Deep Reinforcement Learning2019
- 著者名/発表者名
  Daisuke Mochizuki, Yu Abiko, Takato Sito, Daizo Ikeda, Hiroshi Mineno
- 雑誌名
  
  Sensors
  
  巻: 19(7):1674 ページ: 1-16
- DOI
  10.3390/s19071674
- 査読あり / オープンアクセス
[学会発表] 協創モバイルプラットフォームへの期待2019
- 著者名/発表者名
  峰野博史
- 学会等名
  NTT DOCOMO テクニカル・ジャーナル
- 招待講演
[学会発表] Radio Resource Allocatino Method for Network Slicing using Deep Reinforcement Learning2019
- 著者名/発表者名
  Yu Abiko, Takato Saito, Daizo Ikeda, Ken Ohta, Tadanori Mizuno, Hiroshi Mineno
- 学会等名
  The 34th International Conference on Information Networking (ICOIN)
- 国際学会
[学会発表] 深層強化学習を用いたモバイルデータオフローディングの研究2019
- 著者名/発表者名
  峰野博史
- 学会等名
  超知性ネットワーキングに関する分野横断型研究会（RISING2019）
- 招待講演
[学会発表] Proposal of Allocating Radio Resources to Multiple Slices in 5G using Deep Reinforcement Learning2019
- 著者名/発表者名
  Yu Abiko, Daisuke Mochizuki, Takato Saito, Daizo Ikeda, Tadanori Mizuno, Hiroshi Mineno
- 学会等名
  IEEE 8th Global Conference on Consumer Electronics (GCCE)
- 国際学会
[学会発表] 高精細無線LANエミュレーション環境HiFEE2019
- 著者名/発表者名
  峰野博史
- 学会等名
  FIT2019
- 招待講演
[学会発表] 先度を考慮した送信制御が可能なP-MQTTの開発と評価2019
- 著者名/発表者名
  内山仁, 峰野博史
- 学会等名
  情報処理学会マルチメディア, 分散, 協調とモバイル(DICOMO 2019)
[備考] モバイルトラフィックオフローディンググループ概要
- URL
  http://www.minelab.jp/?p=4682
[産業財産権] 制御量算出装置及び制御量算出方式2019
- 発明者名
  峰野博史, 安孫子悠
- 権利者名
  峰野博史, 安孫子悠
- 産業財産権種類
  特許
- 産業財産権番号
  特願2020-058499

2019 年度 実績報告書

深層強化学習を用いたモバイルデータ3Dオフローディングの研究

研究代表者

峰野 博史 静岡大学, 情報学部, 教授 (40359740)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] モバイルデータ負荷分散のための遅延耐性を考慮したハンドオーバ制御手法2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Delay-Tolerance-Based Mobile Data Offloading Using Deep Reinforcement Learning2019

著者名/発表者名

雑誌名

DOI

[学会発表] 協創モバイルプラットフォームへの期待2019

著者名/発表者名

学会等名

[学会発表] Radio Resource Allocatino Method for Network Slicing using Deep Reinforcement Learning2019

著者名/発表者名

学会等名

[学会発表] 深層強化学習を用いたモバイルデータオフローディングの研究2019

著者名/発表者名

学会等名

[学会発表] Proposal of Allocating Radio Resources to Multiple Slices in 5G using Deep Reinforcement Learning2019

著者名/発表者名

学会等名

[学会発表] 高精細無線LANエミュレーション環境HiFEE2019

著者名/発表者名

学会等名

[学会発表] 先度を考慮した送信制御が可能なP-MQTTの開発と評価2019

著者名/発表者名

学会等名

[備考] モバイルトラフィックオフローディンググループ概要

URL

[産業財産権] 制御量算出装置及び制御量算出方式2019

発明者名

権利者名

産業財産権種類

産業財産権番号

2019 年度実績報告書

峰野博史静岡大学, 情報学部, 教授 (40359740)