2019 Fiscal Year Annual Research Report
Study on Mobile Data 3D Offloading using Deep Reinforcement Learning
Project/Area Number |
17H01730
|
Research Institution | Shizuoka University |
Principal Investigator |
峰野 博史 静岡大学, 情報学部, 教授 (40359740)
|
Co-Investigator(Kenkyū-buntansha) |
水野 忠則 愛知工業大学, 情報科学部, 教授 (80252162)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | モバイルネットワーク / データオフローディング / 深層強化学習 |
Outline of Annual Research Achievements |
空間利用効率の最大化を目指す本モバイルデータ3Dオフローディング手法の評価に関し,UEがどのような条件でどのようにデータ送信すれば,eNB負荷を適切に平滑化できるか,様々な条件設定を用いたネットワークシミュレーションへ深層強化学習を適用した. 特に,UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか,深層強化学習手法の改善を図った.具体的には,これまで,強化学習の一種であるQ学習に深層学習を適用したDQNを用いて送信レート制御モデルの構築を行ってきたが,DQNを用いる方法では実環境で想定される複数ユーザ端末に対して効率の良い学習が難しい.そこで,分散学習の手法を取り入れたA3CやApe-Xといった手法を導入し,状態の改善として複数ユーザ端末の持つコンテンツ特性やeNB負荷状態など,行動の改善として対象UEへ帯域を割り当てる優先度など,報酬の改善としてこれら状態と行動に対するユーザ満足度などを設定することで,ユーザの満足度である報酬の最大化を意識した学習を検討した. また,第5世代のモバイル通信では,限りあるネットワーク資源を有効活用しながら様々なサービスに適したネットワークの提供が不可欠である.そのため,サービスに適したネットワークを提供するネットワークスライシングを想定し,深層強化学習の一種であるApe-Xを用いてスライス数に依存しないネットワーク資源の割当て手法を検討した.Ape-X内の一つのモデルが一つのスライスにネットワーク資源を割り当てるよう設計することでスライス数の変化の影響を受けず柔軟なネットワーク資源の割当てを深層強化学習可能なことを確認した. これまでに引き続き研究代表者の峰野が研究統括として実装や評価を進め,研究分担者の水野と議論しながら分散処理部分や本手法実証のための研究を深めていく.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
eNBの負荷分散に加えて,遅延を許容できないデータの通信を行うUEのQoSを高めるように,遅延を許容できる通信を行うIoT機器の遅延耐性を考慮したハンドオーバ制御を検討した.スマートフォンで通信される動画などのリアルタイムなデータや,IoT機器で通信される遅延を許容できるセンサデータなど,通信を行う端末ごとに遅延耐性が異なることを利用し,トラフィックの収容効率向上だけでなく遅延を許容できないリアルタイム通信を行う端末のQoSを向上させられるようなハンドオーバ制御手法である.ネットワークシミュレーションの結果,本ハンドオーバ制御手法によってPing-Pongハンドオーバの抑制を効果的に学習でき,高負荷な基地局の負荷を低負荷な基地局へ負荷分散しつつ,遅延耐性を考慮することで既存手法と比べてリアルタイムなデータ通信を行う端末の送信量を約30%向上できることを確認した. また,ネットワークスライシングにおいてApe-Xを用いた柔軟なリソースブロック(RB)割当て手法の検討を進めた.本手法では,Ape-Xの一つのActorが,一つのスライスにRBを割り当てる.これによりスライス数が変動してもActorの数を変更することで,スライス数に依存せずに複数スライスへRBの割当てが可能となる.ランダムに生成されたシナリオで汎化性能を評価した結果,比較手法の中で最も高いネットワークスライス要求満足度(NSRS: Network Slice Requirement Satisfaction)が約97%,平均リソースブロック使用率(RBUR: Resource Block Usage Ratio)が約77%であることが確認でき,提案手法がRBを効率的にスライスへ割当て,様々なスライス要件をほぼ満足する高い汎化性能を保持できることを確認した.
|
Strategy for Future Research Activity |
UEの状況に応じて適切なデータ送受信制御を行うことでユーザの満足度を向上できるか,深層強化学習手法の改善を図ってきた.これまで強化学習の一種であるQ学習に深層学習を適用したDQNを用いて,送信レート制御モデルの構築を行ってきたが,分散深層強化学習を用いて様々な条件に依存しないネットワーク資源割当てによる適切な通信リソース制御の獲得の効率化を図る.具体的にはApe-Xを用いた手法の詳細検討を深める,リソース単位の変化の影響を受けず柔軟なネットワーク資源の割り当てが可能か検証する.また,シミュレータ上で取得される情報と,実環境で取得されるデータには差異があり,実環境で正しく動作する送受信制御手法になるとは限らない.そのため,最終ステップとして,これまで研究開発してきたMDOP実機実装やHiFEEと連携させることで,シミュレータ上で取得される情報を実環境に近づける.さらに,シミュレータ上の深層強化学習と,実機での深層強化学習を段階的かつ相補的に繰り返すことで,実機での学習が困難な複雑な挙動も効果的に深層強化学習できる可能性がある.これらにより,実機での適切な評価が規模的に困難かつ,解析モデルやネットワークシミュレーションによる評価では条件設定やモデル構築を現実に近づけるのが困難な情報ネットワーク研究開発に,段階的スパイラル学習法を用いてMDOP実装へ深層強化学習を適用し,遅延耐性データを用いて空間利用効率最大化を図るモバイルデータ3Dオフローディング手法の有効性を実証する.
|
Research Products
(10 results)