• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

利益分配原理に基づく深層強化学習の革新的進化と実問題への応用に関する研究

研究課題

研究課題/領域番号 21K12024
研究機関独立行政法人大学改革支援・学位授与機構

研究代表者

宮崎 和光  独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)

研究分担者 山口 周  独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437)
原田 拓  東京理科大学, 理工学部経営工学科, 准教授 (70256668)
小玉 直樹  明治大学, 理工学部, 助教 (60908747)
研究期間 (年度) 2021-04-01 – 2024-03-31
キーワード深層強化学習 / 利益分配原理 / 深層経験強化型学習 / スマートエネルギーシステム
研究実績の概要

当該年度においては、本研究課題の主目標である「ばらつきを抑えた深層経験強化型学習手法」として、利益分配原理(PS原理)に基づくDXoL(Deep Exploitation-oriented Learning)およびExDDPG(Exploitation-oriented deep deterministic policy gradient)を提案した。
前者のDXoLはPS原理に基づく深層強化学習の基本的な手法であり、ドライバーの眠気防止システムや意識的意思決定システムに適用し有効性を確認した。一方、後者のExDDPGは、以前提案したPS原理に基づく手法であるDTA(Dual Targeting Algorithm)を拡張し、連続値の行動出力を可能とした手法である。連続行動を扱えるため、実問題への応用に適しており、当該年度においても、本研究課題で掲げた応用例のひとつであるスマートエネルギーシステムに適用し、従来手法に比べ17%の性能向上を実現した。
これらの成果に加え、PS原理で直接的に方策を強化する手法であるPPS(Policy-based Profit Sharing)における負の報酬の利用法の提案も行った。本手法は、現時点では、深層経験強化型学習手法としては完成していないが、今後、本研究課題における重要な要素技術となることが期待される。
以上のように、当該年度においては、当初の予定通り、PS原理に基づく深層経験強化型学習手法の提案に成功した。さらに、本研究課題で掲げた応用例のひとつであるスマートエネルギーシステムへの適用に成功するとともに、PPSにおける負の報酬の利用法を提案した。今後は、これらの成果をもとに、本研究課題を強力に推進する予定である。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

当該年度においては、本研究課題の主目標である「ばらつきを抑えた深層経験強化型学習手法」として、利益分配原理(PS原理)に基づくDXoL(Deep Exploitation-oriented Learning)およびExDDPG(Exploitation-oriented deep deterministic policy gradient)を提案するとともに、次年度以降に実施する予定であった応用例のひとつであるスマートエネルギーシステムへの適用を実現した。当該年度実施予定の主目標の達成と、次年度以降実施する予定であった応用例のひとつへの適用を実現したため、当初の計画以上に進展していると判断した。
さらに、当初は計画していなかった、PS原理で直接的に方策を強化する手法における負の報酬の利用法の提案に成功した。この成果は、今後、本研究課題を推進する上での重要な要素技術となることが期待できるので、当初の計画以上に進展していると判断した理由に含めることができる。

今後の研究の推進方策

当該年度において、本研究課題の主目標である「ばらつきを抑えた深層経験強化型学習手法」の提案に成功したので、今後は、本研究課題の副目標である「PS原理と適格度トレースとの関係を整理し、MDPsを超えるクラスでの有効性を明らかにする」とともに、「マルチエージェント環境下での間接報酬に関する定理との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに注力する。こららの副目標については、残りの研究期間を費やし、重要な成果がでるように努力する。
さらに、PS原理で直接的に方策を強化する手法であるPPS(Policy-based Profit Sharing)をもとにした深層経験強化型学習手法の提案も検討する。そのような手法の提案は当初計画していなかったが、本研究課題を推進する上で重要な手法となる可能性が高いので、その実現可能性についての検討を開始する。
また、これらとともに、応用例として掲げているカリキュラム分析支援システムへの適用も行う。なお、応用例としては、当初の計画には含まれていない、信号機制御システムへの適用も検討する。特に後者はマルチエージェント環境下での実問題への応用例となるもので、本研究課題の重要な適用事例となることが期待されるので、次年度において集中的に研究する予定である。

次年度使用額が生じた理由

半導体不足の影響で購入希望であったGPUボードが入手できなかったため。

  • 研究成果

    (15件)

すべて 2022 2021

すべて 雑誌論文 (3件) (うち査読あり 3件、 オープンアクセス 1件) 学会発表 (11件) (うち国際学会 3件) 図書 (1件)

  • [雑誌論文] 学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性に関する研究2022

    • 著者名/発表者名
      宮崎和光、高橋望、森利枝
    • 雑誌名

      電気学会論文誌C

      巻: 142 ページ: 117~128

    • DOI

      10.1541/ieejeiss.142.117

    • 査読あり
  • [雑誌論文] Home Energy Management Algorithm Based on Deep Reinforcement Learning Using Multistep Prediction2021

    • 著者名/発表者名
      Kodama Naoki、Harada Taku、Miyazaki Kazuteru
    • 雑誌名

      IEEE Access

      巻: 9 ページ: 153108~153115

    • DOI

      10.1109/access.2021.3126365

    • 査読あり / オープンアクセス
  • [雑誌論文] Proposal and evaluation of deep exploitation-oriented learning under multiple reward environment2021

    • 著者名/発表者名
      Miyazaki Kazuteru
    • 雑誌名

      Cognitive Systems Research

      巻: 70 ページ: 29~39

    • DOI

      10.1016/j.cogsys.2021.07.002

    • 査読あり
  • [学会発表] Profit Sharing による方策の直接強化手法の提案2022

    • 著者名/発表者名
      小玉直樹、宮崎和光、原田拓
    • 学会等名
      第49回知能システムシンポジウム
  • [学会発表] Proposal and Evaluation of Deep Profit Sharing Method in a Mixed Reward and Penalty Environment2021

    • 著者名/発表者名
      Kazuteru Miyazaki
    • 学会等名
      2021 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence
    • 国際学会
  • [学会発表] 状態遷移予測型Deep Q-Networkの提案2021

    • 著者名/発表者名
      小玉直樹、宮崎和光、原田拓
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会2021
  • [学会発表] 確率的報酬課題におけるプラセボ効果の強化学習によるモデル化2021

    • 著者名/発表者名
      宮崎和光
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会2021
  • [学会発表] 状態遷移予測型強化学習法の提案2021

    • 著者名/発表者名
      小玉直樹、宮崎和光、原田拓
    • 学会等名
      電気学会C部門大会
  • [学会発表] 報酬と罰が混合する環境における深層経験強化型学習に関する一考察2021

    • 著者名/発表者名
      宮崎和光
    • 学会等名
      電気学会C部門大会
  • [学会発表] 学位に付記する専攻分野の名称とディプロマ・ポリシーの整合性判定支援システムの性能改善2021

    • 著者名/発表者名
      宮崎和光、吉田望、森利枝
    • 学会等名
      電気学会 システム/制御 合同研究
  • [学会発表] Evaluation of Character-Level CNNs using the NTCIR-13 MedWeb Task2021

    • 著者名/発表者名
      Kazuteru Miyazaki、Masaaki Ida
    • 学会等名
      The 22nd International Symposium on Advanced Intelligent Systems
    • 国際学会
  • [学会発表] Character-level CNN の重みの摂動に関する一考察 - NTCIR-13 MedWeb タスクを題材として -2021

    • 著者名/発表者名
      宮崎和光、井田正明
    • 学会等名
      計測自動制御学会 システム・情報部門 学術講演会2021
  • [学会発表] NTCIR-13 MedWebタスクを用いたCharacter-level CNNの性能評価2021

    • 著者名/発表者名
      宮崎和光、井田正明
    • 学会等名
      電気学会C部門大会
  • [学会発表] Proposal for selecting a cooperation partner in distributed control of traffic signals using deep reinforcement learning2021

    • 著者名/発表者名
      Shinya Matsuta、Naoki Kodama、Taku Harada
    • 学会等名
      Proceedings of the 8th IIAE International Conference on Intelligent Systems and Image Processing 2021
    • 国際学会
  • [図書] 危機こそマネジメント改革の好機(第3部 第3章「研究者養成としての大学院教育」を山口周が執筆)2022

    • 著者名/発表者名
      川口昭彦 、栗田佳代子、山口周 、吉田塁、長谷川壽一(編集協力)、福田秀樹(編集協力)
    • 総ページ数
      172
    • 出版者
      株式会社ぎょうせい

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi