研究課題/領域番号 |
21K12024
|
研究機関 | 独立行政法人大学改革支援・学位授与機構 |
研究代表者 |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)
|
研究分担者 |
山口 周 独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437)
原田 拓 東京理科大学, 理工学部経営工学科, 准教授 (70256668)
小玉 直樹 明治大学, 理工学部, 助教 (60908747)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 深層強化学習 / 利益分配原理 / 深層経験強化型学習 / スマートエネルギーシステム |
研究実績の概要 |
当該年度においては、本研究課題の主目標である「ばらつきを抑えた深層経験強化型学習手法」として、利益分配原理(PS原理)に基づくDXoL(Deep Exploitation-oriented Learning)およびExDDPG(Exploitation-oriented deep deterministic policy gradient)を提案した。 前者のDXoLはPS原理に基づく深層強化学習の基本的な手法であり、ドライバーの眠気防止システムや意識的意思決定システムに適用し有効性を確認した。一方、後者のExDDPGは、以前提案したPS原理に基づく手法であるDTA(Dual Targeting Algorithm)を拡張し、連続値の行動出力を可能とした手法である。連続行動を扱えるため、実問題への応用に適しており、当該年度においても、本研究課題で掲げた応用例のひとつであるスマートエネルギーシステムに適用し、従来手法に比べ17%の性能向上を実現した。 これらの成果に加え、PS原理で直接的に方策を強化する手法であるPPS(Policy-based Profit Sharing)における負の報酬の利用法の提案も行った。本手法は、現時点では、深層経験強化型学習手法としては完成していないが、今後、本研究課題における重要な要素技術となることが期待される。 以上のように、当該年度においては、当初の予定通り、PS原理に基づく深層経験強化型学習手法の提案に成功した。さらに、本研究課題で掲げた応用例のひとつであるスマートエネルギーシステムへの適用に成功するとともに、PPSにおける負の報酬の利用法を提案した。今後は、これらの成果をもとに、本研究課題を強力に推進する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当該年度においては、本研究課題の主目標である「ばらつきを抑えた深層経験強化型学習手法」として、利益分配原理(PS原理)に基づくDXoL(Deep Exploitation-oriented Learning)およびExDDPG(Exploitation-oriented deep deterministic policy gradient)を提案するとともに、次年度以降に実施する予定であった応用例のひとつであるスマートエネルギーシステムへの適用を実現した。当該年度実施予定の主目標の達成と、次年度以降実施する予定であった応用例のひとつへの適用を実現したため、当初の計画以上に進展していると判断した。 さらに、当初は計画していなかった、PS原理で直接的に方策を強化する手法における負の報酬の利用法の提案に成功した。この成果は、今後、本研究課題を推進する上での重要な要素技術となることが期待できるので、当初の計画以上に進展していると判断した理由に含めることができる。
|
今後の研究の推進方策 |
当該年度において、本研究課題の主目標である「ばらつきを抑えた深層経験強化型学習手法」の提案に成功したので、今後は、本研究課題の副目標である「PS原理と適格度トレースとの関係を整理し、MDPsを超えるクラスでの有効性を明らかにする」とともに、「マルチエージェント環境下での間接報酬に関する定理との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに注力する。こららの副目標については、残りの研究期間を費やし、重要な成果がでるように努力する。 さらに、PS原理で直接的に方策を強化する手法であるPPS(Policy-based Profit Sharing)をもとにした深層経験強化型学習手法の提案も検討する。そのような手法の提案は当初計画していなかったが、本研究課題を推進する上で重要な手法となる可能性が高いので、その実現可能性についての検討を開始する。 また、これらとともに、応用例として掲げているカリキュラム分析支援システムへの適用も行う。なお、応用例としては、当初の計画には含まれていない、信号機制御システムへの適用も検討する。特に後者はマルチエージェント環境下での実問題への応用例となるもので、本研究課題の重要な適用事例となることが期待されるので、次年度において集中的に研究する予定である。
|
次年度使用額が生じた理由 |
半導体不足の影響で購入希望であったGPUボードが入手できなかったため。
|