研究課題/領域番号 |
21K12024
|
研究機関 | 独立行政法人大学改革支援・学位授与機構 |
研究代表者 |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)
|
研究分担者 |
山口 周 独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437)
原田 拓 東京理科大学, 創域理工学部経営システム工学科, 准教授 (70256668)
小玉 直樹 明治大学, 理工学部, 助教 (60908747)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 深層強化学習 / 利益分配原理 / 深層経験強化型学習 / スマートエネルギーシステム / 道路交通信号機制御 / ツイートデータ / 意識的意思決定システム |
研究実績の概要 |
本研究課題では、初年度に、主目標である「利益分配原理(PS原理)に基づく、学習結果のばらつきを抑えた深層経験強化学習(DeePS)の基本設計」を完成させた。その後、最終年度にSSI優秀論文賞を受賞した「意識的意思決定システムのマルチエージェント環境下への拡張」等を通じ、副目標である「PS原理と適格度トレースとの関係を整理し、DeePSのMDPsを超えるクラスでの有効性を明らかにする」こと、及び「DeePSとマルチエージェント環境下での間接報酬に関する定理との関係を整理し、DeePSのマルチエージェント環境下での有効性を明らかにする」ことに寄与する成果を得た。 さらに、当初想定していた応用例のうち「スマートエネルギーシステム」については初年度に達成し、「カリキュラム分析支援システム」については、最終年度に公表した学術論文「Proposal of a Course-Classification-Support System using a Deep Learning and its Evaluation when combined with Reinforcement Learning」において、カリキュラム分析の中心となる「科目分類支援システム」への強化学習の組み込みに成功した。加えて、当初は予定していなかった「道路交通信号機制御」に適用するとともに、「ツイートデータ」や「Angry Bird AI Competition」への適用も開始した。 以上より、本研究課題の目的は十分に達成されたと考える。特に、深層強化学習の中心的手法として知られるDeep Q-Networkやその派生手法に対して、必要とされる試行錯誤回数の観点で圧倒的に有利なPS原理に基づく手法の有効性を、複数の応用例を通じ提示できた意義は大きく、今後の実問題への適用の拡充に貢献する重要な成果が得られたと言える。
|