Project/Area Number |
21K12024
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | National Institution for Academic Degrees and Quality Enhancement of Higher Education |
Principal Investigator |
Miyazaki Kazuteru 独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)
|
Co-Investigator(Kenkyū-buntansha) |
山口 周 独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437)
原田 拓 東京理科大学, 創域理工学部経営システム工学科, 准教授 (70256668)
小玉 直樹 明治大学, 理工学部, 助教 (60908747)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 深層強化学習 / 強化学習 / 深層学習 / 利益分配原理 / 経験強化型学習 / 深層経験強化型学習 / スマートエネルギーシステム / 道路交通信号機制御 / ツイートデータ / 意識的意思決定システム / 信号機制御 / ロボット制御 |
Outline of Research at the Start |
近年、深層強化学習が注目されているが学習に多くの試行錯誤を要するという問題がある。それに対し研究代表者らは、経験を強く強化する接近法である経験強化型学習における利益分配原理に基づく手法を提案し、試行錯誤回数の削減を実現している。しかし、学習結果がばらつく場合が多く解決が望まれていた。そこで本研究では、ばらつきを抑えた深層経験強化型学習の提案を主目標に掲げる。さらに副目標としてマルコフ決定過程を超えるクラスやマルチエージェント環境下での挙動の明確化を掲げ、実問題への応用を通じ提案手法の有効性を主張する。その結果、新たな選択肢となり得る手法が確立し実問題への適用レベルを飛躍的に向上できると考える。
|
Outline of Final Research Achievements |
In this study, after completing the basic design of the Deep Profit Sharing method, which is “deep exploitation-oriented learning with reduced variability of learning results based on the profit sharing principle,” which was the original goal of this study, we expanded the application examples to real problems considering two sub-goals related to target problem classes. Specifically, we achieved the originally planned “application to smart energy systems” and also obtained certain results for “application to curriculum analysis support systems." In addition, as an example of an application not initially envisioned, after achieving a certain level of success with the application to road traffic signal control, we began applying the system to the suppression of negative tweets and the Angry Bird AI Competition.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究では「利益分配原理に基づく学習結果のばらつきを抑えた深層経験強化型学習」であるDeep Profit Sharing method(DeePS)の有効性を主張できた。これは、動的計画法や政策の直接探索に基づく手法が主流を占める深層強化学習の世界に一石を投じるものであり、学術的意義が大きい。通常、それらの手法では、学習に多くの試行錯誤を要するが、DeePSは、より少ない経験でいかに学習するかを主眼に置いており、実問題への応用において、特に、威力を発揮するものと考える。実際、本研究では、複数の実問題に応用し、DeePSの有効性を示すことができたので、得られた成果の社会的意義は大きいと言える。
|