研究課題/領域番号 |
21K12024
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 独立行政法人大学改革支援・学位授与機構 |
研究代表者 |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)
|
研究分担者 |
山口 周 独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437)
原田 拓 東京理科大学, 創域理工学部経営システム工学科, 准教授 (70256668)
小玉 直樹 明治大学, 理工学部, 助教 (60908747)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 深層強化学習 / 強化学習 / 深層学習 / 利益分配原理 / 経験強化型学習 / 深層経験強化型学習 / スマートエネルギーシステム / 道路交通信号機制御 / ツイートデータ / 意識的意思決定システム / 信号機制御 / ロボット制御 |
研究開始時の研究の概要 |
近年、深層強化学習が注目されているが学習に多くの試行錯誤を要するという問題がある。それに対し研究代表者らは、経験を強く強化する接近法である経験強化型学習における利益分配原理に基づく手法を提案し、試行錯誤回数の削減を実現している。しかし、学習結果がばらつく場合が多く解決が望まれていた。そこで本研究では、ばらつきを抑えた深層経験強化型学習の提案を主目標に掲げる。さらに副目標としてマルコフ決定過程を超えるクラスやマルチエージェント環境下での挙動の明確化を掲げ、実問題への応用を通じ提案手法の有効性を主張する。その結果、新たな選択肢となり得る手法が確立し実問題への適用レベルを飛躍的に向上できると考える。
|
研究成果の概要 |
本研究では、当初の目的であった「利益分配原理に基づく学習結果のばらつきを抑えた深層経験強化型学習」であるDeep Profit Sharing methodの基本設計を完成させた後、対象問題クラスに関するふたつの副目標を考慮した実問題への応用例を拡充させた。具体的には、当初予定していた「スマートエネルギーシステムへの応用」を達成するとともに、「カリキュラム分析支援システムへの応用」についても一定の成果を得た。さらに、当初想定していなかった応用例として、道路交通信号機制御に適用し一定の成果を得た上で、ネガティブツイートの抑制、Angry Bird AI Competitionへの適用を開始した。
|
研究成果の学術的意義や社会的意義 |
本研究では「利益分配原理に基づく学習結果のばらつきを抑えた深層経験強化型学習」であるDeep Profit Sharing method(DeePS)の有効性を主張できた。これは、動的計画法や政策の直接探索に基づく手法が主流を占める深層強化学習の世界に一石を投じるものであり、学術的意義が大きい。通常、それらの手法では、学習に多くの試行錯誤を要するが、DeePSは、より少ない経験でいかに学習するかを主眼に置いており、実問題への応用において、特に、威力を発揮するものと考える。実際、本研究では、複数の実問題に応用し、DeePSの有効性を示すことができたので、得られた成果の社会的意義は大きいと言える。
|