研究課題/領域番号 |
21K12024
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 独立行政法人大学改革支援・学位授与機構 |
研究代表者 |
宮崎 和光 独立行政法人大学改革支援・学位授与機構, 研究開発部, 教授 (20282866)
|
研究分担者 |
山口 周 独立行政法人大学改革支援・学位授与機構, 研究開発部, 特任教授 (10182437)
原田 拓 東京理科大学, 理工学部経営工学科, 准教授 (70256668)
小玉 直樹 明治大学, 理工学部, 助教 (60908747)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 深層強化学習 / 利益分配原理 / 深層経験強化型学習 / スマートエネルギーシステム / 信号機制御 / ツイートデータ / ロボット制御 / 強化学習 / 深層学習 / 経験強化型学習 |
研究開始時の研究の概要 |
近年、深層強化学習が注目されているが学習に多くの試行錯誤を要するという問題がある。それに対し研究代表者らは、経験を強く強化する接近法である経験強化型学習における利益分配原理に基づく手法を提案し、試行錯誤回数の削減を実現している。しかし、学習結果がばらつく場合が多く解決が望まれていた。そこで本研究では、ばらつきを抑えた深層経験強化型学習の提案を主目標に掲げる。さらに副目標としてマルコフ決定過程を超えるクラスやマルチエージェント環境下での挙動の明確化を掲げ、実問題への応用を通じ提案手法の有効性を主張する。その結果、新たな選択肢となり得る手法が確立し実問題への適用レベルを飛躍的に向上できると考える。
|
研究実績の概要 |
当該年度においては、これまでに提案してきた利益分配原理(PS原理)に基づく手法を利用した「応用例の探求」を中心に研究を進めた。 学術論文「Traffic Signal Control System Using Deep Reinforcement Learning With Emphasis on Reinforcing Successful Experiences」では、信号機制御を題材に、PS原理に基づく手法であるDual Targeting Algorithm(DTA)の有効性を確認した。特に、これまで明らかでなかったDTAのマルチエージェント環境下での有効性を確認できた意義が大きく、応用例探求に関する重要な成果と言える。 さらに「Proposal and Evaluation of a Course-Classification-Support System Emphasizing Communication with the Sub-committees Within the Committee of Validation and Examination for Degrees」では、本研究課題で応用例として掲げるカリキュラム分析支援システムの要となる「科目分類支援システム」の研究開発を進めた。 加えて、口頭発表「マルチエージェント環境下における強化学習を用いたネガティブツイートの抑制」では、マルチエージェント環境下での間接報酬に関する定理の検証を行い、PS原理に基づく手法が、他手法よりも、ネガティブなツイートを抑制できることを示した。 以上より、当該年度では「応用例の探求」を中心に研究を進めるとともに、副目標のひとつである「マルチエージェント環境下での間接報酬との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに寄与する成果を得た。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題では、前年度において、本研究課題の主目標である「ばらつきを抑えた経験強化型学習手法」を提案している。それに対し、当該年度では、前年度の成果を踏まえた「応用例の探求」と「副目標の達成」に注力した。 まず、「応用例の探求」としては、「信号機制御」および「ツイートデータ」を題材とした「マルチエージェント環境下での応用例」の探求を進めた。数値実験を通じて、両応用例ともに、PS原理に基づく手法が、他の手法に比べ、有効に機能することを示した。加えて、本研究課題で当初から計画していた「カリキュラム分析システム」の主たる要素である「科目分類支援システム」の研究開発を進めた。 一方、「副目標の達成」としては、ふたつある副目標のうちのひとつである「マルチエージェント環境下での間接報酬との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに注力した。特に、「ツイートデータ」を題材とした研究においては、マルチエージェント環境下での間接報酬に関する定理について、実際のツイートデータを用いた検証を行った。 以上の成果から、本研究課題は「おおむね順調に進展している」と判断した。
|
今後の研究の推進方策 |
当該年度では、PS原理に基づく手法を用いた「応用例の探求」を進めたが、今後は、これまで行ってきた応用例のさらなる発展を考えている。例えば、信号機制御に関しては、より現実の環境に近い複雑なマルチエージェント環境下での学習を検討している。 また、ツイートデータを題材とした研究においては、現時点では、深層学習との組み合わせは実現されていない。そこで、ツイートの類型化部分に深層学習を導入することで、PS原理に基づく「深層経験強化型学習(DeePS)」としての有効性の検証を考えている。 一方、「科目分類支援システム」の研究開発では、当該年度では、深層学習手法としての検証を行ったのみであり、強化学習や経験強化型学習との組み合わせは実現されていない。そこで今後は、「科目分類支援システム」にDeePSを組み合わせることで、より有効な支援システムの構成を検討する予定である。 本研究課題における「副目標の達成」については、ふたつある副目標のうちのひとつである「マルチ―エージェント環境下での間接報酬との関係を整理し、マルチエージェント環境下でのPS原理の有効性を明らかにする」ことに関する成果を得たが、もうひとつの副目標である「PS原理と適格度トレースとの関係を整理し、MDPs(マルコフ決定過程)を超えるクラスでの有効性を明らかにする」ことに関する成果は得られていない。そこで、残りの研究期間では、後者の副目標の達成に注力し、本研究課題のとりまとめを行う予定である。
|