2018 Fiscal Year Annual Research Report
Designing the autonomous learning system by the continuous reinforcement learning agent with the coach
Project/Area Number |
16K00317
|
Research Institution | Nara National College of Technology |
Principal Investigator |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
Co-Investigator(Kenkyū-buntansha) |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 強化学習 / 継続的学習支援 / 学習エージェント / 逆強化学習 / 振り返り / 学習目標空間 / 学習目標生成 / 多目的強化学習 |
Outline of Annual Research Achievements |
本研究では,人の継続的な学習能力の向上およびその上達過程の可視化に向けて,(1)冗長解の収集と冗長解からの創造的な問題の生成を繰り返して学習させるエージェントと,(2)人が理解しやすい学習過程の可視化手法を探究するとともに,それを統合した継続的な自律学習システムを構築し,その有効性を検証することを目的とする. (1)については,1) 継続的強化学習手法の設計および構築,2) 学習者の上達を支えるコーチ機能のモデル化と設計,に分けて研究を進めた.まず,冗長解を振り返り,冗長解上に新たな学習目標を追加することで派生問題を生成する機能を考案した.次に冗長解の潜在的な価値推定の自動化手法として冗長解の逆強化学習によって新たな目標を推定し,それらを加えた派生問題生成を実現した. (2)については,3) 上達過程を記述・説明する学習目標空間の設計,4) 学習目標空間での冗長解と派生目標との関係の可視化手法の設計,について研究を行なった.学習者が発見した冗長解についてその解が持つ派生目標を学習目標空間上で提示し,発見した派生目標間の位置関係を可視化することで,未発見目標領域(空白域)を間接的に可視化する手法を実現した.その有効性を実験的に検証するために被験者による比較実験を行なった.その結果,学習者の発見した目標が既存目標領域に近いか遠いか,すなわち学習の空白域との関係を示唆する提示条件が上達過程において学習フィードバック情報として重要で,未知の価値観への気づきを促す条件であることが示唆された.これらの研究成果の公表として,雑誌論文等5件,国際会議発表1件,国内学会5件の成果発表を行なった. 最終年度ではこれらをまとめて多目的学習システムを構築し,その継続的学習能力の評価を行ない,その成果を雑誌論文等5件,学会発表4件として成果発表し,Book in chapter 論文1件を発表予定である.
|
Research Products
(10 results)
-
-
-
-
[Journal Article] Multi-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem2018
Author(s)
Uwano, F., Tatebe, N., Nakata, M., Tajima, Y., Kovacs, T., and Takadama, K.
-
Journal Title
SICE Journal of Control, Measurement, and System Integration (JCMSI)
Volume: 11(4)
Pages: 321-330
DOI
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-