2018 年度研究成果報告書

継続的強化学習エージェントとコーチ役による自律学習システムの設計

研究課題

PDF

研究課題/領域番号	16K00317
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知能情報学
研究機関	奈良工業高等専門学校
研究代表者	山口智浩奈良工業高等専門学校, 情報工学科, 教授 (00240838)
研究分担者	高玉圭樹電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	機械学習 / 学習過程 / 自律学習 / 逆強化学習 / 継続的学習 / 多目的強化学習 / 目標生成 / 報酬生起確率
研究成果の概要	本研究では，人の継続的な学習能力の向上およびその上達過程の可視化に向けて，人が理解しやすい学習過程の可視化機能を持つ継続的な自律学習システムを構築した．学習者が発見した冗長解が持つ派生目標を学習目標空間上で提示し，派生目標間の位置関係を可視化することで，未発見目標領域（空白域）を間接的に可視化する手法を実現した．被験者による比較実験の結果，学習者の発見した目標が既存目標領域に近いか遠いか，すなわち学習の空白域との関係を示唆する提示条件が上達過程において学習フィードバック情報として重要で，未知の価値観への気づきを促す条件であることが示唆された．
自由記述の分野	強化学習
研究成果の学術的意義や社会的意義	近年，注目されている深層学習の主な弱点は(1)人が実現不能な学習手法と(2)内部の学習過程の理解困難さである．これに対し，本研究では深層学習の弱点を補うため，(1)様々な問題を生成し提供することで，人が学習の仕方を学べる機能，(2)学習結果の解釈を行い，人が理解しやすくなるように学習過程・上達過程を可視化する機能を考案した．本研究によって学習目標となる報酬設計が難しかった強化学習法の幅広い分野への適用が可能になる．また，自律学習システムは問題領域ごとに初期問題を与えると様々な派生問題とその解を反復的に生成するため，問題や解のバリエーションを大量に必要とするタスクに応用できる．