研究課題/領域番号 |
16K00317
|
研究機関 | 奈良工業高等専門学校 |
研究代表者 |
山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)
|
研究分担者 |
高玉 圭樹 電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 継続的強化学習 / 報酬獲得解 / 報酬生起確率 / 生起確率ベクトル空間 / 凸包 / 一括強化学習 / 上達過程 / 学習目標空間 |
研究実績の概要 |
本研究では,人の継続的な学習能力の向上およびその上達過程の可視化に向けて,(1)冗長解の収集と冗長解からの創造的な問題の生成を繰り返して学習させるエージェントと,(2)人が理解しやすい学習過程の可視化手法を探究するとともに,それを統合した継続的な自律学習システムを構築し,その有効性を検証することを目的とする.その目的遂行のため,本年度は次の項目を実施した.これらの研究成果を,計測自動制御学会,システム・情報部門 学術講演会 2016 (SSI2016),第22回人工生命とロボット国際会議(AROB2017)において発表し,英文ジャーナル等に英語論文を3件投稿中である. ● 研究項目1: 継続的強化学習手法の設計および構築 学習者とのやり取りを通して学習させる継続的強化学習エージェントを設計するために,獲得報酬の生起確率に基づく一括強化学習手法を考案した.具体的には報酬獲得解(=学習結果)に対し各報酬の生起確率を生起確率ベクトルとして算出し,解を高速かつ網羅的に収集する強化学習手法を基にして,与えられた初期問題の最適解や冗長解を網羅した報酬獲得解集合を求める一括強化学習手法を考案した.さらに,報酬獲得解が生起確率ベクトル空間の点に対応することから,解集合となる点集合から凸包の各頂点を算出して,多数の冗長解から高速かつ網羅的に凸包の頂点となる代表的な学習目標を生成する一括逆強化学習法を考案した. ● 研究項目3-1: 上達過程を記述・説明する学習目標空間の設計 学習者の上達過程を記述・説明するために,解の規模を表す“解の長さ”と,学習目標の分かりにくさを表す“獲得報酬の情報量(生起確率の逆数)の和” を軸として学習目標空間を定義した.そして実験システムの作成と予備的な被験者実験によって学習者の上達過程を記述・説明する学習目標空間の可視化に取り組んだ.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度の研究目的をおおむね達成し,その研究成果の公表として,雑誌論文3件, 国際会議発表4件,国内学会2件の成果発表を行なった.さらに英文ジャーナル等に英語論文を3件投稿中であるため
|
今後の研究の推進方策 |
以下の研究計画通り推進する. ・項目2:学習者の上達を支えるコーチ機能のモデル化と設計 学習者の上達を支えるコーチ役(学習者を適切に学習させるための目標(=問題)を生成する)エージェントを設計するために,冗長解が潜在的に持つ未知の価値観への気づきを促す機能を探究するとともに,冗長解を振り返り,新たな学習目標を追加することで派生問題を生成する機能を考案する.冗長解上に派生目標を追加した派生問題を示す.このとき冗長解に潜在的な価値があることへの気づきを人に促すために,エージェントは学習者の試行錯誤過程で収集した冗長解を振り返り,冗長解の逆強化学習によって新たな目標を加えた問題を生成し,学習者に提示する. ・項目3-2:学習目標空間での冗長解と派生目標との関係の可視化手法の設計 学習目標空間での冗長解と派生目標との関係を可視化するために,項目1で収集した解と派生目標,項目2で生成した派生問題を関連づけ,問題→解→派生目標=派生問題への遷移を,有向グラフとして記述する.また,学習目標空間での上達過程可視化の分析手法の確立を目指して,上述の上達過程を有向グラフの方向性(フロー分析)・広がり等で評価し,その有効性を検討する.
|
次年度使用額が生じた理由 |
2016年度前半に国際会議での海外発表を1件予定していたが,申し込み締め切りに投稿がまにあわなかったため,年度後半2017年1月開催の国内(別府)での国際会議発表(AROB2017)に変更したため
|
次年度使用額の使用計画 |
2017年7月にカナダのバンクーバーで開催されるHCII2017国際会議発表での海外渡航旅費および登録費に用いる計画である.
|