• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

継続的強化学習エージェントとコーチ役による自律学習システムの設計

Research Project

Project/Area Number 16K00317
Research InstitutionNara National College of Technology

Principal Investigator

山口 智浩  奈良工業高等専門学校, 情報工学科, 教授 (00240838)

Co-Investigator(Kenkyū-buntansha) 高玉 圭樹  電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
Project Period (FY) 2016-04-01 – 2019-03-31
Keywords継続的強化学習 / 報酬獲得解 / 報酬生起確率 / 生起確率ベクトル空間 / 凸包 / 一括強化学習 / 上達過程 / 学習目標空間
Outline of Annual Research Achievements

本研究では,人の継続的な学習能力の向上およびその上達過程の可視化に向けて,(1)冗長解の収集と冗長解からの創造的な問題の生成を繰り返して学習させるエージェントと,(2)人が理解しやすい学習過程の可視化手法を探究するとともに,それを統合した継続的な自律学習システムを構築し,その有効性を検証することを目的とする.その目的遂行のため,本年度は次の項目を実施した.これらの研究成果を,計測自動制御学会,システム・情報部門 学術講演会 2016 (SSI2016),第22回人工生命とロボット国際会議(AROB2017)において発表し,英文ジャーナル等に英語論文を3件投稿中である.
● 研究項目1: 継続的強化学習手法の設計および構築
学習者とのやり取りを通して学習させる継続的強化学習エージェントを設計するために,獲得報酬の生起確率に基づく一括強化学習手法を考案した.具体的には報酬獲得解(=学習結果)に対し各報酬の生起確率を生起確率ベクトルとして算出し,解を高速かつ網羅的に収集する強化学習手法を基にして,与えられた初期問題の最適解や冗長解を網羅した報酬獲得解集合を求める一括強化学習手法を考案した.さらに,報酬獲得解が生起確率ベクトル空間の点に対応することから,解集合となる点集合から凸包の各頂点を算出して,多数の冗長解から高速かつ網羅的に凸包の頂点となる代表的な学習目標を生成する一括逆強化学習法を考案した.
● 研究項目3-1: 上達過程を記述・説明する学習目標空間の設計
学習者の上達過程を記述・説明するために,解の規模を表す“解の長さ”と,学習目標の分かりにくさを表す“獲得報酬の情報量(生起確率の逆数)の和” を軸として学習目標空間を定義した.そして実験システムの作成と予備的な被験者実験によって学習者の上達過程を記述・説明する学習目標空間の可視化に取り組んだ.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

今年度の研究目的をおおむね達成し,その研究成果の公表として,雑誌論文3件,
国際会議発表4件,国内学会2件の成果発表を行なった.さらに英文ジャーナル等に英語論文を3件投稿中であるため

Strategy for Future Research Activity

以下の研究計画通り推進する.
・項目2:学習者の上達を支えるコーチ機能のモデル化と設計
学習者の上達を支えるコーチ役(学習者を適切に学習させるための目標(=問題)を生成する)エージェントを設計するために,冗長解が潜在的に持つ未知の価値観への気づきを促す機能を探究するとともに,冗長解を振り返り,新たな学習目標を追加することで派生問題を生成する機能を考案する.冗長解上に派生目標を追加した派生問題を示す.このとき冗長解に潜在的な価値があることへの気づきを人に促すために,エージェントは学習者の試行錯誤過程で収集した冗長解を振り返り,冗長解の逆強化学習によって新たな目標を加えた問題を生成し,学習者に提示する.
・項目3-2:学習目標空間での冗長解と派生目標との関係の可視化手法の設計
学習目標空間での冗長解と派生目標との関係を可視化するために,項目1で収集した解と派生目標,項目2で生成した派生問題を関連づけ,問題→解→派生目標=派生問題への遷移を,有向グラフとして記述する.また,学習目標空間での上達過程可視化の分析手法の確立を目指して,上述の上達過程を有向グラフの方向性(フロー分析)・広がり等で評価し,その有効性を検討する.

Causes of Carryover

2016年度前半に国際会議での海外発表を1件予定していたが,申し込み締め切りに投稿がまにあわなかったため,年度後半2017年1月開催の国内(別府)での国際会議発表(AROB2017)に変更したため

Expenditure Plan for Carryover Budget

2017年7月にカナダのバンクーバーで開催されるHCII2017国際会議発表での海外渡航旅費および登録費に用いる計画である.

  • Research Products

    (9 results)

All 2017 2016

All Journal Article (3 results) (of which Int'l Joint Research: 3 results,  Peer Reviewed: 3 results,  Acknowledgement Compliant: 1 results) Presentation (6 results) (of which Int'l Joint Research: 4 results)

  • [Journal Article] Multi-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem2017

    • Author(s)
      Uwano, F., Tatebe, N., Nakata, M., Tajima, Y., Kovacs, T., and Takadama, K.
    • Journal Title

      SICE Journal of Control, Measurement, and System Integration (JCMSI)

      Volume: 10 Pages: 印刷中

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Reinforcement Learning with Internal Reward for Multi-Agent Cooperation: A Theoretical Approach2016

    • Author(s)
      Uwano, F., Tatebe, N., Nakata, M., Takadama, K., and Kovacs, T.
    • Journal Title

      EAI Endorsed Transactions on Collaborative Computing

      Volume: 16 Pages: 1--8

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Awareness based recommendation - passively interactive learning system2016

    • Author(s)
      Yamaguchi, T., Nishimura, T., and Takadama, K.
    • Journal Title

      International Journal of Robotics Applications and Technologies

      Volume: 4 Pages: 83-99

    • DOI

      DOI: 10.4018/IJRAT.2016010105

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Presentation] 難易度と技術偏差に基づく学習目標生成を促すインタラクティブ学習支援2017

    • Author(s)
      福田 千賀,村田 暁紀,石井 晴之,佐藤 寛之,高玉 圭樹
    • Organizer
      計測自動制御学会,第44回知能システムシンポジウム
    • Place of Presentation
      東京
    • Year and Date
      2017-03-14
  • [Presentation] Designing the learning goal space toward acquiring a creative learning skill2017

    • Author(s)
      Okudo, T., Takadama, K., and Yamaguchi, T.
    • Organizer
      The 22nd International Symposium on Artificial Life and Robotics (AROB'17)
    • Place of Presentation
      Beppu, Oita
    • Year and Date
      2017-01-21
    • Int'l Joint Research
  • [Presentation] サブゴールの振り返りによる学習者の継続的学習支援2016

    • Author(s)
      玉井 雄貴,山口 智浩,高玉 圭樹
    • Organizer
      計測自動制御学会,システム・情報部門 学術講演会 2016 (SSI2016)
    • Place of Presentation
      滋賀,大津
    • Year and Date
      2016-12-07
  • [Presentation] Communication-less Cooperative Q-learning Agents in Maze Problem2016

    • Author(s)
      Uwano, F. and Takadama, K.
    • Organizer
      The 20th International Symposium on Intelligent and Evolutionary Systems (IES 2016)
    • Place of Presentation
      Canberra, Australia
    • Year and Date
      2016-11-17
    • Int'l Joint Research
  • [Presentation] Preventing Incorrect Opinion Sharing with Weighted Relationship among Agents2016

    • Author(s)
      Saito, R., Nakata, M., Sato, H., Kovacs, T., and Takadama, K.
    • Organizer
      The 18th International Conference on Human-Computer Interaction (HCI International 2016)
    • Place of Presentation
      Toronto, Canada
    • Year and Date
      2016-07-20
    • Int'l Joint Research
  • [Presentation] Possibility of Education Project based on Cansat2016

    • Author(s)
      Saito, R., Murata, A., and Takadama, K.
    • Organizer
      The 13th International Symposium on Artificial Intelligence, Robotics and Automation in Space (i-SAIRAS2016)
    • Place of Presentation
      (Beijing, China
    • Year and Date
      2016-06-22
    • Int'l Joint Research

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi