継続的強化学習エージェントとコーチ役による自律学習システムの設計

研究課題

研究課題/領域番号	16K00317
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知能情報学
研究機関	奈良工業高等専門学校
研究代表者	山口智浩奈良工業高等専門学校, 情報工学科, 教授 (00240838)
研究分担者	高玉圭樹電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
研究期間 (年度)	2016-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2018年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2017年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2016年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	機械学習 / 学習過程 / 自律学習 / 逆強化学習 / 継続的学習 / 多目的強化学習 / 目標生成 / 報酬生起確率 / 強化学習 / 継続的学習支援 / 学習エージェント / 振り返り / 学習目標空間 / 学習目標生成 / 上達過程の可視化 / 冗長解 / 派生問題生成 / 学習目標の空白域 / 気づき支援 / 継続的強化学習 / 報酬獲得解 / 生起確率ベクトル空間 / 凸包 / 一括強化学習 / 上達過程 / 人工知能 / 自律学習システム / コーチ機能
研究成果の概要	本研究では，人の継続的な学習能力の向上およびその上達過程の可視化に向けて，人が理解しやすい学習過程の可視化機能を持つ継続的な自律学習システムを構築した．学習者が発見した冗長解が持つ派生目標を学習目標空間上で提示し，派生目標間の位置関係を可視化することで，未発見目標領域（空白域）を間接的に可視化する手法を実現した．被験者による比較実験の結果，学習者の発見した目標が既存目標領域に近いか遠いか，すなわち学習の空白域との関係を示唆する提示条件が上達過程において学習フィードバック情報として重要で，未知の価値観への気づきを促す条件であることが示唆された．
研究成果の学術的意義や社会的意義	近年，注目されている深層学習の主な弱点は(1)人が実現不能な学習手法と(2)内部の学習過程の理解困難さである．これに対し，本研究では深層学習の弱点を補うため，(1)様々な問題を生成し提供することで，人が学習の仕方を学べる機能，(2)学習結果の解釈を行い，人が理解しやすくなるように学習過程・上達過程を可視化する機能を考案した．本研究によって学習目標となる報酬設計が難しかった強化学習法の幅広い分野への適用が可能になる．また，自律学習システムは問題領域ごとに初期問題を与えると様々な派生問題とその解を反復的に生成するため，問題や解のバリエーションを大量に必要とするタスクに応用できる．

報告書

(4件)

研究成果
(31件)

すべて 2019 2018 2017 2016

すべて雑誌論文 (13件) (うち国際共著 4件、査読あり 13件、オープンアクセス 4件、謝辞記載あり 1件) 学会発表 (16件) (うち国際学会 7件) 図書 (2件)

[雑誌論文] Model-based Multi-Objective Reinforcement Learning with Unknown Weights2019
- 著者名/発表者名
  Yamaguchi, T., Nagahama, S., Ichikawa, Y., and Takadama, K.
- 雑誌名
  
  Human Interface and the Management of Information, Lecture Notes in Computer Science
  
  巻: 印刷中
- 関連する報告書
  2018 実績報告書
- 査読あり
[雑誌論文] Strategy for Learning Cooperative Behavior with Local Information for Multi-agent Systems2018
- 著者名/発表者名
  Uwano, F. and Takadama, K.
- 雑誌名
  
  Principles and Practice of Multi-Agent Systems, Lecture Notes in Computer Science
  
  巻: 11224 ページ: 663-670
- DOI
  10.1007/978-3-030-03098-8_54
- ISBN
  9783030030971, 9783030030988
- 関連する報告書
  2018 実績報告書
- 査読あり
[雑誌論文] Awareness Based Recommendation by Passively Interactive Learning: Toward a Probabilistic Event2018
- 著者名/発表者名
  - Yamaguchi, T., Nishimura, T., Nagahama, S., and Takadama, K.
- 雑誌名
  
  Novel Design and Applications of Robotics Technologies
  
  巻: Chapter 9 ページ: 247-275
- DOI
  10.4018/978-1-5225-5276-5.ch009
- 関連する報告書
  2018 実績報告書
- 査読あり
[雑誌論文] Correcting Wrongly Determined Opinions of Agents in Opinion Sharing Model2018
- 著者名/発表者名
  Kitajima, E., Zhang, C. Ishii, H., Uwano, F., and Takadama, K.
- 雑誌名
  
  Human Interface and the Management of Information
  
  巻: LNCS 10904 ページ: 658-676
- DOI
  10.1007/978-3-319-92043-6_52
- ISBN
  9783319920429, 9783319920436
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Generating Learning Environments Derived from Found Solutions by Adding Sub-goals toward the Creative Learning Support2018
- 著者名/発表者名
  Okudo, T., Yamaguchi, T., and Takadama, K.
- 雑誌名
  
  Human Interface and the Management of Information, Lecture Notes in Computer Science
  
  巻: 10905 ページ: 313-330
- DOI
  10.1007/978-3-319-92046-7_28
- ISBN
  9783319920450, 9783319920467
- 関連する報告書
  2018 実績報告書
- 査読あり
[雑誌論文] Analyzing the Goal Finding Process of Human's Continuous Learning with the Reflection Subtask2018
- 著者名/発表者名
  Yamaguchi, T. Tamai, Y., Y. Honma and Takadama, K.
- 雑誌名
  
  SICE Journal of Control, Measurement, and System Integration (JCMSI)
  
  巻: Vol. 11, No. 1 号: 1 ページ: 40-47
- DOI
  10.9746/jcmsi.11.40
- 関連する報告書
  2017 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Supporting the Exploration of the Learning Goals for a Continuous Learner Toward Creative Learning2017
- 著者名/発表者名
  Okudo, T., Yamaguchi, T., Murata, A., Tatsumi, T., Uwano, F. and Takadama, K.
- 雑誌名
  
  Journal of Advanced Computational Intelligence and Intelligent Informatics
  
  巻: 21 号: 5 ページ: 907-916
- DOI
  10.20965/jaciii.2017.p0907
- NAID
  130007520194
- ISSN
  1343-0130, 1883-8014
- 年月日
  2017-09-20
- 関連する報告書
  2017 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Exemplar-Based Learning Classifier System with Dynamic Matching Range for Imbalanced Data2017
- 著者名/発表者名
  Matsumoto, K., Tatsumi, T., Sato, H., Kovacs, T. and Takadama, K.
- 雑誌名
  
  Journal of Advanced Computational Intelligence and Intelligent Informatics
  
  巻: 21 号: 5 ページ: 868-875
- DOI
  10.20965/jaciii.2017.p0868
- NAID
  130007520189
- ISSN
  1343-0130, 1883-8014
- 年月日
  2017-09-20
- 関連する報告書
  2017 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Analyzing the goal findingprocess of human's learning with the reflection subtask2017
- 著者名/発表者名
  Yamaguchi, T. Tamai, Y. and Takadama, K.
- 雑誌名
  
  Handbook of Research on Biomimetics and Biomedical Robotics
  
  巻: Chapter 19 ページ: 442-459
- 関連する報告書
  2017 実施状況報告書
- 査読あり
[雑誌論文] Designing the learning goal space for human toward acquiring a creative learning skill2017
- 著者名/発表者名
  Okudo, T., Yamaguchi, T. and Takadama, K.
- 雑誌名
  
  Handbook of Research on Biomimetics and Biomedical Robotics
  
  巻: Chapter 20 ページ: 460-475
- 関連する報告書
  2017 実施状況報告書
- 査読あり
[雑誌論文] Multi-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem2017
- 著者名/発表者名
  Uwano, F., Tatebe, N., Nakata, M., Tajima, Y., Kovacs, T., and Takadama, K.
- 雑誌名
  
  SICE Journal of Control, Measurement, and System Integration (JCMSI)
  
  巻: 10
- 関連する報告書
  2016 実施状況報告書
- 査読あり / 国際共著
[雑誌論文] Reinforcement Learning with Internal Reward for Multi-Agent Cooperation: A Theoretical Approach2016
- 著者名/発表者名
  Uwano, F., Tatebe, N., Nakata, M., Takadama, K., and Kovacs, T.
- 雑誌名
  
  EAI Endorsed Transactions on Collaborative Computing
  
  巻: 16
- 関連する報告書
  2016 実施状況報告書
- 査読あり / 国際共著
[雑誌論文] Awareness based recommendation - passively interactive learning system2016
- 著者名/発表者名
  Yamaguchi, T., Nishimura, T., and Takadama, K.
- 雑誌名
  
  International Journal of Robotics Applications and Technologies
  
  巻: 4 号: 1 ページ: 83-99
- DOI
  10.4018/ijrat.2016010105
- 関連する報告書
  2016 実施状況報告書
- 査読あり / 国際共著 / 謝辞記載あり
[学会発表] Complex-Valued-based Learning Classifier System for POMDP Environments2019
- 著者名/発表者名
  Takadama, K., Yamazaki, D, Nakata, M., and H. Sato
- 学会等名
  2019 IEEE Congress on Evolutionary Computation (CEC2019)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Maximum Entropy Inverse Reinforcement Learning with incomplete expert2019
- 著者名/発表者名
  Hasegawa, S., Uwano, F., and Takadama, K.
- 学会等名
  The 24th International Symposium on Artificial Life and Robotics (AROB 2019)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 報酬の動的変化に適応する通信なしマルチエージェント協調学習のための公平性に基づく内部報酬設定法2018
- 著者名/発表者名
  上野史，高玉圭樹
- 学会等名
  計測自動制御学会，システム・情報部門学術講演会 2018 (SSI2018)
- 関連する報告書
  2018 実績報告書
[学会発表] 行動系列分割に基づく不完全なエキスパートからの逆強化学習2018
- 著者名/発表者名
  長谷川智，上野史，高玉圭樹
- 学会等名
  計測自動制御学会，システム・情報部門学術講演会 2018 (SSI2018)
- 関連する報告書
  2018 実績報告書
[学会発表] 負の報酬生成による環境変化に適応可能な逆強化学習2018
- 著者名/発表者名
  長谷川智，梅内祐太，上野史，佐藤寛之，山口智浩，高玉圭樹
- 学会等名
  計測自動制御学会，第45回知能システムシンポジウム
- 関連する報告書
  2017 実施状況報告書
[学会発表] 報酬生起確率ベクトルに基づくあらゆる状況に対する強化学習2018
- 著者名/発表者名
  長濵将太, 市川嘉裕, 高玉圭樹，山口智浩
- 学会等名
  計測自動制御学会，第45回知能システムシンポジウム
- 関連する報告書
  2017 実施状況報告書
[学会発表] 難易度と技術偏差に基づく学習目標生成を促すインタラクティブ学習支援2017
- 著者名/発表者名
  福田千賀，村田暁紀，石井晴之，佐藤寛之，高玉圭樹
- 学会等名
  計測自動制御学会，第44回知能システムシンポジウム
- 発表場所
  東京
- 年月日
  2017-03-14
- 関連する報告書
  2016 実施状況報告書
[学会発表] Designing the learning goal space toward acquiring a creative learning skill2017
- 著者名/発表者名
  Okudo, T., Takadama, K., and Yamaguchi, T.
- 学会等名
  The 22nd International Symposium on Artificial Life and Robotics (AROB'17)
- 発表場所
  Beppu, Oita
- 年月日
  2017-01-21
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] Designing the learning goal space for human toward acquiring a creative learning skill2017
- 著者名/発表者名
  Okudo, T., Takadama, K. and Yamaguchi, T.
- 学会等名
  HCI International 2017 (HCII2017)
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] 深層学習による次元圧縮ルールの学習分類子システムにおける初期ルールとしての可能性2017
- 著者名/発表者名
  松本和馬, 高野諒, 上野史，佐藤寛之, 高玉圭樹
- 学会等名
  進化計算学会，第11回進化計算シンポジウム 2017
- 関連する報告書
  2017 実施状況報告書
[学会発表] 報酬生起確率ベクトルと重みベクトルに基づく全ての最適方策の一括強化学習2017
- 著者名/発表者名
  長濵将太，山口智，高玉圭樹
- 学会等名
  計測自動制御学会，システム・情報部門学術講演会 2017 (SSI2017)
- 関連する報告書
  2017 実施状況報告書
[学会発表] 深層学習による圧縮ルールを復元する学習分類子システムとその精度向上2017
- 著者名/発表者名
  松本和馬, 高野諒, 佐藤寛之, 高玉圭樹
- 学会等名
  第13回進化計算学会研究会，進化計算学会
- 関連する報告書
  2017 実施状況報告書
[学会発表] サブゴールの振り返りによる学習者の継続的学習支援2016
- 著者名/発表者名
  玉井雄貴，山口智浩，高玉圭樹
- 学会等名
  計測自動制御学会，システム・情報部門学術講演会 2016 (SSI2016)
- 発表場所
  滋賀，大津
- 年月日
  2016-12-07
- 関連する報告書
  2016 実施状況報告書
[学会発表] Communication-less Cooperative Q-learning Agents in Maze Problem2016
- 著者名/発表者名
  Uwano, F. and Takadama, K.
- 学会等名
  The 20th International Symposium on Intelligent and Evolutionary Systems (IES 2016)
- 発表場所
  Canberra, Australia
- 年月日
  2016-11-17
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] Preventing Incorrect Opinion Sharing with Weighted Relationship among Agents2016
- 著者名/発表者名
  Saito, R., Nakata, M., Sato, H., Kovacs, T., and Takadama, K.
- 学会等名
  The 18th International Conference on Human-Computer Interaction (HCI International 2016)
- 発表場所
  Toronto, Canada
- 年月日
  2016-07-20
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] Possibility of Education Project based on Cansat2016
- 著者名/発表者名
  Saito, R., Murata, A., and Takadama, K.
- 学会等名
  The 13th International Symposium on Artificial Intelligence, Robotics and Automation in Space (i-SAIRAS2016)
- 発表場所
  (Beijing, China
- 年月日
  2016-06-22
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[図書] Novel Design and Applications of Robotics Technologies, Chapter 92018
- 著者名/発表者名
  Yamaguchi, T., Nishimura, T., Nagahama, S., and Takadama, K.
- 総ページ数
  341
- 出版者
  IGI Global
- 関連する報告書
  2018 実績報告書
[図書] Handbook of Research on Biomimetics and Biomedical Robotics2017
- 著者名/発表者名
  Maki Habib
- 総ページ数
  532
- 出版者
  IGI Global
- 関連する報告書
  2017 実施状況報告書

継続的強化学習エージェントとコーチ役による自律学習システムの設計

研究代表者

山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

報告書

研究成果

[雑誌論文] Model-based Multi-Objective Reinforcement Learning with Unknown Weights2019

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Strategy for Learning Cooperative Behavior with Local Information for Multi-agent Systems2018

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Awareness Based Recommendation by Passively Interactive Learning: Toward a Probabilistic Event2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Correcting Wrongly Determined Opinions of Agents in Opinion Sharing Model2018

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Generating Learning Environments Derived from Found Solutions by Adding Sub-goals toward the Creative Learning Support2018

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Analyzing the Goal Finding Process of Human's Continuous Learning with the Reflection Subtask2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Supporting the Exploration of the Learning Goals for a Continuous Learner Toward Creative Learning2017

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Exemplar-Based Learning Classifier System with Dynamic Matching Range for Imbalanced Data2017

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Analyzing the goal findingprocess of human's learning with the reflection subtask2017

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Designing the learning goal space for human toward acquiring a creative learning skill2017

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Multi-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem2017

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Reinforcement Learning with Internal Reward for Multi-Agent Cooperation: A Theoretical Approach2016

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Awareness based recommendation - passively interactive learning system2016

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Complex-Valued-based Learning Classifier System for POMDP Environments2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Maximum Entropy Inverse Reinforcement Learning with incomplete expert2019

山口智浩奈良工業高等専門学校, 情報工学科, 教授 (00240838)