• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

Reward occurence probability vector space that Visualizes the distribution of whole learning results of multi-objective reinforcement learning

Research Project

Project/Area Number 20K11946
Research InstitutionNara National College of Technology

Principal Investigator

山口 智浩  奈良工業高等専門学校, 情報工学科, 教授 (00240838)

Co-Investigator(Kenkyū-buntansha) 高玉 圭樹  電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕  奈良工業高等専門学校, 情報工学科, 助教 (60805159)
Project Period (FY) 2020-04-01 – 2023-03-31
Keywords多目的強化学習 / モデルベース強化学習 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 報酬獲得方策集合 / 凸包算出 / 多目的最適方策集合
Outline of Annual Research Achievements

今年度は,全ての報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間について,報酬数n=3,4の場合を検討した.n個の報酬Ri(i=1,2,…n)を要素とする報酬ベクトルRに対し,任意の方策が獲得する報酬の生起確率pi(i=1,2,3,…n)を要素とするベクトルを報酬生起確率ベクトルPとしたときに,任意の方策は,n次元の報酬生起確率ベクトル空間内の1点で表わされる.重みの区間に応じて平均報酬最大となる方策集合は,空間の凸包の各頂点となり,既存の多次元凸包算出法で計算できる.
次に,全ての報酬獲得方策の収集・多目的最適方策決定の並列化と部分計算による高速化を実装・評価した.まず既存手法で全体の処理時間のボトルネックだった報酬獲得方策全ての収集は,n個の報酬Riそれぞれを起点とする木探索で行う.報酬別の木探索は並列化できるため,マルチプロセッシングによるCPUコア並列化を実装した.報酬数nがコア数以下の場合,実行時間は最大1/nとなる.次に凸包算出の前処理として,収集した方策を生起確率ベクトルで多重ソートし,(異なる要素からなる)生起確率ベクトル集合を凸包算出前に部分計算した.状態数12,報酬数3の場合,50回の異なる確率的MDP環境において,平均の報酬獲得方策数25.3万(±8.3万)に対し,平均の報酬生起確率ベクトル数は5430(±5130)と約1/50に減少した.状態数5~12,action数3, 報酬数n=3,4の確率的MDP環境で報酬獲得方策全てに対応する生起確率ベクトル集合の算出までに要する実行時間を比較した結果,状態数12,報酬数4の場合,既存手法(1590秒)と比べ並列化手法(8.8秒)は,1/180に高速化された.実行時間の概算は,コア並列化で最大1/3~1/4,生起確率ベクトル集合の部分計算で約1/50だったので,両者を合わせると最大150~200倍の高速化が見込まれるため,実測値(1/180)は妥当である.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究の進捗については(2)おおむね順調に進展しているが,研究発表については,計画よりも(3)やや遅れている.主たる理由は,初年度,新型コロナ感染防止のため,教育の遠隔授業への移行および,成績評価のWeb化の作業コストが新たに発生したためである.

Strategy for Future Research Activity

初年度の研究成果については,実験データを追加した上で,本年度以降に発表予定である.今年度の研究計画については,項目3を今年度,項目4を今年度と来年度で実施予定である.
項目3: 報酬生起確率ベクトル空間での多目的最適方策集合に基づく熟達モデルの可視化
項目4: 多目的最適方策を最適化するための目的間の重みベクトルの範囲の決定
全ての報酬獲得方策の集合を多目的最適方策集合とそれ以外の非最適方策集合に分け,それぞれを何%カバーしているかで熟達モデルを近似する.これまでの予備実験結果から10状態程度の多目的強化学習タスクの場合,非最適な(決定的)方策数が数万となることから,本研究では,熟達モデルを構築する方策の収集目標数として,多目的最適方策集合全て(100%),非最適方策集合は代表的な方策(0.1~1%)を目指す.熟達モデルを構成する各方策は再利用を主たる目的とするため,状況に応じて各方策を使い分けるための構造化知識として,各目標の生起確率を表す生起確率ベクトル,解の良さを表す平均報酬,方策が最適となる条件を記述する.

Causes of Carryover

次年度使用額が生じた理由:新型コロナ感染防止対策が国内外で実施されたため,
初年度に予定していた対外発表が,全てオンライン発表に変更になり,旅費が生じなかったため.
使用計画:まず,申請時に申請した研究遂行に必要な物品費のうち削減分として使用する.残額が生じれば,最終年度の論文投稿料,および新型コロナ感染防止対策が不要となり,対面発表可能になった場合の追加旅費として使用する.

  • Research Products

    (10 results)

All 2021 2020

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (7 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Towards Agent Design for Forming a Consensus Remotely Through an Analysis of Declaration of Intent in Barnga Game2021

    • Author(s)
      Maekawa, Y., Yamaguchi, T., and Takadama, K.
    • Journal Title

      Advances in Intelligent Systems and Computing (AISC)

      Volume: 1322 Pages: 540--546

    • DOI

      10.1007/978-3-030-68017-6_80

    • Peer Reviewed
  • [Journal Article] Multi-value opinion sharing based on information source influence in agent-based network2020

    • Author(s)
      Kitajima, E., Murata, A., and Takadama, K.
    • Journal Title

      Journal of Physics: Conference Series

      Volume: 1564 Pages: 1--11

    • DOI

      10.1088/1742-6596/1564/1/012034

    • Peer Reviewed / Open Access
  • [Journal Article] How to Emote for Consensus Building in Virtual Communication2020

    • Author(s)
      Maekawa, Y., Uwano, F., Kitajima, E., and Takadama, K.
    • Journal Title

      Lecture Notes in Computer Science

      Volume: 12185 Pages: 194--205

    • DOI

      10.1007/978-3-030-50017-7_13

    • Peer Reviewed
  • [Presentation] Guiding Robot Exploration in Reinforcement Learning via Automated Planning2021

    • Author(s)
      Hayamizu, Y., Amiri, S., Chandan, K., Takadama, K., and Zhang, S.
    • Organizer
      The 31st International Conference on Automated Planning and Scheduling (ICAPS 2021)
    • Int'l Joint Research
  • [Presentation] Webページの配色のためのインタラクティブな推薦システムの試作2021

    • Author(s)
      藤本祥,市川嘉裕,山口智浩
    • Organizer
      情報処理学会第83回全国大会
  • [Presentation] テストケース生成補助に基づくプログラミング学習支援2021

    • Author(s)
      福本大介,市川嘉裕,山口智浩
    • Organizer
      情報処理学会第83回全国大会
  • [Presentation] 正しい意見共有に向けたユーザの投稿頻度を考慮したエージェントネット ワークシステム:人とエージェントの関係から人とエージェント集団の関係 への展開2021

    • Author(s)
      山根 大輝,前川 佳幹,荒井 亮太郎,福本 有季子,佐藤 寛之,高玉 圭樹
    • Organizer
      人工知能学会,HAIシンポジウム2021
  • [Presentation] Efficient Exploration in Reinforcement Learning Leveraging Automated Planning2020

    • Author(s)
      Hayamizu, Y., Amiri, S., Chandan, K., Takadama, K., and Zhang, S.
    • Organizer
      The 3rd Robot Learning Workshop: Grounding Machine Learning Development in the Real World
    • Int'l Joint Research
  • [Presentation] 知識の誤りに対する自動計画を利用したモデルベース強化学習のロバスト性2020

    • Author(s)
      速水 陽平, Zhang Shiqi,高玉 圭樹
    • Organizer
      計測自動制御学会,システム・情報部門 学術講演会 2020 (SSI2020)
  • [Presentation] モデルベース強化学習における自動計画を用いた探索戦略2020

    • Author(s)
      速水 陽平,Amiri Saeid,Chandan Kishan,Zhang Shiqi,高玉 圭樹
    • Organizer
      情報処理学会,第19回情報科学技術フォーラム (Forum on Information Technology: FIT2020)

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi