• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Reward occurence probability vector space that Visualizes the distribution of whole learning results of multi-objective reinforcement learning

Research Project

Project/Area Number 20K11946
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionNara National College of Technology

Principal Investigator

Yamaguchi Tomohiro  奈良工業高等専門学校, 情報工学科, 教授 (00240838)

Co-Investigator(Kenkyū-buntansha) 高玉 圭樹  電気通信大学, 大学院情報理工学研究科, 教授 (20345367)
市川 嘉裕  奈良工業高等専門学校, 情報工学科, 助教 (60805159)
Project Period (FY) 2020-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2020: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Keywords機械学習 / 多目的強化学習 / 報酬生起確率ベクトル / 重みベクトル / 部分計算 / 多目的最適方策 / 可視化 / ベクトル空間 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 重みベクトル空間 / 最適重み区間 / モデルベース強化学習 / 報酬獲得方策集合 / 凸包算出 / 多目的最適方策集合 / 熟達モデル
Outline of Research at the Start

本研究の目的は,機械学習の出力に対する根拠や理由を説明できる機構を多目的強化学習で実現し,その有効性を検証することである.具体的には,これまでの申請者らの基盤研究(C)研究で得られた成果を発展させ,多目的強化学習における学習結果全ての分布を熟達モデルとして可視化・説明する空間を構築し,目的間の任意の重みに対応した多目的最適方策を自動選択する機構の実現を目指す.

Outline of Final Research Achievements

First, we implemented parallelization of the collection of all reward acquisition policies and the determination of the multi-objective optimal policies, as well as speeding up the process by partial computation. In a stochastic MDP environment with 12 states and 3 rewards, the number of reward acquisition policies was 253,000, while the number of reward occurrence probability vectors was reduced to 5430, about 1/50. In the case of 4 rewards, the parallelized method (8.8 sec) was 1/180th faster than the existing method (1590 sec) in terms of the execution time required to calculate the set of occurrence probability vectors corresponding to all reward acquisition policies. Next, for the case of 3 rewards, we used the mesh method to determine the range of weight vectors among the objectives to optimize the multi-objective optimal policy, and visualized the average reward of the optima policy for the weight vectors.

Academic Significance and Societal Importance of the Research Achievements

本研究の学術的意義は,従来手法では,平均報酬最大となる多目的最適方策の境界を解析的に解くのが,目的数3以上の場合に困難だったのに対し,本手法では,各重みベクトルに対して,式(1)を用いて各方策の平均報酬値を算出し,最大となる方策を決定するため,計算コストの許す限り,近似的な算出が可能な点である.しかも,多目的最適方策の決定過程において,多目的間の重要度を表す重みベクトルとは独立な,報酬生起確率ベクトルをまず算出し,次にそれを用いて多目的最適方策を最適化するための,目的間の重みベクトルの範囲の決定を,メッシュ法を用いて近似的に行うことで,目的数3以上の場合の算出を実現した点である.

Report

(4 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report
  • 2020 Research-status Report
  • Research Products

    (17 results)

All 2022 2021 2020

All Journal Article (6 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 6 results,  Open Access: 1 results) Presentation (11 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Formalizing Model-Based Multi-Objective Reinforcement Learning With a Reward Occurrence Probability Vector2022

    • Author(s)
      Yamaguchi Tomohiro、Kawabuchi Yuto、Takahashi Shota、Ichikawa Yoshihiro、Takadama Keiki
    • Journal Title

      Handbook of Research on New Investigations in Artificial Life, AI, and Machine Learning, Chapter 12

      Volume: 1 Pages: 299-330

    • DOI

      10.4018/978-1-7998-8686-0.ch012

    • ISBN
      9781799886860, 9781799886877
    • Related Report
      2022 Annual Research Report 2021 Research-status Report
    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Analyzing Early Stage of Forming a Consensus from Viewpoint of Majority/Minority Decision in Online-Barnga2021

    • Author(s)
      Maekawa Yoshimiki、Yamaguchi Tomohiro、Takadama Keiki
    • Journal Title

      Human Interface and the Management of Information, Lecture Notes in Computer Science

      Volume: Vol. 12766, Part II Pages: 269-285

    • DOI

      10.1007/978-3-030-78361-7_20

    • ISBN
      9783030783600, 9783030783617
    • Related Report
      2021 Research-status Report
    • Peer Reviewed
  • [Journal Article] 複雑ネットワークに基づく多次元意見共有モデル上の誤報伝搬防止2021

    • Author(s)
      上野 史,北島 瑛貴,高玉 圭樹
    • Journal Title

      人工知能学会論文誌

      Volume: Vol. 36,No. 6 Pages: 1-12

    • Related Report
      2021 Research-status Report
    • Peer Reviewed
  • [Journal Article] Towards Agent Design for Forming a Consensus Remotely Through an Analysis of Declaration of Intent in Barnga Game2021

    • Author(s)
      Maekawa, Y., Yamaguchi, T., and Takadama, K.
    • Journal Title

      Advances in Intelligent Systems and Computing (AISC)

      Volume: 1322 Pages: 540-546

    • DOI

      10.1007/978-3-030-68017-6_80

    • ISBN
      9783030680169, 9783030680176
    • Related Report
      2020 Research-status Report
    • Peer Reviewed
  • [Journal Article] Multi-value opinion sharing based on information source influence in agent-based network2020

    • Author(s)
      Kitajima, E., Murata, A., and Takadama, K.
    • Journal Title

      Journal of Physics: Conference Series

      Volume: 1564 Issue: 1 Pages: 012034-012034

    • DOI

      10.1088/1742-6596/1564/1/012034

    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] How to Emote for Consensus Building in Virtual Communication2020

    • Author(s)
      Maekawa, Y., Uwano, F., Kitajima, E., and Takadama, K.
    • Journal Title

      Lecture Notes in Computer Science

      Volume: 12185 Pages: 194-205

    • DOI

      10.1007/978-3-030-50017-7_13

    • ISBN
      9783030500160, 9783030500177
    • Related Report
      2020 Research-status Report
    • Peer Reviewed
  • [Presentation] 適応範囲の拡大に向けたMAMLとMLSHの組み合わせによるメタ強化学習2022

    • Author(s)
      加藤 駿, 速水 陽平, 中理 怡恒, 高玉 圭樹
    • Organizer
      計測自動制御学会,第49回知能システムシンポジウム,2022/3/14
    • Related Report
      2021 Research-status Report
  • [Presentation] 他船のモデル化を通した目的地と衝突回避方針の同時推定に基づくマルチエージェント強化学習2022

    • Author(s)
      戸板 佳祐, 前川 裕介, 加藤 駿, 福本 有季子, 中理 怡恒, 高玉 圭樹
    • Organizer
      計測自動制御学会,第49回知能システムシンポジウム,2022/3/15
    • Related Report
      2021 Research-status Report
  • [Presentation] XAIを用いたノイズに頑健なモデル構築手法の提案2022

    • Author(s)
      川端祐也,市川嘉裕,山口智浩
    • Organizer
      情報処理学会第84回全国大会, 6T-03,2022年3月5日
    • Related Report
      2021 Research-status Report
  • [Presentation] 他エージェントの不確実性にロバストな経路獲得に向けたマルチエージェント逆強化学習2021

    • Author(s)
      福本 有季子,速水 陽平,中理 怡恒,高玉 圭樹
    • Organizer
      計測自動制御学会,システム・情報部門 学術講演会 2021 (SSI2021)
    • Related Report
      2021 Research-status Report
  • [Presentation] Guiding Robot Exploration in Reinforcement Learning via Automated Planning2021

    • Author(s)
      Hayamizu, Y., Amiri, S., Chandan, K., Takadama, K., and Zhang, S.
    • Organizer
      The 31st International Conference on Automated Planning and Scheduling (ICAPS 2021)
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] Webページの配色のためのインタラクティブな推薦システムの試作2021

    • Author(s)
      藤本祥,市川嘉裕,山口智浩
    • Organizer
      情報処理学会第83回全国大会
    • Related Report
      2020 Research-status Report
  • [Presentation] テストケース生成補助に基づくプログラミング学習支援2021

    • Author(s)
      福本大介,市川嘉裕,山口智浩
    • Organizer
      情報処理学会第83回全国大会
    • Related Report
      2020 Research-status Report
  • [Presentation] 正しい意見共有に向けたユーザの投稿頻度を考慮したエージェントネット ワークシステム:人とエージェントの関係から人とエージェント集団の関係 への展開2021

    • Author(s)
      山根 大輝,前川 佳幹,荒井 亮太郎,福本 有季子,佐藤 寛之,高玉 圭樹
    • Organizer
      人工知能学会,HAIシンポジウム2021
    • Related Report
      2020 Research-status Report
  • [Presentation] Efficient Exploration in Reinforcement Learning Leveraging Automated Planning2020

    • Author(s)
      Hayamizu, Y., Amiri, S., Chandan, K., Takadama, K., and Zhang, S.
    • Organizer
      The 3rd Robot Learning Workshop: Grounding Machine Learning Development in the Real World
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] 知識の誤りに対する自動計画を利用したモデルベース強化学習のロバスト性2020

    • Author(s)
      速水 陽平, Zhang Shiqi,高玉 圭樹
    • Organizer
      計測自動制御学会,システム・情報部門 学術講演会 2020 (SSI2020)
    • Related Report
      2020 Research-status Report
  • [Presentation] モデルベース強化学習における自動計画を用いた探索戦略2020

    • Author(s)
      速水 陽平,Amiri Saeid,Chandan Kishan,Zhang Shiqi,高玉 圭樹
    • Organizer
      情報処理学会,第19回情報科学技術フォーラム (Forum on Information Technology: FIT2020)
    • Related Report
      2020 Research-status Report

URL: 

Published: 2020-04-28   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi