2020 年度実施状況報告書

多目的強化学習の学習結果全ての分布を可視化する報酬生起確率ベクトル空間の構築

研究課題

研究課題/領域番号	20K11946
研究機関	奈良工業高等専門学校
研究代表者	山口智浩奈良工業高等専門学校, 情報工学科, 教授 (00240838)
研究分担者	高玉圭樹電気通信大学, 大学院情報理工学研究科, 教授 (20345367) 市川嘉裕奈良工業高等専門学校, 情報工学科, 助教 (60805159)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	多目的強化学習 / モデルベース強化学習 / 報酬ベクトル / 報酬生起確率 / 報酬生起確率ベクトル空間 / 報酬獲得方策集合 / 凸包算出 / 多目的最適方策集合
研究実績の概要	今年度は，全ての報酬獲得方策の分布を可視化する報酬生起確率ベクトル空間について，報酬数n=3,4の場合を検討した．n個の報酬Ri(i=1,2,…n)を要素とする報酬ベクトルRに対し，任意の方策が獲得する報酬の生起確率pi(i=1,2,3,…n)を要素とするベクトルを報酬生起確率ベクトルPとしたときに，任意の方策は，n次元の報酬生起確率ベクトル空間内の1点で表わされる．重みの区間に応じて平均報酬最大となる方策集合は，空間の凸包の各頂点となり，既存の多次元凸包算出法で計算できる．次に，全ての報酬獲得方策の収集・多目的最適方策決定の並列化と部分計算による高速化を実装・評価した．まず既存手法で全体の処理時間のボトルネックだった報酬獲得方策全ての収集は，n個の報酬Riそれぞれを起点とする木探索で行う．報酬別の木探索は並列化できるため，マルチプロセッシングによるCPUコア並列化を実装した．報酬数nがコア数以下の場合，実行時間は最大1/nとなる．次に凸包算出の前処理として，収集した方策を生起確率ベクトルで多重ソートし，(異なる要素からなる)生起確率ベクトル集合を凸包算出前に部分計算した．状態数12，報酬数3の場合，50回の異なる確率的MDP環境において，平均の報酬獲得方策数25.3万(±8.3万)に対し，平均の報酬生起確率ベクトル数は5430(±5130)と約1/50に減少した．状態数5～12，action数3, 報酬数n=3,4の確率的MDP環境で報酬獲得方策全てに対応する生起確率ベクトル集合の算出までに要する実行時間を比較した結果，状態数12，報酬数4の場合，既存手法(1590秒)と比べ並列化手法(8.8秒)は，1/180に高速化された．実行時間の概算は，コア並列化で最大1/3～1/4，生起確率ベクトル集合の部分計算で約1/50だったので，両者を合わせると最大150～200倍の高速化が見込まれるため，実測値(1/180)は妥当である．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由研究の進捗については(2)おおむね順調に進展しているが，研究発表については，計画よりも(3)やや遅れている．主たる理由は，初年度，新型コロナ感染防止のため，教育の遠隔授業への移行および，成績評価のWeb化の作業コストが新たに発生したためである．
今後の研究の推進方策	初年度の研究成果については，実験データを追加した上で，本年度以降に発表予定である．今年度の研究計画については，項目3を今年度，項目4を今年度と来年度で実施予定である．項目3: 報酬生起確率ベクトル空間での多目的最適方策集合に基づく熟達モデルの可視化項目4: 多目的最適方策を最適化するための目的間の重みベクトルの範囲の決定全ての報酬獲得方策の集合を多目的最適方策集合とそれ以外の非最適方策集合に分け，それぞれを何％カバーしているかで熟達モデルを近似する．これまでの予備実験結果から10状態程度の多目的強化学習タスクの場合，非最適な(決定的)方策数が数万となることから，本研究では，熟達モデルを構築する方策の収集目標数として，多目的最適方策集合全て(100%)，非最適方策集合は代表的な方策(0.1～1%)を目指す．熟達モデルを構成する各方策は再利用を主たる目的とするため，状況に応じて各方策を使い分けるための構造化知識として，各目標の生起確率を表す生起確率ベクトル，解の良さを表す平均報酬，方策が最適となる条件を記述する．
次年度使用額が生じた理由	次年度使用額が生じた理由：新型コロナ感染防止対策が国内外で実施されたため，初年度に予定していた対外発表が，全てオンライン発表に変更になり，旅費が生じなかったため．使用計画：まず，申請時に申請した研究遂行に必要な物品費のうち削減分として使用する．残額が生じれば，最終年度の論文投稿料，および新型コロナ感染防止対策が不要となり，対面発表可能になった場合の追加旅費として使用する．

研究成果
(10件)

すべて 2021 2020

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 1件) 学会発表 (7件) (うち国際学会 2件)

[雑誌論文] Towards Agent Design for Forming a Consensus Remotely Through an Analysis of Declaration of Intent in Barnga Game2021
- 著者名/発表者名
  Maekawa, Y., Yamaguchi, T., and Takadama, K.
- 雑誌名
  
  Advances in Intelligent Systems and Computing (AISC)
  
  巻: 1322 ページ: 540--546
- DOI
  10.1007/978-3-030-68017-6_80
- 査読あり
[雑誌論文] Multi-value opinion sharing based on information source influence in agent-based network2020
- 著者名/発表者名
  Kitajima, E., Murata, A., and Takadama, K.
- 雑誌名
  
  Journal of Physics: Conference Series
  
  巻: 1564 ページ: 1--11
- DOI
  10.1088/1742-6596/1564/1/012034
- 査読あり / オープンアクセス
[雑誌論文] How to Emote for Consensus Building in Virtual Communication2020
- 著者名/発表者名
  Maekawa, Y., Uwano, F., Kitajima, E., and Takadama, K.
- 雑誌名
  
  Lecture Notes in Computer Science
  
  巻: 12185 ページ: 194--205
- DOI
  10.1007/978-3-030-50017-7_13
- 査読あり
[学会発表] Guiding Robot Exploration in Reinforcement Learning via Automated Planning2021
- 著者名/発表者名
  Hayamizu, Y., Amiri, S., Chandan, K., Takadama, K., and Zhang, S.
- 学会等名
  The 31st International Conference on Automated Planning and Scheduling (ICAPS 2021)
- 国際学会
[学会発表] Webページの配色のためのインタラクティブな推薦システムの試作2021
- 著者名/発表者名
  藤本祥，市川嘉裕，山口智浩
- 学会等名
  情報処理学会第83回全国大会
[学会発表] テストケース生成補助に基づくプログラミング学習支援2021
- 著者名/発表者名
  福本大介，市川嘉裕，山口智浩
- 学会等名
  情報処理学会第83回全国大会
[学会発表] 正しい意見共有に向けたユーザの投稿頻度を考慮したエージェントネットワークシステム：人とエージェントの関係から人とエージェント集団の関係への展開2021
- 著者名/発表者名
  山根大輝，前川佳幹，荒井亮太郎，福本有季子，佐藤寛之，高玉圭樹
- 学会等名
  人工知能学会，HAIシンポジウム2021
[学会発表] Efficient Exploration in Reinforcement Learning Leveraging Automated Planning2020
- 著者名/発表者名
  Hayamizu, Y., Amiri, S., Chandan, K., Takadama, K., and Zhang, S.
- 学会等名
  The 3rd Robot Learning Workshop: Grounding Machine Learning Development in the Real World
- 国際学会
[学会発表] 知識の誤りに対する自動計画を利用したモデルベース強化学習のロバスト性2020
- 著者名/発表者名
  速水陽平, Zhang Shiqi，高玉圭樹
- 学会等名
  計測自動制御学会，システム・情報部門学術講演会 2020 (SSI2020)
[学会発表] モデルベース強化学習における自動計画を用いた探索戦略2020
- 著者名/発表者名
  速水陽平，Amiri Saeid，Chandan Kishan，Zhang Shiqi，高玉圭樹
- 学会等名
  情報処理学会，第19回情報科学技術フォーラム (Forum on Information Technology: FIT2020)

2020 年度 実施状況報告書

多目的強化学習の学習結果全ての分布を可視化する報酬生起確率ベクトル空間の構築

研究代表者

山口 智浩 奈良工業高等専門学校, 情報工学科, 教授 (00240838)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Towards Agent Design for Forming a Consensus Remotely Through an Analysis of Declaration of Intent in Barnga Game2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Multi-value opinion sharing based on information source influence in agent-based network2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] How to Emote for Consensus Building in Virtual Communication2020

著者名/発表者名

雑誌名

DOI

[学会発表] Guiding Robot Exploration in Reinforcement Learning via Automated Planning2021

著者名/発表者名

学会等名

[学会発表] Webページの配色のためのインタラクティブな推薦システムの試作2021

著者名/発表者名

学会等名

[学会発表] テストケース生成補助に基づくプログラミング学習支援2021

著者名/発表者名

学会等名

[学会発表] 正しい意見共有に向けたユーザの投稿頻度を考慮したエージェントネット ワークシステム：人とエージェントの関係から人とエージェント集団の関係 への展開2021

著者名/発表者名

学会等名

[学会発表] Efficient Exploration in Reinforcement Learning Leveraging Automated Planning2020

著者名/発表者名

学会等名

[学会発表] 知識の誤りに対する自動計画を利用したモデルベース強化学習のロバスト性2020

著者名/発表者名

学会等名

[学会発表] モデルベース強化学習における自動計画を用いた探索戦略2020

著者名/発表者名

学会等名

2020 年度実施状況報告書

山口智浩奈良工業高等専門学校, 情報工学科, 教授 (00240838)

[学会発表] 正しい意見共有に向けたユーザの投稿頻度を考慮したエージェントネットワークシステム：人とエージェントの関係から人とエージェント集団の関係への展開2021