2014 年度実施状況報告書

報酬が動的に変化する環境における事前知識を活用する強化学習

研究課題

研究課題/領域番号	24760308
研究機関	筑波大学
研究代表者	澁谷長史筑波大学, システム情報系, 助教 (90582776)
研究期間 (年度)	2012-04-01 – 2016-03-31
キーワード	機械学習 / 強化学習
研究実績の概要	本研究では、行動の効用が変化する環境における望ましい行動決定のための、効率的な強化学習法の実現をめざして研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本研究では、この実現の切り口として、変化に関する事前知識を活用した手法の検討を進めている。本年度は、報酬が時刻に対して周期的に変化する環境における強化学習について、関連研究者との議論をさらにすすめ、論文掲載に至った。またこの他に本年度は、次の二つの検討を行った。 (1) 環境のダイナミクスが変化に対して適応・追従するための事前知識を用いた学習方式について検討を行なった。本方式は、環境のダイナミクス(状態遷移確率)を、ベイズ適応的マルコフ決定過程によってモデル化し、事前知識により事前分布を記述する方式である。これにより、「行動の良さ」に対する事前知識ではなく、「午前中は道Ａが混んで渡れない」などという状態遷移に関する事前知識を記述し、利用することが可能となった。 (2) 事故の発生を抑制することで試行錯誤の継続困難を回避する機能をもった学習方式、についても基本的な検討を行なった。本方式は、事故に関するセンサによって事故に近づいているか離れているかということは分かる対象に対して有効に機能する。状態遷移そのものについての事前知識はないが、その一部については事前知識を有するというケースである。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は、昨年度にひきつづいて、理論基盤の整備を行った。この内容について、5件の雑誌論文掲載及び掲載決定、4件の口頭発表(うち2件は、国際会議発表)を行い、関連研究者との議論を行った。
今後の研究の推進方策	本補助事業の最終段階として、研究成果のまとめを行う。
次年度使用額が生じた理由	平成26年度、研究が進む過程で、報酬を動的に変更するという本研究の考え方を利用した手法の着想を得たため、計画を変更し、この検討を行うこととした。このことにより、次年度に手法の評価および成果報告を行うこととしたため、未使用額が生じた。
次年度使用額の使用計画	次年度に研究成果の発表を行うこととし、未使用額はその経費に充てることとしたい。

研究成果
(9件)

すべて 2015 2014

すべて雑誌論文 (5件) (うち査読あり 5件、謝辞記載あり 2件) 学会発表 (4件)

[雑誌論文] Profit Sharing reducing the occurrences of accidents by predicted action-safety degree2015
- 著者名/発表者名
  Junki Tamaru and Takeshi Shibuya
- 雑誌名
  
  Proceedings of the 10th Asian Control Conference 2015
  
  巻: ASCC2015 ページ: 印刷中
- 査読あり
[雑誌論文] 報酬が周期的に変化する環境のための強化学習2014
- 著者名/発表者名
  澁谷長史, 安信誠二
- 雑誌名
  
  電気学会論文誌C
  
  巻: 134-9 ページ: 1325-1332
- 査読あり / 謝辞記載あり
[雑誌論文] 選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習2014
- 著者名/発表者名
  小林高彰, 澁谷長史, 森田昌彦
- 雑誌名
  
  電子情報通信学会論文誌 D
  
  巻: J98-D ページ: 287-299
- 査読あり / 謝辞記載あり
[雑誌論文] Q-learning in Continuous State-Action Space with Redundant Dimensions Using a Selective Desensitization Neural Network2014
- 著者名/発表者名
  T. Kobayashi, T. Shibuya and M. Morita
- 雑誌名
  
  Proceedings of Joint 7th International Conference on Soft Computing and Intelligent Systems and 15th International Symposium on Advanced Intelligent Systems
  
  巻: SCIS&ISIS2014 ページ: 801-806
- 査読あり
[雑誌論文] Reinforcement learning using BAMDP-based prior knowledge for dynamic environment2014
- 著者名/発表者名
  T.shibuya
- 雑誌名
  
  USB Proceedings of the 11th International Conference on Modeling Decisions for Artificial Intelligence
  
  巻: MDAI2014 ページ: 143-152
- 査読あり
[学会発表] フレーム変形したロボットのための事前学習による効率的な動作獲得法の検討2015
- 著者名/発表者名
  羽鳥貴久, 澁谷長史
- 学会等名
  第42回知能システムシンポジウム
- 発表場所
  北野プラザ六甲荘（兵庫）
- 年月日
  2015-03-17 – 2015-03-18
[学会発表] 障害物とエージェントの相対角を用いた効率的な強化学習法の基礎検討2015
- 著者名/発表者名
  大西杜諒, 澁谷長史
- 学会等名
  電気学会研究会資料(システム研究会)
- 発表場所
  青山学院大学（神奈川）
- 年月日
  2015-03-11
[学会発表] Q-learning in Continuous State-Action Space with Redundant Dimensions Using a Selective Desensitization Neural Network2014
- 著者名/発表者名
  T. Kobayashi
- 学会等名
  Joint 7th International Conference on Soft Computing and Intelligent Systems and 15th International Symposium on Advanced Intelligent Systems
- 発表場所
  北九州国際会議場（福岡）
- 年月日
  2014-12-03 – 2014-12-06
[学会発表] Reinforcement learning using BAMDP-based prior knowledge for dynamic environment2014
- 著者名/発表者名
  T.shibuya
- 学会等名
  the 11th International Conference on Modeling Decisions for Artificial Intelligence
- 発表場所
  筑波大学東京キャンパス（東京）
- 年月日
  2014-10-29 – 2014-10-31

2014 年度 実施状況報告書

報酬が動的に変化する環境における事前知識を活用する強化学習

研究代表者

澁谷 長史 筑波大学, システム情報系, 助教 (90582776)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Profit Sharing reducing the occurrences of accidents by predicted action-safety degree2015

著者名/発表者名

雑誌名

[雑誌論文] 報酬が周期的に変化する環境のための強化学習2014

著者名/発表者名

雑誌名

[雑誌論文] 選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習2014

著者名/発表者名

雑誌名

[雑誌論文] Q-learning in Continuous State-Action Space with Redundant Dimensions Using a Selective Desensitization Neural Network2014

著者名/発表者名

雑誌名

[雑誌論文] Reinforcement learning using BAMDP-based prior knowledge for dynamic environment2014

著者名/発表者名

雑誌名

[学会発表] フレーム変形したロボットのための事前学習による効率的な動作獲得法の検討2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 障害物とエージェントの相対角を用いた効率的な強化学習法の基礎検討2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Q-learning in Continuous State-Action Space with Redundant Dimensions Using a Selective Desensitization Neural Network2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Reinforcement learning using BAMDP-based prior knowledge for dynamic environment2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

澁谷長史筑波大学, システム情報系, 助教 (90582776)