知識を持った強化学習の実現と解析

研究課題

研究課題/領域番号	10680372
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	東京工業大学
研究代表者	山村雅幸東京工業大学, 大学院・総合理工学研究科, 助教授 (00220442)
研究期間 (年度)	1998 – 1999
研究課題ステータス	完了 (1999年度)
配分額 *注記	3,300千円 (直接経費: 3,300千円) 1999年度: 1,200千円 (直接経費: 1,200千円) 1998年度: 2,100千円 (直接経費: 2,100千円)
キーワード	強化学習 / ベイジアンネットワーク / 確率的傾斜法 / ケペラロボットシミュレータ / ライフロング学習 / 双方向AntNet / マルチエージェント強化学習 / 交通信号制御 / Life long Learning / タスク連結
研究概要	本研究の成果は、知識を持った強化学習の実用化に関わる次の3つからなる。 1)ベイジアンネットワーク上の強化学習の提案と応用設計時の知識埋め込みの基礎技術として、信念伝搬則から確率的傾斜法における傾斜伝搬則を導出し、実ロボットに近い応用として、ケペラロボットシミュレータによる迷路走行タスクにおける知識の埋め込みを試みた。ケペラのように感覚が極めて貧弱なロボットでは、通常迷路走行は非効率的な方法でしか実現できないが、地図のような知識を埋め込むことには絶大な効果があり、最適に近い行動政策を学習できることを確認した。 2)習得済み知識の利用法の提案と応用実行時の知識利用の枠組みとして、ライフロング学習の考え方を導入し、簡単な迷路走行タスクにおいて学習のコントロールパラメータを経験から抽出するライフロング強化学習を実装しその効果を確かめた。また、特殊ケースとして、迷路走行タスクにおいて習得済みタスクを直接連結するタイプのライフロング強化学習を提案して、タスク連結が効果的であるための条件について理論解析し例示した。 3)オープン環境に置かれたマルチエージェント強化学習への応用強化学習の新しい問題領域として、オープン環境に置かれたマルチエージェント強化学習の開拓を試た。そこでは、頻繁に環境変動が起こる上に、あるエージェントの学習が他のエージェントにとって予期せぬ環境変動となりうるため、通常の強化学習は困難である。交通システムにおける信号制御に分散強化学習を適用して、環境変動への追従の様子を調べた。また、分散強化学習の一種である双方向AntNetを用いて、従来手法より環境変動に頑健なネットワークの適応的経路制御を実現した。

報告書

(3件)

1999 実績報告書研究成果報告書概要
1998 実績報告書

研究成果
(23件)

すべてその他

すべて文献書誌 (23件)

[文献書誌] Masayuki Yamamura, Takashi Onozuka: "Reinforcement Learning with Knowledge by using a Stochastic Gradient Method on a Bayesian Network"Proceedings of International Joint Conference on Neural Networks 1998. 2045-2050 (1998)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] 田中文英,山村雅幸: "Lifelong agentの強化学習"ロボティクス・メカトロニクス講演会'98(ROBOMEC'98). (1998)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] 宮下洋,山村雅幸: "強化学習における習得済み政策の連結手法,"計測自動制御学会第26回知能システムシンポジウム資料集,. 121-126 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] 小野塚卓,山村雅幸: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用"計測自動制御学会第26回知能システムシンポジウム資料集,. 127-132 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] 吉田功,山村雅幸: "交通システムにおける適応的信号制御"計測自動制御学会第26回知能システムシンポジウム資料集,. 157-162 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] 土居茂雄,山村雅幸: "BntNetによるネットワーク経路制御の提案,"計測自動制御学会システム情報部門シンポジウム1999講演論文集. 215-220 (1999)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Masayuki Yamamura, Takashi Onozuka: "Reinforcement Learning with Knowledge by sing a Stochastic Gradient Method on a Bayesian Network"Proceedings of International Joint Conference on Neural Networks 1998 (IJCNN98). 2045-2050 (1998)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Fumihide Tanaka, Masayuki Yamamura: "Reinforcement Learning of Lifelong Agents (in Japanese)"Proceedings of Robotics and Mechatoronics Conference 98 (ROBOMEC98). (1998)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Hiroshi Miyashita, Masayuki Yamamura: "An Analysis on Connecting Learned Policies in Multitask Reinforcement Learning (in Japanese)"Proceedings of the 26th SICE Intelligent Systems Symposium. 121-126 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Takashi Onozuka, Masayuki Yamamura: "An Application of Reinforcement Learning on Bayesian Network for Kepera Robot Simulators (in Japanese)"Proceedings of the 26th SICE Intelligent Systems Symposium. 127-132 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Isao Yoshida, Masayuki Yamamura: "A Study of Adaptive Signal Control on Traffic systems (in Japanese)"Proceedings of the 26th SICE Intelligent Systems Symposium. 157-162 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Shigeo Doi, Masayuki Yamamura: "Adaptive routing by BntNet (in Japanese)"Proceedings of the SICE Systems and Informatics Department Symposium 1999. 215-220 (1999)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  1999 研究成果報告書概要
[文献書誌] Masayuki Yamamura,Takashi Onozuka: "Reinforcement Learning with Knowledge by using a Stochastic Gradient Method on a Bayesian Network,"Proceedings of International Joint Conference on Neural Networks 1998,. 2045-2050 (1998)
- 関連する報告書
  1999 実績報告書
[文献書誌] 田中文秀,山村雅幸: "Lifelong agent の強化学習,"ロボティクス・メカトロニクス講演会'98(ROBOMEC'98). (1998)
- 関連する報告書
  1999 実績報告書
[文献書誌] 宮下洋,山村雅幸,: "強化学習における習得済み政策の連結手法,"計測自動制御学会第26回知能システムシンポジウム資料集,. 121-126 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 小野塚卓,山村雅幸,: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用"計測自動制御学会第26回知能システムシンポジウム資料集,. 127-132 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 吉田功,山村雅幸,: "交通システムにおける適応的信号制御,"計測自動制御学会第26回知能システムシンポジウム資料集,. 157-162 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 土居茂雄,山村雅幸: "BntNet によるネットワーク経路制御の提案,"計測自動制御学会システム情報部門シンポジウム1999講演論文集,. 215-220 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] Yamamura,M.,Onozuka,T.: "Reinforcement Learning with Knowiedge by using a Stochastic Gradient Method on a Bayesian Network" Proc.of International Joint Conference on Neural Network. 2045-2050 (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] 小野塚卓、山村雅幸: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)
- 関連する報告書
  1998 実績報告書
[文献書誌] 田中文英、山村雅幸: "Lifelong agentの強化学習" ロボティクス・メカトロニクス講演会'98(ROBOMEC98)予稿集. (CD ROM). (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] 宮下洋、山村雅幸: "強化学習における習得済タスクの連結手法" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)
- 関連する報告書
  1998 実績報告書
[文献書誌] 吉田功、山村雅幸: "交通システムにおける適応的信号制御" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)
- 関連する報告書
  1998 実績報告書

知識を持った強化学習の実現と解析

研究代表者

山村 雅幸 東京工業大学, 大学院・総合理工学研究科, 助教授 (00220442)

3,300千円 (直接経費: 3,300千円)

報告書

研究成果

[文献書誌] Masayuki Yamamura, Takashi Onozuka: "Reinforcement Learning with Knowledge by using a Stochastic Gradient Method on a Bayesian Network"Proceedings of International Joint Conference on Neural Networks 1998. 2045-2050 (1998)

説明

関連する報告書

[文献書誌] 田中文英,山村雅幸: "Lifelong agentの強化学習"ロボティクス・メカトロニクス講演会'98(ROBOMEC'98). (1998)

説明

関連する報告書

[文献書誌] 宮下洋,山村雅幸: "強化学習における習得済み政策の連結手法,"計測自動制御学会第26回知能システムシンポジウム資料集,. 121-126 (1999)

説明

関連する報告書

[文献書誌] 小野塚卓,山村雅幸: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用"計測自動制御学会第26回知能システムシンポジウム資料集,. 127-132 (1999)

説明

関連する報告書

[文献書誌] 吉田功,山村雅幸: "交通システムにおける適応的信号制御"計測自動制御学会第26回知能システムシンポジウム資料集,. 157-162 (1999)

説明

関連する報告書

[文献書誌] 土居茂雄,山村雅幸: "BntNetによるネットワーク経路制御の提案,"計測自動制御学会 システム情報部門シンポジウム1999講演論文集. 215-220 (1999)

説明

関連する報告書

[文献書誌] Masayuki Yamamura, Takashi Onozuka: "Reinforcement Learning with Knowledge by sing a Stochastic Gradient Method on a Bayesian Network"Proceedings of International Joint Conference on Neural Networks 1998 (IJCNN98). 2045-2050 (1998)

説明

関連する報告書

[文献書誌] Fumihide Tanaka, Masayuki Yamamura: "Reinforcement Learning of Lifelong Agents (in Japanese)"Proceedings of Robotics and Mechatoronics Conference 98 (ROBOMEC98). (1998)

説明

関連する報告書

[文献書誌] Hiroshi Miyashita, Masayuki Yamamura: "An Analysis on Connecting Learned Policies in Multitask Reinforcement Learning (in Japanese)"Proceedings of the 26th SICE Intelligent Systems Symposium. 121-126 (1999)

説明

関連する報告書

[文献書誌] Takashi Onozuka, Masayuki Yamamura: "An Application of Reinforcement Learning on Bayesian Network for Kepera Robot Simulators (in Japanese)"Proceedings of the 26th SICE Intelligent Systems Symposium. 127-132 (1999)

説明

関連する報告書

[文献書誌] Isao Yoshida, Masayuki Yamamura: "A Study of Adaptive Signal Control on Traffic systems (in Japanese)"Proceedings of the 26th SICE Intelligent Systems Symposium. 157-162 (1999)

説明

関連する報告書

[文献書誌] Shigeo Doi, Masayuki Yamamura: "Adaptive routing by BntNet (in Japanese)"Proceedings of the SICE Systems and Informatics Department Symposium 1999. 215-220 (1999)

説明

関連する報告書

[文献書誌] Masayuki Yamamura,Takashi Onozuka: "Reinforcement Learning with Knowledge by using a Stochastic Gradient Method on a Bayesian Network,"Proceedings of International Joint Conference on Neural Networks 1998,. 2045-2050 (1998)

関連する報告書

[文献書誌] 田中文秀,山村雅幸: "Lifelong agent の強化学習,"ロボティクス・メカトロニクス講演会'98(ROBOMEC'98). (1998)

関連する報告書

[文献書誌] 宮下洋,山村雅幸,: "強化学習における習得済み政策の連結手法,"計測自動制御学会第26回知能システムシンポジウム資料集,. 121-126 (1999)

関連する報告書

[文献書誌] 小野塚卓,山村雅幸,: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用"計測自動制御学会第26回知能システムシンポジウム資料集,. 127-132 (1999)

関連する報告書

[文献書誌] 吉田功,山村雅幸,: "交通システムにおける適応的信号制御,"計測自動制御学会第26回知能システムシンポジウム資料集,. 157-162 (1999)

関連する報告書

[文献書誌] 土居茂雄,山村雅幸: "BntNet によるネットワーク経路制御の提案,"計測自動制御学会システム情報部門シンポジウム1999講演論文集,. 215-220 (1999)

関連する報告書

[文献書誌] Yamamura,M.,Onozuka,T.: "Reinforcement Learning with Knowiedge by using a Stochastic Gradient Method on a Bayesian Network" Proc.of International Joint Conference on Neural Network. 2045-2050 (1998)

関連する報告書

[文献書誌] 小野塚 卓、山村雅幸: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)

関連する報告書

[文献書誌] 田中文英、山村雅幸: "Lifelong agentの強化学習" ロボティクス・メカトロニクス講演会'98(ROBOMEC98)予稿集. (CD ROM). (1998)

関連する報告書

[文献書誌] 宮下洋、山村雅幸: "強化学習における習得済タスクの連結手法" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)

関連する報告書

[文献書誌] 吉田功、山村雅幸: "交通システムにおける適応的信号制御" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)

関連する報告書

山村雅幸東京工業大学, 大学院・総合理工学研究科, 助教授 (00220442)

[文献書誌] 土居茂雄,山村雅幸: "BntNetによるネットワーク経路制御の提案,"計測自動制御学会システム情報部門シンポジウム1999講演論文集. 215-220 (1999)

[文献書誌] 小野塚卓、山村雅幸: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)