1999 Fiscal Year Annual Research Report
Project/Area Number |
10680372
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山村 雅幸 東京工業大学, 大学院・総合理工学研究科, 助教授 (00220442)
|
Keywords | 強化学習 / ベイジアンネットワーク / 確率的傾斜法 / ケペラロボットシミュレータ / ライフロング学習 / 双方向AntNet / マルチエージェント強化学習 / 交通信号制御 |
Research Abstract |
本研究の成果は、知識を持った強化学習の実用化に関わる次の3つからなる。 1)ベイジアンネットワーク上の強化学習の提案と応用 設計時の知識埋め込みの基礎技術として、信念伝搬則から確率的傾斜法における傾斜伝搬則を導出し、実ロボットに近い応用として、ケペラロボットシミュレータによる迷路走行タスクにおける知識の埋め込みを試みた。ケペラのように感覚が極めて貧弱なロボットでは、通常迷路走行は非効率的な方法でしか実現できないが、地図のような知識を埋め込むことには絶大な効果があり、最適に近い行動政策を学習できることを確認した。 2)習得済み知識の利用法の提案と応用 実行時の知識利用の枠組みとして、ライフロング学習の考え方を導入し、簡単な迷路走行タスクにおいて学習のコントロールパラメータを経験から抽出するライフロング強化学習を実装しその効果を確かめた。また、特殊ケースとして、迷路走行タスクにおいて習得済みタスクを直接連結するタイプのライフロング強化学習を提案して、タスク連結が効果的であるための条件について理論解析し例示した。 3)オープン環境に置かれたマルチエージェント強化学習への応用 強化学習の新しい問題領域として、オープン環境に置かれたマルチエージェント強化学習の開拓を試た。そこでは、頻繁に環境変動が起こる上に、あるエージェントの学習が他のエージェントにとって予期せぬ環境変動となりうるため、通常の強化学習は困難である。交通システムにおける信号制御に分散強化学習を適用して、環境変動への追従の様子を調べた。また、分散強化学習の一種である双方向AntNetを用いて、従来手法より環境変動に頑健なネットワークの適応的経路制御を実現した。
|
-
[Publications] Masayuki Yamamura,Takashi Onozuka: "Reinforcement Learning with Knowledge by using a Stochastic Gradient Method on a Bayesian Network,"Proceedings of International Joint Conference on Neural Networks 1998,. 2045-2050 (1998)
-
[Publications] 田中文秀,山村雅幸: "Lifelong agent の強化学習,"ロボティクス・メカトロニクス講演会'98(ROBOMEC'98). (1998)
-
[Publications] 宮下洋,山村雅幸,: "強化学習における習得済み政策の連結手法,"計測自動制御学会第26回知能システムシンポジウム資料集,. 121-126 (1999)
-
[Publications] 小野塚卓,山村雅幸,: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用"計測自動制御学会第26回知能システムシンポジウム資料集,. 127-132 (1999)
-
[Publications] 吉田功,山村雅幸,: "交通システムにおける適応的信号制御,"計測自動制御学会第26回知能システムシンポジウム資料集,. 157-162 (1999)
-
[Publications] 土居茂雄,山村雅幸: "BntNet によるネットワーク経路制御の提案,"計測自動制御学会システム情報部門シンポジウム1999講演論文集,. 215-220 (1999)