1998 Fiscal Year Annual Research Report
Project/Area Number |
10680372
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山村 雅幸 東京工業大学, 大学院・総合理工学研究科, 助教授 (00220442)
|
Keywords | 強化学習 / ベイジアンネットワーク / Life long Learning / タスク連結 / マルチエージェント強化学習 |
Research Abstract |
本研究の目的は、強化学習に知識を組み込むことによって、実用化の妨げとなっている試行錯誤回数の爆発を防ぐことにある。本年度は、次の3つの方向がら接近を試みた。 1) ベイジアンネットワーク上の強化学習の提案と応用 まず、信念の伝搬則から、確率的傾斜法に用いる傾斜の伝搬則を導出した[Yamamura 98]。つぎに、より実ロボットに近い応用として、ケペラロボットシミュレータを利用して、迷路走行タスクにおける知識の埋め込み技術の事例研究を試みた[Onozuka 99]。ケペラのように感覚が極めて貧弱なロボットでは、迷路走行はランダムウォークないしは壁伝いという非効率的な方法でしか実現できないが、地図のような知識を埋め込むことには絶大な効果があり、最適に近い行動政策を学習できることを確認した。 2) 習得済み知識の利用法の提案と応用 まず、Lifelong learningの考え方を強化学習に導入した枠組みを提案し、簡単な迷路走行タスクにおいて、政策の初期値と学習率のような学習のコントロールパラメータを、以前の経験から抽出するタイプのLifelong強化学習を実装しその効果を確かめた[田中 98]。また、これとは別に、迷路走行タスクにおいて、習得済みタスクを直接連結して行くことで、現在のタスクをより効率的に解くタイプのLifelong強化学習を提案して、タスク連結が効果的であるための条件について理論解析し、例示した[宮下 99]。 3) 次年度は上記2つの要素技術の統合を予定しているが、そのための新しい問題領域として、マルチエージェント強化学習による交通システムの信号制御を取り上げ、知識を組み込まずに解かせた場合の基礎データを収集した[吉田 99]。マルチエージェント強化学習は、あるエージェントの学習が、他のエージェントにとって予期せぬ環境変動となりうるため、通常の強化学習では困難で、知識の利用の効果がわかりやすいものと考えている。 ※文末にカッコ書きで記載の研究者名と数字は、裏面記載の論文で内容が呼応しているものを示す。(主著者名および発行年)
|
-
[Publications] Yamamura,M.,Onozuka,T.: "Reinforcement Learning with Knowiedge by using a Stochastic Gradient Method on a Bayesian Network" Proc.of International Joint Conference on Neural Network. 2045-2050 (1998)
-
[Publications] 小野塚 卓、山村雅幸: "ベイジアンネットワーク上の強化学習のケペラロボットシミュレータへの応用" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)
-
[Publications] 田中文英、山村雅幸: "Lifelong agentの強化学習" ロボティクス・メカトロニクス講演会'98(ROBOMEC98)予稿集. (CD ROM). (1998)
-
[Publications] 宮下洋、山村雅幸: "強化学習における習得済タスクの連結手法" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)
-
[Publications] 吉田功、山村雅幸: "交通システムにおける適応的信号制御" 計測自動制御学会第26回知能システムシンポジウム予稿集. (印刷中). (1999)