本研究の成果は、知識を持った強化学習の実用化に関わる次の3つからなる。 1)ベイジアンネットワーク上の強化学習の提案と応用 設計時の知識埋め込みの基礎技術として、信念伝搬則から確率的傾斜法における傾斜伝搬則を導出し、実ロボットに近い応用として、ケペラロボットシミュレータによる迷路走行タスクにおける知識の埋め込みを試みた。ケペラのように感覚が極めて貧弱なロボットでは、通常迷路走行は非効率的な方法でしか実現できないが、地図のような知識を埋め込むことには絶大な効果があり、最適に近い行動政策を学習できることを確認した。 2)習得済み知識の利用法の提案と応用 実行時の知識利用の枠組みとして、ライフロング学習の考え方を導入し、簡単な迷路走行タスクにおいて学習のコントロールパラメータを経験から抽出するライフロング強化学習を実装しその効果を確かめた。また、特殊ケースとして、迷路走行タスクにおいて習得済みタスクを直接連結するタイプのライフロング強化学習を提案して、タスク連結が効果的であるための条件について理論解析し例示した。 3)オープン環境に置かれたマルチエージェント強化学習への応用 強化学習の新しい問題領域として、オープン環境に置かれたマルチエージェント強化学習の開拓を試た。そこでは、頻繁に環境変動が起こる上に、あるエージェントの学習が他のエージェントにとって予期せぬ環境変動となりうるため、通常の強化学習は困難である。交通システムにおける信号制御に分散強化学習を適用して、環境変動への追従の様子を調べた。また、分散強化学習の一種である双方向AntNetを用いて、従来手法より環境変動に頑健なネットワークの適応的経路制御を実現した。
|