2007 Fiscal Year Annual Research Report
分散知能実現のための頑健・高速・汎用な強化学習アルゴリズムの研究
Project/Area Number |
07J07695
|
Research Institution | Yokohama National University |
Principal Investigator |
渋谷 長史 Yokohama National University, 大学院・工学府, 特別研究員(DC1)
|
Keywords | 強化学習 / 次元の呪い / 状態空間 / 不完全知覚問題 |
Research Abstract |
本年度では,強化学習に関する二つの研究を行った。一つは,測距センサをもつロボットのための状態空間の自己組織化手法に関する研究である。もう一つは,複素強化学習法における学習性能向上のための手法に関する研究である。測距センサをもつロボットのための状態空間の自己組織化手法は,強化学習における「次元の呪い」とよばれる問題を回避するために考案された。「次元の呪い」とは,センサの次元や分解能を増やすことによって学習が進まなくなるという問題である。この問題に対して,測距によって得られたデータを2次元画像に変換し,変換によって得られた画像を自己組織化マップにより分類するという手法を提案した。シミュレーション実験の結果により,提案手法を用いると広大な状態空間における状態を実用上十分少ない数の状態に分類できることが明らかとなった。複素強化学習法における学習性能向上のための手法は,強化学習における「不完全知覚問題」とよばれる問題が発生する環境で学習を行うために考案された。「不完全知覚問題」とは,センサの次元や分解能が不足することによって学習が進まなくなる問題である。不完全知覚問題が発生する環境での学習のために,これまで複素強化学習法を提案してきた。本年度は,この複素強化学習法のなかで,適格度トレースの調整と行動価値の多重化についての検討を行った。適格度トレースの調整や行動価値の多重化のどちらも,「より複雑なタスク」において学習が可能であるという結果が得られた。
|
Research Products
(6 results)