研究概要 |
本年度では,実時間探索と強化学習アルゴリズムを様々な環境での問題解決に適用し,性能評価を行った.評価対象のアルゴリズムとして,実時間探索からは,最も基本的と思われるKorfのRTA^*及びLRTA^*を,強化学習からは応用の成功例の見られる,SuttonのTD(λ)及びWatkinsのQ-learningを選択した. 評価は,(i)問題解決に要した状態遷移のコスト(実行コスト)と,(ii)適切な動作を選択するための計算コスト(計画コスト)を通して行った.そして,これらの評価をもとに,実時間探索と強化学習アルゴリズムの適応領域について考察した.具体的な問題としては,迷路などの基本問題の他に,n自由度を持つアームロボットの動作プランニングなど,具体性のある物を用いた. 評価の結果,実時間探索では,(i)1回〜数回程度の問題解決にはRTA^*が適するが,数多く繰り返す場合にはLRTA^*が適する,(ii)ヒューリスティック関数が「より情報がある」ことが問題解決が速くなることを意味しないが,推定評価値が収束するまでの時間は短縮される,(iii)局所最適決定が行なえるLCMアルゴリズムは,LRTA^*に比べて実行時間は短いが,逆に計算時間は長くなることを明らかとした.また強化学習は,実時間探索による学習結果を蓄積するのに適するとの方向性を得た.
|