1994 年度実績報告書

探索と学習の統合による適応型問題解決アルゴリズムの構築

研究課題

研究課題/領域番号	06452402
研究種目	一般研究(B)
研究機関	京都大学
研究代表者	石田亨京都大学, 工学部, 教授 (20252489)
キーワード	実時間探索 / 強化学習 / TD(λ) / Q-learning
研究概要	本年度では,実時間探索と強化学習アルゴリズムを様々な環境での問題解決に適用し,性能評価を行った.評価対象のアルゴリズムとして,実時間探索からは,最も基本的と思われるKorfのRTA^及びLRTA^を,強化学習からは応用の成功例の見られる,SuttonのTD(λ)及びWatkinsのQ-learningを選択した. 評価は,(i)問題解決に要した状態遷移のコスト(実行コスト)と,(ii)適切な動作を選択するための計算コスト(計画コスト)を通して行った.そして,これらの評価をもとに,実時間探索と強化学習アルゴリズムの適応領域について考察した.具体的な問題としては,迷路などの基本問題の他に,n自由度を持つアームロボットの動作プランニングなど,具体性のある物を用いた. 評価の結果,実時間探索では,(i)1回〜数回程度の問題解決にはRTA^が適するが,数多く繰り返す場合にはLRTA^が適する,(ii)ヒューリスティック関数が「より情報がある」ことが問題解決が速くなることを意味しないが,推定評価値が収束するまでの時間は短縮される,(iii)局所最適決定が行なえるLCMアルゴリズムは,LRTA^*に比べて実行時間は短いが,逆に計算時間は長くなることを明らかとした.また強化学習は,実時間探索による学習結果を蓄積するのに適するとの方向性を得た.

研究成果
(1件)

すべてその他

すべて文献書誌 (1件)

[文献書誌] 石田亨: "「実時間探索の学習特性の評価」" 人工知能学会誌 Vol.10 No.2. 142-313 (1995)