本課題では強化学習や最適化問題において確率論的に最適な選択を行うための方法について研究を進めた.選択肢が複数ある場合,過去の経験がどれだけあるか,良い結果がどれくらい見込めるかを基づいて判断する必要がある.本研究では強化学習や最適化問題においても同様であることを確認しつつ,最適な戦略を導入するための枠組みをいくつか考案することができた.特に,ベイズ推定の観点から強化学習アルゴリズム根本的に見直し,再構築できたことは学習と意思決定を切り分ける従来の一般的な考え方に一石を投じるものであると考えている.また,学習主体の状態推定を計算負荷をかけずに行う方法についても研究成果をあげることができた.
|