研究概要 |
強化学習とはエージェントと環境の相互の枠組みのことで, 通常はある確率的決定過程によって記述される. エージェントは, その確率的決定過程に従い, 行動選択-実行-状態遷移を繰り返しながら, 収益と呼ばれるスカラー量を最大化するような行動選択の方法を学習する. 相互作用の枠組みが定常エルゴードマルコフ決定過程に従うならば, ある意味で最適な動選択の方法を学習するためのアルゴリズム(Q-learninなど)が良く知られている. そのため, 強化学習をある問題に対して応用するには, 相互作用の枠組みが定常エルゴードマルコフ定過程に従うと仮定してしまうことがほとんどである. しかしながら, 実際には, その相互作用の枠組みは定常性・エルゴード性・マルコフ性を満たしていないことが多い. にもかかわらず, そのような問題に対して, そもそも強化学習を応用することの有効性やある最適な行動選択の方法を学習するアルゴリズムが存在するかどうかについてはよくわかっていない. 本研究では, 情報理論的な視点から, 漸近等分割性と収益最大化の関係を明らかにすることによって, 収益の最大化が可能な確率的決定過程のクラスを導出した. また, そのクラスは定常エルゴードマルコフ決定過程よりも広いことがわかった. そのクラスに含まれないような確率的決定過程では収益最大化が不可能であるため, そのクラスはある問題に対して強化学習を応用することが有効であるかどうかを判断するのに有益な情報を与える. この成果は, 人工知能分野の主要な国際会議であるIAT2008で.
|