研究概要 |
本年度は,昨年度に引き続いて,不完全知覚問題を含む環境における強化学習アルゴリズムについての研究を行った.強化学習とは,学習の主体であるエージェントが自ら行動し経験を重ねることで振る舞いを獲得する枠組みである.本研究ではこれまでに,不完全知覚問題に対して,複素強化学習とよばれる枠組みを提案している.この枠組みにおいて,複素化された行動価値は価値の大きさだけではなく位相情報を表現することができる.本年度は提案するアルゴリズムの汎用性を高めるための負の報酬の取り扱いに関する研究と,頑健性を評価するための学習可能な条件の導出に関する研究について具体的に取り組んだ.負の報酬とは,強化学習において罰を取り扱うための概念である.一般に報酬とは望ましい行動の選択を助長するための信号である.罰とは望ましくない行動の選択を抑制するための信号である.2種類の信号を使い分けることにより,早く効率的な学習を行うことができる,罰による学習を実現することは,提案手法をより汎用的に用いるうえで必須の技術である.しかし,これまでの複素強化学習の手法では負の報酬(罰)を扱うことを想定しておらず,罰を用いた学習を行うことができなかった.そこで,本研究では,複素強化学習において負の報酬が与える影響を明らかにし,負の報酬を用いるための手法について検討した.次に,学習可能な条件の導出については,アルゴリズムの頑健性を評価するうえで非常に重要な問題である.Q-learningやProfit Sharingなどの従来よく用いられているアルゴリズムの収束性・適用条件が明らかになっているのに対し,提案手法の収束性・適用条件は未知であった.本年度は,いくつかの仮定のもとで,学習者側の条件と環境側の条件についてそれぞれ導出を行った.
|