Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 2004: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2002: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Research Abstract |
今年度は,初めに,複数エージェント強化学習の枠組みがエルゴード的マルコフ決定過程に従い,かつ学習が十分にゆっくり進むという仮定の下で,経験系列(観測された状態,行動,報酬からなる時系列)において漸近等分割性と呼ばれる性質が成り立つことを示した.また,この性質を使って複数エージェントのマルコフ決定過程における収益最大化の解析を行った.この解析は,前年度までの単数エージェントの場合の研究成果を複数エージェントの場合に対して拡張したものである.単散エージェントの場合との違いは,複数のエージェント間の状態把握及び通信に関する制約条件が,複数エージェントの協調政策に深く影響してくる点である.その結果,制約条件は典型集合の大きさ(漸近的に確率1で出現する経験系列の集合)に影響し,その影響は学習が適当に終了する場合において漸近的に消えることを示した. 次に,単数エージェントの場合において,強化学習の枠組みに対する標準的な仮定,すなわちマルコフ性,エルゴード性,及び学習が十分にゆっくり進むという仮定を全てなくしてしまっても収益最大化が可能なのかを理論的に検証した.その検証の結果,収益最大化はそれらの仮定をなくしてもある正の確率で可能であり,収益最大化が可能な強化学習の枠組みはエルゴード的マルコフ決定過程より広いクラスの確率過程であることを示した.さらに,収益最大化が可能であるための強化学習の枠組みに対する必要条件を明らかにした. これらの研究成果は,国内の学会及び国際シンポジウム等で発表され,現在は学術雑誌に投稿中である.
|