研究課題/領域番号 |
20H04301
|
研究機関 | 東京大学 |
研究代表者 |
鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 強化学習 / ゲーム / 深層学習 |
研究実績の概要 |
モデルベース強化学習における課題の一つは、学習された環境モデルの精度の問題である。環境モデルは有限の大きさのサンプルから学習されるために、状態遷移も報酬予測も真のモデルとの間には誤差が存在する。そのため、学習された環境モデルを用いたプランニングの結果にも少なからず誤差が存在し、プランニングの深さや幅を大きくしても必ずしもエージェントの性能が向上するとは限らない。
そこで本年度は、上記の問題に対処する手法として、複数の環境モデルを活用することによって誤差の影響を軽減したプランニングを可能にする手法を開発した。本手法では、各環境モデルの信頼度を、他の多数のモデルとの異なりの大きさによって定量化する。プランニングのための行動列候補の累積報酬の計算を行う際には、信頼度によって重みづけされた報酬を用いることで、信頼性の高い環境モデルによって予測された行動候補列を優先的に考慮する。Open AI Gym 環境を用いた評価実験の結果、本手法が従来のモデル予測制御による手法よりも高い性能を達成することが確認された。
また、上記の問題に対するもう一つの対処法として、複数ステップ先の状態を直接予測するモデル(マルチステップモデル)を利用する手法の研究を行った。複数ステップ先の状態を直接予測することにより、予測誤差の蓄積の問題が軽減することが期待される。モデルを用いて方策の学習を行う際に、モデルの精度に応じて学習に用いるステップ数を調整することで効率的な学習を行う。Atari のゲームを用いて評価実験を行った結果、従来手法よりも高い性能が得られる傾向にあることが確認された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
モデルベース強化学習の重要な課題のひとつである環境モデルの予測誤差に対応する手法として、上記の研究成果が得られた。提案手法によって環境モデルの信頼性の問題がすべて解決したわけではないものの、予測誤差の問題をある程度軽減することに成功しており、研究の進捗状況としては、おおむね順調に研究が進展しているといえる。
|
今後の研究の推進方策 |
本年度は、昨年度の研究成果を踏まえて、モデルベース深層強化学習のさらなる性能向上を目指す。モデルベース強化学習の大きな課題のひとつは、学習した環境モデルの誤差が、方策の学習に悪影響を及ぼすことである。そこで本研究プロジェクトでは、将来的な報酬に影響するような要素のみに着目した環境モデルの学習を行うことで、不必要なモデル化誤差を低減させることを目指す。
また、本年度は、エージェントが環境の状態を完全には観測できない状況、いわゆるPOMDP (partially observable Markov decision process)の条件下における深層強化学習の問題にも取り組むことを計画している。Minecraft やローグライクゲームといった複雑なゲームでは、囲碁や将棋のような完全情報ゲームとは異なり、エージェントが観測可能な情報は、キャラクターの視界の範囲内に限定されている。そのため、MDP に基づく通常の深層学習では、キャラクターの視線の方向が変わるといった、人間のプレイヤにとっては些細な変化ですらエージェントの学習に大きな問題を引き起こす。この問題を解決するためには、エージェントに過去の情報を記憶するメカニズムを搭載するというアプローチが考えられる。しかし、方策モデルとして、記憶機構を持つニューラルネットワーク、例えば代表的なリカレントニューラルネットワークであるLSTM (long short-term memory) を利用するだけでは、効率的な強化学習を行うことができないことが知られている。そこで本研究プロジェクトでは、近年自然言語処理の分野で注目されている Transformer モデルをリカレントなモデルに拡張し、方策ネットワークの学習に利用することを試みる。
|