Project/Area Number |
20H04301
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2021)
|
Budget Amount *help |
¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000)
Fiscal Year 2022: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2020: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
|
Keywords | 強化学習 / 深層学習 / ゲーム / モデルベース |
Outline of Research at the Start |
本研究では、状態空間が大きく行動の自由度の高いゲームに適用可能なモデルベース深層強化学習手法を開発することを目的とする。具体的には、環境モデルとエージェントの戦略(方策)を同時に学習することで、ゲーム内のタスクに適した環境モデルの学習を可能にする。さらに、環境モデルを利用した実行時先読み、および、複数の環境モデル間の予測誤差等を利用した内部報酬の導入によりサンプル効率の高い学習を可能にすることを目指す。
|
Outline of Annual Research Achievements |
モデルベース強化学習における課題の一つは、学習された環境モデルの精度の問題である。環境モデルは有限の大きさのサンプルから学習されるために、状態遷移も報酬予測も真のモデルとの間には誤差が存在する。そのため、学習された環境モデルを用いたプランニングの結果にも少なからず誤差が存在し、プランニングの深さや幅を大きくしても必ずしもエージェントの性能が向上するとは限らない。
そこで本年度は、上記の問題に対処する手法として、複数の環境モデルを活用することによって誤差の影響を軽減したプランニングを可能にする手法を開発した。本手法では、各環境モデルの信頼度を、他の多数のモデルとの異なりの大きさによって定量化する。プランニングのための行動列候補の累積報酬の計算を行う際には、信頼度によって重みづけされた報酬を用いることで、信頼性の高い環境モデルによって予測された行動候補列を優先的に考慮する。Open AI Gym 環境を用いた評価実験の結果、本手法が従来のモデル予測制御による手法よりも高い性能を達成することが確認された。
また、上記の問題に対するもう一つの対処法として、複数ステップ先の状態を直接予測するモデル(マルチステップモデル)を利用する手法の研究を行った。複数ステップ先の状態を直接予測することにより、予測誤差の蓄積の問題が軽減することが期待される。モデルを用いて方策の学習を行う際に、モデルの精度に応じて学習に用いるステップ数を調整することで効率的な学習を行う。Atari のゲームを用いて評価実験を行った結果、従来手法よりも高い性能が得られる傾向にあることが確認された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
モデルベース強化学習の重要な課題のひとつである環境モデルの予測誤差に対応する手法として、上記の研究成果が得られた。提案手法によって環境モデルの信頼性の問題がすべて解決したわけではないものの、予測誤差の問題をある程度軽減することに成功しており、研究の進捗状況としては、おおむね順調に研究が進展しているといえる。
|
Strategy for Future Research Activity |
本年度は、昨年度の研究成果を踏まえて、モデルベース深層強化学習のさらなる性能向上を目指す。モデルベース強化学習の大きな課題のひとつは、学習した環境モデルの誤差が、方策の学習に悪影響を及ぼすことである。そこで本研究プロジェクトでは、将来的な報酬に影響するような要素のみに着目した環境モデルの学習を行うことで、不必要なモデル化誤差を低減させることを目指す。
また、本年度は、エージェントが環境の状態を完全には観測できない状況、いわゆるPOMDP (partially observable Markov decision process)の条件下における深層強化学習の問題にも取り組むことを計画している。Minecraft やローグライクゲームといった複雑なゲームでは、囲碁や将棋のような完全情報ゲームとは異なり、エージェントが観測可能な情報は、キャラクターの視界の範囲内に限定されている。そのため、MDP に基づく通常の深層学習では、キャラクターの視線の方向が変わるといった、人間のプレイヤにとっては些細な変化ですらエージェントの学習に大きな問題を引き起こす。この問題を解決するためには、エージェントに過去の情報を記憶するメカニズムを搭載するというアプローチが考えられる。しかし、方策モデルとして、記憶機構を持つニューラルネットワーク、例えば代表的なリカレントニューラルネットワークであるLSTM (long short-term memory) を利用するだけでは、効率的な強化学習を行うことができないことが知られている。そこで本研究プロジェクトでは、近年自然言語処理の分野で注目されている Transformer モデルをリカレントなモデルに拡張し、方策ネットワークの学習に利用することを試みる。
|
Report
(1 results)
Research Products
(5 results)