研究課題/領域番号 |
20H04301
|
研究機関 | 東京大学 |
研究代表者 |
鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 深層強化学習 |
研究実績の概要 |
部分観測環境における深層強化学習における報酬設計の問題に対処するため、部分観測環境における教師なし強化学習のアルゴリズムの開発を行った。具体的には、部分観測性に対処するための記憶機構、および相互情報量に基づいた内発的報酬を設計した。本内発的報酬は、観測情報が限られている状態空間を優先的に探索し、有効な記憶を学習することを可能にする。実験では、外部報酬を使用せずに、部分観測環境において有益な方策を学習することに成功した。 強化学習の問題点の一つとして、学習時に見たことがない未知の環境においてエージェントの性能が大きく低下することが知られている。その問題に対処するため、行動類似性に基づく潜在状態表現を利用することで、モデルベース強化学習の汎化性能を向上させる手法の開発を行った。提案手法を背景画像が変化する環境における連続行動空間の制御タスクに適用し、汎化性能の検証を行なったところ、一部のタスクにおいて汎化性能の向上が見られた。 深層強化学習における報酬設計の問題に対処するため、これまでに様々な内発的報酬の仕組みが提案されている。本研究では、状態遷移の予測不可能性と、状態の新規性をベースにした内発的報酬を組み合わせることで、noisy-TV problem と呼ばれる、ランダムな状態遷移が継続して起きる状況にエージェントがトラップされる問題の解消を試みた。実験の結果、探索が難しいとされるベンチマークでの性能向上を確認し、新規性ベースの内発的報酬と組み合わせることで noisy-TV problem を緩和できることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
モデルベース強化学習の重要な課題である環境モデルのロバスト性、および深層強化学習の本質的な問題のひとつである報酬設計の問題に対して、上記の研究成果が得られた。複雑で報酬設計が難しい環境における深層強化学習の実現のためには、まだ解決するべき問題が多く残っているものの、研究音進捗状況としてはおおむね順調といえる。
|
今後の研究の推進方策 |
本年度は、昨年度の研究成果をさらに発展させることで、モデルベース深層強化学習のさらなる性能向上を目指す。 強化学習一般の問題として、報酬設計の難しさが指摘されている。効率的なエージェントの学習のためには、エージェントが報酬を頻繁に得られる必要があるが、そのような「密な」報酬を人間が設計することは簡単ではない。この問題に対して、エージェントに内発的な報酬を持たせることにより、報酬が存在しない、あるいは報酬が疎な状況であっても有用な「スキル」をエージェントに獲得させられることが知られている。そこで、本研究プロジェクトでは、昨年度の研究によって得られた、将来的な報酬に影響するような要素のみに着目した環境モデル、およびエージェントの効率的な記憶メカニズムを、新たな内発的報酬の発生メカニズムと組み合わせることにより、報酬設計が難しい幅広いタスクに対して、サンプル効率の高い学習を行うことができるエージェントの開発を目指す。
|