Project/Area Number |
20K12124
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | Kochi University of Technology |
Principal Investigator |
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | AlphaGo / 深層強化学習 / モンテカルロ木探索 / 確率的ゲーム / 不完全情報ゲーム / 非対称二人ゲーム / ゲームAI / 強化学習 / 多人数ゲーム |
Outline of Research at the Start |
Deepmind社によるAlphaGoが囲碁のトップ棋士を破ったニュースは、社会に広く衝撃を与えた。AlphaGo手法は、原理的にはこれまで解決が困難と考えられてきたさまざまな問題への適用が可能である。しかしながら、囲碁などのゲームと現実の問題との間には大きなギャップが存在する。そこで本研究では、「不完全情報」「確率的」の特徴を有するゲームをいくつか選択し、それらに対してAlphaGo手法を適用・評価する。それにより、AlphaGo手法を現実問題に適用する際に遭遇しうる課題を発見し、その解決策を探る。
|
Outline of Final Research Achievements |
In this study, we first investigated the impact of different evaluation functions on overall performance of the PUCT search in the AlphaGo method, using the game "Othello". Next, we developed computer players using deep reinforcement learning for various games: a stochastic single-player game "2048", an imperfect information game "Geister", an asymmetric two-player game "Two-player 2048", and a multiplayer imperfect information game "DouDizhu". In particular, for "2048", we explored the possibility of applying a more lightweight learning method from the perspective of the necessity of the Policy function in the AlphaGo method.
|
Academic Significance and Societal Importance of the Research Achievements |
AlphaGo手法 (後継であるAlphaGo Zero, AlphaZero, MuZeroを含む) は,チェス・将棋・囲碁のような二人完全情報ゲームにおいて人間を超える強さのプレイヤーを実現した.本研究は,不完全情報ゲームや確率的ゲームといったより困難なゲームに対してAlphaGo手法(または一般に深層強化学習)を適用する上で遭遇しうる問題点をいくつか明らかにした.特に,確率的ゲーム「2048」における深層強化学習において,確率的要素が学習を悪化させることを明らかにし,その対応方法につながる課題の発見に至った.
|