不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良
Project/Area Number |
20K12124
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | Kochi University of Technology |
Principal Investigator |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 非対称二人ゲーム / 不完全情報ゲーム / 多人数ゲーム |
Outline of Research at the Start |
Deepmind社によるAlphaGoが囲碁のトップ棋士を破ったニュースは、社会に広く衝撃を与えた。AlphaGo手法は、原理的にはこれまで解決が困難と考えられてきたさまざまな問題への適用が可能である。しかしながら、囲碁などのゲームと現実の問題との間には大きなギャップが存在する。そこで本研究では、「不完全情報」「確率的」の特徴を有するゲームをいくつか選択し、それらに対してAlphaGo手法を適用・評価する。それにより、AlphaGo手法を現実問題に適用する際に遭遇しうる課題を発見し、その解決策を探る。
|
Outline of Annual Research Achievements |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である. 本年度は主に,(1) 確率的一人ゲーム「2048」のニューラルネットワーク構造の改良,(2) 強化学習手法「Monte-Carlo Softmax 探索」の2048への適用と評価,(3) 非対称二人ゲーム「対戦型2048」におけるプレイヤの改良と比較,の3点について研究を進めた. (1) これまでに,局所的特徴を扱うのに優れる畳み込みニューラルネットワークを用いてプレイヤを作成してきた.本研究項目では,大域的特徴を与えるネットワークを追加したネットワークを設計し,スコアが改善することを示した.本成果は,国際会議 IEEE CoG 2022 にて発表した. (2) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用し,評価を行った.その結果,モンテカルロ木探索における評価値の利用方法の工夫が性能に大きく影響すること,モンテカルロ木探索によって得られる値をそのまま学習に用いると学習が進まないことなどを知見として得た.前者は国際会議 TAAI 2022に,後者は国内ワークショップで発表した. (3) 非対称二人ゲーム「対戦型2048」に対し,Nタプルネットワーク/ニューラルネットワークおよびαβ探索を用いるプレイヤを実装し,相互対戦により評価を行った.その結果,「2048」において優れるNタプルネットワークが「対戦型2048」では劣る,という興味深い結果を得た.国内ワークショップ,国内研究会にて発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議への参加が難しかったことを受けて,一部の成果については次年度に投稿・発表することを目指している.
|
Strategy for Future Research Activity |
次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める. (1) PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対するニューラルネットワークと学習方法,(3) 不完全情報ゲーム「DouDizhu」のプレイヤへの学習の適用
|
Report
(3 results)
Research Products
(15 results)