2016 Fiscal Year Annual Research Report
Project/Area Number |
16J07455
|
Research Institution | The University of Tokyo |
Principal Investigator |
今川 孝久 東京大学, 大学院総合文化研究科, 特別研究員(DC2)
|
Project Period (FY) |
2016-04-22 – 2018-03-31
|
Keywords | 探索アルゴリズム / モンテカルロ木探索 / 主観確率 / 勝敗確定の情報 |
Outline of Annual Research Achievements |
モンテカルロ木探索 (MCTS) の代表的アルゴリズムUCTは,ゲームAI等で広く用いられる探索手法であり,シミュレーションを繰り返し行い,その結果が良い(平均利得が高い)ところを優先的に深く読む手法である.しかし,実際のゲームでは,探索終了後に最善手(利得最大の手)が選べれば良いので,探索途中での利得は直接関係しないため,改善の余地がある. 28年度はまず,二人ゲームにおいて,最善手を見つけ出すという観点からBayesian Approach (BA)という探索手法に着目した.この手法では,探索木の葉から得られる真の利得(互いに最善を尽くした場合の勝ち負け)の主観確率に基づき,次にどの葉を展開すれば,最善手がはっきりと分かるかを計算し,その基準で展開する葉を決める.本研究ではBAをUCTに組み合わせた手法を提案した.この手法では,UCT単体よりも最善手を見分けることを重視して,シミュレーションを行えると期待される.また,提案手法では探索木の根の付近をBAで探索するため,根の付近では,互いに最善を尽くした場合の勝敗を特別に考える必要はないということが挙げられる.UCTでは,たとえ探索木の葉がゲームの終局に達した(どちらが勝ちか確定した)としても,その情報は特に考慮されていないため,別の手法を組み合わせるのが一般的である.仮想ゲームを使った実験の結果,既存手法より改善が見られた. 上記の研究の副産物として,MCTSには勝敗確定の情報を上手く活かすことにより改善の余地があることが判明した.28年度はこれについても研究を行い,MCTSにおける勝敗確定時の値の更新を改善する,「勝ち負け確定時に今までのシミュレーション結果の内,矛盾した結果を取り除く」という手法を新たに提案した.実験の結果,提案手法は従来の手法よりも効果的に探索できるという実験結果が得られた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
28年度は,最善手を見分けるために特化した手法Bayesian Approachに着目し,既存手法UCTに組み合わせることで,より効果的なアルゴリズムを提案した.そしてその結果を論文にまとめ,国際学会で発表した.また,さらなる研究の結果,既存手法では,「互いに最善尽くした場合の勝敗が確定している」という情報をあまり上手く活かせておらず,改善の余地があることが分かり,改善策を示した.これらの研究についても論文にまとめ,国内学会で発表した.加えて,Bayesian Approachと同様に確率分布を用いた探索手法や,理論的な良さを示している探索手法の先行研究を中心にサーベイを行い,より発展的な課題の解決に向けて準備を進めた. 以上から,28年度の研究は当初の予定通り,実際的な性能について優れた手法を提案し,論文として発表することができ,更なる発展のための準備も進めることができたので,「おおむね順調に進展している」と判断した.
|
Strategy for Future Research Activity |
本研究では,モンテカルロ木探索(MCTS)の実験的な性能の改善とその性能について理論的に明らかにすることを目標にしている.29年度は本研究の最終年度であるので,時間的に可能かを判断しながら,28年度の手法を更に発展させる,もしくはより広い視点で,28年度の研究での知見を利用して,優れた実際的な性能を持つ手法を提案することを目指す.これらについて研究を進め,理論的裏付けについて可能であれば示すことも予定している.より具体的には,以下の観点から研究を進める予定である. ゲーム木の性質についての妥当なモデルに基づき,互いに最善を尽くした場合の利得について推論する先行研究が存在するので,28年度の研究の発展については,そのモデルに基づくことで,理論的な裏付けを行うことを考えている. しかしながら,28年度の提案手法には問題がある.例えば,Bayesian Approachでは分布の独立性を仮定しているがその妥当性は明らかでない.また,実験の結果,終局が近くにある場合しか改善しない可能性があることが分かった.もしそうだとすると改善は限定的といえる.そこで,理論的背景が明らかで,より改善が見込める手法,例えば,28年度での勝敗確定の情報のように,UCTでは上手く考慮されない追加情報を用いた手法等を提案し,理論的な解析をすることも視野に入れている.
|
Research Products
(4 results)