• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

モンテカルロ木探索の性能の分析と改善

Research Project

Project/Area Number 16J07455
Research InstitutionThe University of Tokyo

Principal Investigator

今川 孝久  東京大学, 大学院総合文化研究科, 特別研究員(DC2)

Project Period (FY) 2016-04-22 – 2018-03-31
Keywordsモンテカルロ木探索 / 推定量
Outline of Annual Research Achievements

モンテカルロ木探索(MCTS)はゲームにおける代表的な探索の枠組みである.しかし,ゲームの性質とMCTSの性能の関係性については,まだ解明されていない点がある.
本年度は,まず,多腕バンディット問題(MAB)における,期待値の最大値の推定量についての研究を行った.MABは確率的な報酬が得られるスロットマシーンが複数存在する時に,より多くの報酬を得られるプレイの仕方を求める問題である.MCTSの代表的なアルゴリズムであるUCTは,MABでの累積的な報酬の最大化を目指したアルゴリズムを木探索に応用したものであるように,MABはMCTSと密接な関わりがある.また,期待値の最大値の推定量は,最善手を判別するために重要である.判別のためには,以後も最善手を選び続けた(最も期待値が高くなるように手を選んだ)場合の報酬の期待値を比較する必要があるためである.
本研究では,各確率変数に対し,その期待値が最大である確率の上限に基づき,重みを与え,その重み付き平均で期待値の最大値を推定する手法(SWE)を新たに提案した.理論的な解析を行い,推定値のバイアスが0に収束すること等を示した.加えて,実験を行い,提案手法の有効性を確かめた.様々なMABの設定の下で,提案手法は常に最良ではないものの,多くの設定で良い結果となった.
次に,上記の手法SWEのMCTSへの応用を行った.既存手法UCTでは,子の価値の推定を子孫から行ったシミュレーション結果の平均で行う.まず,実験を行い,MABで,サンプルの平均による推定の代わりにSWEを使うことで推定値の精度を改善出来ることを確かめた.そして,UCTにおける,平均による推定の代わりに,SWEよる推定を行う手法を提案した.ゲームでの終盤に近いモデルと,序盤に近いモデルの2種類で,実験を行い,後者のモデルでの提案手法の有効性を示した.

Research Progress Status

29年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

29年度が最終年度であるため、記入しない。

  • Research Products

    (4 results)

All 2018 2017

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Estimating the maximum expected value through upper confidence bound of likelihood2018

    • Author(s)
      Takahisa Imagawa and Tomoyuki Kaneko
    • Journal Title

      2017 Conference on Technologies and Applications of Artificial Intelligence (TAAI 2017)

      Volume: ー Pages: 印刷中

    • Peer Reviewed
  • [Journal Article] モンテカルロ木探索における状態価値の推定方法の改善2017

    • Author(s)
      今川 孝久,金子知適
    • Journal Title

      ゲームプログラミングワークショップ(GPW)2017論文集

      Volume: ー Pages: 34-41

    • Peer Reviewed
  • [Presentation] Estimating the maximum expected value through upper confidence bound of likelihood2017

    • Author(s)
      Takahisa Imagawa
    • Organizer
      2017 Conference on Technologies and Applications of Artificial Intelligence (TAAI 2017)
    • Int'l Joint Research
  • [Presentation] モンテカルロ木探索における状態価値の推定方法の改善2017

    • Author(s)
      今川 孝久
    • Organizer
      ゲームプログラミングワークショップ(GPW)2017

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi