局面状態の分類に基づく局面評価とモンテカルロ法を組み合わせたゲーム木探索

Research Project

Project/Area Number	16J02092
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Intelligent informatics
Research Institution	Hokkaido University
Principal Investigator	高田圭北海道大学, 情報科学研究科, 特別研究員(DC1)
Project Period (FY)	2016-04-22 – 2019-03-31
Project Status	Completed (Fiscal Year 2018)
Budget Amount *help	¥2,500,000 (Direct Cost: ¥2,500,000) Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2017: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2016: ¥900,000 (Direct Cost: ¥900,000)
Keywords	強化学習 / 局面評価関数 / ポリシー関数 / オーダリング関数 / 深層学習 / ゲーム木探索
Outline of Annual Research Achievements	本年度は，主に学術論文誌への投稿と博士論文の執筆を行った．学術論文誌への投稿を行った研究では，現在の局面の形勢を評価する局面評価関数と候補手を評価するポリシー関数をディープニューラルネットワークで構成し，この二つの評価関数を自己対戦による強化学習によって獲得する手法を提案している．二つの評価関数を作成するための既存手法では，二つの評価関数を使用するコンピュータプレイヤ同士で自己対戦を行い，自己対戦から得られる対局結果とモンテカルロ木探索の探索結果から二つの評価関数を学習している．この手法は非常に高精度な評価関数を作成可能であることが示されている．一方で，モンテカルロ木探索の探索結果を得るためには，候補手に対して多数回の評価が必要となり，膨大な計算リソースが必要となる．本研究では，モンテカルロ木探索の探索結果を必要としない手法を提案した．提案手法では，学習に必要な候補手への評価回数が減るため，計算量の削減が期待できる．提案手法によって高精度な局面評価関数とポリシー関数が作成可能であることを明らかにするため，提案手法と他の学習手法との比較や，獲得した二つの評価関数を使用するコンピュータHexと既存のコンピュータHexとの比較を行った．これらの結果を学術論文としてまとめ，IEEE Transactions on Gamesに投稿し，査読プロセスを通して掲載が決定している．また，上記の研究内容を含めこれまでの研究内容をまとめた博士論文を執筆した．
Research Progress Status	平成30年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	平成30年度が最終年度であるため、記入しない。

Report

(3 results)

Research Products
(4 results)

All 2019 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 2 results)

[Journal Article] Reinforcement Learning to Create Value and Policy Functions using Minimax Tree Search in Hex2019
- Author(s)
  Takada Kei、Iizuka Hiroyuki、Yamamoto Masahito
- Journal Title
  
  IEEE Transactions on Games
  
  Volume: ? Issue: 1 Pages: 1-1
- DOI
  10.1109/tg.2019.2893343
- NAID
  120006843074
- Related Report
  2018 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] Computer Hex Algorithm Using a Move Evaluation Method Based on a Convolutional Neural Network2017
- Author(s)
  Kei Takada, Hiroyuki Iizuka and Masahito Yamamoto
- Organizer
  Computer Games Workshop at IJCAI 2017
- Related Report
  2017 Annual Research Report
- Int'l Joint Research
[Presentation] Reinforcement Learning for Creating Evaluation Function Using Convolutional Neural Network in Hex2017
- Author(s)
  Kei Takada, Hiroyuki Iizuka and Masahito Yamamoto
- Organizer
  Conference on Technologies and Applications of Artificial Intelligence
- Related Report
  2017 Annual Research Report
- Int'l Joint Research
[Presentation] 畳み込みニューラルネットワークによる局面評価手法を用いたコンピュータHexの開発2016
- Author(s)
  高田圭・本庄将也・飯塚博幸・○山本雅人
- Organizer
  第17回計測自動制御学会システムインテグレーション部門講演会
- Place of Presentation
  札幌コンベンションセンター
- Related Report
  2016 Annual Research Report

局面状態の分類に基づく局面評価とモンテカルロ法を組み合わせたゲーム木探索

Principal Investigator

高田 圭 北海道大学, 情報科学研究科, 特別研究員(DC1)

¥2,500,000 (Direct Cost: ¥2,500,000)

Report

Research Products

[Journal Article] Reinforcement Learning to Create Value and Policy Functions using Minimax Tree Search in Hex2019

Author(s)

Journal Title

DOI

NAID

Related Report

[Presentation] Computer Hex Algorithm Using a Move Evaluation Method Based on a Convolutional Neural Network2017

Author(s)

Organizer

Related Report

[Presentation] Reinforcement Learning for Creating Evaluation Function Using Convolutional Neural Network in Hex2017

Author(s)

Organizer

Related Report

[Presentation] 畳み込みニューラルネットワークによる局面評価手法を用いたコンピュータHexの開発2016

Author(s)

Organizer

Place of Presentation

Related Report

高田圭北海道大学, 情報科学研究科, 特別研究員(DC1)