Online machine learning methods using Monte Carlo tree search

Research Project

Project/Area Number	17J09685
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Entertainment and game informatics 1
Research Institution	The University of Tokyo
Principal Investigator	万代悠作東京大学, 総合文化研究科, 特別研究員(DC2)
Project Period (FY)	2017-04-26 – 2019-03-31
Project Status	Completed (Fiscal Year 2018)
Budget Amount *help	¥1,700,000 (Direct Cost: ¥1,700,000) Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Keywords	深層学習 / マルチタスク学習 / ニューラルネットワークの判断根拠 / 評価関数 / ランキング学習 / ディープラーニング
Outline of Annual Research Achievements	本年度は昨年度に引き続き，「人間の棋譜を用いないコンピュータプレイヤーの構築」という研究課題を元に，より発展した内容についての研究を行なった．上記研究課題は大規模な強化学習によって達成されているが，本年度は学習結果の質を保ちつつ必要な計算資源を削減するという重要な研究課題について取り組んだ．計算資源を削減するために，同じ訓練データからより多くの情報を獲得するということを目標にしてアルゴリズムを設計し，有効性を確認した．また関連して，既存手法で行なっているマルチタスク学習についての新たな知見を得るために別の学習目標を用いたマルチタスク学習の評価を行った．マルチタスク学習とは単一の入力から複数の出力を行う学習で，既存手法である AlphaGo Zero では単一の入力局面から，その局面の勝率とその局面で取るべき行動の予測という二つの出力を行っている．このマルチタスク学習について，取るべき行動の予測ではなく，別の予測に変更した際の性能の評価を行った．具最後に，上記の二つのアルゴリズムなどによって得られた推論器の妥当性を評価する手法について考案した．上記の二つのアルゴリズムは深層ニューラルネットワークの学習として実装されているが，深層ニューラルネットワークの予測は人間による理解が困難であるという問題点がある．深層ニューラルネットワークは多くの行列演算によって最終的な出力を計算するが，その過程は複雑であり，決定木や線形モデルのように人間が直感的に理解することが難しい．さらに深層ニューラルネットワークによる前向き枝刈りを行うゲーム木探索アルゴリズムによる推論の場合にはより理解が困難となる．この問題点を解決すべく，木探索アルゴリズムと深層ニューラルネットワークを組み合わせた際の判断の根拠となったような入力を検出するアルゴリズムを新たに考案した．
Research Progress Status	平成30年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	平成30年度が最終年度であるため、記入しない。

Report

(2 results)

2018 Annual Research Report
2017 Annual Research Report

Research Products
(5 results)

All 2018 2017

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Journal Article] An Alternative Multitask Training for Evaluation Functions in the Game of Go2018
- Author(s)
  Yusaku Mandai and Tomoyuki Kaneko
- Journal Title
  
  IEEE Technologies and Applications of Artificial Intelligence
  
  Volume: - Pages: 132-135
- DOI
  10.1109/taai.2018.00037
- Related Report
  2018 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] 囲碁ニューラルネットワークの判断根拠の可視化2018
- Author(s)
  万代悠作, 金子知適
- Journal Title
  
  ゲームプログラミングワークショップ2018 予稿集
  
  Volume: 2018 Pages: 9-15
- NAID
  170000178461
- Related Report
  2018 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] Alternative Multitask Training for Evaluation Functions in Game of Go2018
- Author(s)
  Yusaku Mandai
- Organizer
  TAAI 2018
- Related Report
  2018 Annual Research Report
- Int'l Joint Research
[Presentation] 囲碁ニューラルネットワークの判断根拠の可視化2018
- Author(s)
  万代悠作
- Organizer
  ゲームプログラミングワークショップ2018
- Related Report
  2018 Annual Research Report
[Presentation] 局面の組合せを用いた囲碁評価関数の学習2017
- Author(s)
  万代悠作,金子知適
- Organizer
  ゲームプログラミングワークショップ2017
- Related Report
  2017 Annual Research Report

Online machine learning methods using Monte Carlo tree search

Principal Investigator

万代 悠作 東京大学, 総合文化研究科, 特別研究員(DC2)

¥1,700,000 (Direct Cost: ¥1,700,000)

Report

Research Products

[Journal Article] An Alternative Multitask Training for Evaluation Functions in the Game of Go2018

Author(s)

Journal Title

DOI

Related Report

[Journal Article] 囲碁ニューラルネットワークの判断根拠の可視化2018

Author(s)

Journal Title

NAID

Related Report

[Presentation] Alternative Multitask Training for Evaluation Functions in Game of Go2018

Author(s)

Organizer

Related Report

[Presentation] 囲碁ニューラルネットワークの判断根拠の可視化2018

Author(s)

Organizer

Related Report

[Presentation] 局面の組合せを用いた囲碁評価関数の学習2017

Author(s)

Organizer

Related Report

万代悠作東京大学, 総合文化研究科, 特別研究員(DC2)