モンテカルロ木探索を利用したオンライン学習手法の構築

研究課題

研究課題/領域番号	17J09685
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
研究分野	エンタテインメント・ゲーム情報学
研究機関	東京大学
研究代表者	万代悠作東京大学, 総合文化研究科, 特別研究員(DC2)
研究期間 (年度)	2017-04-26 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	1,700千円 (直接経費: 1,700千円) 2018年度: 800千円 (直接経費: 800千円) 2017年度: 900千円 (直接経費: 900千円)
キーワード	深層学習 / マルチタスク学習 / ニューラルネットワークの判断根拠 / 評価関数 / ランキング学習 / ディープラーニング
研究実績の概要	本年度は昨年度に引き続き，「人間の棋譜を用いないコンピュータプレイヤーの構築」という研究課題を元に，より発展した内容についての研究を行なった．上記研究課題は大規模な強化学習によって達成されているが，本年度は学習結果の質を保ちつつ必要な計算資源を削減するという重要な研究課題について取り組んだ．計算資源を削減するために，同じ訓練データからより多くの情報を獲得するということを目標にしてアルゴリズムを設計し，有効性を確認した．また関連して，既存手法で行なっているマルチタスク学習についての新たな知見を得るために別の学習目標を用いたマルチタスク学習の評価を行った．マルチタスク学習とは単一の入力から複数の出力を行う学習で，既存手法である AlphaGo Zero では単一の入力局面から，その局面の勝率とその局面で取るべき行動の予測という二つの出力を行っている．このマルチタスク学習について，取るべき行動の予測ではなく，別の予測に変更した際の性能の評価を行った．具最後に，上記の二つのアルゴリズムなどによって得られた推論器の妥当性を評価する手法について考案した．上記の二つのアルゴリズムは深層ニューラルネットワークの学習として実装されているが，深層ニューラルネットワークの予測は人間による理解が困難であるという問題点がある．深層ニューラルネットワークは多くの行列演算によって最終的な出力を計算するが，その過程は複雑であり，決定木や線形モデルのように人間が直感的に理解することが難しい．さらに深層ニューラルネットワークによる前向き枝刈りを行うゲーム木探索アルゴリズムによる推論の場合にはより理解が困難となる．この問題点を解決すべく，木探索アルゴリズムと深層ニューラルネットワークを組み合わせた際の判断の根拠となったような入力を検出するアルゴリズムを新たに考案した．
現在までの達成度 (段落)	平成30年度が最終年度であるため、記入しない。
今後の研究の推進方策	平成30年度が最終年度であるため、記入しない。

報告書

(2件)

2018 実績報告書
2017 実績報告書

研究成果
(5件)

すべて 2018 2017

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (3件) (うち国際学会 1件)

[雑誌論文] An Alternative Multitask Training for Evaluation Functions in the Game of Go2018
- 著者名/発表者名
  Yusaku Mandai and Tomoyuki Kaneko
- 雑誌名
  
  IEEE Technologies and Applications of Artificial Intelligence
  
  巻: - ページ: 132-135
- DOI
  10.1109/taai.2018.00037
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 囲碁ニューラルネットワークの判断根拠の可視化2018
- 著者名/発表者名
  万代悠作, 金子知適
- 雑誌名
  
  ゲームプログラミングワークショップ2018 予稿集
  
  巻: 2018 ページ: 9-15
- NAID
  170000178461
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[学会発表] Alternative Multitask Training for Evaluation Functions in Game of Go2018
- 著者名/発表者名
  Yusaku Mandai
- 学会等名
  TAAI 2018
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 囲碁ニューラルネットワークの判断根拠の可視化2018
- 著者名/発表者名
  万代悠作
- 学会等名
  ゲームプログラミングワークショップ2018
- 関連する報告書
  2018 実績報告書
[学会発表] 局面の組合せを用いた囲碁評価関数の学習2017
- 著者名/発表者名
  万代悠作,金子知適
- 学会等名
  ゲームプログラミングワークショップ2017
- 関連する報告書
  2017 実績報告書

モンテカルロ木探索を利用したオンライン学習手法の構築

研究代表者

万代 悠作 東京大学, 総合文化研究科, 特別研究員(DC2)

1,700千円 (直接経費: 1,700千円)

報告書

研究成果

[雑誌論文] An Alternative Multitask Training for Evaluation Functions in the Game of Go2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 囲碁ニューラルネットワークの判断根拠の可視化2018

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] Alternative Multitask Training for Evaluation Functions in Game of Go2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 囲碁ニューラルネットワークの判断根拠の可視化2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 局面の組合せを用いた囲碁評価関数の学習2017

著者名/発表者名

学会等名

関連する報告書

万代悠作東京大学, 総合文化研究科, 特別研究員(DC2)