2017 年度実績報告書

思考ゲームの並列分散探索と機械学習基盤

研究課題

研究課題/領域番号	16H02927
研究機関	東京大学
研究代表者	金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	ゲームプログラミング
研究実績の概要	思考ゲームを題材に，並列分散計算を活用した機械学習手法について研究を深めている．研究計画に置ける計算機実験の内容を最新の研究動向を踏まえて対応し，特に同年度に発表された AlphaGo Zero, Alpha Zero の成功を受けて，深層学習の囲碁と将棋への適用を実験に加えた．　また，評価関数相当のニューラルネットワークと方策を表現するニューラルネットワークの共同訓練が効果的であることから，ゲームにおける様々な共同訓練手法を応用先に加えた．　東京大学のスーパーコンピュータであるReedBush-H上で，chainermnを用いた，分散学習が可能となり，また新しく囲碁，将棋，チェスなどで共通に応用可能で汎用性の高い共同訓練の手法も開発した．次年度の発展が期待できる状況である．研究成果は，ゲームプログラミングワークショップ (箱根), Technologies and Applications of Artificial Intelligence (Taiwan) で発表を行ったほか，IEEE Transactions on Games, IEEE Conference on Computational Intelligence and GamesとPacific Rim International Conference on Artificial Intelligenceにも投稿中である．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由思考ゲームを題材に，並列分散計算を活用した機械学習手法について研究を深めている．研究計画に置ける計算機実験の内容を最新の研究動向を踏まえて対応し，特に同年度に発表された AlphaGo Zero, Alpha Zero の成功を受けて，深層学習の囲碁と将棋への適用を実験に加えた．　また，評価関数相当のニューラルネットワークと方策を表現するニューラルネットワークの共同訓練が効果的であることから，ゲームにおける様々な共同訓練手法を応用先に加えた．　東京大学のスーパーコンピュータであるReedBush-H上で，chainermnを用いた，分散学習が可能となり，また新しく囲碁，将棋，チェスなどで共通に応用可能で汎用性の高い共同訓練の手法も開発した．次年度の発展が期待できる状況である．研究成果は，ゲームプログラミングワークショップ (箱根), Technologies and Applications of Artificial Intelligence (Taiwan) で発表を行ったほか，IEEE Transactions on Games, IEEE Conference on Computational Intelligence and GamesとPacific Rim International Conference on Artificial Intelligenceにも投稿中である．以上より概ね順調に推移していると考えられる．
今後の研究の推進方策	将棋，囲碁，チェスを主な題材に方策学習や強化学習を，引き続きそれぞれを進展させるとともに全体としての性能向上に取り組む．すなわち，総合して機械学習の大規模化や学習実験の時間短縮を目指す．両者はそれぞれ，学習結果の質の向上と，学習実験の試行錯誤のサイクル短縮につながる．機械学習手法の改善に関する実験的な検証としては，より正確な評価関数の獲得だけでなく，より応用的な研究課題への適合性の検証として，思考プログラムにおける個性のある指手の実現やゲームの局面の自然言語による解説といった挑戦的な課題での活用も候補として検討する．計算機上で個性を実現するためには個性的なプレイスタイルを持つ人間プレイヤの棋譜を重視しつつ強さを保つために他の棋譜も参照したり，計算機が解説を行うために局面や戦略上の分岐点のポイントを探したりする点で，本研究の応用として有力と考えられるためである．加えて，最近発表された(研究を計画した段階では公開されていなかった)AlphaZeroの学習手法が有力であり注目度も高いと考えられるので，可能な範囲でAlphaZeroに近い手法を実証実験に加えることを引続き目指す．その際にはGPUの活用が必須であるので，東京大学が最近強化したスーパーコンピュータであるReedbush‐Lの活用などを視野に，計算機資源の利用を検討する．研究成果はIEEE International Conference of Computational Intelligence，情報処理学会論文誌，ゲームプログラミングワークショップなどで公表予定である．

研究成果
(11件)

すべて 2017

すべて雑誌論文 (6件) (うち査読あり 6件) 学会発表 (5件)

[雑誌論文] Estimating the maximum expected value through upper confidence bound of likelihood. Technologies and Applications of Artificial Intelligence2017
- 著者名/発表者名
  Takahisa Imagawa and Tomoyuki Kaneko
- 雑誌名
  
  Technologies and Applications of Artificial Intelligence
  
  巻: - ページ: 印刷中
- 査読あり
[雑誌論文] Imitation Learning for Playing Shogi Based on Generative Adversarial Networks Technologies and Applications of Artificial Intelligence2017
- 著者名/発表者名
  Shanchuan Wan and Tomoyuki Kaneko
- 雑誌名
  
  Technologies and Applications of Artificial Intelligence
  
  巻: - ページ: 印刷中
- 査読あり
[雑誌論文] モンテカルロ木探索における状態価値の推定方法の改善2017
- 著者名/発表者名
  今川孝久, 金子知適
- 雑誌名
  
  ゲームプログラミングワークショップ予稿集
  
  巻: - ページ: 34-41
- 査読あり
[雑誌論文] 局面の組合せを用いた囲碁評価関数の学習2017
- 著者名/発表者名
  万代悠作, 金子知適
- 雑誌名
  
  ゲームプログラミングワークショップ予稿集
  
  巻: - ページ: 8-14
- 査読あり
[雑誌論文] GVG-AI のための Monte Carlo Tree Search の改善に関する研究2017
- 著者名/発表者名
  OH HYUNWOO, 金子知適
- 雑誌名
  
  ゲームプログラミングワークショップ予稿集
  
  巻: - ページ: 56-63
- 査読あり
[雑誌論文] 強化学習を用いた評価関数の作成手法の信頼性の分析2017
- 著者名/発表者名
  嶽　俊太郎, 金子知適
- 雑誌名
  
  ゲームプログラミングワークショップ予稿集
  
  巻: - ページ: 250-257
- 査読あり
[学会発表] Settlers of Catanにおけるマップ自動生成の研究2017
- 著者名/発表者名
  黄柱皓, 金子知適
- 学会等名
  ゲームプログラミングワークショップ2017
[学会発表] Style Transfer in Playing Shogi Based on Generative Adversarial Networks2017
- 著者名/発表者名
  Shanchuan Wan and Tomoyuki Kaneko
- 学会等名
  ゲームプログラミングワークショップ2017
[学会発表] 将棋における勾配ブースティング木を用いた評価関数2017
- 著者名/発表者名
  渡辺敬介, 金子知適
- 学会等名
  ゲームプログラミングワークショップ2017
[学会発表] 人狼ゲームエージェントにおける行動選択手法の比較2017
- 著者名/発表者名
  王天鶴, 金子知適
- 学会等名
  ゲームプログラミングワークショップ
[学会発表] Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善2017
- 著者名/発表者名
  藤村悠太朗, 金子知適
- 学会等名
  ゲームプログラミングワークショップ

2017 年度 実績報告書

思考ゲームの並列分散探索と機械学習基盤

研究代表者

金子 知適 東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Estimating the maximum expected value through upper confidence bound of likelihood. Technologies and Applications of Artificial Intelligence2017

著者名/発表者名

雑誌名

[雑誌論文] Imitation Learning for Playing Shogi Based on Generative Adversarial Networks Technologies and Applications of Artificial Intelligence2017

著者名/発表者名

雑誌名

[雑誌論文] モンテカルロ木探索における状態価値の推定方法の改善2017

著者名/発表者名

雑誌名

[雑誌論文] 局面の組合せを用いた囲碁評価関数の学習2017

著者名/発表者名

雑誌名

[雑誌論文] GVG-AI のための Monte Carlo Tree Search の改善に関する研究2017

著者名/発表者名

雑誌名

[雑誌論文] 強化学習を用いた評価関数の作成手法の信頼性の分析2017

著者名/発表者名

雑誌名

[学会発表] Settlers of Catanにおけるマップ自動生成の研究2017

著者名/発表者名

学会等名

[学会発表] Style Transfer in Playing Shogi Based on Generative Adversarial Networks2017

著者名/発表者名

学会等名

[学会発表] 将棋における勾配ブースティング木を用いた評価関数2017

著者名/発表者名

学会等名

[学会発表] 人狼ゲームエージェントにおける行動選択手法の比較2017

著者名/発表者名

学会等名

[学会発表] Hybrid Reward Architecture を用いたリアルタイムな意思決定の改善2017

著者名/発表者名

学会等名

2017 年度実績報告書

金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)