2017 年度実績報告書

モンテカルロ木探索を利用したオンライン学習手法の構築

研究課題

研究課題/領域番号	17J09685
研究機関	東京大学
研究代表者	万代悠作東京大学, 大学院総合文化研究科, 特別研究員(DC2)
研究期間 (年度)	2017-04-26 – 2019-03-31
キーワード	評価関数 / ランキング学習 / ディープラーニング
研究実績の概要	当初掲げた, 人間の知識を利用しないゲームの評価関数学習手法の構築という最終的な目的は, Deepmind の研究者らによって作成された AlphaGo Zero というコンピュータ囲碁プログラムが人間のトッププレイヤーから勝利を収めたことにより達成された. しかしながら彼らの手法は非常に多くの計算資源を用いているため, ほとんどすべての研究者にとっては再現が不可能であり, アルゴリズムの効率を高めるという点についてはまだまだ改善の余地があると考えている. 本年度の研究では, 既存手法である AlphaGo Zero のアルゴリズムの効率を向上させるという観点から研究を行った. 特に評価関数の役割を果たすニューラルネットワークの学習に必要なデータ数 (ゲームの局面の数) の削減というテーマについて研究を行った. その一つとして, 学習に必要なデータ数を実質的に増加させるため, 学習には局面のペアを入力してその優劣を出力するというランキング学習の概念を導入しニューラルネットワークの学習を行うという研究を行った. それにより実質的な学習データ数はもとのデータ数のおおよそ二乗に増やすことができ, そのデータを用いることで学習をより効率よく行うことができるという観察を得た. またその学習によって得られたニューラルネットワークの性能も, 既存手法で学習したものとくらべて良いことが対戦実験により観察できた.
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初掲げた最終的な目標は Deepmind の研究者らによって達成されたが, 研究目標を適切に変更し, そのための調査や実験を着実に行っている状況である. また研究内容が大規模な強化学習であり, さまざまな評価実験や実装に多く時間が必要となる性質を持つが, 初年度で作成した実験用のプログラムや培った知識等により次年度はより多くの成果を出せるものと自信を持っている.
今後の研究の推進方策	初年度において提案し実証した手法をさらに昇華させるとともに, 他の手法についても調査と検証を行う.

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 局面の組合せを用いた囲碁評価関数の学習2017
- 著者名/発表者名
  万代悠作,金子知適
- 学会等名
  ゲームプログラミングワークショップ2017