2017 Fiscal Year Annual Research Report
Online machine learning methods using Monte Carlo tree search
Project/Area Number |
17J09685
|
Research Institution | The University of Tokyo |
Principal Investigator |
万代 悠作 東京大学, 大学院総合文化研究科, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Keywords | 評価関数 / ランキング学習 / ディープラーニング |
Outline of Annual Research Achievements |
当初掲げた, 人間の知識を利用しないゲームの評価関数学習手法の構築という最終的な目的は, Deepmind の研究者らによって作成された AlphaGo Zero というコンピュータ囲碁プログラムが人間のトッププレイヤーから勝利を収めたことにより達成された. しかしながら彼らの手法は非常に多くの計算資源を用いているため, ほとんどすべての研究者にとっては再現が不可能であり, アルゴリズムの効率を高めるという点についてはまだまだ改善の余地があると考えている. 本年度の研究では, 既存手法である AlphaGo Zero のアルゴリズムの効率を向上させるという観点から研究を行った. 特に評価関数の役割を果たすニューラルネットワークの学習に必要なデータ数 (ゲームの局面の数) の削減というテーマについて研究を行った. その一つとして, 学習に必要なデータ数を実質的に増加させるため, 学習には局面のペアを入力してその優劣を出力するというランキング学習の概念を導入しニューラルネットワークの学習を行うという研究を行った. それにより実質的な学習データ数はもとのデータ数のおおよそ二乗に増やすことができ, そのデータを用いることで学習をより効率よく行うことができるという観察を得た. またその学習によって得られたニューラルネットワークの性能も, 既存手法で学習したものとくらべて良いことが対戦実験により観察できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初掲げた最終的な目標は Deepmind の研究者らによって達成されたが, 研究目標を適切に変更し, そのための調査や実験を着実に行っている状況である. また研究内容が大規模な強化学習であり, さまざまな評価実験や実装に多く時間が必要となる性質を持つが, 初年度で作成した実験用のプログラムや培った知識等により次年度はより多くの成果を出せるものと自信を持っている.
|
Strategy for Future Research Activity |
初年度において提案し実証した手法をさらに昇華させるとともに, 他の手法についても調査と検証を行う.
|