研究実績の概要 |
当初掲げた, 人間の知識を利用しないゲームの評価関数学習手法の構築という最終的な目的は, Deepmind の研究者らによって作成された AlphaGo Zero というコンピュータ囲碁プログラムが人間のトッププレイヤーから勝利を収めたことにより達成された. しかしながら彼らの手法は非常に多くの計算資源を用いているため, ほとんどすべての研究者にとっては再現が不可能であり, アルゴリズムの効率を高めるという点についてはまだまだ改善の余地があると考えている. 本年度の研究では, 既存手法である AlphaGo Zero のアルゴリズムの効率を向上させるという観点から研究を行った. 特に評価関数の役割を果たすニューラルネットワークの学習に必要なデータ数 (ゲームの局面の数) の削減というテーマについて研究を行った. その一つとして, 学習に必要なデータ数を実質的に増加させるため, 学習には局面のペアを入力してその優劣を出力するというランキング学習の概念を導入しニューラルネットワークの学習を行うという研究を行った. それにより実質的な学習データ数はもとのデータ数のおおよそ二乗に増やすことができ, そのデータを用いることで学習をより効率よく行うことができるという観察を得た. またその学習によって得られたニューラルネットワークの性能も, 既存手法で学習したものとくらべて良いことが対戦実験により観察できた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初掲げた最終的な目標は Deepmind の研究者らによって達成されたが, 研究目標を適切に変更し, そのための調査や実験を着実に行っている状況である. また研究内容が大規模な強化学習であり, さまざまな評価実験や実装に多く時間が必要となる性質を持つが, 初年度で作成した実験用のプログラムや培った知識等により次年度はより多くの成果を出せるものと自信を持っている.
|