研究課題/領域番号 |
16J02092
|
研究機関 | 北海道大学 |
研究代表者 |
高田 圭 北海道大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2016-04-22 – 2019-03-31
|
キーワード | 強化学習 / 局面評価関数 / オーダリング関数 |
研究実績の概要 |
優れたボードゲームAIを開発するためには,局面の形勢を定量化する関数である局面評価関数と,次手の有望さを定量化する関数であるオーダリング関数の開発が重要である.高精度な評価関数の作成は,より強いボードゲームAIに繋がる.本研究では,高精度な評価関数の作成を目的に,深層学習を用いて評価関数の作成アルゴリズムを提案している.ニューラルネットワークを用いて二つの評価関数を作成することで,人間が感覚的にとらえている序盤,中盤や終盤といった局面状態を考慮した上で局面を評価することが可能になると考えている.以下に,今年度の研究実施状況を記す. 今年度は,国際会議において2件の研究報告を行った.1件目は,オーダリング関数に注目した研究報告である.ゲームの特性を学習しやすいモデルを提案し,提案モデルは既存モデルよりも高精度なオーダリング関数を作成可能であることを示した.また,提案オーダリング関数を利用したコンピュータAIを開発し,提案オーダリング関数を用いた探索候補手の枝刈りを行うことで,コンピュータAIの棋力が向上することを示した.2件目の研究報告は,局面評価関数に注目した報告である.多数の自己対戦から局面評価関数を作成する強化学習アルゴリズムを提案した.既存の局面評価関数よりも非常に高精度な局面評価関数が作成可能なアルゴリズムであることを示した.また,他のコンピュータAIとの比較を行い,開発したコンピュータAIが高い棋力をもつことを明らかにした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度は,局面評価関数とオーダリング関数の開発を行った.優れたゲーム木探索を行うためには,この二つの関数が非常に重要である.高精度な関数を作成するために,局面の特徴をより学習しやすいモデルを提案した.提案モデルによるオーダリング関数は,既存手法で作成したオーダリング関数よりも高精度であることを示した.また,強化学習アルゴリズムを提案し,既存の局面評価関数よりも高精度な局面評価関数を開発した.現在は,二つの関数を同時に作成する強化学習アルゴリズムを提案しており,この研究成果については学術論文誌に投稿中である.上記の通り,2件の国際会議における研究成果報告と,学術論文誌に投稿中であることを踏まえ,本研究はおおむね順調に進展していると考えている.
|
今後の研究の推進方策 |
今後は,新規ゲーム木探索の提案を進める予定である.これまでの研究において,ゲーム木探索において重要な局面評価関数とオーダリング関数を開発してきた.提案した二つの関数は,既存の評価関数に比べて非常に高精度であることを示している.作成した二つの関数を用いて,効率よく優れた手を選択することが可能なゲーム木探索手法を開発していく予定である.
|