• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実績報告書

モダンヒューリスティックスとプレイアウトに基づく囲碁アルゴリズムの構築

研究課題

研究課題/領域番号 16K00510
研究機関愛知工業大学

研究代表者

伊藤 雅  愛知工業大学, 情報科学部, 教授 (80221026)

研究期間 (年度) 2016-04-01 – 2019-03-31
キーワードプレイアウト / 深層学習 / 囲碁アルゴリズム / モンテカルロ木探索 / ヒューリスティック / アクション値
研究実績の概要

プレイアウトと深層学習を組み合わせた囲碁アルゴリズムを構築した。2016年1月に発表されたアルファ碁の再現プロジェクトのひとつにRocAlphaGoがある。RocAlphaGoが提供する深層学習を利用した。教師付学習のSL Policy Network、強化学習のRL Policy Network、盤面評価関数として機能するValue Networkの3つである。
提案法の特徴は、Value Networkとモンテカルロ木探索を融合させたこととアルファ碁が提唱するTree PolicyやRollout Policyを使わずに囲碁AIを動作させたことである。分散非同期型のアルファ碁に対し、提案法は単体非同期型である。
提案法では、Tree Policyの処理過程を省略し、ノード展開時にSL Policy Networkと同期させ、着手確率が高い有望手上位20手のみを木に追加する。ロールアウトによる勝敗は使わず、この部分をRayのプレイアウトで代用した。Rayはプレイアウトに非決定論的なヒューリスティックを取り入れた思考ルーチンであり、BSDライセンスで公開されている。C++で開発されているため、RocAlphaGoが提供するPythonスクリプトとは相性が悪い。そこで、Cythonを導入して共有ライブラリを構築した。木探索で使うノード評価値はUCB1値ではなく、アルファ碁と同じアクション値を採用した。
棋譜数約6万を使って教師付学習で最終精度52.3%を得た。強化学習はゲームバッチ数10、繰り返し6000回で実行した。得られた重みを使ってValue Networkに与えるデータセット約20万個を生成し、Value Networkでは最終精度51.4%を達成した。提案法とRayを500局自動対戦させた結果は343勝157敗であった。二項検定により提案法の統計的有意性を確認した。

備考

平成30年度卒業研究紹介では本研究課題に関連する2つの研究テーマを掲載している。
愛知工業大学学術情報リポジトリから論文“深層学習とプレイアウトに基づく囲碁アルゴリズム”のPDFファイルが取得できる。

  • 研究成果

    (4件)

すべて 2019 その他

すべて 雑誌論文 (1件) (うちオープンアクセス 1件) 学会発表 (1件) 備考 (2件)

  • [雑誌論文] 深層学習とプレイアウトに基づく囲碁アルゴリズム2019

    • 著者名/発表者名
      伊藤雅, 伊藤有人
    • 雑誌名

      愛知工業大学研究報告

      巻: 54 ページ: 110-117

    • オープンアクセス
  • [学会発表] プレイアウトと深層学習を組み合わせた囲碁アルゴリズム2019

    • 著者名/発表者名
      伊藤雅, 伊藤有人
    • 学会等名
      平成31年電気学会全国大会
  • [備考] 平成30年度卒業研究紹介

    • URL

      https://aitech.ac.jp/~milabo/member/k24/

  • [備考] 愛知工業大学学術情報リポジトリ

    • URL

      http://repository.aitech.ac.jp/dspace/handle/11133/3491

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi