将棋人工知能に関するディープマインド社の大規模実験とその知識獲得過程の検証

研究課題

研究課題/領域番号	20K12120
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分62040:エンタテインメントおよびゲーム情報学関連
研究機関	電気通信大学
研究代表者	保木邦仁電気通信大学, 大学院情報理工学研究科, 准教授 (00436081)
研究分担者	伊藤毅志電気通信大学, 大学院情報理工学研究科, 教授 (40262373)
研究期間 (年度)	2020-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2020年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワード	AlphaZero / 深層学習 / 強化学習 / 将棋 / グラフィカル・プロセッシング・ユニット / ゲーム人工知能 / 人工知能 / ヒューリスティック探索
研究開始時の研究の概要	2019年にSilverらは、囲碁・将棋などの知識を自己対局形式により獲得する人工知能プレイヤの強化学習アルゴリズムAlphaZeroとその実験結果をサイエンス誌で発表した。本研究では、この先行研究の将棋における大規模実験の追試を市場に出回っているハードウエアを用いて行い、強化学習過程や生成された人工知能の性能を観測し、AlphaZeroが将棋知識を獲得する過程を分析する。知識獲得過程の分析は、将棋などのボードゲームプレイヤの認知学の専門家 (研究分担者) と協調して行う。
研究成果の概要	先行研究の将棋における大規模な深層強化学習の追試を、市場に出回っているハードウエアを用いて行い、学習過程や生成された人工知能の性能を観測した。報告者は追実験を行うため、グラフィックス・プロセッシング・ユニット (GPU) を活用した自己対局生成の計算効率を追求した。NVIDIA 社の1個15万円程度の GPU を用いて、日産１万局程度の効率を達成した。そして、市販ハードウエアのみを用いて構築された追実装は、先行研究に準じた性能を獲得した。また、本研究において生成された大量の棋譜を整理する過程から着想を得て、ボードゲームの状態空間を疎な組合せ集合として表現する方法を新規開発するに至った。
研究成果の学術的意義や社会的意義	将棋人工知能と本研究課題で公開するプログラムを比較することにより、現在の日本における将棋人工知能技術と国際標準となったAlphaZeroの技術とを性能・コスト・プレイスタイルなどの面で比較検討することが可能となる。本研究の成果物であるプログラムコードAobaZeroは、GitHubリポジトリ「AobaZero」(https://github.com/kobanium/aobazero)にて公開している。インターネットの検索エンジンにて、二つのキーワード「将棋」と「AobaZero」で検索すると、これが多数の Web ページで紹介されていることが確認できる。

報告書

(5件)

研究成果
(2件)

すべて 2023 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 備考 (1件)

[雑誌論文] NOCCA × NOCCAの強解決2023
- 著者名/発表者名
  山本敦也、保木邦仁
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 64 号: 12 ページ: 1678-1688
- DOI
  10.20729/00231448
- ISSN
  1882-7764
- 年月日
  2023-12-15
- 関連する報告書
  2023 実績報告書
- 査読あり
[備考] GitHub リポジトリ「AobaZero」
- URL
  https://github.com/kobanium/aobazero
- 関連する報告書
  2022 実施状況報告書