将棋人工知能に関するディープマインド社の大規模実験とその知識獲得過程の検証
Project/Area Number |
20K12120
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
保木 邦仁 電気通信大学, 大学院情報理工学研究科, 准教授 (00436081)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 毅志 電気通信大学, 大学院情報理工学研究科, 准教授 (40262373)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2020: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | ゲーム人工知能 / 将棋 / 強化学習 / 深層学習 / AlphaZero / 人工知能 / ヒューリスティック探索 |
Outline of Research at the Start |
2019年にSilverらは、囲碁・将棋などの知識を自己対局形式により獲得する人工知能プレイヤの強化学習アルゴリズムAlphaZeroとその実験結果をサイエンス誌で発表した。本研究では、この先行研究の将棋における大規模実験の追試を市場に出回っているハードウエアを用いて行い、強化学習過程や生成された人工知能の性能を観測し、AlphaZeroが将棋知識を獲得する過程を分析する。知識獲得過程の分析は、将棋などのボードゲームプレイヤの認知学の専門家 (研究分担者) と協調して行う。
|
Outline of Annual Research Achievements |
Silver らは 2019 年、囲碁・将棋などの知識を自己対局形式により獲得する人工知能プレイヤの強化学習アルゴリズム AlphaZero とその実験結果をサイエンス誌で発表した。本研究では、この先行研究の将棋における大規模実験の追試を市場に出回っているハードウエアを用いて行い、強化学習過程や生成された人工知能の性能を観測し、AlphaZero が将棋知識を獲得する過程を分析する。 申請者は追実験を行うため、グラフィックス・プロセッシング・ユニット (GPU) を活用した自己対局生成の計算効率を追求した。NVIDIA 社の一個15万円程度の GPU (GeForce RTX 2080) を用いて、日産1万局程度の効率を達成した。現在申請者が参加している追実験のプロジェクトでは、市販ハードウエアのみを用いて構築された追実装は、AlphaZero の将棋の実験に準じた性能を獲得している (山下宏、保木邦仁、小林祐樹、AobaZero の高速化と現在の状況、コンピュータ将棋協会誌、vol. 32, pp. 72-86, 2021)。 申請者は現在、計算機実験を行う環境整備に取り組み、性能評価を行うための実装について検討中である。 本研究の成果物であるプログラムコードは、GitHub リポジトリ「AobaZero」(https://github.com/kobanium/aobazero) にて公開している。インターネットの検索エンジンにて、二つのキーワード「将棋」と「AobaZero」で検索すると、これが多数の Web ページで紹介されていることが分かる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
プログラムコードの開発と強化学習実験は順調にすすんだが、将棋人工知能の性能を評価する対戦実験の結果が、先手の場合には先行研究と矛盾するということが分かった。この不思議な現象を解釈することに時間がかかり、計画はやや遅れている。 現在は、分担者と囲碁人工知能の現状を調査したり、将棋人工知能の現状に詳しい研究者と情報交換を密に行なったりして、研究成果をまとめる方向を探っている。
|
Strategy for Future Research Activity |
将棋人工知能の性能を評価する対戦実験の結果にて、先手番での勝率計測方法を検討する。 分担者と囲碁人工知能の現状を調査したり、将棋人工知能の現状に詳しい研究者と情報交換を密に行なったりして、研究成果をまとめる方向を探る。
|
Report
(3 results)
Research Products
(1 results)