研究課題/領域番号 |
16K00510
|
研究機関 | 愛知工業大学 |
研究代表者 |
伊藤 雅 愛知工業大学, 情報科学部, 教授 (80221026)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 囲碁アルゴリズム / プレイアウト / モダンヒューリスティックス / モンテカルロ木探索 |
研究実績の概要 |
1 世界を席巻したAlphaGoの畳み込みニューラルネットワーク(Convolutional Neural Network: 以下 CNN)部分を再現したRocAlphaGoプロジェクトを参考にCNNを用いた囲碁アルゴリズムをPython言語で構築し、その棋力の一部を確認した。 まず、SL (Supervised Learning) policy networkのみの思考ルーチンでGNU Go 3.8と1000局対戦させた。前者が後者に対し19路盤で65.4%の勝率を得た。次に、SL policy network、value network、rollout policy、tree policyの4つを使用した木探索囲碁アルゴリズムをPythonで実装し、GNU Go 3.8と19路盤で対戦させた。この実験は上手くいかなかった。 数値実験では、GoSample2というプロジェクトが提供するrollout policyとtree policyのC++実装部分をPythonに書き改めた。Pythonがインタープリタ言語であるため、実行速度が犠牲となった。これが失敗の最大の原因である。 2 プレイアウト履歴からゲーム木を作成し、その木を使って最善手を導出する囲碁アルゴリズムを考案した。過去のプレイアウト履歴からゲーム木を生成する過程でノード生成回数と勝利回数を計算し、これらが共に閾値を超える特徴点を抽出した。その特徴点から最大勝率をもつノードを選択して、そこから根ノードに遡って、次に最善手を決定した。 簡単な詰碁ならば、従来のモンテカルロ木探索と同程度の正答数を得られることを数値実験で確認した。しかし、この手法を9路盤囲碁で単純なモンテカルロ木探索と対戦させた結果は、100戦2勝で勝負にならなかった。詰碁の探索空間から少し領域が広がるだけですぐに対応できなくなったようである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
平成28年3月にGoogle傘下のDeepMind社が開発した囲碁AIソフトウェア「AlphaGo」がプロ棋士であるイ・セドル九段に4勝1敗で勝利した。AlphaGoは深層学習、強化学習、モンテカルロ木探索の3つを組み合わせた思考ルーチンを搭載している。 本研究課題の研究計画調書を提出したのが平成27年10月であり、交付内定あるいは採択通知があったのが平成28年4月である。このわずか半年の間に囲碁アルゴリズムの研究がモンテカルロ木探索の改良から人工知能(AI)の導入に移行してしまった。研究計画作成時には、AIの導入は完全に考慮外であった。再利用可能な過去のプレイアウトを駆使して最善手を導き出すことしか念頭になかった。 深層学習や強化学習といった主として画像認識で使われる手法を囲碁に応用する、その枠組みを理解することにも平成28年度は時間を割いた。また、その信憑性を確認するためのプログラム開発にもかなりの時間を要した。 研究計画調書に記載した研究計画・方法における平成28年度研究計画の前半の文献調査も大半が徒労に終わっている。RAVE(Rapid Action Value Estimate)はモンテカルロ木探索の改良には確かに有効であった。しかし、本研究課題が目指しているプレイアウト情報の再利用という観点からは使えそうにない。Virtual Lossの考え方は有望であろうが、プログラム開発がそこまで到達していない。 平成28年度研究計画の後半は、これまた失敗に終わった。モンテカルロ木探索からの脱却は実現できたが、実際にモンテカルロ木探索と対戦させると深さ1の原始モンテカルロ囲碁以下の棋力しかないことが判明した。以上より、当初計画よりも研究の進捗が大幅に遅れる結果となってしまっている。
|
今後の研究の推進方策 |
【研究遂行上の課題】RocAlphaGoが完全に実装でき、19路盤囲碁でGNU Go、Fuego、Pachiを相手に90%以上の勝率が得られれば、プレイアウト(AlphaGoの用語ではロールアウト)に対し工夫を施す意味がある。しかし、この実装が失敗に終わった場合、得られる成果はかなり限定的なものになると予想する。しかも研究代表者1名による開発では困難極まりない。 もうひとつ取り組んでいるプレイアウト履歴を使った木探索手法も行き詰まっている。当初の予定では、プレイアウト履歴にモダンヒューリスティックスのひとつであるタブーサーチを導入して、その履歴から最善手を導き出すつもりであった。その場合、目的関数値が必須となる。囲碁に評価関数を設定するのは困難であるが、この点をクリアしなければならない。 プレイアウト履歴からゲーム木を生成して特徴点を見つけるために使用している現在の評価指数はノードの通過回数と勝数の2つである。手番・手数・石の色・石の位置といったプレイアウトから得られる個別情報はプレイアウト履歴からゲーム木を生成する過程ですべて反映させている。それでも9路盤囲碁を対象とした場合でさえ原始モンテカルロ囲碁程度の棋力しか得られていない。単純なモンテカルロ木探索の棋力にさえ遠く及ばない状況である。100戦2勝という結果がそれを証明している。 【課題に対する対応策】研究室を主宰しているが、今年度は大学院生が皆無である。学部4年生の知識と技量では、現状を簡単に打破できるとは考え難い。 対応策として昨年度からの継続であるが、RocAlphaGoによる実戦用プロトタイプの実装とプレイアウト履歴を使ったゲーム木からの特徴点の抽出、これら2つのプロジェクトの改良と修正を並行して進めるしかない。どちらかのプロジェクトに良好な兆候が見られれば、プロジェクトを一本化して研究課題を推進する。
|
次年度使用額が生じた理由 |
次年度使用額(繰越し額)266,924円が生じた主たる3つの理由は、第1に、本研究課題を遂行する上で必要となるサーバPOWER MASTER Vision S4640(本体のみ800千円)をPOWER MASTER A9313(708千円)に変更したこと。第2に、APC 社製Smart-UPSが設置場所の関係で新規購入を再考せざるを得なくなったこと。第3に、バックアップ用の各種メディアやトナーカートリッジといった消耗品の購入を研究室にあった在庫品や大学から配賦される個人研究費で代替したこと。これら3つの理由によって266千円以上の繰越し額が発生した。 特に、サーバに関しては研究計画調書起案時に購入を計画していたモデルが販売終了し、実際に購入した代替モデルであっても当初スペック相当の製品が取得できた。
|
次年度使用額の使用計画 |
繰越し額については次年度も引き続き本研究課題に取り組むため、研究を順調に進展させて、各種メディアやトナーカートリッジ等の消耗品費あるいは成果発表等の旅費や参加費に充当する予定である。
|
備考 |
本研究課題に関連する4つの研究テーマを掲載している。 そのうち1件はPDFファイルで予稿をダウンロードできる。
|