• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

Research Project

Project/Area Number 26330419
Research InstitutionShibaura Institute of Technology

Principal Investigator

五十嵐 治一  芝浦工業大学, 工学部, 教授 (80288886)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywords強化学習 / 方策勾配法 / コンピュータ将棋 / ロボカップ / サッカー / マルチエージェントシステム
Outline of Annual Research Achievements

本研究プロジェクトは、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。1)方策勾配法の理論的な研究:階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習(転移学習と関連)、方策として様々な形態の数理モデル(ファジィルール、ベイズネット等)の適用方式の考案。2)方策勾配法の応用面の研究:追跡問題(追跡ゲーム)、ロボットサッカー、コンピュータ将棋等への適用である。
2015年度は、1)では、転移学習に関連して、方策に関する知識を環境ダイナミクスと行動知識に分離した方策こう配法の理論と実験結果をまとめ、論文誌に投稿した結果、掲載された。
2)では、RoboCupシミュレーションリーグ2D部門のサッカーシュミレータを用いて、サッカーにおける局面評価関数の設計とその重みパラメータを方策勾配法で学習する実験について研究発表を1件行った(ゲームプログラミング・ワークショップGPW2015)。さらに、コンピュータ将棋において、プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察をまとめ、情報処理学会のゲーム情報学研究会で発表した。さらにその内容を英訳し、芝浦工業大学研究報告において発表した。また、方策勾配を用いた教師あり学習法を提案し、実験結果とともにGPW2015において研究発表を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

理論面においてはおおむね順調に進んでいる。しかし、実験面では大学院生の数などマンパワーの点でやや不十分であるため、やや遅れている嫌いがある。

Strategy for Future Research Activity

今後は実験面の遅れを取り戻すためにプログラムの実装面にも注力したい。特にコンピュータ将棋のおいて、従来のmini-max法あるいはαβ法ではなく、softmax法によるマルチエージェントシステム的な探索法の研究と実装を進めて行く予定である。この方法は並列処理と相性が良く、高速化が期待できる。また、この探索法での局面評価関数の学習や探索深さの制御法の学習、さらにはプロ棋士の棋譜データベースを用いない学習法の確立へと研究を進めていく予定である。

  • Research Products

    (5 results)

All 2016 2015

All Journal Article (2 results) (of which Peer Reviewed: 1 results,  Acknowledgement Compliant: 2 results) Presentation (3 results)

  • [Journal Article] 方策に関する知識を分離した方策こう配法―環境ダイナミクスと行動価値による方策表現―2016

    • Author(s)
      石原 聖司,五十嵐 治一
    • Journal Title

      電気学会論文誌C

      Volume: 136 Pages: 282-289

    • DOI

      10.1541/ieejeiss.136.282

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Learning Positional Evaluation Functions without Using Databases of Game Records between Professional Shogi Players2016

    • Author(s)
      Harukazu Igarashi, Yuichi Morioka, Kazumasa Yamamoto
    • Journal Title

      The Research Reports of Shibaura Institute of Technology, Natural Sciences and Engineering

      Volume: 59 Pages: 39-47

    • DOI

      10.13140/RG.2.1.4797.2242

    • Acknowledgement Compliant
  • [Presentation] サッカーエージェントにおける局面評価関数の強化学習2015

    • Author(s)
      田川諒,五十嵐治一
    • Organizer
      情報処理学会第20回ゲーム・プログラミング・ワークショップ
    • Place of Presentation
      軽井沢
    • Year and Date
      2015-11-06 – 2015-11-08
  • [Presentation] コンピュータ将棋における方策勾配を用いた局面評価関数の教師付学習2015

    • Author(s)
      大串明,山本一将,森岡祐一,五十嵐治一
    • Organizer
      情報処理学会第20回ゲーム・プログラミング・ワークショップ
    • Place of Presentation
      軽井沢
    • Year and Date
      2015-11-06 – 2015-11-08
  • [Presentation] プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察2015

    • Author(s)
      五十嵐治一,森岡祐一,山本一将
    • Organizer
      情報処理学会第34回ゲーム情報学研究発表会
    • Place of Presentation
      福岡
    • Year and Date
      2015-07-04 – 2015-07-04

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi