• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

Research Project

Project/Area Number 26330419
Research InstitutionShibaura Institute of Technology

Principal Investigator

五十嵐 治一  芝浦工業大学, 工学部, 教授 (80288886)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywords強化学習 / 方策勾配法 / RoboCup / コンピュータ将棋 / ファジィ推論
Outline of Annual Research Achievements

本研究は、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。1)方策勾配法の理論的な研究:階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習(転移学習と関連)、方策として様々な形態の数理モデル(ファジィルール、ベイズネット等)の適用方式の考案。2)方策勾配法の応用面の研究:追跡問題(追跡ゲーム)、ロボットサッカー、コンピュータ将棋等への適用である。
2014年度は、1)ではファジイ制御ルールにより表現された方策を持つ方策勾配法の応用として、RoboCup小型リーグにおける行動決定をテーマに研究を行い、論文にまとめた。本方法は、ファジィ推論でしばしば用いられるMAX-MIN演算を積和演算に置き換えることにより、メンバーシップ関数中のパラメータを期待報酬の最大勾配方向へ更新して行くという手法である。また、本テーマに関連した周辺研究を国際学会で発表した。2)では、RoboCupシミュレーションリーグ2D部門のサッカーシュミレータを用いて、サッカーにおける局面評価関数の設計とその重みパラメータを方策勾配法で学習する実験について研究発表を2件行った。さらに、コンピュータ将棋における探索制御の問題へ方策勾配法を適用する方式を提案し、ゲームプログラミング・ワークショップで研究発表を行った。本研究では、コンピュータ将棋において探索木の枝を成長させる際に、その枝までの探索経路に沿った指し手の累積的な選択確率の値を基に探索制御を行う方法を提案した。このときの指し手の選択には、将棋の指し手に関するヒューリスティクスを組み込んだシミュレーション方策を使用し、このシミュレーション方策中のパラメータを方策勾配法により学習する。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

理論の構築においてはおおむね順調に進んでいる。実験面においては、院生の人数などマンパワー上の問題もあり、計画よりもやや遅れているきらいがある。

Strategy for Future Research Activity

今後は実験面での検証に重点を置いていきたい。

  • Research Products

    (5 results)

All 2014

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (4 results)

  • [Journal Article] ファジイ制御ルールにより表現された方策を持つ方策勾配法:RoboCup小型リーグにおける行動決定2014

    • Author(s)
      杉本 将也,五十嵐 治一,石原 聖司,田中 一基
    • Journal Title

      知能と情報

      Volume: 26 Pages: 647-657

    • DOI

      10.3156/jsoft.26.647

    • Peer Reviewed / Open Access
  • [Presentation] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014

    • Author(s)
      Noor Imanina N.H. , Harukazu Igarashi
    • Organizer
      The International Conference on Artificial Intelligence and Pattern Recognition
    • Place of Presentation
      Kuala Lumpur, Malaysia
    • Year and Date
      2014-11-17 – 2014-11-19
  • [Presentation] 方策勾配法による探索制御の一考察2014

    • Author(s)
      五十嵐治一,森岡祐一,山本一将
    • Organizer
      第19回ゲーム・プログラミング ワークショップ2014
    • Place of Presentation
      箱根,神奈川県
    • Year and Date
      2014-11-07 – 2014-11-09
  • [Presentation] agent2d のチェーンアクションにおける評価関数の重み調整2014

    • Author(s)
      田川 諒,谷川俊策,五十嵐治一
    • Organizer
      第13回情報科学技術フォーラム(FIT2014)
    • Place of Presentation
      筑波,茨城県
    • Year and Date
      2014-09-03 – 2014-09-03
  • [Presentation] RoboCupサッカーシミュレーションリーグ2Dにおける局面評価関数の設計と学習2014

    • Author(s)
      谷川俊策,五十嵐治一,石原聖司
    • Organizer
      ロボティクス・メカトロニクス講演会2014
    • Place of Presentation
      富山,富山県
    • Year and Date
      2014-05-26 – 2014-05-26

URL: 

Published: 2016-05-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi