• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

新たな設計指針に基づく不完全知覚下での強化学習手法の提案と工学的応用に関する研究

Research Project

Project/Area Number 15700143
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionNational Institution for Academic Degrees and University Evaluation

Principal Investigator

宮崎 和光  独立行政法人大学評価・学位授与機構, 学位審査研究部, 助教授 (20282866)

Project Period (FY) 2003 – 2004
Project Status Completed (Fiscal Year 2004)
Budget Amount *help
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 2004: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords強化学習 / 報酬と罰 / 不完全知覚問題 / Profit Sharing / POMDPs
Research Abstract

本年度においては、まず初めに、複数種類の報酬と罰が存在する環境を対象に、それらの間の優先順位を考慮した強化学習システムの提案を行った。これは、これまで研究代表者が主張してきた「報酬と罰に値を設定することなく、直接、罰の回避と報酬の獲得を目指す」という設計指針に合致した手法を、「報酬と罰の間の優先順位」という観点から捉え直すことで得られた。これにより、従来、不適切な取り扱いがなされる可能性のあった複数種類の報酬と罰が存在する環境を適切に取り扱うことが可能となった。
その後、さらにこの考えを、昨年度提案したPS-r*に適用した。これにより当初の研究目的である、「不完全知覚環境を対象とする強化学習システムにおける複数種類の報酬および罰の取り扱い方法に関する指針」、すなわち、「報酬と罰に値を設定する必要はなく、それらの間の優先順位を与えればよい」を得ることができた。
現在、強化学習システムは、報酬と罰に値を設定し、それらの値を元に学習システムの評価関数を更新するものが主流となっている。しかしながら、そのようなシステムを実問題に応用する際には、報酬および罰をどのように設計するかが非常に重要な問題となる。本研究課題では、これまでの報酬と罰を一軸で評価することの問題点を指摘するとともに、報酬と罰の間の優先順位に着目した新たな設計指針、ならびに、その指針に合致した強化学習システムを提案している点に大きな意味がある。これにより、強化学習の実問題への応用を強く後押しするものと考える。
本研究課題では、具体的なテストベットとしてサッカーサーバを想定し実験環境の整備を行ってきた。サッカーサーバについては、先に行った予備的実験を踏まえ、現在、大規模な実験を行う準備をしている最中である。また、その他、オセロゲーム等の対戦型のゲーム問題を複数種類の報酬と罰が存在する不完全知覚問題として定式化し、提案手法の有効性の検証に利用することも現在検討している。

Report

(2 results)
  • 2004 Annual Research Report
  • 2003 Annual Research Report
  • Research Products

    (5 results)

All 2004 Other

All Journal Article (3 results) Publications (2 results)

  • [Journal Article] Development of a reinforcement learning system to play Othello2004

    • Author(s)
      Miyazaki, K.
    • Journal Title

      Artificial Life and Robotics 7・4

      Pages: 177-181

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Reinforcement Learning in Multiple Rewards and Penalties Environments2004

    • Author(s)
      Miyazaki, K.
    • Journal Title

      Proc of the 5th International Symposium on Advanced Intelligent Systems (CD-ROM)

    • Related Report
      2004 Annual Research Report
  • [Journal Article] 複数種類の報酬と罰が存在する環境下への罰回避政策形成アルゴリズムの拡張2004

    • Author(s)
      宮崎和光
    • Journal Title

      SSI2004(計測自動制御学会 システム・情報部門学術講演会)

      Pages: 163-168

    • Related Report
      2004 Annual Research Report
  • [Publications] 宮崎和光: "Profit Sharingの不完全知覚環境下への拡張:PS-r*の提案と評価"人工知能学会論文誌. 18・5. 286-296 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Miyazaki, K.: "Generating Cooperative Behavior by Multi-Agent Profit Sharing on the Soccer Game"Proc.Of the 4th International Symposium on Advanced Intelligent Systems. 166-169 (2003)

    • Related Report
      2003 Annual Research Report

URL: 

Published: 2003-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi