• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

新たな設計指針に基づく不完全知覚下での強化学習手法の提案と工学的応用に関する研究

研究課題

研究課題/領域番号 15700143
研究種目

若手研究(B)

配分区分補助金
研究分野 知能情報学
研究機関独立行政法人大学評価・学位授与機構

研究代表者

宮崎 和光  独立行政法人大学評価・学位授与機構, 学位審査研究部, 助教授 (20282866)

研究期間 (年度) 2003 – 2004
研究課題ステータス 完了 (2004年度)
配分額 *注記
1,900千円 (直接経費: 1,900千円)
2004年度: 900千円 (直接経費: 900千円)
2003年度: 1,000千円 (直接経費: 1,000千円)
キーワード強化学習 / 報酬と罰 / 不完全知覚問題 / Profit Sharing / POMDPs
研究概要

本年度においては、まず初めに、複数種類の報酬と罰が存在する環境を対象に、それらの間の優先順位を考慮した強化学習システムの提案を行った。これは、これまで研究代表者が主張してきた「報酬と罰に値を設定することなく、直接、罰の回避と報酬の獲得を目指す」という設計指針に合致した手法を、「報酬と罰の間の優先順位」という観点から捉え直すことで得られた。これにより、従来、不適切な取り扱いがなされる可能性のあった複数種類の報酬と罰が存在する環境を適切に取り扱うことが可能となった。
その後、さらにこの考えを、昨年度提案したPS-r*に適用した。これにより当初の研究目的である、「不完全知覚環境を対象とする強化学習システムにおける複数種類の報酬および罰の取り扱い方法に関する指針」、すなわち、「報酬と罰に値を設定する必要はなく、それらの間の優先順位を与えればよい」を得ることができた。
現在、強化学習システムは、報酬と罰に値を設定し、それらの値を元に学習システムの評価関数を更新するものが主流となっている。しかしながら、そのようなシステムを実問題に応用する際には、報酬および罰をどのように設計するかが非常に重要な問題となる。本研究課題では、これまでの報酬と罰を一軸で評価することの問題点を指摘するとともに、報酬と罰の間の優先順位に着目した新たな設計指針、ならびに、その指針に合致した強化学習システムを提案している点に大きな意味がある。これにより、強化学習の実問題への応用を強く後押しするものと考える。
本研究課題では、具体的なテストベットとしてサッカーサーバを想定し実験環境の整備を行ってきた。サッカーサーバについては、先に行った予備的実験を踏まえ、現在、大規模な実験を行う準備をしている最中である。また、その他、オセロゲーム等の対戦型のゲーム問題を複数種類の報酬と罰が存在する不完全知覚問題として定式化し、提案手法の有効性の検証に利用することも現在検討している。

報告書

(2件)
  • 2004 実績報告書
  • 2003 実績報告書
  • 研究成果

    (5件)

すべて 2004 その他

すべて 雑誌論文 (3件) 文献書誌 (2件)

  • [雑誌論文] Development of a reinforcement learning system to play Othello2004

    • 著者名/発表者名
      Miyazaki, K.
    • 雑誌名

      Artificial Life and Robotics 7・4

      ページ: 177-181

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Reinforcement Learning in Multiple Rewards and Penalties Environments2004

    • 著者名/発表者名
      Miyazaki, K.
    • 雑誌名

      Proc of the 5th International Symposium on Advanced Intelligent Systems (CD-ROM)

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 複数種類の報酬と罰が存在する環境下への罰回避政策形成アルゴリズムの拡張2004

    • 著者名/発表者名
      宮崎和光
    • 雑誌名

      SSI2004(計測自動制御学会 システム・情報部門学術講演会)

      ページ: 163-168

    • 関連する報告書
      2004 実績報告書
  • [文献書誌] 宮崎和光: "Profit Sharingの不完全知覚環境下への拡張:PS-r*の提案と評価"人工知能学会論文誌. 18・5. 286-296 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Miyazaki, K.: "Generating Cooperative Behavior by Multi-Agent Profit Sharing on the Soccer Game"Proc.Of the 4th International Symposium on Advanced Intelligent Systems. 166-169 (2003)

    • 関連する報告書
      2003 実績報告書

URL: 

公開日: 2003-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi