• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

エージェントの学習における適切な効用の導出方法

研究課題

研究課題/領域番号 18700145
研究機関大阪大学

研究代表者

森山 甲一  大阪大学, 産業科学研究所, 助教 (10361776)

キーワード強化学習 / エージェント / マルチエージェントシステム / ゲーム理論 / 効用
研究概要

本課題では、人工知能研究の一分野である強化学習において、従来、個体(エージェント)外部からの報酬と同一視されていた効用そのものに関する研究を行っている。強化学習における効用を外部からの報酬の関数とし、この関数を、社会を構成する基本的な要素となる2人2行動同時手番ゲームの枠組みで議論する。各種の2人2行動同時手番ゲームについて、相手の存在や利得などの知識を全く持たない、同一の効用導出関数を持つ強化学習エージェント2台がそのゲームを繰り返し行うときに、ゲーム理論におけるパレート最適となる結果をもたらす効用導出関数を発見することを目的としている。研究初年度である前年度には、強化学習手法としてQ学習手法を利用するときに、効用を報酬と同一とした場合においても、パラメータの設定によって通常予測される均衡とは異なる行動パターンが散発的に現れるという結果がシミュレーション実験により得られている。
研究2年目となる今年度は、そのパターンに関する検証を理論的に行った。その結果として、2人2行動同時手番ゲームの1つである囚人のジレンマゲームにおいて、確率的な行動選択により偶然に両者の協調(パレート最適解)が発生した後に、それを維持させるための効用の計算方法をQ学習のパラメータである学習率と外部からの報酬の関数で示した。この結果については国内外のいくつかの学会で発表している。
また、他者に関する知識を持たないという点で本課題の成果の応用例にすることが出来るかもしれない市場取引に関するエージェントについて、強化学習の適用を試みた結果を国際会議で発表している。

  • 研究成果

    (4件)

すべて 2007

すべて 雑誌論文 (4件) (うち査読あり 3件)

  • [雑誌論文] Reinforcement Learning on a Futures Market Simulator2007

    • 著者名/発表者名
      K. Moriyama, M. Matsumoto, K. Fukui, S. Kurihara, and M. Numao
    • 雑誌名

      Lecture Notes in Artificial Intelligence 4496

      ページ: 42-52

    • 査読あり
  • [雑誌論文] 囚人のジレンマゲームにおけるQ学習による協調の維持2007

    • 著者名/発表者名
      森山 甲一
    • 雑誌名

      第6回情報科学技術フォーラム講演論文集

      ページ: 419-422

  • [雑誌論文] 囚人のジレンマゲームにおけるQ学習による協調の維持2007

    • 著者名/発表者名
      森山 甲一
    • 雑誌名

      合同エージェントワークショップ&シンポジウム2007講演論文集

    • 査読あり
  • [雑誌論文] Utility Based Q-learning to Maintain Cooperation Prisoner's Dilemma Games2007

    • 著者名/発表者名
      Koichi Moriyama
    • 雑誌名

      Proc. 2007 IEEE/WIC/ACM International Conference on Intelligent Agent Technology

      ページ: 146-152

    • 査読あり

URL: 

公開日: 2010-02-04   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi