2006 年度実績報告書

エージェントの学習における適切な効用の導出方法

研究課題

研究課題/領域番号	18700145
研究機関	大阪大学
研究代表者	森山甲一大阪大学, 産業科学研究所, 助手 (10361776)
キーワード	強化学習 / エージェント / マルチエージェントシステム / ゲーム理論 / 効用
研究概要	本課題では、人工知能研究の一分野である強化学習において、従来、個体(エージェント)外部からの報酬と同一視されていた効用そのものに関する研究を行っている。強化学習における効用を外部からの報酬の関数とし、この関数を、社会を構成する基本的な要素となる2人2行動同時手番ゲームの枠組みで議論する。各種の2人2行動同時手番ゲームについて、相手の存在や利得などの知識を全く持たない、同一の効用導出関数を持つ強化学習エージェント2台がそのゲームを繰り返し行うときに、ゲーム理論におけるパレート最適となる結果をもたらす効用導出関数を発見することを目的としている。研究初年度である本年度は、シミュレーション実験を行うための計算機を購入し、2人2行動同時手番ゲーム環境および強化学習エージェントをその計算機上に構築した。そして、学習に用いる効用とゲームのそれぞれについて少しずつ設定を変更したシミュレーション実験を実行することにより、それぞれのゲームにおける適切な効用導出関数についての情報の収集を行った。強化学習手法としてQ学習法および学習されたQ関数からの行動選択手法としてsoftmax法を用い、従来どおり効用を報酬と同一とした場合において、パラメータの設定により、ゲームの繰り返しの過程において通常予測される均衡とは異なる行動パターンが散発的に現れることを発見した。この行動パターンの発生について詳しく解析し、パレート最適ではない均衡から離脱するパターンを恒常的に導く効用関数を設定することについては次年度に検討する予定である。他者に関する知識を持たずに行動を選択する例として、株式などの市場取引が挙げられる。これは2人2行動同時手番ゲームの枠組みからは外れるが、本課題の成果の応用例として利用できるかもしれないため、通常の強化学習の適用について調査を行った。

研究成果
(2件)

すべて 2007 2006

すべて雑誌論文 (2件)

[雑誌論文] Reinforcement Learning on a Futures Market Simulator2007
- 著者名/発表者名
  K.Moriyama, M.Matsumoto, K.Fukui, S.Kurihara, M.Numao
- 雑誌名
  
  Lecture Notes in Artificial Intelligence (in press)
[雑誌論文] U-MartにおけるQ学習工ージェントの設計と評価2006
- 著者名/発表者名
  松本光弘, 福井健一, 森山甲一, 栗原聡, 沼尾正行
- 雑誌名
  
  人工知能学会全国大会(第20回)論文集