2008 Fiscal Year Annual Research Report

エージェントの学習における適切な効用の導出方法

Research Project

Project/Area Number	18700145
Research Institution	Osaka University
Principal Investigator	森山甲一 Osaka University, 産業科学研究所, 助教 (10361776)
Keywords	強化学習 / エージェント / マルチエージェントシステム / ゲーム理論 / 効用 / Q学習 / 囚人のジレンマゲーム
Research Abstract	本課題では、人工知能研究の一分野である強化学習において、従来、個体(エージェント)外部からの報酬と同一視されていた効用そのものに関する研究を行った。強化学習における効用を外部からの報酬の関数とし、この関数を、社会を構成する基本的な要素となる2人2行動同時手番ゲームの枠組みで議論した。研究2年目となる昨年度は、強化学習手法としてQ学習手法を用いる場合にパラメータの設定によって通常予測される均衡とは異なる行動パターンが散発的に現れるという初年度のシミュレーション結果から、2人2行動同時手番ゲームの1つである囚人のジレンマゲームにおいて、確率的な行動選択により偶然に両者の協調(パレート最適解)が発生した後にそれを維持させるための効用の計算方法を示した。それは、Q学習のパラメータである学習率と外部からの報酬の関数となっている。ところが、この昨年度の手法には、囚人のジレンマゲーム以外の2人2行動同時手番ゲームに適用すると悪影響を及ぼすという問題点があることが判明した。したがって、最終年度である本年度は、この問題点を解決することを目指し、新たな手法として、効用を利用せずに学習率を調整することによって囚人のジレンマゲームにおける両者の協調を維持させる手法を提案した。本手法では、学習率が0から1の値をとるという性質を利用することにより、他のゲームで生じる悪影響を取り除くことが可能であることが示された。得られた結果を効用の計算に応用することも可能である。

Research Products
(4 results)

All 2008

All Journal Article (4 results) (of which Peer Reviewed: 4 results)

[Journal Article] Reinforcement Learning on a Futures Market Simulator2008
- Author(s)
  K. Moriyama, M. Matsumoto, K. Fukui, S. Kurihara, and M. Numao
- Journal Title
  
  Journal of Universal Computer Science 14
  
  Pages: 1136-1153
- Peer Reviewed
[Journal Article] 囚人のジレンマゲームにおけるQ学習による協調の維持2008
- Author(s)
  森山甲一
- Journal Title
  
  コンピュータソフトウェア 25
  
  Pages: 145-153
- Peer Reviewed
[Journal Article] 2人2行動ゲームのための学習率調整Q学習2008
- Author(s)
  森山甲一
- Journal Title
  
  合同エージェントワークショップ&シンポジウム2008講演論文集
- Peer Reviewed
[Journal Article] Learning-Rate Adjusting Q-learning for Prisoner's Dilemma Games2008
- Author(s)
  Koichi Moriyama
- Journal Title
  
  Proc. of the 2008 IEEE/WIC/ACM International Conference on Intelligent Agent Technology
  
  Pages: 322-325
- Peer Reviewed

2008 Fiscal Year Annual Research Report

エージェントの学習における適切な効用の導出方法

Principal Investigator

森山 甲一 Osaka University, 産業科学研究所, 助教 (10361776)

Research Products

[Journal Article] Reinforcement Learning on a Futures Market Simulator2008

Author(s)

Journal Title

[Journal Article] 囚人のジレンマゲームにおけるQ学習による協調の維持2008

Author(s)

Journal Title

[Journal Article] 2人2行動ゲームのための学習率調整Q学習2008

Author(s)

Journal Title

[Journal Article] Learning-Rate Adjusting Q-learning for Prisoner's Dilemma Games2008

Author(s)

Journal Title

森山甲一 Osaka University, 産業科学研究所, 助教 (10361776)