2007 Fiscal Year Annual Research Report
Project/Area Number |
18700145
|
Research Institution | Osaka University |
Principal Investigator |
森山 甲一 Osaka University, 産業科学研究所, 助教 (10361776)
|
Keywords | 強化学習 / エージェント / マルチエージェントシステム / ゲーム理論 / 効用 |
Research Abstract |
本課題では、人工知能研究の一分野である強化学習において、従来、個体(エージェント)外部からの報酬と同一視されていた効用そのものに関する研究を行っている。強化学習における効用を外部からの報酬の関数とし、この関数を、社会を構成する基本的な要素となる2人2行動同時手番ゲームの枠組みで議論する。各種の2人2行動同時手番ゲームについて、相手の存在や利得などの知識を全く持たない、同一の効用導出関数を持つ強化学習エージェント2台がそのゲームを繰り返し行うときに、ゲーム理論におけるパレート最適となる結果をもたらす効用導出関数を発見することを目的としている。研究初年度である前年度には、強化学習手法としてQ学習手法を利用するときに、効用を報酬と同一とした場合においても、パラメータの設定によって通常予測される均衡とは異なる行動パターンが散発的に現れるという結果がシミュレーション実験により得られている。 研究2年目となる今年度は、そのパターンに関する検証を理論的に行った。その結果として、2人2行動同時手番ゲームの1つである囚人のジレンマゲームにおいて、確率的な行動選択により偶然に両者の協調(パレート最適解)が発生した後に、それを維持させるための効用の計算方法をQ学習のパラメータである学習率と外部からの報酬の関数で示した。この結果については国内外のいくつかの学会で発表している。 また、他者に関する知識を持たないという点で本課題の成果の応用例にすることが出来るかもしれない市場取引に関するエージェントについて、強化学習の適用を試みた結果を国際会議で発表している。
|
Research Products
(4 results)