本課題では、人工知能研究の一分野である強化学習において、従来、個体(エージェント)外部からの報酬と同一視されていた効用そのものに関する研究を行っている。強化学習における効用を外部からの報酬の関数とし、この関数を、社会を構成する基本的な要素となる2人2行動同時手番ゲームの枠組みで議論する。各種の2人2行動同時手番ゲームについて、相手の存在や利得などの知識を全く持たない、同一の効用導出関数を持つ強化学習エージェント2台がそのゲームを繰り返し行うときに、ゲーム理論におけるパレート最適となる結果をもたらす効用導出関数を発見することを目的としている。 研究初年度である本年度は、シミュレーション実験を行うための計算機を購入し、2人2行動同時手番ゲーム環境および強化学習エージェントをその計算機上に構築した。そして、学習に用いる効用とゲームのそれぞれについて少しずつ設定を変更したシミュレーション実験を実行することにより、それぞれのゲームにおける適切な効用導出関数についての情報の収集を行った。強化学習手法としてQ学習法および学習されたQ関数からの行動選択手法としてsoftmax法を用い、従来どおり効用を報酬と同一とした場合において、パラメータの設定により、ゲームの繰り返しの過程において通常予測される均衡とは異なる行動パターンが散発的に現れることを発見した。この行動パターンの発生について詳しく解析し、パレート最適ではない均衡から離脱するパターンを恒常的に導く効用関数を設定することについては次年度に検討する予定である。 他者に関する知識を持たずに行動を選択する例として、株式などの市場取引が挙げられる。これは2人2行動同時手番ゲームの枠組みからは外れるが、本課題の成果の応用例として利用できるかもしれないため、通常の強化学習の適用について調査を行った。
|