本課題では、人工知能研究の一分野である強化学習において、従来、個体(エージェント)外部からの報酬と同一視されていた効用そのものに関する研究を行った。強化学習における効用を外部からの報酬の関数とし、この関数を、社会を構成する基本的な要素となる2人2行動同時手番ゲームの枠組みで議論した。研究2年目となる昨年度は、強化学習手法としてQ学習手法を用いる場合にパラメータの設定によって通常予測される均衡とは異なる行動パターンが散発的に現れるという初年度のシミュレーション結果から、2人2行動同時手番ゲームの1つである囚人のジレンマゲームにおいて、確率的な行動選択により偶然に両者の協調(パレート最適解)が発生した後にそれを維持させるための効用の計算方法を示した。それは、Q学習のパラメータである学習率と外部からの報酬の関数となっている。 ところが、この昨年度の手法には、囚人のジレンマゲーム以外の2人2行動同時手番ゲームに適用すると悪影響を及ぼすという問題点があることが判明した。したがって、最終年度である本年度は、この問題点を解決することを目指し、新たな手法として、効用を利用せずに学習率を調整することによって囚人のジレンマゲームにおける両者の協調を維持させる手法を提案した。本手法では、学習率が0から1の値をとるという性質を利用することにより、他のゲームで生じる悪影響を取り除くことが可能であることが示された。得られた結果を効用の計算に応用することも可能である。
|