新たな設計指針に基づく不完全知覚下での強化学習手法の提案と工学的応用に関する研究

研究課題

研究課題/領域番号	15700143
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	独立行政法人大学評価・学位授与機構
研究代表者	宮崎和光独立行政法人大学評価・学位授与機構, 学位審査研究部, 助教授 (20282866)
研究期間 (年度)	2003 – 2004
研究課題ステータス	完了 (2004年度)
配分額 *注記	1,900千円 (直接経費: 1,900千円) 2004年度: 900千円 (直接経費: 900千円) 2003年度: 1,000千円 (直接経費: 1,000千円)
キーワード	強化学習 / 報酬と罰 / 不完全知覚問題 / Profit Sharing / POMDPs
研究概要	本年度においては、まず初めに、複数種類の報酬と罰が存在する環境を対象に、それらの間の優先順位を考慮した強化学習システムの提案を行った。これは、これまで研究代表者が主張してきた「報酬と罰に値を設定することなく、直接、罰の回避と報酬の獲得を目指す」という設計指針に合致した手法を、「報酬と罰の間の優先順位」という観点から捉え直すことで得られた。これにより、従来、不適切な取り扱いがなされる可能性のあった複数種類の報酬と罰が存在する環境を適切に取り扱うことが可能となった。その後、さらにこの考えを、昨年度提案したPS-r*に適用した。これにより当初の研究目的である、「不完全知覚環境を対象とする強化学習システムにおける複数種類の報酬および罰の取り扱い方法に関する指針」、すなわち、「報酬と罰に値を設定する必要はなく、それらの間の優先順位を与えればよい」を得ることができた。現在、強化学習システムは、報酬と罰に値を設定し、それらの値を元に学習システムの評価関数を更新するものが主流となっている。しかしながら、そのようなシステムを実問題に応用する際には、報酬および罰をどのように設計するかが非常に重要な問題となる。本研究課題では、これまでの報酬と罰を一軸で評価することの問題点を指摘するとともに、報酬と罰の間の優先順位に着目した新たな設計指針、ならびに、その指針に合致した強化学習システムを提案している点に大きな意味がある。これにより、強化学習の実問題への応用を強く後押しするものと考える。本研究課題では、具体的なテストベットとしてサッカーサーバを想定し実験環境の整備を行ってきた。サッカーサーバについては、先に行った予備的実験を踏まえ、現在、大規模な実験を行う準備をしている最中である。また、その他、オセロゲーム等の対戦型のゲーム問題を複数種類の報酬と罰が存在する不完全知覚問題として定式化し、提案手法の有効性の検証に利用することも現在検討している。