不確実かつ報酬に遅れのある環境下での強化学習

Research Project

Project/Area Number	06680345
Research Category	Grant-in-Aid for General Scientific Research (C)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Tokyo Institute of Technology
Principal Investigator	山村雅幸東京工業大学, 大学院・総合理工学研究科, 助手 (00220442)
Co-Investigator(Kenkyū-buntansha)	小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)
Project Period (FY)	1994
Project Status	Completed (Fiscal Year 1994)
Budget Amount *help	¥1,300,000 (Direct Cost: ¥1,300,000) Fiscal Year 1994: ¥1,300,000 (Direct Cost: ¥1,300,000)
Keywords	強化学習 / 経験強化型学習 / 環境同定型学習 / profit sharing / k確実探査法 / DSG法 / 不完全知覚問題 / マルチエージェントシステム
Research Abstract	1)経験強化型学習の合理性についての理論的考察経験強化型学習の挙動の合理性を調べることを目的に,本研究ではprofit sharingと呼ばれる強化学習を解析の対象に選んだ.profit sharingでは報酬を得るまでのステップ数と報酬の分配率を対応づける関数を強化関数と呼んでいる.本研究ではこの強化関数について,報酬を得る上で無駄なルールは強化すべきではないという局所的な合理性および必ずいくらかの報酬を続けて得るという大局的な合理性を満足するための必要十分条件を導いた. 2)環境同定を指向した行動決定戦略:k確実探査法とその拡張環境同定を極端に重視した方法としてk確実探査法を提案した.k確実探査法ではある状態である行動をとったときに別の状態に遷移する状態遷移確率の推定値と報酬の期待値に関する統計情報を保持し,不確実性の高い部分に焦点を合わせて行動を決定する.有意な統計情報が得られた後,policy iterationアルゴリズムを適用することにより,最適政策を容易に求めることができる. 3)不完全知覚下での学習感覚器が不完全であると,異なる環境を区別できず,学習エージェントにとっては非マルコフ的に見えるとき,知覚騙し(perceptual aliasing)があるという.本研究では予測モデルを日和見的に構築しつつ,profit sharingによって経験を選択的に強化することにより,報酬獲得につながる部分について予測モデルを精緻化する方法を提案している.本方法はつねに正しい予測モデルを構築することを保証するものではないが,極めて高い頻度で正しい予測モデルを構築できることを実験により確認している.