Research Project
Grant-in-Aid for Research Activity Start-up
オンライン学習は,環境から逐次的に得られる情報をもとに意思決定を行い,累積報酬を最大化する枠組みである.オンライン学習では多様な定式化が存在し,特に選択した行動の報酬が直接観測されず,間接的なフィードバックが得られる問題が多く存在する.本分野における近年の大きな関心は,環境の性質に適応的に動作するアルゴリズムを構築することであるが,既存の間接的フィードバックのもとでのオンライン学習における適応的アルゴリズムは,複数の非最適性を有している.そこで,本研究課題では間接的フィードバックのもとでのオンライン学習において,それらの課題を解決したアルゴリズムの設計と理論解析を行う.