ミニマックス最適化で拓く最適方策探索手法の構築

研究課題

研究課題/領域番号	25K21291
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	株式会社サイバーエージェント(AI事業本部 AI Lab)
研究代表者	蟻生開人株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, リサーチサイエンティスト(上席) (80984286)
研究期間 (年度)	2025-04-01 – 2030-03-31
研究課題ステータス	交付 (2025年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2029年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2028年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2027年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2026年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
キーワード	多腕バンディット問題 / 逐次的意思決定 / オンライン学習
研究開始時の研究の概要	本研究では、逐次的意思決定問題の一つである強化学習における最適方策探索問題に取り組む。この問題は、例えばWebマーケティングで一般的に用いられるA/Bテストがユーザーの状態を考慮しない静的な方策評価であるのに対し、ユーザーの状態や行動履歴を考慮した動的な方策を明示的に利用する一般化として捉えることが可能である。本研究では、方策の候補が与えられた状況で、少ないサンプルから優れた方策を発見する手法の構築を目指す。最小のサンプル数を達成する手法がミニマックス最適化の解として構成できることに注目し、これに基づく新たな最適方策探索手法の提案を行う。