純粋探索問題の実応用に向けた多腕バンディット手法の構築

研究課題

研究課題/領域番号	24K15064
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	北海道大学
研究代表者	田畑公次北海道大学, 電子科学研究所, 准教授 (20814445)
研究期間 (年度)	2024-04-01 – 2027-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2026年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2025年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	多腕バンディット / 純粋探索問題 / 最適化問題 / アルゴリズム
研究開始時の研究の概要	純粋探索問題は、A/Bテストのような最適選択肢を特定する最適腕識別問題を一般化したものであり、所与の誤識別率δに対して、確率1-δ以上で、与えられた判別関数が定める各腕の平均報酬の組に対する「正解」を正しく識別する問題として定式化される。最近では、純粋探索問題に対して漸近最適性を持つ汎用アルゴリズムが提案されるが、一般的な解法が存在しない最適化問題を解決する必要があることや、非効率的な「強制探索」が必要であるという問題点がある。本研究では、これらの最適化問題に対する効率的な解法を提案し、強制探索に依存しない効率的な探索アルゴリズムの開発を行う。