研究課題/領域番号 |
21K11747
|
研究機関 | 京都大学 |
研究代表者 |
本多 淳也 京都大学, 情報学研究科, 准教授 (10712391)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 機械学習 / 学習理論 / 実験計画 |
研究実績の概要 |
本年度はバンディット問題におけるランダム方策のうち,特に敵対的バンディットとよばれる設定に対して頑健な方策の構築と解析を主に行った。敵対的バンディットとは報酬が一定の確率分布からではなく敵対者によって生成される設定で、確率的・敵対的両方の設定で同時に最適オーダーを達成する方策はBest-Of-Both-Worlds (BOBW)とよばれる。これらは敵対的設定に対応するためにランダム方策を用いることが本質的に必要となる。 これらに対して、本研究では敵対的設定においても報酬の分散情報を活用可能なBOBW方策を新たに提案し、各設定に特化した方策に比べて損失が高々2倍程度で抑えられることを証明した。この結果は学習理論のトップ会議COLT2022に採録された。 次に、バンディット問題を一般化した問題クラスとしてグラフフィードバック付きバンディットや部分観測問題とよばれる設定が知られている。本研究ではこれらの設定に対して「最適化による探索」とよばれる近年別の文脈で知られるようになった手法を取り入れることでBOBW方策を新たに構成した。この結果は機械学習のトップ会議NeurIPS2022および学習理論のトップ会議ALT2023に採録された。 上記のBOBW方策はいずれもランダム選択の確率分布を時刻ごとに最適化計算によって求める必要があった。これに対して、最適化計算の不要なランダム方策であるFollow-The-Perturbed-Leader (FTPL)がBOBW性を達成可能であるかは長年未解決であったが、本研究では対称多項式に関する代数的な手法を用いることでこの問題を肯定的に解決した。この結果はALT2023に採録された。 その他、最適腕識別とよばれる設定に対してランダム方策を含む一般の方策に対する理論限界を新たに構築した。この結果はNeurIPS2022に採録された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
BOBW方策に関する研究では確率的設定・敵対的設定の両面に対する深い理解が必要となるが、本研究代表者が得意とする確率的設定に関する知見を敵対的設定に関する深い知識を有する共同研究者と協業することで研究が大幅に進展し、トップ会議に論文5本が採録されるという極めて順調な成果が得られた。
|
今後の研究の推進方策 |
以上の進捗状況を踏まえ、今後は特に敵対的設定に対応可能なランダム方策の構築および解析を当面行っていく予定である。これらについては、2022年度までに得られた結果の順当な拡張や改善のほか、BOBW方策の確率的設定における本質的な限界を追求するといったテーマにも取り組む予定である。後者については少なくとも従来の標準的な解析手法では不可能であることが予備研究から示唆されており、確率過程としての解析といった従来この文脈では全く用いられていないアプローチからの解決も検討している。
|
次年度使用額が生じた理由 |
本年度は複数論文の採録が偶然同一の会議となったため旅費が想定より少なかった。次年度は国際会議の参加を通じて助成金を使用する予定である。
|