| Project/Area Number |
21K11747
|
| Research Category |
Grant-in-Aid for Scientific Research (C)
|
| Allocation Type | Multi-year Fund |
| Section | 一般 |
| Review Section |
Basic Section 60010:Theory of informatics-related
|
| Research Institution | Kyoto University |
Principal Investigator |
Honda Junya 京都大学, 情報学研究科, 准教授 (10712391)
|
| Project Period (FY) |
2021-04-01 – 2025-03-31
|
| Project Status |
Completed (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
| Keywords | バンディット問題 / 機械学習 / 強化学習 / オンライン学習 / 両環境最適性 / 治験 / 学習理論 / 実験計画 / 情報理論 |
| Outline of Research at the Start |
本研究は,ウェブの推薦システムや新規化合物の開発等をはじめとした,試行錯誤を通じて優れた候補を探索するモデルであるバンディット問題における効率的なアルゴリズムの開発を行う.この問題ではトンプソン抽出とよばれるランダム方策が近年よく用いられるようになっているが,これはアルゴリズムの柔軟性が低く限られた設定に対してしか理論限界を達成できない.そこで,本研究はトンプソン抽出をはじめとしたランダム方策が複雑な計算を避けつつ優れた性能を示す原理を系統立てて理解し取り出すことで,汎用的に理論限界を達成可能かつ実用的なランダム方策の構成法を確立する.
|
| Outline of Final Research Achievements |
This research focused on randomized policies in decision-making problems known as bandit problems. Through this research, we clarified the applicability and limitations of Thompson sampling, a policy that has been extensively studied, in various problems such as dynamic pricing design and non-stationary settings. Additionally, we newly revealed that the policy called FTPL (Follow-the-Perturbed-Leader) has the excellent property called a best-of-both-worlds guarantee. Furthermore, we successfully constructed superior policies in various settings, including methods using randomized policies constructed through frameworks such as reinforcement learning and FTRL (Follow-the-Regularized-Leader).
|
| Academic Significance and Societal Importance of the Research Achievements |
トンプソンサンプリングは現在実用上も標準的に用いられている方策であり、その応用範囲の拡張や限界の解明は実用上大きな意義がある。また、FTPL方策は同設定で従来主流であったFTRLと異なり最適化計算が不要となる高速な方策であり、その両環境最適性については2010年代より未解決問題として考えられていた。本研究はこれを肯定的に解決したものであり、最近研究が盛んになっている両環境最適性をもつ方策を実用可能とするための重要な学術的意義をもつ。
|