Theory Deepening for Practical Applications of Bandit Problem Policies
Project/Area Number |
19H04161
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Hokkaido University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
田畑 公次 北海道大学, 電子科学研究所, 准教授 (20814445)
工藤 峰一 北海道大学, 情報科学研究院, 教授 (60205101)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥9,750,000 (Direct Cost: ¥7,500,000、Indirect Cost: ¥2,250,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
|
Keywords | バンディット問題 / オンライン学習 / バンディット / 分類バンディット問題 / 敵対的バンディット / 最適腕識別 / アルゴリズム / 大規模探索 / 敵対的バンディット問題 / 敵対的バンデット |
Outline of Research at the Start |
探索と知識利用のトレードオフを扱うバンディット問題は、オンライン最適化の様々な問題に応用できるポテンシャルをもっている。本研究は、バンディット問題の方策を実用化という観点から見直し、一般には情報量的または計算量的に困難だとされる問題をヒューリスティクスで解決するのではなく、現実的な制約を課して理論的に精度と効率性を保証する方策を開発することにより、バンディット問題の理論を深化させ、実用化を加速する。敵対的バンディット問題の方策およびモンテカルロ木探索を用いた大規模空間探索において、アルゴリズムの実用化のための定式化の見直しを行い、精度・効率性が理論的に保証された実用的なアルゴリズムを開発する。
|
Outline of Final Research Achievements |
In both adversarial and stochastic bandit settings, we formalized problems that are inspired by practical utility, proposed their efficient and high-performance solution algorithms, and evaluated them theoretically and experimentally. In the adversarial bandit setting, we developed an asymptotically optimal algorithm under the condition that at least one arm does not suffer any loss. In the stochastic setting, we formalized the classification bandit problem, in which the player decides whether the number of arms with their expected rewards at least a given threshold is at least a given threshold or not by drawing arms iteratively, and developed the P-tracking algorithm that is efficient and asymptotically optimal. These results are published in major peer-reviewed international journals and conference proceedings.
|
Academic Significance and Societal Importance of the Research Achievements |
バンディット問題のアルゴリズムは、昔から効率的な治験を行うために研究され、現代ではインターネット広告配信、推薦システム、A/Bテストなどに用いられている。基本的に、能動的なサンプリングを行なって効率的に情報を得る方法の研究であり、様々な応用の可能性を秘めている。開発した分類バンディットアルゴリズムは、ラマン分光によるインタラクティブ計測による病理診断の高速化にも用いいることも可能であり、今後様々な分野の応用に発展することが期待される。
|
Report
(5 results)
Research Products
(19 results)
-
-
-
-
-
-
-
-
-
[Journal Article] Minor-embedding heuristics for large-scale annealing processors with sparse hardware graphs of up to 102,400 nodes2021
Author(s)
Sugie Y, Yoshida Y, Mertig N, Takemoto T, Teramoto H, Nakamura A, Takigawa I, Minato S, Yamaoka M, Komatsuzaki T
-
Journal Title
Soft Computing
Volume: 25(3)
Issue: 3
Pages: 1731-1749
DOI
Related Report
Peer Reviewed
-
-
-
-
-
-
-
-
-
-