2020 Fiscal Year Annual Research Report
Project/Area Number |
19H04161
|
Research Institution | Hokkaido University |
Principal Investigator |
中村 篤祥 北海道大学, 情報科学研究院, 教授 (50344487)
|
Co-Investigator(Kenkyū-buntansha) |
田畑 公次 北海道大学, 化学反応創成研究拠点, 特任助教 (20814445)
工藤 峰一 北海道大学, 情報科学研究院, 教授 (60205101)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | バンディット問題 / 敵対的バンディット / アルゴリズム / 大規模探索 |
Outline of Annual Research Achievements |
小ノイズ敵対的バンディットの研究においては、以前にUCSCのWarmuth教授とHelmbold教授と一緒に行った敵対的バンディット設定の「ノイズフリーバンディット問題」を小さなノイズを許す問題に拡張し、それに有効なアルゴリズムを開発することを目指している。一昨年度末にUCSCのHelmbold教授を訪問し、ノイズフリー条件(1回も誤らない腕が存在するという条件)を「誤る回数が高々k回の腕が存在する」という条件に緩めた問題定式化を行った。本年度は、その問題設定の下、腕の数が2本でk=1およびk=2のアルゴリズムを開発し、腕の数が3本以上でk>2の条件でも動作するもっと一般的なアルゴリズムの開発に着手した。
精度効率保証大規模探索の研究においては、2019年度に開発した属性選択アルゴリズム[Aurelien, Nakamura, Tabata 2019]のアルゴリズムの探索木の拡張法の検討を行った。精度を保証して大規模探索を実現するためには、探索木の拡張法は重要であり、引き続き検討を行う予定である。
このほか今年度は、分類バンディット問題のアルゴリズムの開発に取り組んだ。分類バンディット問題は、与えられた腕の集合を分類することを目的とするバンディット問題である。この枠組みでは、与えられた腕の内、期待報酬がある値以上の腕がある割合以上あるかないかで分類を行う。本年度は、k-腕設定のトンプソンサンプリングをベースとしたアルゴリズムの開発を行い、実験的な性能評価を行った。また、連続腕設定に拡張した問題を考え、やはりトンプソンサンプリングに基づく方法を考え、実験的評価を行い提案方式の優位性を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
コロナの影響で、2019年度末のUCSC訪問で十分な議論ができず、小ノイズ敵対的バンディットの研究に遅れが生じた。 また、精度効率保証大規模探索の研究では理論保証のある探索木拡張法の開発で予想外に時間がかかっているため、遅れが生じている。
|
Strategy for Future Research Activity |
小ノイズバンディット問題に関しては、引き続きUCSCとの共同研究を続け、腕の数が3本以上でk>2の条件でも動作する一般的なアルゴリズムの開発を行っていく。実際に訪問して共同研究を行う予定であったが、必要な議論はTV会議で行うようにする。精度効率保証大規模探索に関しては、理論的に良い精度効率が保証できる探索空間と探索木拡張法のペアを1つ見つけて示すところから始め、徐々に対象の探索空間の一般化などを行なっていく。また、こちらも分担者や協力者との連携を強め、新しい考えを入れることにより、状況を打破していく。分類バンディットなど、バンディットの新しい方向への発展も取り入れて、研究範囲を少し広げて、実用化のための理論の深化を進めていく。
|