• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

バンディット問題における最適性達成のためのランダム方策の発展と解析

研究課題

研究課題/領域番号 21K11747
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分60010:情報学基礎論関連
研究機関京都大学

研究代表者

本多 淳也  京都大学, 情報学研究科, 准教授 (10712391)

研究期間 (年度) 2021-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード機械学習 / バンディット問題 / オンライン学習 / 治験 / 学習理論 / 実験計画 / 情報理論
研究開始時の研究の概要

本研究は,ウェブの推薦システムや新規化合物の開発等をはじめとした,試行錯誤を通じて優れた候補を探索するモデルであるバンディット問題における効率的なアルゴリズムの開発を行う.この問題ではトンプソン抽出とよばれるランダム方策が近年よく用いられるようになっているが,これはアルゴリズムの柔軟性が低く限られた設定に対してしか理論限界を達成できない.そこで,本研究はトンプソン抽出をはじめとしたランダム方策が複雑な計算を避けつつ優れた性能を示す原理を系統立てて理解し取り出すことで,汎用的に理論限界を達成可能かつ実用的なランダム方策の構成法を確立する.

研究実績の概要

本年度の研究では、バンディット問題におけるランダム方策のうちまず組合せ構造をもつバンディット問題に対して分散適応性のある方策の構築を行った。組合せ構造をもつ設定は推薦システムにおける商品の同時推薦や経路探索など、実応用において損失や報酬の最大範囲に比べて実際の報酬のばらつきが小さくなりやすい。このような設定に対して、本研究では確率的設定・敵対的設定のいずれでも最適オーダーの性能保証(両環境最適性とよばれる)をもちつつ、小さな分散をもつ報酬系列に対して適応的に動作する方策を新たに構成した。
両環境最適性をもつ方策のほとんどは、方策の損失を安定性項・罰則項とよばれる2つの項に分解し、それらを適切にバランスさせるような学習率を設定することで構成される。ここで、従来は学習率を安定性項・罰則項のいずれかのみに動的に依存する方策への解析方法が知られており、これが原因となり達成可能な性能保証に制約が生じていた。これに対し本研究では安定性項・罰則項の双方に動的に依存する学習率に対する新たな解析手法を確立し、これにより実際に広範な設定において優れた保証を達成可能であることを示した。
また、確率的環境におけるランダム方策についてはトンプソン抽出とよばれる方策が最適に近い性能を小さい計算量で達成する方策として知られているが、その性能保証は一部の比較的解析しやすい設定に限られていた。これに対し、本研究ではパレート分布モデルに対するトンプソン抽出が事前分布によっては一般的な対数オーダーではなく多項式オーダーの損失を被ることを新たに示し、その修正方法を示した。
その他、累積報酬を最大化するのでなく優れた候補の発見を目指す最適腕識別の問題において、トンプソン抽出の手法を応用することで優れた性能を達成する方策を構築したほか、実際の治験における第1相試験において優れた用量を発見する方策の構築を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

両環境最適性をもつ方策の構成については近年研究が進んでおり競争的なトピックであるが、本研究では上記の結果がトップ国際会議NeurIPSおよびAISTATSに採録され非常に順調な結果が得られた。さらに、古典的な確率的設定における方策についても国際会議ICMLおよびACMLに採録され、さらには治験における実応用についても創薬の論文誌Journal of Biopharmaceutical Statisticsに採録されるなど、理論・応用の両面から極めて順調な結果が得られたといえる。

今後の研究の推進方策

以上の進捗状況を踏まえ、今後も特に敵対的設定に対応可能なランダム方策に関する研究を推進する予定である。特に、バンディット問題の一般化である部分観測問題についてはExploration by Optimizationとよばれる損失上界の最適化に基づく方策が近年注目されているが、これは両環境最適性の達成とはやや相性が悪いという問題が知られており、今後はこういった点への対応を検討している。

報告書

(3件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (15件)

すべて 2023 2022 2021

すべて 雑誌論文 (13件) (うち国際共著 4件、 査読あり 13件、 オープンアクセス 12件) 学会発表 (2件) (うち招待講演 2件)

  • [雑誌論文] Optimal dose escalation methods using deep reinforcement learning in phase I oncology trials2023

    • 著者名/発表者名
      Matsuura Kentaro、Sakamaki Kentaro、Honda Junya、Sozu Takashi
    • 雑誌名

      Journal of Biopharmaceutical Statistics

      巻: 33 号: 5 ページ: 639-652

    • DOI

      10.1080/10543406.2023.2170402

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] Stability-penalty-adaptive Follow-the-regularized-leader: Sparsity, Game-dependency, and Best-of-both-worlds2023

    • 著者名/発表者名
      Taira Tsuchiya, Shinji Ito, Junya Honda
    • 雑誌名

      Advances in Neural Information Processing Systems

      巻: 36 ページ: 47406-47437

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Thompson Exploration with Best Challenger Rule in Best Arm Identification2023

    • 著者名/発表者名
      Jongyeong Lee, Junya Honda, Masashi Sugiyama
    • 雑誌名

      Proceedings of the 15th Asian Conference on Machine Learning (ACML 2023)

      巻: 222 ページ: 646-661

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Optimality of Thompson Sampling with Noninformative Priors for Pareto Bandits2023

    • 著者名/発表者名
      Jongyeong Lee, Junya Honda, Chao-Kai Chiang, Masashi Sugiyama
    • 雑誌名

      Proceedings of the 40th International Conference on Machine Learning (ICML2023)

      巻: 202 ページ: 18810-18851

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Further Adaptive Best-of-Both-Worlds Algorithm for Combinatorial Semi-Bandits2023

    • 著者名/発表者名
      Taira Tsuchiya, Shinji Ito, Junya Honda
    • 雑誌名

      Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (AISTATS2023)

      巻: 206 ページ: 8117-8144

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Best-of-Both-Worlds Algorithms for Partial Monitoring2023

    • 著者名/発表者名
      Taira Tsuchiya, Shinji Ito, Junya Honda
    • 雑誌名

      Proceedings of The 34th International Conference on Algorithmic Learning Theory (ALT2023)

      巻: 201 ページ: 1484-1515

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Follow-the-Perturbed-Leader Achieves Best-of-Both-Worlds for Bandit Problems2023

    • 著者名/発表者名
      Junya Honda, Shinji Ito, Taira Tsuchiya
    • 雑誌名

      Proceedings of The 34th International Conference on Algorithmic Learning Theory (ALT2023)

      巻: 201 ページ: 726-754

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Adversarially Robust Multi-Armed Bandit Algorithm with Variance-Dependent Regret Bounds2022

    • 著者名/発表者名
      Shinji Ito, Taira Tsuchiya, Junya Honda
    • 雑誌名

      Proceedings of The 35th Annual Conference on Learning Theory (COLT2022)

      巻: 178 ページ: 1421-1422

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Minimax Optimal Algorithms for Fixed-Budget Best Arm Identification2022

    • 著者名/発表者名
      Junpei Komiyama, Taira Tsuchiya, Junya Honda
    • 雑誌名

      Advances in Neural Information Processing Systems

      巻: 35 ページ: 10393-10404

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Nearly Optimal Best-of-Both-Worlds Algorithms for Online Learning with Feedback Graphs2022

    • 著者名/発表者名
      Shinji Ito, Taira Tsuchiya, Junya Honda
    • 雑誌名

      Advances in Neural Information Processing Systems

      巻: 35 ページ: 28631-28643

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Bayesian optimization with partially specified queries2022

    • 著者名/発表者名
      Shogo Hayashi, Junya Honda, Hisashi Kashima
    • 雑誌名

      Machine Learning

      巻: 111 号: 3 ページ: 1019-1048

    • DOI

      10.1007/s10994-021-06079-3

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Optimal adaptive allocation using deep reinforcement learning in a dose‐response study2021

    • 著者名/発表者名
      Matsuura Kentaro、Honda Junya、El Hanafi Imad、Sozu Takashi、Sakamaki Kentaro
    • 雑誌名

      Statistics in Medicine

      巻: 41 号: 7 ページ: 1157-1171

    • DOI

      10.1002/sim.9247

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences2021

    • 著者名/発表者名
      Ikko Yamane、Junya Honda、Florian Yger、Masashi Sugiyama
    • 雑誌名

      Proceedings of the 38th International Conference on Machine Learning

      巻: 139 ページ: 11637-11647

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] バンディット問題における漸近最適方策のランダム化に基づく構築2023

    • 著者名/発表者名
      本多淳也
    • 学会等名
      第35回RAMP数理最適化シンポジウム (RAMP 2023)
    • 関連する報告書
      2023 実施状況報告書
    • 招待講演
  • [学会発表] 汎用的な逐次意思決定アルゴリズムに向けて2022

    • 著者名/発表者名
      本多淳也
    • 学会等名
      第48回IBISML研究会
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演

URL: 

公開日: 2021-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi