2021 Fiscal Year Research-status Report

バンディット問題における最適性達成のためのランダム方策の発展と解析

Research Project

Project/Area Number	21K11747
Research Institution	Kyoto University
Principal Investigator	本多淳也京都大学, 情報学研究科, 准教授 (10712391)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	機械学習 / 実験計画
Outline of Annual Research Achievements	本年度はバンディット問題におけるランダム方策のうち，特に複雑な構造をもつデータのためのランダム方策の構築と解析を行った．バンディット問題のうち連続な行動空間に対応するものはベイズ最適化とよばれるが、クラウドソーシングのような応用ではワーカーの属性といった入力の特徴量を完全には指定できず，その一部が確率的に決定される設定がよく現れる．このような設定に対して，本研究ではトンプソン抽出を一般化した方策を構築し，その性能保証を与えた．この結果は機械学習のトップジャーナルであるMachine Learning誌に採録された．バンディット問題の応用先として古くより考えられてきた対象として新薬の治験がある．本研究では治験のうち第２相試験を対象とし，強化学習を用いた動的な患者の割り振り方策を構成した．バンディット問題の一部の設定では強化学習を用いても実用的に優れた方策が構成可能なことが知られているが，本設定は累積報酬最大化ではなく純粋探索問題に対応し，報酬の遅延や疎性といった問題から強化学習の適用が必ずしも容易ではないが，治験の分野で知られている解析手法を適切に組み込んだ学習を用いることで既存の手法より優れた効果推定が可能となることを示した．この結果は薬学のトップジャーナルであるStatistics in Medicine誌に採録された．　ほか，マイナーな言語間での機械翻訳など、直接の教師データは少ないものの英訳等の中間媒体となるデータについては豊富に存在するという設定での学習タスクについて，目的となる損失をバイアスなしに最小化する学習器を構成した．本設定はバンディット問題とは全く異なるものの，理論解析において一部バンディット問題と似た要素が現れるため、この部分に関する解析補助を行った．この結果は機械学習のトップカンファレンスであるICMLに採録された．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason バンディット問題におけるランダム方策の解析については，従来の漸近最適方策の過程で計算する最尤推定量と事後分布からのサンプリングにより得られるその候補のギャップが想定より無視できないことから評価にある種の困難性があることが判明した．一方，ランダム方策については敵対的バンディットとよばれる設定や強化学習についても効果的に用いることが知られており，それらにおける方策の構築については予想を上回る結果が得られている．
Strategy for Future Research Activity	以上の進捗状況を踏まえ，今後は特に敵対的バンディットや強化学習といった設定におけるランダム方策の構築および解析を当面行っていく予定である．これらにおいては，推定値の挙動にばらつきが大きくなりやすいといった困難性が生じるが，これらについても解析にあたって一定の目途が立っており，それらの方策の解析を通じてランダム方策の優位性を明らかにしていく方針である．
Causes of Carryover	コロナ禍に伴う国際会議のバーチャル化に伴い，当該年度はジャーナル投稿を中心に行ったほか国際会議の情報収集に費用が生じなかった．次年度は国際会議の参加を通じて助成金を使用する予定である．

Research Products
(3 results)

All 2022 2021

All Journal Article (3 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 3 results, Open Access: 3 results)

[Journal Article] Bayesian optimization with partially specified queries2022
- Author(s)
  Hayashi Shogo、Honda Junya、Kashima Hisashi
- Journal Title
  
  Machine Learning
  
  Volume: 111 Pages: 1019～1048
- DOI
  10.1007/s10994-021-06079-3
- Peer Reviewed / Open Access
[Journal Article] Optimal adaptive allocation using deep reinforcement learning in a dose‐response study2021
- Author(s)
  Matsuura Kentaro、Honda Junya、El Hanafi Imad、Sozu Takashi、Sakamaki Kentaro
- Journal Title
  
  Statistics in Medicine
  
  Volume: 41 Pages: 1157～1171
- DOI
  10.1002/sim.9247
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences2021
- Author(s)
  Ikko Yamane、Junya Honda、Florian Yger、Masashi Sugiyama
- Journal Title
  
  Proceedings of the 38th International Conference on Machine Learning
  
  Volume: 139 Pages: 11637～11647
- Peer Reviewed / Open Access / Int'l Joint Research

2021 Fiscal Year Research-status Report

バンディット問題における最適性達成のためのランダム方策の発展と解析

Principal Investigator

本多 淳也 京都大学, 情報学研究科, 准教授 (10712391)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Bayesian optimization with partially specified queries2022

Author(s)

Journal Title

DOI

[Journal Article] Optimal adaptive allocation using deep reinforcement learning in a dose‐response study2021

Author(s)

Journal Title

DOI

[Journal Article] Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences2021

Author(s)

Journal Title

本多淳也京都大学, 情報学研究科, 准教授 (10712391)