2021 Fiscal Year Research-status Report
バンディット問題における最適性達成のためのランダム方策の発展と解析
Project/Area Number |
21K11747
|
Research Institution | Kyoto University |
Principal Investigator |
本多 淳也 京都大学, 情報学研究科, 准教授 (10712391)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 機械学習 / 実験計画 |
Outline of Annual Research Achievements |
本年度はバンディット問題におけるランダム方策のうち,特に複雑な構造をもつデータのためのランダム方策の構築と解析を行った. バンディット問題のうち連続な行動空間に対応するものはベイズ最適化とよばれるが、クラウドソーシングのような応用ではワーカーの属性といった入力の特徴量を完全には指定できず,その一部が確率的に決定される設定がよく現れる.このような設定に対して,本研究ではトンプソン抽出を一般化した方策を構築し,その性能保証を与えた.この結果は機械学習のトップジャーナルであるMachine Learning誌に採録された. バンディット問題の応用先として古くより考えられてきた対象として新薬の治験がある.本研究では治験のうち第2相試験を対象とし,強化学習を用いた動的な患者の割り振り方策を構成した.バンディット問題の一部の設定では強化学習を用いても実用的に優れた方策が構成可能なことが知られているが,本設定は累積報酬最大化ではなく純粋探索問題に対応し,報酬の遅延や疎性といった問題から強化学習の適用が必ずしも容易ではないが,治験の分野で知られている解析手法を適切に組み込んだ学習を用いることで既存の手法より優れた効果推定が可能となることを示した.この結果は薬学のトップジャーナルであるStatistics in Medicine誌に採録された. ほか,マイナーな言語間での機械翻訳など、直接の教師データは少ないものの英訳等の中間媒体となるデータについては豊富に存在するという設定での学習タスクについて,目的となる損失をバイアスなしに最小化する学習器を構成した.本設定はバンディット問題とは全く異なるものの,理論解析において一部バンディット問題と似た要素が現れるため、この部分に関する解析補助を行った.この結果は機械学習のトップカンファレンスであるICMLに採録された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
バンディット問題におけるランダム方策の解析については,従来の漸近最適方策の過程で計算する最尤推定量と事後分布からのサンプリングにより得られるその候補のギャップが想定より無視できないことから評価にある種の困難性があることが判明した.一方,ランダム方策については敵対的バンディットとよばれる設定や強化学習についても効果的に用いることが知られており,それらにおける方策の構築については予想を上回る結果が得られている.
|
Strategy for Future Research Activity |
以上の進捗状況を踏まえ,今後は特に敵対的バンディットや強化学習といった設定におけるランダム方策の構築および解析を当面行っていく予定である.これらにおいては,推定値の挙動にばらつきが大きくなりやすいといった困難性が生じるが,これらについても解析にあたって一定の目途が立っており,それらの方策の解析を通じてランダム方策の優位性を明らかにしていく方針である.
|
Causes of Carryover |
コロナ禍に伴う国際会議のバーチャル化に伴い,当該年度はジャーナル投稿を中心に行ったほか国際会議の情報収集に費用が生じなかった.次年度は国際会議の参加を通じて助成金を使用する予定である.
|