Project/Area Number |
21K11747
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60010:Theory of informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
本多 淳也 京都大学, 情報学研究科, 准教授 (10712391)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 機械学習 / バンディット問題 / オンライン学習 / 治験 / 学習理論 / 実験計画 / 情報理論 |
Outline of Research at the Start |
本研究は,ウェブの推薦システムや新規化合物の開発等をはじめとした,試行錯誤を通じて優れた候補を探索するモデルであるバンディット問題における効率的なアルゴリズムの開発を行う.この問題ではトンプソン抽出とよばれるランダム方策が近年よく用いられるようになっているが,これはアルゴリズムの柔軟性が低く限られた設定に対してしか理論限界を達成できない.そこで,本研究はトンプソン抽出をはじめとしたランダム方策が複雑な計算を避けつつ優れた性能を示す原理を系統立てて理解し取り出すことで,汎用的に理論限界を達成可能かつ実用的なランダム方策の構成法を確立する.
|
Outline of Annual Research Achievements |
本年度の研究では、バンディット問題におけるランダム方策のうちまず組合せ構造をもつバンディット問題に対して分散適応性のある方策の構築を行った。組合せ構造をもつ設定は推薦システムにおける商品の同時推薦や経路探索など、実応用において損失や報酬の最大範囲に比べて実際の報酬のばらつきが小さくなりやすい。このような設定に対して、本研究では確率的設定・敵対的設定のいずれでも最適オーダーの性能保証(両環境最適性とよばれる)をもちつつ、小さな分散をもつ報酬系列に対して適応的に動作する方策を新たに構成した。 両環境最適性をもつ方策のほとんどは、方策の損失を安定性項・罰則項とよばれる2つの項に分解し、それらを適切にバランスさせるような学習率を設定することで構成される。ここで、従来は学習率を安定性項・罰則項のいずれかのみに動的に依存する方策への解析方法が知られており、これが原因となり達成可能な性能保証に制約が生じていた。これに対し本研究では安定性項・罰則項の双方に動的に依存する学習率に対する新たな解析手法を確立し、これにより実際に広範な設定において優れた保証を達成可能であることを示した。 また、確率的環境におけるランダム方策についてはトンプソン抽出とよばれる方策が最適に近い性能を小さい計算量で達成する方策として知られているが、その性能保証は一部の比較的解析しやすい設定に限られていた。これに対し、本研究ではパレート分布モデルに対するトンプソン抽出が事前分布によっては一般的な対数オーダーではなく多項式オーダーの損失を被ることを新たに示し、その修正方法を示した。 その他、累積報酬を最大化するのでなく優れた候補の発見を目指す最適腕識別の問題において、トンプソン抽出の手法を応用することで優れた性能を達成する方策を構築したほか、実際の治験における第1相試験において優れた用量を発見する方策の構築を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
両環境最適性をもつ方策の構成については近年研究が進んでおり競争的なトピックであるが、本研究では上記の結果がトップ国際会議NeurIPSおよびAISTATSに採録され非常に順調な結果が得られた。さらに、古典的な確率的設定における方策についても国際会議ICMLおよびACMLに採録され、さらには治験における実応用についても創薬の論文誌Journal of Biopharmaceutical Statisticsに採録されるなど、理論・応用の両面から極めて順調な結果が得られたといえる。
|
Strategy for Future Research Activity |
以上の進捗状況を踏まえ、今後も特に敵対的設定に対応可能なランダム方策に関する研究を推進する予定である。特に、バンディット問題の一般化である部分観測問題についてはExploration by Optimizationとよばれる損失上界の最適化に基づく方策が近年注目されているが、これは両環境最適性の達成とはやや相性が悪いという問題が知られており、今後はこういった点への対応を検討している。
|