2018 Fiscal Year Research-status Report
Project/Area Number |
18K17998
|
Research Institution | The University of Tokyo |
Principal Investigator |
本多 淳也 東京大学, 大学院新領域創成科学研究科, 講師 (10712391)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 機械学習 / 情報理論 |
Outline of Annual Research Achievements |
当年度の研究では,限られた試行回数で探索すべき候補を適切に選択する問題である多腕バンディット問題において情報論的手法に基づいた効率的なアルゴリズムの開発を行った. 多腕バンディット問題のうち累積報酬の最大化を目指さない純粋探索問題の枠組みでは最適腕識別が代表的な設定として知られているが,この問題では探索回数の下限すら非現実的な大きい値となることが多く,必ずしも実用に適さない.そこで本研究では,真に報酬期待値最適な候補を選ぶのではなく,報酬期待値が事前に定めたしきい値を上回る候補を可能な限り早く発見する問題を良腕識別問題として新たに構成した.さらに,この問題が純粋探索問題に属するにも関わらず累積報酬最大化と類似の構造をもつことを明らかにし,その性質を利用することで探索回数についての情報論的理論限界およびそれを達成するアルゴリズムを構成した.この結果は機械学習のトップ論文誌であるMachine Learning誌に採録された. さらに,これらのバンディットアルゴリズムの医療等への応用を考えた場合,各時刻で選択する候補は薬や治療法といったものが対応することになるが,それらの場面ではその報酬が量的でなく「完治」「効果あり」「効果なし」といったように質的にのみ観測される場合が多い.そこで,こういった質的な報酬から各候補の良し悪しを定量化する方法を社会学における手法に基づいて構築し,情報論的限界を達成するアルゴリズムを構成した.さらに,多くの場面で経験的に性能がよいことが知られているトンプソンサンプリングとよばれるアルゴリズムが本設定では場合によっては非常に性能が悪くなることを理論的に示し,本問題特有の性質を用いる重要性を示唆した.この結果は機械学習のトップ会議であるAAAI2019に採録された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当年度の研究では良腕識別という試行回数が非常に限られた場面に適した場合における効率的な枠組みを構築できただけでなく,定性的な観測を扱うアルゴリズムの構成という予期せぬ結果も得られており,この部分では予想を上回る進捗状況となった.一方,これらの手法では従来手法に比べて性能の上下界のギャップを大幅に縮めているものの,未だそのギャップは漸近論が成り立たない場面では比較的大きく,なお改善の余地がある状況である.
|
Strategy for Future Research Activity |
これまでの研究状況を踏まえ,今後の研究ではより現実的な設定に適したアルゴリズムの開発および理論限界の構成を行う. 本研究のこれまでの結果および既存研究から,理論限界に近い性能をもつアルゴリズムでは計算量的に難しい最適化問題が現れることが多いことが分かってきている.特に,これまで知られてきた漸近最適アルゴリズムの多くは理論限界の推定値を明示的に計算するという部分をサブルーチンとしており,このような種類のアルゴリズムでは理論限界自体が最適化問題として表される場合にはその時点で非現実的な計算量となってしまう.それに対して,トンプソンサンプリングといった乱択手法を用いるアルゴリズムでは最適化問題によってのみ表されるような理論限界を最適化計算なしに達成できる場合があることが知られているが,一方で単純なトンプソンサンプリングは理論限界を達成しない設定が数多くあることも分かってきている.そこで次年度の研究では,最適化問題を明示的に解くのを避けつつかつ広範な問題に適用可能なアルゴリズムの開発を乱択手法の性質を適切に抽出することで行う.
|
Research Products
(5 results)