2019 Fiscal Year Research-status Report
Project/Area Number |
18K17998
|
Research Institution | The University of Tokyo |
Principal Investigator |
本多 淳也 東京大学, 大学院新領域創成科学研究科, 講師 (10712391)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 機械学習 / 情報理論 |
Outline of Annual Research Achievements |
当年度の研究では,限られた試行回数で探索すべき候補を適切に選択する問題である多腕バンディット問題において情報論的手法に基づいた効率的なアルゴリズムの開発を昨年度から引き続き行った. 多腕バンディット問題において累積報酬の最大化を目指す枠組みでは,トンプソンサンプリングとよばれるアルゴリズムが計算効率性と性能を両立するアルゴリズムとして近年注目を集めているが,従来知られている理論解析はパラメトリックなモデルに限られており,さらにノンパラメトリックモデルに対しては素朴にアルゴリズムを拡張すると計算が非常に複雑となってしまう.そこで本研究では,ノンパラメトリックモデルにおいてモデルの台集合を適切に制限したトンプソンサンプリングの拡張を構成し,これが情報論的理論限界を達成しつつ小さい計算量で実装可能なことを示した.この結果は学習理論のトップ会議であるALT2020に再録された. また,多腕バンディット問題のうち報酬期待値の大きな候補の発見を目指す純粋探索問題では,真に期待値最大の候補を発見するには膨大な試行回数が必要となることが理論・実験の両面から明らかになっている.そこで本研究では期待値最大の候補の発見を目指すかわりに一定のしきい値を上回る候補を探索する問題を定式化し,その効率的なアルゴリズムの構成に取り組んだ.ここで,医療診断などの実用的な状況ではしきい値を厳密なものとみなさず期待値が一定の範囲内にある候補についてはグレーゾーンとして判定失敗を問わない設定が自然だが,このようなグレーゾーンを適切に取り扱うことで従来のアルゴリズムに比べて大きく探索回数を削減することに成功した.この結果は機械学習のトップ論文誌であるMachine Learning誌に採録された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
トンプソンサンプリングは計算の効率性を実現しやすい一方で理論解析は困難であることがさまざまな場面で知られているためノンパラメトリックモデルにおける解析では何らかの仮定が必要となる可能性を考慮していたが,これを仮定なしで漸近最適性を厳密に示せた点については予想を上回る進捗となった.一方,今回扱った設定は候補間の相関を考慮しない基礎的なものに限られており,その点については未だ拡張については余地がある.
|
Strategy for Future Research Activity |
これまでの研究の結果より,ある程度複雑なモデルに対してもトンプソンサンプリングといった手法の拡張を考えることで複雑な最適化計算を避けつつ理論限界を達成するアルゴリズムが構成可能なことが分かってきた.今後は,バンディット問題の最も拡張された定式化の一つである部分観測問題といった設定に対して効率的なアルゴリズムの構成を目指す.ここで,一般の部分観測問題では相異なる候補からの観測が互いに相関するため解析が大幅に複雑となるが,機械学習における意思決定問題において最近用いられ始めているマルチンゲールの理論を用いることでこれを解決できると考えている. また,組合せ的な候補選択を行う問題設定においてはそもそも各パラメータが既知であっても最適な組合せの決定が計算量的に困難となる場合がある.こういった設定においては,必ずしも計算量を無視した場合の理論限界の達成を目指さずオフラインでの効率的なアルゴリズムに近い性能をオンラインで達成することを目指すことで実用上有用なアルゴリズムの構成を行う.
|
Research Products
(6 results)