• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

多腕バンディット問題における最適戦略の構成と発展

Research Project

Project/Area Number 25880006
Research Category

Grant-in-Aid for Research Activity Start-up

Allocation TypeSingle-year Grants
Research Field Mathematical informatics
Research InstitutionThe University of Tokyo

Principal Investigator

本多 淳也  東京大学, 新領域創成科学研究科, 助教 (10712391)

Project Period (FY) 2013-08-30 – 2015-03-31
Project Status Declined (Fiscal Year 2014)
Budget Amount *help
¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2014: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2013: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Keywords機械学習 / 統計学 / 多腕バンディット問題
Research Abstract

本研究は,知識の探索と活用のジレンマをモデル化したものである多腕バンディット問題において,達成可能な効率の理論限界を探り,またその理論限界を達成する戦略を具体的に構成することを目標に行った.この問題は古くから知られており,特に近年ではウェブ上の広告表示やネットワークルーティングといった問題に直接応用できることから盛んに研究されているが,一方,従来研究で提案された戦略でその最適性が保証されているのは一部の非常に単純な確率分布モデルに限られていた.
そこで本年度の研究においては,報酬のサポートの下限のみが既知という極めて一般的なノンパラメトリックモデルにおける理論限界を導出し,さらにそれを達成する戦略の提案を行った.これまでに理論限界の達成可能性が知られていたのは確率分布のパラメータ空間が1次元あるいはコンパクトな場合に限られており,それらの手法を無限次元かつ非コンパクトである今回のモデルに直接適用するのは困難であったが,本研究ではダイバージェンス最小化の双対問題を経由して1次元モデルに近い問題への帰着を行うことにより証明を行った.
さらに,従来示されていた漸近最適戦略は,プレイ回数nに対する損失のうちO(log n)の項までの意味では最適であったが,それより高次の項がo(log n)ではあるものの無限大に発散するものであった.一方,この高次項はO(1)とできることが様々な研究から実験的には示唆されており,この点で従来の理論研究と実験の間にはギャップがあった.そこで,本研究では確率過程の理論のうちマルチンゲールの停止時刻に関する結果を応用することで,O(1)の損失が達成可能であることを新たに示した.
この研究の結果は機械学習の論文誌Journal of Machine Learning Researchに現在投稿中である.

Current Status of Research Progress
Reason

翌年度、交付申請を辞退するため、記入しない。

Strategy for Future Research Activity

翌年度、交付申請を辞退するため、記入しない。

Report

(1 results)
  • 2013 Annual Research Report
  • Research Products

    (1 results)

All 2013

All Presentation (1 results) (of which Invited: 1 results)

  • [Presentation] 知識の探索と活用のジレンマと多腕バンディット問題2013

    • Author(s)
      本多淳也
    • Organizer
      第12回情報科学技術フォーラム (FIT2013)
    • Place of Presentation
      鳥取,鳥取大学
    • Related Report
      2013 Annual Research Report
    • Invited

URL: 

Published: 2013-09-12   Modified: 2019-07-29  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi