• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

多腕バンディット問題における最適戦略の構成と発展

研究課題

研究課題/領域番号 25880006
研究種目

研究活動スタート支援

配分区分補助金
研究分野 数理情報学
研究機関東京大学

研究代表者

本多 淳也  東京大学, 新領域創成科学研究科, 助教 (10712391)

研究期間 (年度) 2013-08-30 – 2015-03-31
研究課題ステータス 採択後辞退 (2014年度)
配分額 *注記
2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2014年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2013年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード機械学習 / 統計学 / 多腕バンディット問題
研究概要

本研究は,知識の探索と活用のジレンマをモデル化したものである多腕バンディット問題において,達成可能な効率の理論限界を探り,またその理論限界を達成する戦略を具体的に構成することを目標に行った.この問題は古くから知られており,特に近年ではウェブ上の広告表示やネットワークルーティングといった問題に直接応用できることから盛んに研究されているが,一方,従来研究で提案された戦略でその最適性が保証されているのは一部の非常に単純な確率分布モデルに限られていた.
そこで本年度の研究においては,報酬のサポートの下限のみが既知という極めて一般的なノンパラメトリックモデルにおける理論限界を導出し,さらにそれを達成する戦略の提案を行った.これまでに理論限界の達成可能性が知られていたのは確率分布のパラメータ空間が1次元あるいはコンパクトな場合に限られており,それらの手法を無限次元かつ非コンパクトである今回のモデルに直接適用するのは困難であったが,本研究ではダイバージェンス最小化の双対問題を経由して1次元モデルに近い問題への帰着を行うことにより証明を行った.
さらに,従来示されていた漸近最適戦略は,プレイ回数nに対する損失のうちO(log n)の項までの意味では最適であったが,それより高次の項がo(log n)ではあるものの無限大に発散するものであった.一方,この高次項はO(1)とできることが様々な研究から実験的には示唆されており,この点で従来の理論研究と実験の間にはギャップがあった.そこで,本研究では確率過程の理論のうちマルチンゲールの停止時刻に関する結果を応用することで,O(1)の損失が達成可能であることを新たに示した.
この研究の結果は機械学習の論文誌Journal of Machine Learning Researchに現在投稿中である.

現在までの達成度 (区分)
理由

翌年度、交付申請を辞退するため、記入しない。

今後の研究の推進方策

翌年度、交付申請を辞退するため、記入しない。

報告書

(1件)
  • 2013 実績報告書
  • 研究成果

    (1件)

すべて 2013

すべて 学会発表 (1件) (うち招待講演 1件)

  • [学会発表] 知識の探索と活用のジレンマと多腕バンディット問題2013

    • 著者名/発表者名
      本多淳也
    • 学会等名
      第12回情報科学技術フォーラム (FIT2013)
    • 発表場所
      鳥取,鳥取大学
    • 関連する報告書
      2013 実績報告書
    • 招待講演

URL: 

公開日: 2013-09-12   更新日: 2019-07-29  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi