研究課題/領域番号 |
18K18099
|
研究機関 | 北海道大学 |
研究代表者 |
田畑 公次 北海道大学, 化学反応創成研究拠点, 特任助教 (20814445)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 多腕バンディット / 良腕識別 / アルゴリズム |
研究実績の概要 |
本研究課題では,提示された複数の選択肢の中から一つ選択する度に,選ばれた選択肢に対応した報酬分布のみから一つサンプルが得られるという不完全なフィードバック下で,この過程を繰り返しながらできるだけ少ない回数のサンプリングにより与えられた閾値よりも大きな平均報酬を持った選択肢(良腕)が存在するかどうかや,どの腕が良腕であるかを識別する問題を解くためのアルゴリズムの開発を行っている. 本研究では,各選択肢から得られる報酬の分布が独立同分布に従うか,または有限個の非復元抽出を行っているという仮定を置き,任意に与えられた失敗確率のもとで正しく答えを出力する固定信頼度設定に注目して研究を行っている. 開発したアルゴリズムの有効性の検証のため,問題設定から導かれる任意のアルゴリズムが最低限必要とするサンプル複雑性の下界に関する解析や,提案アルゴリズムに関する理論的な解析,実験による他手法との比較を行っている. 2020年度は,良腕が存在するかどうかだけではなく,偽陽性・偽陰性により良腕が本当に識別したいものではない可能性があることを考慮し,本当に識別するべき腕の個数が与えられた数以上に存在するかどうかを確認するという問題へと拡張を行い,アルゴリズムの開発を行いその理論的な評価と数値実験の結果を論文にまとめ,国際会議に投稿を行い,受理された. また,開発したアルゴリズムを情報計測へ応用するための実験を行っており,論文投稿の準備を進めている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定通りのアルゴリズムの開発ができている.
|
今後の研究の推進方策 |
2021年度は,2019年度に開発したアルゴリズムを用いたインタラクティブな計測装置の開発を行う.また,2020年度に開発したアルゴリズムの理論解析が未完成な部分に取り組む予定である.
|
次年度使用額が生じた理由 |
次年度使用額が生じたのは,2020年度に参加する予定だった新型コロナウイルス感染症の影響により学会の開催が中止になったため. この分は2021年度に学会への参加のため振り替えて使用する予定である.
|