本研究は、多腕バンディットという選択と観測を交互に繰り返しながら知識利用と探索のトレードオフを解消するモデルにおいて、与えられた閾値よりも大きな平均報酬を持った選択肢(良腕)を発見するための効率的な手法の開発とその応用のための研究である。ここで効率が良いというのはできるだけ少ない回数の選択で良腕を発見することである。 良腕が存在するかどうかの判定手法と分類バンディットに関してはアルゴリズムの開発と理論解析を行った。 また、本研究により開発されたアルゴリズムを使った診断装置の試作機の開発を行った。
|