研究課題/領域番号 |
18J23034
|
研究機関 | 東京大学 |
研究代表者 |
黒木 祐子 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
キーワード | 強化学習 / 多腕バンディット問題 / 近似アルゴリズム / ネットワーク設計 / 組合せ最適化 |
研究実績の概要 |
本年度は強化学習の一つである多腕バンディット問題に取り組んだ.道路ネットワークや通信ネットワークにおける経路は,グラフとして数学的に表現することでグラフ上の「木」や「パス」といった組合せ構造として捉えることができる.本研究ではこのように実用上でも重要な応用を持つ組合せバンディットにおける最適腕識別問題に取り組んだ.既存研究では単一の腕を一つずつ探索することを許すなど応用上では実現が難しい仮定を置いていたが,本研究では腕集合を直接探索しその報酬のフィードバックのみから最適な腕集合を求める画期的なアルゴリズム設計に成功し,サンプル数の上界を証明した.このアルゴリズムを得るために,サイズ制約付きの0-1二次計画問題に対する近似アルゴリズムを新たに提案し,バンディット問題で生成されうるインスタンスの良い性質を利用することで,この問題に対する理論的な精度保証を与えた. 以上の研究と並行してハブネットワーク設計問題に対する近似アルゴリズムの研究に取り組んだ.ハブネットワーク設計問題は総輸送費用を最小にするようにハブと非ハブの割当を決定する問題であり,数学的にはメトリックラベリング問題と呼ばれる画像分割におけるエネルギー最小化問題とも等価である.この問題は一般にはO(log |ハブの数|)近似が近似の限界として示されているが,どのような特殊クラスが定数近似アルゴリズムを認めるかは未解決であった.本研究ではハブのネットワーク形態が通信ネットワークで現れる特殊な形態を仮定することで,定数近似アルゴリズムが存在することを証明し,多項式時間定数近似を認める新たなクラスを発見した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
バンディット組合せ最適腕識別に関する研究成果は現在機械学習分野の国際会議に投稿中である.また,ネットワーク設計に関する研究成果は論文誌 Journal of Graph Algorithms and Applicationsに採択された.
|
今後の研究の推進方策 |
本年度提案したバンディット組合せ最適腕識別へのアルゴリズムはあらかじめ引く腕集合を決め打ちする静的な戦略に基づくものであった.フィードバックの情報をもとに最適な腕集合と近い腕集合を探索するような適応的な戦略に基づくアルゴリズムを提案することでより効率の良いアルゴリズムを構築することが期待される.また,本研究では最適な腕集合を求めるのに必要なサンプル数の上界を与えたが,サンプル数の下界については未解明であるので,下界の証明にも取り組む予定である. さらに実社会での通信ネットワークへの応用を考慮すると,複数のプレイヤーが同時に最適な割当を探索する設定がより現実的なモデルと言える.このモデルに対してプレイヤーに関する公平性が保たれるような効率的なアルゴリズムを提案することを目指す.
|