研究課題/領域番号 |
23300003
|
研究機関 | 九州大学 |
研究代表者 |
瀧本 英二 九州大学, システム情報科学研究科(研究院, 教授 (50236395)
|
研究分担者 |
畑埜 晃平 九州大学, システム情報科学研究科(研究院, 助教 (60404026)
|
研究期間 (年度) |
2011-04-01 – 2015-03-31
|
キーワード | オンライン予測 / LP緩和 / 近似アルゴリズム / モンテカルロ木探索 / 2部ランキング学習 |
研究概要 |
本研究では,意志決定とデータの提示が交互に繰り返される「オンライン意思決定」の問題に対し,アルゴリズムの設計と解析に関する一般的な方法論を確立することを目的としている.本年度は,主に,以下の3つの成果を得た. 1.被覆集合族や充足割り当て集合など,線形最適化問題がNP困難であるような離散構造のクラスに対するアルゴリズムの設計に取り組んだ.その線形最適化問題が緩和に基づく多項式時間近似アルゴリズムを持つとき,その近似アルゴリズムを予測性能の良い多項式時間オンライン意思決定アルゴリズムに変換する一般的手法を与えた.特に,その変換アルゴリズムで重要な役割を果たすメタラウンディングが,緩和による近似問題の双対概念であることを見出し,さらに,その双対構造と,ブースティングによるマージン最大化問題に現れる双対構造との類似性から,ブースティングの手法を用いてメタラウンディングを実現する多項式時間アルゴリズムを与えた. 2.ゲーム木におけるミニマックス探索法の一つに,モンテカルロ木探索が知られており,特にコンピュータ囲碁の分野で威力を発揮している.従来は,オンライン学習の分野で提案されたバンディットアルゴリズムを応用した手法が用いられていたが,本研究では,その探索効率を大幅に改善するアルゴリズムを与えた. 3.近年,機械学習の手法を用いてコンピュータ将棋の盤面の評価関数を自動設計する手法が成果を上げ,プロ棋士を破るほどになっている.本研究では,この問題を2部ランキング学習の概念を用いて厳密に定式化し,性能が理論的に保証できる評価関数の学習方式を,初めて提案した.特に,従来の2部ランキング学習に「状態」の概念を導入することにより訓練サンプルのサイズを大幅に削減するとともに,オンライン学習の手法を用いて計算量を改善することに成功した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要で上げた1つめの結果をはじめ,本研究課題で達成した,オンライン組み合わせ最適化問題に関する一連の成果が高く評価され,研究代表者と研究分担者は,本年度だけで計7件の招待講演を行っている.また,2つめの結果として示したモンテカルロ木探索に関する論文は,その論文が掲載されている電子情報通信学会英文論文誌E97-D(3)において,2014年4月15日現在,ダウンロード数が1位となっている.
|
今後の研究の推進方策 |
これまでの成果で得られた,オンライン組み合わせ最適化問題に関する知見を活用し,より一般的なオンライン意思決定問題に対する効率の良いアルゴリズムの開発を目指す.特に,最も基本的なオンライン意思決定問題の1つであるメトリカルタスクシステム問題に対し,その状態集合が組み合わせ論的に定義された指数サイズの離散構造のクラスである場合のアルゴリズムの効率化を図る.
|