研究概要 |
オンライン学習として,マルチエージェントシステムの強化学習を研究した. マルチエージェントシステムとは,複数のエージェントが,互いに協調することにより,ある与えられたタスクに関して最適な政策を学習するような枠組みである. その枠組みが従う確率過程としては,Temporal Difference学習などの代表的な強化学習アルゴリズムが適用し易いなどの理由から,マルコフ決定過程がよく使われる. よって,本研究では,定常エルゴードマルコフ決定過程に従うマルチエージェントシステムにおいて成立する漸近的性質を示し,最適政策の学習によりシステム全体の収益が最大化される過程を確率的な観点から明らかにした. この成果は,学習理論分野の主要な国際誌であるIEEE Transactions on Neural Networksに掲載された. 次に,標本の母集団が混合分布モデルに基づく場合の階層クラスタリングについて研究をした. 階層クラスタリングとは,ある適当な標本(もしくはクラスタ)間の非類似度を定義し,その非類似度に従い標本を分類する教師なし学習である. 標本の母集団が混合分布モデルの場合,各標本はそれぞれの部分母集団の確率分布に従うので,このような標本の生成過程は一般に非定常,非エルゴードとなる. 従来では,混合分布モデルに基づく母集団の標本に対して,理論的な妥当性がある非類似度が存在しなかった. そこで,本研究ではSanoyの定理を混合分布モデルに応用することで,情報源符号化および統計的仮説検定という意味で理論的に妥当な非類似度を提案した. また,人工データおよび実データを使った階層クラスタリングにおいて,提案した非類似度は,従来の非類似度と比較して優れた結果を与えることを示した. この成果は、パターン認識分野の主要な国際誌であるIEEE Transactions on Pattern Analysis and Machine Intelligenceに受理された.
|