本研究では,クラウドデータセンタにおいて観測可能なCPU使用率やメモリなどをマルコフ確率場としてモデル化し,異常を検知することを目的とした.初年度より,公開されているCPUのデータに対して,人工的な異常値を加えてデータセットを作成し,マルコフ性を仮定したモデル化を試みた.具体的には,時間の連続性やサーバ間の関係性を条件付き確率分布で表現し,観測済みのデータから確率分布のパラメータを推定した.確率分布の推定には確率的主成分分析を利用し,Graphical LASSOによって関係性を推定した.本手法は,単純な主成分分析による異常検知手法と比べて,良い性能を示していることを確認した.一方,確率分布の推定と関係性の推定が個別に行われていることから,これらを同時に行うことで性能を改善できる可能性がある.そこで近年活発に研究されているBayesian Graphical LASSOを用い,加えて,時系列データによくみられるトレンドや周期性を陽にモデルに組み込むことを検討した.しかし,多次元データにおいては,モデルのパラメータ推定が十分に収束しないことが確認され,大規模なデータセットにおいては十分な性能を確認できなかった.比較的小規模なデータセットに対しては有効性が確認できたことから,対象データを教師なし学習等によって複数のグループに分割して適用すれば良い結果を期待できる.今後は,パラメータ推定の収束性能の向上や,本手法の適用範囲に関する調査が課題として挙げられる.
|