本研究課題では,暗号化された多数のコネクションから構成されたWeb通信の計測データを分析し、ユーザが利用しているサービスタイプを特定する手法を検討してきた.今年度は,暗号化されたトラフィックからWebサービスを特定するための機械学習に有効となる特徴量について検討し,(1)評価用データセットの作成と(2)特徴量の検討に取り組んだ. (1)評価用データセット作成:パケットキャプチャデータから一定時間ごとの特徴量の時系列データを収集するツール,ブラウザのログファイルからURLの時系列データを抽出するツール,さらに,これら2つの時系列データを照合することで,特徴量のデータサンプルにラベルを付与するツールを作成した.これらのツールを使用して,研究室内のネットワークにおいてパケットキャプチャを行い,データセットを作成した. (2)特徴量の検討:パケットベースの特徴量とコネクションベースの特徴量を用い,多層パーセプトロンを用いた識別方法を検討した.上記の研究室内ネットワークで観測された実トラフィックから得られたデータセットを用いた実験を行った結果,パケットベースの特徴量よりもコネクションベースの特徴量の方が有効であること,および,コネクションベースの特徴のうち「コネクション毎のバイト数」や「コネクション毎のパケット数」が効果的な特徴であり,「コネクション継続時間」があまり効果的でない特徴であることが明らかになった. 本研究課題では,今年度までに,半教師あり学習であるAAEを用いた手法の有効性を確認してきた.今年度の検討を行ったことで,研究期間全体を通じて,Webサービス識別に有効な特徴量を用いて半教師あり学習を適用することで,機械学習において人手でのラベル付け作業が必要となる教師データの数を抑えつつ,暗号化トラフィックのWebサービス識別を行うことが可能であることが明らかになった.
|