2020 Fiscal Year Research-status Report
Study on identifying HTTP communication service type over encrypted transport layer
Project/Area Number |
19K11950
|
Research Institution | Tokyo City University |
Principal Investigator |
塩本 公平 東京都市大学, 情報工学部, 教授 (00535750)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | Webサービス / 暗号化 / パケットキャプチャ / 機械学習 / 教師あり学習 / 半教師あり学習 / 特徴量 |
Outline of Annual Research Achievements |
暗号化されたWeb通信のパケット流を観測し,ユーザが利用しているサービス種別を特定することを目的に,機械学習を用いたパケットトラフィック分析の検討に取り組んだ.特徴量の改善に取り組み,一定時間(10秒)ごとのパケットの8次元の特徴量に加えコネクションの11次元の特徴量も用いた.また,機械学習アルゴリズムとして半教師あり学習アルゴリズムのAdversarial Auto Encoder(AAE)を用いた.コネクション毎の特徴量を加えることで性能向上が見られた.AAEの次元数を2から10の範囲で振ったところ,次元数による性能の影響を見出すことができなかった.ラベル付与法に関してt-SNE法で特徴量を2次元に圧縮し,k-means法によりクラスタリングを行い,クラスタの重心付近のデータに優先的にラベルを付与する方法とランダムにラベル付けを行う方法を比較した.重心付近にラベルを付与しても性能の向上が見られないことが判明した.クラスタ重心だけでなく,全体的な傾向を把握できるようにランダムにデータを選んでラベル付けをすることが望ましいことが判明した. 提案手法のネットワーク侵入検知システムへの応用を進めた.半教師あり学習であるAAEを用いたネットワーク侵入検知システムを検討し,公開データセットであるNSL-KDDを用いて性能評価した.ラベル付きデータ数を増やすことで提案手法でどの程度性能向上が得られるかを検討した.提案手法は0.1%のラベル付きデータを用いるだけで既存の機械学習手法と同等の性能を達成し,少数のラベルなしデータを追加することで性能が向上することを明らかにした.提案手法により,人手のかかるラベル付け作業を大幅に削減できることを示すものである.また,提案手法のAAEの潜在変数の次元数の効果についても評価を行い,次元数が10の場合に最も高い性能を発揮することを明らかにした.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度までに,一定時間(10秒)毎の転送データ量とパケット数,各パケットのデータ量の平均および分散を含む8次元の特徴量を用いた評価を行ってきたが,令和2年度は特徴量の改善に取り組み,特徴量に11次元のコネクションの特徴量も加えた.また,少ないラベル付きデータ数を扱うためAdversarial Auto Encoder(AAE)を用いた分類手法を考案した.暫定的なデータセットを用いて予備実験を進め,ラベル付与法にt-SNE法で特徴量を2次元に圧縮し,k-means法によりクラスタリングを行い,クラスタの重心付近のデータに優先的にラベルを付与する方法とランダムにラベル付けを行う方法を比較した.予備実験の結果,性能に大きな差がない結果が得られており,実験データを増やして実験精度を高める必要がある.本実験で用いるデータセットを検討しているところである. また,提案手法のネットワーク侵入検知システムへの応用を進めた.NSL-KDDを用いた実験により,提案手法は0.1%のラベル付きデータを用いるだけで既存の機械学習手法と同等の性能を達成し,人手のかかるラベル付け作業を大幅に削減できることを明らかにした.また,ラベル付けされたデータサンプルが少数しかない場合には,既存のMulti layer perceptronに基づく手法の性能は著しく低下し,ラベル付けされるデータサンプルの選択によっても性能が大きく変動することを示した.提案手法は0.1%のラベル付きデータにラベルなしデータを付与することで性能が大きく向上することを明らかにした.これらの成果を論文にまとめて令和2年度末に論文誌(IEEE Transactions on Network Service and Management)に投稿した.
|
Strategy for Future Research Activity |
暗号化されたHTTP通信のサービス特定をするための機械学習を評価するための学習データとテストデータの作成を完了させる.有効な特徴量を特定することを目標に教師あり学習を用いた評価を進める.これまで検討してきた8次元のパケットの特徴量と11次元のコネクションの特徴量と他の特徴量の比較を行い,有効な特徴量を特定する.9月に国際会議(IEEE/IFIP NOMS2022)に投稿することを目標に知見を論文にまとめる.その後,実トラフィックを用いた評価を行うためのデータ収集環境を検討し,環境を構築する.提案手法(特徴量の決定と半教師あり学習アルゴリズム)の改良を続け,実トラフィックを用いた評価を完了させる.年度末に論文誌(IEEE Transactions on Network Service and Management)に投稿することを目標に得られた知見と評価用の学習データとテストデータの生成方法を論文にまとめる. ネットワーク侵入検知システムへの応用については,データセット(CICIDS2017, Kyoto2006, CTU-13など)に関する文献を精査し,また,大学キャンパス内でのパケットキャプチャ系,ブラウザログの収集方法,およびそれらの関連付けについて検討しデータセットの作成方法を検討する.最新のデータセットを用いた提案手法の評価を進め,9月に国際会議(IEEE/IFIP NOMS2022)に投稿することを目標に評価結果を論文にまとめる.その後,ネットワーク侵入検知に有効な特徴量の最適化の検討を進めつつ,継続して実験を進める.年度末に論文誌(IEEE Communications Magazine)に投稿することを目標に得られた知見を論文にまとめる.
|
Causes of Carryover |
今年度は,COVID-19感染防止のため国内外の出張が実施できない状況が続いたため,国際会議などへの参加費の費用が抑えられ,支出が想定よりも低くなった. 次年度の使用計画としては,当初は後半からは海外出張も再開されることを想定して使用計画を立てる.しかしながら,今後のコロナの終息の見通しも不透明であり,オンラインの国際会議参加費も会議によってさまざまであり見通しが立ちづらい状況を踏まえて,国際会議の参加に必要な費用と実験環境の整備に必要な費用を,四半期ごとに使用計画を見直す. 国際会議については,機械学習,ネットワーク管理及びトラフィック計測関係の国際会議の中で特に注目すべき会議を選び,IEEE/IFIP IM(5月),IEEE HPSR(7月),IEEE ICC(6月),IEEE NetSoft(6月),ACM KDD(8月),ACM IMC(10月),CNSM(10月),Globecom(12月),NIPS(12月),PAM(3月)などへ参加する計画である. 実験環境の整備については,100Gまでの高速回線に対応できるパケットキャプチャ装置,深層学習を用いた分析用サーバ等の購入を計画している.また,インターネットトラフィック分析技術の調査用の専門図書の購入も計画している.
|
Research Products
(3 results)