Study on identifying HTTP communication service type over encrypted transport layer
Project/Area Number |
19K11950
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60060:Information network-related
|
Research Institution | Tokyo City University |
Principal Investigator |
Kohei Shiomoto 東京都市大学, 情報工学部, 教授 (00535750)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 暗号化 / Web通信トラフィック / サービスタイプ特定 / 機械学習 / 半教師あり学習 / 特徴量 / ラベル付与 / Web通信サービス特定 / Webサービス / パケットキャプチャ / 教師あり学習 / HTTP / トラヒック分析 |
Outline of Research at the Start |
暗号化された多数のコネクションから構成されたWeb通信の計測データを分析し、ユーザが利用しているサービスタイプを特定する手法を確立する。 トランスポートレイヤとネットワークレイヤの計測情報からサービスタイプを示す特徴量を決定し、それらの特徴量からなる特徴ベクトルをもとにサービスタイプを識別するための機械学習アルゴリズムを研究する。 機械学習において人手でのラベル付け作業が必要となる教師データの数を抑えるために、半教師あり学習を適用することが本研究の特徴である。膨大のデータが持つ構造をもとにラベルを付与するデータの決定法とサービスタイプの識別するための特徴ベクトルの領域境界の決定法を明らかにする。
|
Outline of Final Research Achievements |
We analyzed measured data of Web communications consisting of a large number of encrypted connections, and investigated a method for identifying the service types used by users. We found that, among the features that can be extracted from the encrypted packet capture data, the maximum, mean, median, and variance with respect to the number of bytes and packets per connection are the most effective features for service identification using machine learning models. A semi-supervised learning, adversarial self-coder-based network intrusion detection system is proposed and its performance is evaluated on the NSL-KDD dataset. We found that the proposed method can achieve the same performance as a multi-layer perceptron-based network intrusion detection system with only 0.1% of the labeled data samples in the training dataset, reducing the number of supervised data samples that need to be manually labeled.
|
Academic Significance and Societal Importance of the Research Achievements |
今日のWeb通信は複雑な構造であり,暗号化されたパケットキャプチャデータからWebサービスを特定することは困難であった.本研究の学術的意義は暗号化されたパケットキャプチャデータを機械学習によりサービス特定を行う際に有効な特徴量を明らかにしたこと,半教師あり学習を用いることで人手のかかるデータへのラベル付け作業を削減したことである. 本研究の社会的意義は,暗号化が普及した現在のインターネットで困難であったWebサービスの特定が可能になり,ユーザに提供するサービス体感品質を最適化するために必要なネットワーク性能をネットワーク事業者が把握することが可能となったことである.
|
Report
(5 results)
Research Products
(7 results)