研究課題/領域番号 |
19K11950
|
研究機関 | 東京都市大学 |
研究代表者 |
塩本 公平 東京都市大学, 知識工学部, 教授 (00535750)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | Webサービス / 暗号化 / パケットキャプチャ / 機械学習 / 教師あり学習 / 半教師あり学習 / 特徴量 |
研究実績の概要 |
暗号化された通信に対して観測できるパケットデータにニューラルネットワークによる機械学習を適用しブラウジングやストリーミングといった Webサービスの種類を分類することである。Webサービスを特定することでWebサービスごとに適切なネットワーク性能を提供しQoEの向上を実現する。特に教師あり学習におけるラベルデータ作成のコストを削減するために、少数のラベルデータで学習を行うFew-shot Learningと半教師あり学習を用いた手法を検討した。 トランスポートレイヤのコネクションについて、転送データ量とパケット数、各パケットのデータ量の平均および分散を特徴量とした。ラベルの付いていないデータセットのクラスタの重心付近の特徴的なデータに優先的にラベルを付ける手法を提案した。 Webサービス種別をストリーミングとブラウジングの2種類に分けラベルを付けた。その結果、90%を超える分類精度を実現した。 さらに、ラベルデータが10枚のFew-shot Learningを用いて評価を行った。提案手法によるラベル付けを行うことで、ランダムにラベルを付けた場合と比較して分類精度が60%から76%へと向上することを明らかにした。現在、Few-shot Learningの手法であるPrototypical Networkの適用性も検討しており、これを半教師あり学習に適用することも検討している。 また、半教師あり学習であるAdversarial Auto-Encoder(AAE)を用いた侵入検知システムを検討した。ラベルの無いデータも使うことで 教師あり学習をサポートする手法であり、少数ラベルデータによる学習に適しており、公開データセットNSL-KDDを用いて1%のラベルデータで既存の教師あり機械学習と同等の性能が達成できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画では、トランスポートレイヤおよびネットワークレイヤについて、Web通信のサービスタイプを識別するのに有効な特徴量を検討することであった。トランスポートレイヤのコネクション本数やそれぞれの継続時間とデータ転送量を特徴量の候補として検討し、ネットワークレイヤについては、宛先となるIPアドレスの数や分布状況、パケット長やパケット発生間隔などを候補として検討する計画であった。DBSCANをはじめとして様々なクラスタリングアルゴリズムを用いて、サービスの特徴をうまく表現できる特徴量やクラスタリングアルゴリズムを明らかにすることを検討していた。 Webブラウザのログを抽出するツールを作成しWeb通信のトラヒック計測データにラベルを付ける方法を確立した上で、特徴量の検討については、一定時間毎のパケットキャプチャデータに関して、転送データ量とパケット数、各パケットのデータ量の平均および分散を特徴量とすることで、暗号化されたWebサービス通信において90%を超える精度でサービスを分類できることを確認した。また、ラベルの付いていないデータセットをt-SNE法により次元削減を行い、その後k-means法によるクラスタリングを行うことでクラスタの重心付近の特徴的なデータに優先的にラベルを付けるという手法を提案した。ラベルデータが10枚のFew-shot Learningにおいて提案手法によるラベル付けを行うことで、ランダムにラベルを付けた場合と比較して分類精度が60%から76%へと向上した。さらに、半教師あり学習であるAdversarial Auto-Encoder(AAE)を用いた侵入検知システムも検討し、1%のラベルデータで既存の教師あり機械学習と同等の性能が達成できることを示した。
|
今後の研究の推進方策 |
これまで、機械学習アルゴリズムについて、教師あり機械学習アルゴリズムについて、Few-shot Learningを用いた識別器の検討を進めてきた。現在、Few-shot Learningの手法であるPrototypical Networkの適用性も検討しており、これを半教師あり学習に適用することも検討している。さらに、半教師あり機械学習アルゴリズムでも、Prototypical Networkを応用したもの以外にもAdversarial Autoencoderを応用したものも検討を進めている。 Prototypical Networkについては入力データの次元圧縮を行うEmbedding Functionに用いるニューラルネットワークの設計が重要である。また、Adversarial AutoencoderについてはEncoder、Decoder、Discriminatorに用いるニューラルネットワークの設計が重要である。これらのニューラルネットワークのアーキテクチャとハイパーパラメータを検討し、評価実験を進める。また、半教師あり機械学習アルゴリズムについて、これまでのFew-shot Learningでの検討で行ったように、ラベル付きデータの付与の方法について検討する。また、ラベル付きデータの数とラベルなしデータの数の比率を変えることにより、識別性能がどのように変化するかを評価する。 検討した機械学習アルゴリズムをネットワーク侵入検知システムへの応用の検討も進める。公開データセットを用いた評価としてはNSL-KDDデータセット以外にも最近のデータセットを用いた評価を進める。さらに、学内キャンパス網でパケットキャプチャを行い、実データを用いて提案方式を評価する。研究成果をIEEE ComSocの査読付き国際会議や論文誌に投稿し、国際的な評価を受ける。
|
次年度使用額が生じた理由 |
当初、3月に米国サンディエゴで開催された国際会議OFC2020への参加のため海外出張を計画していたが、COVID-19パンデミックが発生したため、計画していた海外出張をキャンセルした。年度末直前の海外出張のキャンセルとなったため、次年度の予算計画変更で対応することにした。 次年度は、COVID-19パンデミックの終息状況を見極めつつ、国際会議のための海外出張は最小限に抑え、オンラインで参加することで国際会議への参加機会を増やし、研究成果の発表および最新の研究動向の調査と海外研究者との技術討論を進める。当初の参加予定であったIEEE/IFIP NOMS(4月)、IEEE HPSR(5月)、IEEE ICC(6月)、IEEE NetSoft(7月)、Globecom(12月)に加えて、ACM KDD(8月)、ACM IMC(10月)、CNSM(10月)、NIPS(12月)、PAM(3月)などの機械学習、ネットワーク管理及びトラフィック計測関係の国際会議へも参加する。さらに、IEEE ComSocの論文誌に投稿した論文が採択された場合のオープンアクセス費用として予算計上する。 評価実験を進めるにあたり、高速なインターネット上を流れるパケットをキャプチャし、深層学習を用いた分析によりサービスタイプの特定を行う。膨大なデータ量の蓄積と多量の演算処理のための計算機環境の能力向上を図る。
|