2021 Fiscal Year Annual Research Report
Modelling Attack Generation Process by Introducing Machine Learning and Domain Knowledge and Its Verification for Real Attack Data
Project/Area Number |
21H03444
|
Allocation Type | Single-year Grants |
Research Institution | Kobe University |
Principal Investigator |
小澤 誠一 神戸大学, 数理・データサイエンスセンター, 教授 (70214129)
|
Co-Investigator(Kenkyū-buntansha) |
吉岡 克成 横浜国立大学, 大学院環境情報研究院, 准教授 (60415841)
白石 善明 神戸大学, 工学研究科, 准教授 (70351567)
班 涛 国立研究開発法人情報通信研究機構, サイバーセキュリティ研究所, 主任研究員 (80462878)
金 相旭 神戸大学, 工学研究科, 助教 (00826878)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | サイバーセキュリティ / 機械学習 / 攻撃生成過程 / 悪性ドメイン検知 / 悪性JavaScript検知 / 深層学習 |
Outline of Annual Research Achievements |
本研究では、サイバー攻撃の生成過程に対して得られる観測データの特徴を利用し、機械学習で高精度に攻撃検知する手法の確立を目指す。本年度では、悪性ドメインに関連したデータ生成過程に注目し、信頼性の高い攻撃データの収集や悪性度判定を行う機械学習手法の開発を吉岡(横浜国大)、班(NICT)、白石、金(神戸大)と共同して行い、以下の成果を得た。
(1)小澤、班、金は、検知回避を目的としたランダム文字列や正規サイトとユーザに誤認させる文字列を含めるドメイン生成アルゴリズム(DGA)の特徴に基づき、攻撃検知を行う機械学習検法を開発し、GSBで良性とされた369万件から217件の悪性URLを発見した。また、Webアクセスで実行されるJavaScriptを収集し、スクリプトコードを抽象決定木に変換した上で、Graph2Vecによりスクリプトのグラフ構造を特徴ベクトルに変化して悪性度判定する手法を開発した。白石は、ボットネットがDGAで生成された悪性ドメインにアクセスする際、DNSに問い合わせることを利用して、DNSログから悪性ドメインの関係グラフを抽出し、その特徴量をグラフ畳込みニューラルネットで得て判定する手法を提案し、10,000件のDGAドメインに対して91%の検知精度を得た。
(2)吉岡は、Webアクセスログで得られる23個の特徴量を定義し、VirulTotalへの問い合わせで得られる情報と組み合わせて高リスクドメインを抽出する機械学習モデルを提案し、3日間のデータがあれば98%程度の精度で悪性ドメインを絞り込めることを示した。また、悪性URLをブロックリスト化して低コスト運用するため、ドメインキャッシュを導入し、VirusTotalを使って推測されるドメイン活性度と過去の問合せ状況で再問合せの要否を判定する方式を提案し、問合せ数が2/3程度に抑えられることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度において、2021年度の研究実施計画で挙げた項目のうち、緊急性の観点と成果の重要性の観点から「(I-a) 悪性サイトのURL・スクリプトの生成過程モデル」に注力し、その結果を研究実績の概要にまとめた。本項目については、予想以上の研究成果が得られており、現在、3本のジャーナル論文と2本の国際会議論文を投稿予定である。なお、「(Ⅰ-b) 脆弱性探索を行うマルウェア亜種の生成過程モデル」と「(Ⅰ-c) DRDoS攻撃の生成過程モデル」についても、研究を共同して実施し、概ね良好な成果が得られており、現在、国際会議論文1件を投稿して条件付き採択になっている。
|
Strategy for Future Research Activity |
今後、以下の点について検討を行い、さらに実用性の高い高精度な攻撃検知が可能な機械学習手法を開発する。
(1)攻撃者には攻撃の目的があり、それを実行する悪性サイトには、検知を避けることが難しい企みが必ず特徴として残るはずである。この攻撃の痕跡をドメイン知識をフルに活用しながら顕在化し、機械学習の特徴を活かした悪性サイトのURL・スクリプトの生成過程モデルの構築を引き続き検討する。
(2)脆弱性探索を行うマルウェア亜種の生成過程モデルについては、インターネットを広域に探索できるダークネットの特徴とサードパーティのセキュリティ情報検索サービスの特徴を組み合わせることで、マルウェア感染状況に対する、より詳細な情報が得られないかについて検討する。
|