インターネット上では日々様々なデータトラフィックが流通している.その多くは正しいものであるが,一部のトラフィックは異常なものである.また,インターネット上の影響度合いという意味では,正常,異常トラフィックともに,少数のホストが関与している場合,多くのホストが関与している場合がある.本研究では,後者の多くのホストによる大きなイベントの検出を目指している.その例としては,CDNやメーリングリストに関係する正常なもの,ネットワークスキャンやスパム送信等の異常なものである. 基本的なアプローチとしては,インターネット上の名前解決方法であるDNSを用いて,どのような名前が普段と異なる振る舞いをするかに着目する.本年度は,DNSの逆引きクエリ名を用いたDNSバックスキャッターの基本原理に関する研究を行った.DNSバックスキャッターは逆引きクエリを生成したホストの名前やトラフィック量から特徴量空間を構成し,その逆引きクエリがどのようなイベントを行っているかを機械学習によって識別する. データセットとして.jpに対応するJP-DNSサーバおよびM-ROOTサーバのクエリログ,および,ダークネットやスパムブラックリストデータから正解ラベルを構築し,解析を進めた.いくつかの機械学習アルゴリズムを使用した初期評価を行ったところ,70-80%の精度が得られた.この結果は,当該分野のトップ国際会議であるinternet measurement confereneにて発表された.
|