今後の研究の推進方策 |
平成25年度では、「マルウェア解析システム構築の実用性研究」と共に「効率のよいデータ分析手法の提案の理論性研究」を同時に推進する。 理論性研究では、可変長文字列カーネル関数の実装と性能評価を進める。入力された文字列SiとSjの可変長Nグラム文字列カーネル関数K(Si,Sj)を効率的に計算するため、Suffix Trieという最長共通部分列の高速抽出をサポートする先進的なデータ構造を採用し、従来の固定長共通部分列カーネル関数(Nグラム)の記述能力を改善し、学習性能の向上に寄与する。尚、 入力文字列Si(i=1,...,n)のSuffix Trieを集約することで構築されたGeneralized Suffix Trieデータ構造Sでは、新しい文字列TとSに埋め込まれたすべての文字列Siの間の共通部分列を取得するのは、時間計算量はO(min(li,lj))しか掛からない。この特性では、配列カーネル関数に基づいた高速学習法が可能になる。提案手法に基づいたマルウェア解析モデルの性能を評価するため、CDMC 2010コンピテーションで提供されたバイナリクラス分類タスクで、時間計算量及び汎化能力を評価する。 一方、実用性研究では、提案した学習モデルに基づいたマルウェア・パッカー特定システムや、マルウェアの動的解析システム、スパムメール解析システムの実証実験を行う。提案手法の性能評価は、情報通信研究機構で収集されたマルウェア動的解析データベース及び構内メールサーバで収集したスパム・メール・データベースの上で実行する。尚、提案した文字列カーネル関数を他のカーネル学習法に活用して、スパム・メールのフィルタリングやメール検体のクラスタリング等の探索的データ解析を行う。
|