Research Abstract |
未知のウイルスとは,アンチウイルスが対応する情報を持っていないために検出できないウイルスであり,新たに発生したウイルスは基本的には未知のウイルスである.未知のウイルスを細かく見ていくと,以前に類似性のあるウイルスが存在しない新種と以前に類似性のあるウイルスが存在する亜種の2種類に分類が可能である.現在,90%以上の未知のウイルスは亜種であり,スパイウェアやボットウイルスはほとんど亜種から作成されている.亜種は,オリジナルのウイルスを一部改変して作成されたものであり,一からウイルスを作り始めるのに比べて作成に時間がかからない.亜種は多くの場合,送信されるメールの内容がほぼ同じものであったり,動作やPCに与える被害が同一のものであったりする.つまり,亜種と亜種,亜種とオリジナルウイルスの間に類似性が存在する.したがって,亜種の検出ができたら,90%以上の未知のウイルスを検出することができる.そこで私達は,Bayesian Virus Filterによって共通点を持つ未知ウイルスを検出することを提案した.すなわち既知のウイルスから特徴点を抽出しておくことで,未来に発生する未知ウイルス(亜種)を検出する.最初に代表的なPaul Graham方式,Gary Robinson方式およびnaive方式の三種類のベイズ方式を用いたウイルスフィルタ性能に関する実験を行った.このフィルタでは,より高い検出率を可能にする必要があるが,極力低い誤検出率を実現することも不可欠である.前述の三種類のベイズ方式をウイルスフィルタとして用い,実際の既知ウイルスファイルとノンウイルスファイルを入力して検出率と誤検出率を比較した.このウイルスフィルタの性能を評価するに当たって,Chainと呼ばれる評価指標を導入している.Chainとは連続して検出が可能なウイルスの集合を示している.すなわち,あるウイルス群をそれらが発生した順にウイルスフィルタに入力した場合に,各ウイルスの特徴を学習し,共通点を持つ将来発生する未知ウイルスを検出するものである.実験では,32種類のウイルスファイルそれぞれ200件ずつ合わせて6,400件と,ノンウイルスファイル400件を入力している.実験の結果,Chain数が少ないと誤検出率は高くなる傾向となる.Chain数が一番少ないのは,naive方式で,Chain数は4で最大誤検出率は約13.5%になる.誤検出率が一番低いのは,Paul Graham方式で,最大誤検出率は0.5%,Chain数は10になる.実用化を意識して最大誤検出率が3%を超えない範囲で,Chain数をなるべく少なくする方式を選別した.その結果,Gary Robinson方式がChain数5,最大誤検出率1.5%を達成した.
|