本研究課題の目的は,データ間の類似性の尺度として距離および類似度用い,問い合わせデータに対する検索順位に基づいたクラスタリング手法を提案することである.クラスタリングアルゴリズムの主なアイデアは,各データを母点し,それぞれのデータが母点からどれだけ近いかを順位付けし,その順位のみを用いてクラスタリングを実行するというものであった。今年度においては、現在喫緊の課題とされている情報セキュリティ分野のデータに着目した。本年度においては、マルウェアの亜種分類について、提案アルゴリズムの適用を試みた。この主なアイデアは、マルウェア検体の動的解析で得られるマルウェアの振る舞いをサンドボックスで収集し、その収集したデータに対して本提案アルゴリズムを適用するというものである。そのためにハニーポット・サウンドボックスの構築を実施した。サウンドボックスとして「cuckoo」を用いた。収集したマルウェアと思われる検体122検体を入手した。しかし、サウンドボックス内で23検体のみが外部接続の振る舞いした。23検体に対して、静的解析を実施し、検体の分類を行い正解に分類を行った。その結果、主に3種類のマルウェアの検体群であることが分かった。サウンドボックスで動作させそこから得られるパラメータセットに対して、集合間類似度を用いて提案アルゴリズムに適用した。しかし、相互に高い検索順位を算出するデータセットがなく、孤立点が多く、3つのクラスタを生成することができなかった。このことは、検体の少なさおよびマルウェアの振る舞いが複雑であり、パラメータのグルーピング等の工夫が必要であることが分かった。
|