正当な電子メールの特徴を利用した言語の種類に依存しない迷惑メールフィルターを開発するために、機械学習システムBONSAIを用いて、迷惑電子メールと正規電子メールに内在する文字列特徴の抽出を行った。文字列を一定の法則(漢字かな変換プログラムKAKASIを使用)にしたがって"分かち書き"処理し、文節または単語に分割して、文字列の出現頻度とその語順を組み合わせた情報を電子メールの特徴として決定木で表現する手法を用いた。また、Rough Readingと呼ばれる情報量を減らしながらも文章および文字列の特徴を抽出するための方法も組み合わせ、特徴抽出処理の高速化と言語の種類に依存しない新たな解析方法も取り入れた。 電子メールヘッダ情報を含む正規な電子メールと迷惑電子メールを学習例としたとき、決定木は正規な電子メールのヘッダ情報をノードに配して、非常に単純でしかも正確に正規電子メールと迷惑電子メールを分類する規則を表現した。この規則を利用した迷惑電子メールの分類実験では、既存のThundarbirdやPopfileといったベイジアンフィルターを用いたメールフィルターソフトと比べて勝るとも劣らない分類精度を得た。特に、正規電子メールを誤って迷惑電子メールに分類してしまう誤分類率はきわめて小さく、今後の実用化に向けた開発が期待される。 本研究によって、迷惑電子メールの分類を正規な電子メールの特徴を用いて行う、これまでにない新しい手法を提案することができた。
|