2006 Fiscal Year Annual Research Report

迷惑メールの記述言語に依存しないフィルタリング方式の開発

Research Project

Project/Area Number	18500072
Research Category	Grant-in-Aid for Scientific Research (C)
Research Institution	University of Tsukuba
Principal Investigator	阪口哲男筑波大学, 大学院・図書館情報メディア研究科, 助教授 (10225790)
Co-Investigator(Kenkyū-buntansha)	杉本重雄筑波大学, 大学院・図書館情報メディア研究科, 教授 (40154489) 永森光晴筑波大学, 大学院・図書館情報メディア研究科, 講師 (60272209)
Keywords	電子メール / spam / 多言語処理 / 自動分類 / 迷惑メール
Research Abstract	近年、インターネットの電子メールでは受信者が求めていないメッセージを多量に送りつける、いわゆる迷惑メール(spam, UBE)の増加が問題となっている。この対策の一種として、メッセージの特徴に基づく学習型の自動分類手法を用い、利用者が迷惑メールを選別する手間を減らす方式がある。しかしながら、その特徴量の抽出には主に自然言語処理の形態素解析手法が用いられているため、英語を始めとする特定の言語には対応しているが、それ以外の言語で書かれた迷惑メールの選別精度に問題が残る。また、最近ではこのような手法に対抗するため、形態素解析がうまくいかないようにわざとスペルを変えているような迷惑メールも増加している。本研究ではこのような状況において、特定の言語向けの形態素解析手法によらず、電子メールにおけるメッセージからの特徴量抽出手法を検討し、その評価を行うことによって、メッセージを記述している言語に依存しない迷惑メールフィルタリングの手法の開発を進めるものである。従来の手法ではベイズ確率などの統計的手法が用いられているが、この点は対象とする言語に依存するものではない。言語へ依存するのは、各メッセージから統計に用いる特徴量を抽出する部分である。一般にメールの内容は自然言語であり、その内容を表す基本構成要素としての「語」を抽出するために形態素解析が行われている点が問題となる。そこで、メールから抽出する特徴量として「語」に代わるものに基づくことにより言語に依存しないフィルタリング方式の確立を目指す。既に代表者らが開発した手法としては、語を抽出するのではなく、メールのヘッダ部や本文から単純に一定の長さの部分文字列を切り出し、それを特徴量として用いる方式がある。本年度はこのメッセージより抽出する特徴量のさらなる検討を進め、コーパスによる実験を通じてその精度の改善を進めてきた。