2019 Fiscal Year Annual Research Report
Development of the method for mail filtering focused on fetures of ham mails and word attributes
Project/Area Number |
16K12438
|
Research Institution | Yamaguchi University |
Principal Investigator |
杉井 学 山口大学, 国際総合科学部, 准教授 (00359910)
|
Co-Investigator(Kenkyū-buntansha) |
松野 浩嗣 山口大学, 大学院創成科学研究科, 教授 (10181744)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | スパムメール / テキストマイニング / 機械学習 / 単語属性 / 共出現 |
Outline of Annual Research Achievements |
正規メールの特徴を重視し単語属性に着目して、精度の高い迷惑電子メール(スパムメール)の自動分類のための新たな単語属性の発見を試みてきた。これまでの研究で、単語の出現頻度や品詞などの単語属性が有力な候補となりうることを示した。単語の出現頻度については、文章を構成する一つ一つの単語の出現頻度もさることながら、ある二つの単語が同じメール本文に共に出現する頻度(JACCARD係数を用いた共出現頻度)の総平均値によって、メール本文のスパムメールとの類似度を表せることを発見した。 また、単語の品詞属性については、名詞のみを利用した場合に効率よくメール本文の類似度を表せることに加え、一般的な辞書に載っていない無辞書語を利用した単語の共出現頻度を利用してスパムメールとの類似度を算出した場合に、最も精度よくスパムメールを自動分類できることを発見した。これは、同じ内容の文章を大量に送信するメールにおいて、単語のスペルミスや通常使われにくい表現の単語などがその特徴として表れることを示唆していた。 そこで、メール本文を構成する単語群を品詞ごとに分け、特定の品詞の単語に限定したり、いくつかの品詞の単語の組み合わせを利用して、一般的にベイズフィルタとしてよく用いられるbsfilterと我々の開発したJACCARD係数を用いた共出現単語による自動分類システムでの分類精度を検証した。その結果、bsfilterにおいては名詞、動詞、形容詞、無辞書語を用いた場合に、共出現単語による自動分類システムにおいては、名詞、動詞、無辞書語を用いた場合に、最も分類精度が高くなることが分かった。また、いずれのシステムでもいずれの品詞でも無辞書語を含めて分類をした場合に、分類精度が向上する結果を得た。
|