2018 Fiscal Year Research-status Report
正規メール特徴を重視し単語属性に着目した高精度・高速フィルタリング手法の開発
Project/Area Number |
16K12438
|
Research Institution | Yamaguchi University |
Principal Investigator |
杉井 学 山口大学, 国際総合科学部, 准教授 (00359910)
|
Co-Investigator(Kenkyū-buntansha) |
松野 浩嗣 山口大学, 大学院創成科学研究科, 教授 (10181744)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | メールフィルター / JACCARD係数 / 共起関係 |
Outline of Annual Research Achievements |
これまでに、迷惑電子メール(スパムメール)の自動分類のための特徴を捉えた属性情報を探索し、候補となるいくつかの属性を選定した。初期研究で候補とした単語の出現頻度や品詞の情報に加え、文書内に同時に出現する二つの単語の出現割合(JACCARD係数を用いた共起度)が、スパムメールの自動分類の属性となり得ることを発見した。 当該年度においては、一般的にスパムメールフィルターの研究によく用いられているスパムコーパス(分類性能評価に用いられるスパムメールと正規メールの実サンプル)を用いて、文書内に含まれるすべての単語を用いた二単語の共起度の分布を調べた。また、JACCARD係数をベースにした新たなスパムメールの判断指標としての共起度の平均(文書の個性度)を計算し、この値を用いたスパムメールの分類精度を評価した。その結果、これまでの単語の出現頻度をもとにしたベイジアンフィルターと比較して、それぞれのメールがスパムメールと正規メールのよりどちらの分類に近いかが明確に表されるようになり、分類の精度も向上した。 これまでの方法では、“出会い系メール”と言われるスパムメールは、出現頻度の高い単語などがほとんどなく、特徴が見いだせないために自動分類が非常に難しかった。しかし、個性度を用いた方法では、文書に含まれる複数の単語の関連を捉えるため、従来の方法では発見できなかった特徴を抽出している可能性があり、高い精度で“出会い系“スパムメールを自動分類できる可能性が高い。これまでにない新しいスパムメール分類手法として、非常に重要な技術となり得る方法である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究計画初年度の遅れが、そのまま全体の計画の進行に後れを生じさせているが、問題解決後の進捗はおおむね順調である。当初計画案から約1年遅れで計画が進行中である。
|
Strategy for Future Research Activity |
1年遅れではあるものの、計画に従い順次実験計画を進める。文書内に同時に出現する二つの単語の出現割合(JACCARD係数を用いた共起度)を指標にした機械学習によるスパムメールフィルターの有効性は把握できたので、処理速度の高速化、他のスパムメールフィルターとの併用効果の測定などを行う。処理速度の高速化については、学習データをファイルに書き出していた点をデータベースシステムに置き換えることで解決できると考えており、データベースシステムの導入とプログラムの修正を開始している。最後にプロトタイプシステムの構築と研究成果報告(学会発表および論文投稿)を予定している。
|
Causes of Carryover |
初年度の計画遅れを取り戻すべく、メール分類作業用の人件費、研究成果報告のための旅費と参加費を計上していたが、業務多忙により成果報告用の出張回数を少なくせざるを得ず、その分の旅費が残額となってしまった。残額については当該年度に使用予定だった研究成果報告用の旅費として使用する。
|