• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

正規メール特徴を重視し単語属性に着目した高精度・高速フィルタリング手法の開発

Research Project

Project/Area Number 16K12438
Research InstitutionYamaguchi University

Principal Investigator

杉井 学  山口大学, 国際総合科学部, 准教授 (00359910)

Co-Investigator(Kenkyū-buntansha) 松野 浩嗣  山口大学, 大学院創成科学研究科, 教授 (10181744)
Project Period (FY) 2016-04-01 – 2020-03-31
Keywordsメールフィルター / JACCARD係数 / 共起関係
Outline of Annual Research Achievements

これまでに、迷惑電子メール(スパムメール)の自動分類のための特徴を捉えた属性情報を探索し、候補となるいくつかの属性を選定した。初期研究で候補とした単語の出現頻度や品詞の情報に加え、文書内に同時に出現する二つの単語の出現割合(JACCARD係数を用いた共起度)が、スパムメールの自動分類の属性となり得ることを発見した。
当該年度においては、一般的にスパムメールフィルターの研究によく用いられているスパムコーパス(分類性能評価に用いられるスパムメールと正規メールの実サンプル)を用いて、文書内に含まれるすべての単語を用いた二単語の共起度の分布を調べた。また、JACCARD係数をベースにした新たなスパムメールの判断指標としての共起度の平均(文書の個性度)を計算し、この値を用いたスパムメールの分類精度を評価した。その結果、これまでの単語の出現頻度をもとにしたベイジアンフィルターと比較して、それぞれのメールがスパムメールと正規メールのよりどちらの分類に近いかが明確に表されるようになり、分類の精度も向上した。
これまでの方法では、“出会い系メール”と言われるスパムメールは、出現頻度の高い単語などがほとんどなく、特徴が見いだせないために自動分類が非常に難しかった。しかし、個性度を用いた方法では、文書に含まれる複数の単語の関連を捉えるため、従来の方法では発見できなかった特徴を抽出している可能性があり、高い精度で“出会い系“スパムメールを自動分類できる可能性が高い。これまでにない新しいスパムメール分類手法として、非常に重要な技術となり得る方法である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究計画初年度の遅れが、そのまま全体の計画の進行に後れを生じさせているが、問題解決後の進捗はおおむね順調である。当初計画案から約1年遅れで計画が進行中である。

Strategy for Future Research Activity

1年遅れではあるものの、計画に従い順次実験計画を進める。文書内に同時に出現する二つの単語の出現割合(JACCARD係数を用いた共起度)を指標にした機械学習によるスパムメールフィルターの有効性は把握できたので、処理速度の高速化、他のスパムメールフィルターとの併用効果の測定などを行う。処理速度の高速化については、学習データをファイルに書き出していた点をデータベースシステムに置き換えることで解決できると考えており、データベースシステムの導入とプログラムの修正を開始している。最後にプロトタイプシステムの構築と研究成果報告(学会発表および論文投稿)を予定している。

Causes of Carryover

初年度の計画遅れを取り戻すべく、メール分類作業用の人件費、研究成果報告のための旅費と参加費を計上していたが、業務多忙により成果報告用の出張回数を少なくせざるを得ず、その分の旅費が残額となってしまった。残額については当該年度に使用予定だった研究成果報告用の旅費として使用する。

  • Research Products

    (2 results)

All 2019 2018

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Jaccard係数を用いた単語の共起度に基づくメールフィルタの提案2019

    • Author(s)
      天満誠也、杉井 学、松野浩嗣
    • Organizer
      電子情報通信学会 システム数理と応用研究会(MSS)
  • [Presentation] Searching Attribute Information for Mail Filtering based on Text Mining2018

    • Author(s)
      Seiya Temma, Manabu Sugii, Hiroshi Matsuno
    • Organizer
      The 33rd International Technical Conference on Circuit/Systems Computers and Communications
    • Int'l Joint Research

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi