2017 Fiscal Year Research-status Report
正規メール特徴を重視し単語属性に着目した高精度・高速フィルタリング手法の開発
Project/Area Number |
16K12438
|
Research Institution | Yamaguchi University |
Principal Investigator |
杉井 学 山口大学, 国際総合科学部, 准教授 (00359910)
|
Co-Investigator(Kenkyū-buntansha) |
松野 浩嗣 山口大学, 大学院創成科学研究科, 教授 (10181744)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 共起ネットワーク / JACCARD係数 / 多次元尺度法 |
Outline of Annual Research Achievements |
これまでに、電子メールを正規メールやスパムメール等に分類するための特徴を捉えた属性として、電子メールを構成する文字情報から単語の出現頻度や品詞情報を取り出し、これらを利用することで高い精度でメールをフィルタリングできることを明らかにした。 さらにフィルタリング精度の向上を目指し、属性情報の探索を継続した。新たに注目している情報の一つに、メール本文の単語の共起度がある。異なるメール間でどの程度共通して単語が出現するかを表すJACCARD係数を用いて、学習例中によく同時に出現する単語のネットワークを図示することができる。これを単語の共起ネットワークと呼ぶが、学習例中の単語を用いた共起ネットワークは、いくつかの単語のクラスタを作ることが分かった。また、単語の多次元尺度法を用いた解析では、共起度の高い単語の集団の中には、出現頻度の低い単語も含まれており、例えば“出会い系システム”を公告するスパムメールは、常に使われる出現頻度の高い特徴的な単語は少ないものの、ありふれた単語のある組み合わせに特徴を持つ可能性が示唆された。 これらの結果は、昨今のスパムメールが“広告メール”、“出会い系メール”といった、ある程度使用単語の傾向の似たメール集団からなっていることを表し、それぞれの特徴を捉える属性の発見によって、より高い精度で分類ができることを示している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成28年度の解析システム構築の問題は解決したものの、進行の遅れがずれ込み、フィルタリング精度の向上を目指した属性情報の探索に時間を要している。分類精度向上に寄与できそうないくつかの属性情報は抽出できているものの、納得のできる成果が得られていない。
|
Strategy for Future Research Activity |
引き続きメール分類のための属性情報の探索を続けるとともに、サンプルメールの収集を急ぐ。属性情報の探索については、メールの特徴を表す属性をいくつかのレイヤに分けて考えることにする。例えば、単語の出現頻度のような個別のメールの特徴を表す下層のレイヤから、使用単語の傾向の似たメール集団を表すことができる特徴的な単語の組み合わせのような上層レイヤに位置づけられる属性のようなものである。
|
Causes of Carryover |
(理由)平成28年度までに生じた遅れは、そのまま全体の進行の遅れとして残り、研究協力者の作業に取り掛かれなかったため、謝金として計上している部分に残額が生じてしまった。また、研究成果報告の場所を欧州からアジアへ変更したことにより、旅費に一部残額が生じた。 (使用計画)平成30年度は、研究協力者の作業に取り掛かることができる状況となっているため、謝金の支払いを行う。また、得られている成果の報告もできるため、平成29年度執行予定だった旅費により、海外での成果報告を行う。
|