2016 年度実施状況報告書

正規メール特徴を重視し単語属性に着目した高精度・高速フィルタリング手法の開発

研究課題

研究課題/領域番号	16K12438
研究機関	山口大学
研究代表者	杉井学山口大学, 国際総合科学部, 准教授 (00359910)
研究分担者	松野浩嗣山口大学, 創成科学研究科, 教授 (10181744)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	メールフィルター / 属性情報 / 語順
研究実績の概要	電子メール分類の特徴を捉えた属性の発見のための調査として、電子メール本文を構成する文章や単語等から、単語の出現頻度や品詞情報、語順情報等を取り出し、それらをメールの属性データとして活用する方法を実施した。メール本文の文字列を属性データに応じて対応する記号列に変換し、その記号列の中から特徴パターンを抽出してメールフィルターに利用する方法である。属性データとして利用したのは、単語の出現頻度、単語の文字列数、単語の頭文字、単語の品詞、一文の中での単語の出現順などである。単語の出現頻度属性による特徴分析は、これまでにも調べられているが、品詞を表す属性記号の出現頻度によっても高い精度でスパムメールの分類ができることが分かった。特に、単語の品詞属性と一文の中でのその出現順を組み合わせた属性を用いてメール分類を行うと、正規メールを非常に高い精度で分類できることが示された。また、正規メール群においては、単語の出現頻度属性に加えて、語順情報（一文の中での出現順）を付加することで、分類精度を向上させることができたことから、語順属性に何らかの正規メールを特徴づけるパターンがあることが示唆された。スパムメール群については、今のところ単語の語順属性による分類精度の向上は見られないが、その他の属性の中に、スパムメールを特徴づけ、スパムメールの分類精度の向上につながるものが存在する可能性がある。いずれにしても、今回の成果で正規メールを高い精度で分類することができる属性を発見できたことから、他のメールフィルターシステムとの組み合わせによって、より高い精度のフィルターシステムを実現できる可能性が示唆された。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由メールの特徴抽出において、機械学習システムBONSAIを用いているが、動作させるコンピュータのCPUビット数、OS付属のコンパイラのバージョンなどの組み合わせによって、正しく動作しないことが発見され、対応に時間を要した。また、言語依存性調査による正規メール特徴分類の万能性調査において、各種言語で記述されたメールに範囲を広げて有効性の測定をする計画であるが、協力留学生の選定も含めて、サンプルメールの調達に時間を要している。
今後の研究の推進方策	平成29年度については、引き続きメールの最適属性の調査を続けるとともに、各種言語のメールサンプルの調達を急ぐ。また、正規メールの分類特徴として利用が期待された語順情報の有効性についてさらに解析を続ける。その後、機械学習システムとベイジアンフィルターシステムの組み合わせによる分類精度の検証を行い、メールの自動分類システムのプロトタイプの作成につなげる。
次年度使用額が生じた理由	進捗状況に若干の遅れを生じたために、研究協力者への謝金の支払いと海外での研究成果の報告ができず、謝金及び旅費として計上している部分に残額が生じてしまった。
次年度使用額の使用計画	メールサンプルを提供してくれる研究協力者としての留学生を確保し、作業実施および謝金支払いをする。また、本年度中には間に合わなかったが、研究報告を行うだけの成果は得ており、本年度分の成果を次年度に研究成果報告として行うための資金として使用する予定である。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] ベイジアン方式メールフィルタリングにおける変換単語の属性情報探索2017
- 著者名/発表者名
  藤井　望、杉井　学、松野　浩嗣
- 学会等名
  電子情報通信学会　システム数理と応用研究会
- 発表場所
  島根大学（島根県・松江市）
- 年月日
  2017-03-16 – 2017-03-17