2016 Fiscal Year Research-status Report
正規メール特徴を重視し単語属性に着目した高精度・高速フィルタリング手法の開発
Project/Area Number |
16K12438
|
Research Institution | Yamaguchi University |
Principal Investigator |
杉井 学 山口大学, 国際総合科学部, 准教授 (00359910)
|
Co-Investigator(Kenkyū-buntansha) |
松野 浩嗣 山口大学, 創成科学研究科, 教授 (10181744)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | メールフィルター / 属性情報 / 語順 |
Outline of Annual Research Achievements |
電子メール分類の特徴を捉えた属性の発見のための調査として、電子メール本文を構成する文章や単語等から、単語の出現頻度や品詞情報、語順情報等を取り出し、それらをメールの属性データとして活用する方法を実施した。メール本文の文字列を属性データに応じて対応する記号列に変換し、その記号列の中から特徴パターンを抽出してメールフィルターに利用する方法である。 属性データとして利用したのは、単語の出現頻度、単語の文字列数、単語の頭文字、単語の品詞、一文の中での単語の出現順などである。単語の出現頻度属性による特徴分析は、これまでにも調べられているが、品詞を表す属性記号の出現頻度によっても高い精度でスパムメールの分類ができることが分かった。特に、単語の品詞属性と一文の中でのその出現順を組み合わせた属性を用いてメール分類を行うと、正規メールを非常に高い精度で分類できることが示された。 また、正規メール群においては、単語の出現頻度属性に加えて、語順情報(一文の中での出現順)を付加することで、分類精度を向上させることができたことから、語順属性に何らかの正規メールを特徴づけるパターンがあることが示唆された。スパムメール群については、今のところ単語の語順属性による分類精度の向上は見られないが、その他の属性の中に、スパムメールを特徴づけ、スパムメールの分類精度の向上につながるものが存在する可能性がある。 いずれにしても、今回の成果で正規メールを高い精度で分類することができる属性を発見できたことから、他のメールフィルターシステムとの組み合わせによって、より高い精度のフィルターシステムを実現できる可能性が示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
メールの特徴抽出において、機械学習システムBONSAIを用いているが、動作させるコンピュータのCPUビット数、OS付属のコンパイラのバージョンなどの組み合わせによって、正しく動作しないことが発見され、対応に時間を要した。また、言語依存性調査による正規メール特徴分類の万能性調査において、各種言語で記述されたメールに範囲を広げて有効性の測定をする計画であるが、協力留学生の選定も含めて、サンプルメールの調達に時間を要している。
|
Strategy for Future Research Activity |
平成29年度については、引き続きメールの最適属性の調査を続けるとともに、各種言語のメールサンプルの調達を急ぐ。また、正規メールの分類特徴として利用が期待された語順情報の有効性についてさらに解析を続ける。その後、機械学習システムとベイジアンフィルターシステムの組み合わせによる分類精度の検証を行い、メールの自動分類システムのプロトタイプの作成につなげる。
|
Causes of Carryover |
進捗状況に若干の遅れを生じたために、研究協力者への謝金の支払いと海外での研究成果の報告ができず、謝金及び旅費として計上している部分に残額が生じてしまった。
|
Expenditure Plan for Carryover Budget |
メールサンプルを提供してくれる研究協力者としての留学生を確保し、作業実施および謝金支払いをする。また、本年度中には間に合わなかったが、研究報告を行うだけの成果は得ており、本年度分の成果を次年度に研究成果報告として行うための資金として使用する予定である。
|