• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

迷惑メールの記述言語に依存しないフィルタリング方式の開発

研究課題

研究課題/領域番号 18500072
研究機関筑波大学

研究代表者

阪口 哲男  筑波大学, 大学院・図書館情報メディア研究科, 准教授 (10225790)

研究分担者 杉本 重雄  筑波大学, 大学院・図書館情報メディア研究科, 教授 (40154489)
永森 光晴  筑波大学, 大学院・図書館情報メディア研究科, 講師 (60272209)
キーワード電子メール / spam / 多言語処理 / 自動分類 / 迷惑メール / Unicode
研究概要

近年、インターネットの電子メールでは受信者が求めていないメッセージを多量に送りつける、いわゆる迷惑メール(spam, UBE)の増加が問題となっている。この対策の一種として、メッセージの特徴に基づく学習型の自動分類手法を用い、利用者が迷惑メールを選別する手間を減らす方式がある。
しかしながら、その特徴量の抽出には主に自然言語処理の形態素解析手法が用いられているため、英語を始めとする特定の言語には対応しているが、それ以外の言語で書かれた迷惑メールの選別精度に問題が残る。
本研究ではこのような状況において、特定の言語向けの形態素解析手法によらず、電子メールにおけるメッセージからの特徴量抽出手法を検討し、その評価を行うことによって、メッセージを記述している言語に依存しない迷惑メールフィルタリングの手法の開発を進めるものである。
メールから抽出する特徴量として「語」に代わるものに基づくことにより言語に依存しないフィルタリング方式の確立を目指す。昨年度までに単純に一定の長さの部分文字列を切り出す手法の開発とその評価進めてきた。しかしながら固定長による方式では一単語あたりの文字列長が長くなる表音文字が主であるメールについての精度に問題がある。そこで、本年度はUnicodeの文字分類や文字属性を利用した可変長切り出し手法の開発を行った。そしてコーパスによる実験を通じてその精度の改善を確認した。しかしながら、残された課題として評価実験に用いるコーパス構築における非迷惑メールの収集があり、今後様々な迷惑メール対策手法の開発共通の問題となりつつあることがわかった。

  • 研究成果

    (1件)

すべて 2008

すべて 雑誌論文 (1件) (うち査読あり 1件)

  • [雑誌論文] 分割・統合可能な組織内Webアーカイブシステムの構成方法2008

    • 著者名/発表者名
      柊和佑, 阪口哲男, 杉本重雄
    • 雑誌名

      情報知識学会誌 Vol.18, No.1

      ページ: 47-57

    • 査読あり

URL: 

公開日: 2010-02-04   更新日: 2016-04-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi