反垃圾邮件技术分析与中文垃圾邮件过滤规则研究.ppt_第1页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究.ppt_第2页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究.ppt_第3页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究.ppt_第4页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究.ppt_第5页
免费预览已结束,剩余70页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、反垃圾邮件技术分析与中文垃圾邮件过滤规则研究,孙东红 陈光英 中国教育和科研计算机网紧急响应组 (Computer Emergency Response Team of China Education and Research Network) 清华大学信息网络工程研究中心 (Network Research Center of Tsinghua Univ.),主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义 垃圾邮件历史 现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,垃圾邮件的定义,垃圾邮件:普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件, SPAM

2、, UBE(Unsolicited Bulk Email), UCE (Unsolicited Commercial Email) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件; 收件人无法拒收的电子邮件; 隐藏发件人身份、地址、标题等信息的电子邮件; 含有虚假的信息源、发件人、路由等信息的电子邮件。,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义 垃圾邮件历史 现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,1985 年8 月一封通过电子邮件发送的链锁信,一直持续到1993 年,这是首次关于垃圾邮件的记录。 1993

3、 年6 月份,在Internet 上出现了名为“Make Money Fast”的电子邮件。 1994 年4 月份,Canter Thu, 23 Dec 2004 10:40:21 +0800 (CST) Message-ID: From: iflkgj Subject: =?GB2312?B?08W73bT6v6q3osax?= To: Content-Type: text/plain;charset=GB2312 Reply-To: Date: Thu, 23 Dec 2004 10:54:34 +0800 X-Priority: 2 X-Mailer: Microsoft Outlook

4、 Express 6.00.2800.1158 贵公司负责人(经理/财务)您好: 我公司是深圳市如意广告有限公司,我公司实力雄厚,有着良好的社会关系。 因我公司是定额税额,每月有一部分普通广告发票和其他服务发票(地税)(2%) .,检测对象,基于统计,基于规则,应用范围,客户端,客户端,服务器,服务器,基于规则 (SpamAssassin),基于统计 (贝叶斯),推广性和时效性,基于规则 推广性强 时效性差 基于统计 时效性强 推广性差,时效性,推广性,基于规则,基于统计,?,语义问题?,CCERT的新方法,统计规则方法 规则由统计方法自动生成,CCERT的新方法和传统方法比较,SpamAss

5、assin (SA),免费垃圾邮件过滤系统 公开源代码 支持sendmail、qmail、Postfix、Exim MTA、MUA、POP3 基于规则,用户自定义规则 查准率高,速度快 广泛使用,SA规则例子,bodyDEAR_FRIEND/s*Dear Friendb/i describe DEAR_FRIEND Dear Friend? Thats not very dear! score DEAR_FRIEND 0.542,正则表达式,名字,分值,说明,应用范围(信头、信体、原始信体、原始邮件、URI),垃圾邮件判别方法,总分值 6.3,阈值 5.0pts rule name descr

6、iption- - -0.5 DEAR_FRIENDDear Friend? Thats not very dear! 0.1 NORMAL_HTTP_TO_IP URI: Uses a dotted-decimal IP address in URL0.0 HTTP_ESCAPED_HOST URI: Uses %-escapes inside a URLs hostname0.5 HTML_60_70 BODY: Message is 60% to 70% HTML0.0 HTML_MESSAGE BODY: HTML included in message2.9 HTML_IMAGE_O

7、NLY_08 BODY: HTML: images with 400-800 bytes of words1.0 HTML_FONT_LOW_CONTRAST BODY: HTML font color similar to background1.2 MIME_HTML_ONLY BODY: Message only has text/html MIME parts,所有规则都检查 计算总分值:匹配的规则的分值之和 总分值大于阈值则是垃圾邮件,SA对中文的支持,SA主要针对英文垃圾邮件 缺乏中文规则 英文规则对中文邮件的影响,CCERT的中文垃圾邮件过滤规则集 Chinese_rules.c

8、f (,Chinese_rules.cf的运行框架,垃圾邮件样本,规则集,自动生成,邮件服务器,POP3代理服务器,客户端,下载,CCERT提供服务,各地用户,Chinese_rules.cf的匹配速度,Chinese_rules.cf包含约500条规则 规则简单则匹配快 Subject规则占90%、Body规则占10% 普通PC(P4 2.8G)匹配一个大小为5.0K的邮件需要0.04秒 每天能处理216万封邮件,语义问题?,Chinese_rules.cf的准确率,Chinese_rules.cf的进展,用户查看规则统计,用户使用规则统计,从9月7日至12月15日,SA 把超过4.5的邮件判为Spam,本邮件分值为10.3,如果没有中文规则集,本邮件分值只有3.1 ,将会判为正常邮件,总结,推广性、时效性和语义问题 垃圾和正常邮件样本 用户反馈信息与在线学习 Chinese_rules.cf和其它规则的冲突 语义问题在规则上的体现 多种方法的结合,Thanks

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论