精品反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件_第1页
精品反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件_第2页
精品反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件_第3页
精品反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件_第4页
精品反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

反垃圾邮件技术分析与中文垃圾 邮件过滤规则研究 孙东红 陈光英 中国教育和科研计算机网紧急响应组 (Computer Emergency Response Team of China Education and Research Network) 清华大学信息网络工程研究中心 (Network Research Center of Tsinghua Univ.) 主要内容 垃圾邮件的情况 反垃圾邮件技术分析 垃圾邮件的定义 垃圾邮件历史 现状分析 中文垃圾邮件过滤规则研究 CCERT开展的反垃圾邮件工作 垃圾邮件的定义 垃圾邮件:普通意义上的垃圾邮件指的是未经主 动请求的大量的电子邮件, SPAM, UBE(Unsolicited Bulk Email), UCE (Unsolicited Commercial Email) v收件人事先没有提出要求或者同意接收的广告、电子刊物、 各种形式的宣传品等宣传性的电子邮件; v收件人无法拒收的电子邮件; v隐藏发件人身份、地址、标题等信息的电子邮件; v含有虚假的信息源、发件人、路由等信息的电子邮件。 主要内容 垃圾邮件的情况 反垃圾邮件技术分析 垃圾邮件的定义 垃圾邮件历史 现状分析 中文垃圾邮件过滤规则研究 CCERT开展的反垃圾邮件工作 1985 年8 月一封通过电子邮件发送的链锁信,一直持 续到1993 年,这是首次关于垃圾邮件的记录。 1993 年6 月份,在Internet 上出现了名为“Make Money Fast”的电子邮件。 1994 年4 月份,Canter Thu, 23 Dec 2004 10:40:21 +0800 (CST) Message-ID: From: “iflkgj“ Subject: =?GB2312?B?08W73bT6v6q3osax?= To: Content-Type: text/plain;charset=“GB2312“ Reply-To: Date: Thu, 23 Dec 2004 10:54:34 +0800 X-Priority: 2 X-Mailer: Microsoft Outlook Express 6.00.2800.1158 贵公司负责人(经理/财务)您好: 我公司是深圳市如意广告有限公司,我公司实力雄厚,有着良 好的社会关系。 因我公司是定额税额,每月有一部分普通广告发票和其他服务发 票(地税)(2%) 检测对象 基于统计 基于规则 应用范围 客户端客户端 服务器服务器 基于规则 (SpamAssassin) 基于统计 (贝叶斯) 推广性和时效性 基于规则 推广性强 时效性差 基于统计 时效性强 推广性差 时效性 推广性 基于规则 基于统计 ? 语义问题? CCERT的新方法 统计规则方法 规则由统计方法自动生成 推广性时效性 基于规则好差 基于统计差好 统计规则好好 CCERT的新方法和传统方法比较 SpamAssassin (SA) 免费垃圾邮件过滤系统 公开源代码 支持sendmail、qmail、Postfix、Exim MTA、MUA、POP3 基于规则,用户自定义规则 查准率高,速度快 广泛使用 SA规则例子 bodyDEAR_FRIEND/s*Dear Friendb/i describe DEAR_FRIEND Dear Friend? Thats not very dear! score DEAR_FRIEND 0.542 正则表达式 名字 分值 说明 应用范围(信头、信 体、原始信体、原始 邮件、URI) 垃圾邮件判别方法 总分值 6.3,阈值 5.0 pts rule name description - - - 0.5 DEAR_FRIENDDear Friend? Thats not very dear! 0.1 NORMAL_HTTP_TO_IP URI: Uses a dotted-decimal IP address in URL 0.0 HTTP_ESCAPED_HOST URI: Uses %-escapes inside a URLs hostname 0.5 HTML_60_70 BODY: Message is 60% to 70% HTML 0.0 HTML_MESSAGE BODY: HTML included in message 2.9 HTML_IMAGE_ONLY_08 BODY: HTML: images with 400-800 bytes of words 1.0 HTML_FONT_LOW_CONTRAST BODY: HTML font color similar to background 1.2 MIME_HTML_ONLY BODY: Message only has text/html MIME parts 所有规则都检查 计算总分值:匹配的规则的分值之和 总分值大于阈值则是垃圾邮件 SA对中文的支持 SA主要针对英文垃圾邮件 缺乏中文规则 英文规则对中文邮件的影响 CCERT的中文垃圾邮件过滤规则集 Chinese_rules.cf (/spam/sa/Chinese_rules.htm) Chinese_rules.cf的运行框架 垃圾邮件样本 规则集 自动生成 邮件服务器POP3代理服务器 客户端 下载 CCERT提供服务 各地用户 Chinese_rules.cf的匹配速度 Chinese_rules.cf包含约500条规则 规则简单则匹配快 Subject规则占90%、Body规则占10% 普通PC(P4 2.8G)匹配一个大小为5.0K的 邮件需要0.04秒 每天能处理216万封邮件 语义问题? Chinese_rules.cf的准确率 阈值垃圾邮件查全率 (共3.5万) 正常邮件误判率 (共14.3万) 0.577.4 %4.4 % 170.8 %1.6 % 1.564.4 %0.8 % 256.9 %0.3 % 2.550.2 %0.1 % 344.3 %0.0 % 3.538.8 %0.0 % Chinese_rules.cf的进展 用户查看规则统计 用户使用规则统计 从9月7日至12月15日 SA 把超过4.5的邮件判为Spam ,本邮件分值为10.3 如果没有中文规则集,本邮件分值 只有3.1 ,将会判为正常邮件 总结 推广性、时效性和语义问题 垃圾和正常邮件样本 用户反馈信息与在线学习 Chinese_rules.cf和其它规则的冲突 语义问题在规则上的体现 多种方法的结合 Thanks! Spam service: 86-10-62784301 Email: Tel: 86-10-62795818-6222 Address: Main Building Room 310, Tsinghua Univ. Beijing, China 100084 XlUiQfNcK8H5D2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z- w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2At!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#lTiQeNbK8G5D1A- x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A- x*t$qZnVkSgPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%nWkThPeMaJ7G4C1z- w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z- w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z- w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQeNbK8G5D2A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A- x*t$qYnVkSgPdMaI7F3C0z)v&s!pXmUiRfOcK9H6E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2B+x(u$rZoWkThQeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!qYmVjRgOdL9I6F3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B+y(v%r#oXlTiQfNbK8G5D2A-x*u$qZnVkShPdMaJ7F4C0zs#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ7F4C1z)w&t!pYmUjRgOcL9I6E3B0y(v%r#oXlTiQfNbK8G5D2A- x*u$qZnVkShPdMaJ7F4C0z)w&s!pYmUjRfOcL9H6E3B+y(u%r#oWlTiQeNbJ8G5D1A-x*t$qZnVkSgPdMaI7F4C0z)v&s!pXmUjRfOcK9H6E2B+y(u%rZoWlThQeNbJ8G4D1A-w*t$qYnVjSgPdLaI7F3C0y)v&s#pXmUiRfNcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4C1z-w&t!qYiRfOcK9H5E2B+x(u%rZoWkThQeMbJ8G4D1z-w*t!qYnVjSgOdLaI6F3C0y)v%s#pXlUiRfNcK8H5E2A+x(u$rZnWkThPeMbJ7G4D1z- w&t!qYmVjSgOdL9I6F3B0y)v%s#oXlUiQfNcK8H5D2A+x*u$rZnWkShPeMaJ7G4C1z)w&t!pYmVjRgOcL9I6E3B0y(v%s#oXlTiQfNbK8H5D2A-x*u$qZnWkShPdMaJ7F4C1z)w&s!pYmUjRgOcL9H6E3B+y(v%r#oWlTiQeNbK8G5D1A-x*t$qZnVkShPdMaI7F4C0z)w&s!pXmUjRfOcL9H6E2B+y(u%r#oWlThQeNbJ8G5D1A-w*t$qYnVkSgPdLaI7F3C0z)v&s#pXmUiRfOcK9H5E2B+x(u%rZoWlThQeMbJ8G4D1A-w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w&t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNc4D1A- w*t!qYnVjSgPdLaI6F3C0y)v&s#pXlUiRfNcK9H5E2A+x(u$rZoWkThPeMbJ7G4D1z-w*t!qYmVjSgOdLaI6F3B0y)v%s#pXlUiQfNcK8H5E2A+x*u$rZnWkThPeMaJ7G4C1z-w&t!pYmVjRgOdL9I6E3B0y(v%s#oXlUiQfNbK8H5D2A+x*u$qZnWkShPeMaJ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论