反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件.ppt_第1页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件.ppt_第2页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件.ppt_第3页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件.ppt_第4页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究ppt课件.ppt_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

反垃圾邮件技术分析与中文垃圾邮件过滤规则研究,孙东红 陈光英 中国教育和科研计算机网紧急响应组 (Computer Emergency Response Team of China Education and Research Network) 清华大学信息网络工程研究中心 (Network Research Center of Tsinghua Univ.),主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义 垃圾邮件历史 现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,垃圾邮件的定义,垃圾邮件:普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件, SPAM, UBE(Unsolicited Bulk Email), UCE (Unsolicited Commercial Email) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件; 收件人无法拒收的电子邮件; 隐藏发件人身份、地址、标题等信息的电子邮件; 含有虚假的信息源、发件人、路由等信息的电子邮件。,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义 垃圾邮件历史 现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,1985 年8 月一封通过电子邮件发送的链锁信,一直持续到1993 年,这是首次关于垃圾邮件的记录。 1993 年6 月份,在Internet 上出现了名为“Make Money Fast”的电子邮件。 1994 年4 月份,Canter &Siegel 的法律事务所把一封移民顾问服务广告邮件发到6000 多个新闻组,一时间群情激奋。-首次用spam称呼垃圾邮件。 1995 年5 月出现第一个专门的垃圾邮件群发软件Floodgate。 分析:简单邮件传输协议(SMTP)协议安全性存在不足: SMTP基于RFC 524发展而来,RFC524是在1973年提出的,它不是一个安全的命令集。这使得SMTP缺乏安全性保障。,发展历史,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,垃圾邮件的定义 垃圾邮件历史 现状分析,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,现状分析-数据统计,全球范围统计,2001年垃圾邮件仅占电邮总量的7%,到2002年即达到29%,至2003年7月就超过了51%,2004年1月高达60% 垃圾邮件的数量已经超过了合法电子邮件的数量 。,现状分析-我国垃圾邮件形势严峻,2003年终统计显示:中国邮件服务器总计接收到的垃圾邮件为1500亿封,用户实际共计收到垃圾邮件470亿封,经济损失48亿。 第十四次中国互联网络发展状况统计报告显示,我国网民在2004年7月份每周收到13.8封电子邮件,其中正常电子邮件为4.6封,垃圾邮件数却达到9.2封。 网民每周收到的垃圾邮件数是非垃圾邮件数的两倍!,商业宣传邮件 政治宣传邮件 色情宣传邮件 病毒邮件,现状分析-常见垃圾邮件类型,爱虫( 2000-2-14)、 nimda(2001-9-19)、 求职信(2001-10-26)、 中文版求职信(2002-年5-10)、 怪物(2002-10-02)、 sobig(2003-1-11)、 爱情后门(2003-2-25)、 小邮差(2003-8-04)、 斯文(2003-9-19)、 MyDoom (SCO炸弹)(2004-1-27) Netsky及其变种(2003-今),发件人地址随机变化 邮件主题随机变化 伪造邮件头干扰信息 信体内容随机变化内容 正文以图片方式显示,难以识别 对垃圾邮件的定义和分类因人而异 垃圾邮件在不同时段内的传播内容不一样 垃圾邮件在不同范围内的传播内容不一样,现状分析垃圾邮件的特点,宽带网络的快速发展 网络通信成本的下降 硬件性能的提高并且成本不断降低 成本与产出的巨大反差 邮件的易伪造 缺乏法律与规范的约束,现状分析-泛滥原因,现状分析危害,国家层面:政治、经济、文化 用户层面:学习、工作、生活 对于CERNET 内的高校而言:,网络安全性、稳定性、高效性; 占用带宽、存储空间; 被列入各种黑名单; 被投诉; 声誉、国际影响;,现状分析- Spammers 的手段,获取目标地址 扫描、猜测、购买 利用病毒从本地邮箱获取联络人Email地址 逃避检测、追踪和过滤的技术 Open-Relay 自架设 MTA服务 采用动态IP地址 伪造或隐藏信源地址 逃避内容过滤: Graphics , URL, mis-spelling, etc. 欺骗(Phishing)技术, If the message will not displayed automatically, follow the link to read the delivered message. Received message is available at: /inbox/dhx/read.php?sessionid-17370 ,邮件欺诈技术,欺诈伪造的网页,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,技术概览 垃圾邮件的响应环节及措施 邮件的传输过程及对垃圾邮件的控制,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,技术概览,邮件服务系统的安全加固,垃圾邮件过滤技术,热点讨论技术,增强邮件服务器的安全性,防止漏洞及时补丁 提高系统防病毒能力 提供邮件服务安全身份认证 添加反垃圾邮件的专用设备或插件,IP、域名、邮件地址的黑白名单及BBL方式 SMTP通信链接速率、频度的设定 反向域名验证 基于信头、信体、附件的内容关键词 基于贝叶斯算法的统计分析 基于匹配判定规则的方式,电子邮票 Challenge-Response Domainkeys、SenderID SPF (sender policy framework),主要内容,垃圾邮件的情况,反垃圾邮件技术分析,技术概览 垃圾邮件的响应环节及措施 邮件的传输过程及对垃圾邮件的控制,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,反垃圾邮件的技术环节,预防,增强邮件服务器的安全性,防止漏洞及时补丁 提高系统防病毒能力 提供邮件服务安全身份认证 添加反垃圾邮件的专用设备或插件,IP、域名、邮件地址的黑白名单及BBL方式 SMTP通信链接速率、频度的设定 反向域名验证法 基于信头、信体、附件的内容关键词 基于贝叶斯算法的统计分析 基于垃圾邮件判定规则,电子邮票 Challenge-Response Domainkeys、SenderID SPF (sender policy framework),检测,响应,丢弃(Drop) 标记(Lable) 隔离(Quarantine,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,技术概览 垃圾邮件的响应环节及措施 邮件的传输过程及对垃圾邮件的控制,中文垃圾邮件过滤规则研究,CCERT开展的反垃圾邮件工作,邮件的传输过程,Originator,Receiver,External-Relay,布控点及相关措施(一),Originator端:,在发送邮件的服务器上采取措施: 限制服务器发送邮件的速率、频率 规定邮件服务器开放服务的端口,关闭不必要的服务 使用经过认证的MTA转发邮件 设定邮件用户身份认证方式,与邮件用户间互签安全协议,对转发邮件过程中的Relay 服务器身份认证:,布控点及相关技术(二),:可信任的信道,即每次中转都采用可信赖的实体 SSL/TLS PPP Logic SSH,:合法的对象源,对邮件信息可以做确认 S/MIME PGP,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,黑名单,不占用计算机资源,易于实施 。 需要手动维护的IP地址清单。 垃圾邮件发送者经常修改他们的IP地址,并采用一个广泛的IP地址区间以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起补充作用。 黑名单、白名单、灰名单,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,RBLs (实时黑名单),也被称为DNS-RBLs, 检查所有收到邮件的IP地址,与在RBL中的IP地址核对来阻断与spammer 的连接。 RBL服务运营商维护公共RBLs, 使用单位仅需订阅实时黑名单服务。 RBLs的计算开销非常低,同时它们通常采用一个类似与DNS的协议实施,所以它们的网络开销也非常低。 RBLs缺点易于产生误报,须谨慎。,RBL工作原理,SMTP服务器接收到链接请求 对链接地址进行DNS反向查询 与RBL服务器建立查询 查询得到肯定的结果,则拒绝该连接 查询无结果,继续进行连接,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,检查邮件内容中含有的URL链接 定义受益黑名单,基于BBL过滤,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,DOS(拒绝服务)攻击-垃圾邮件发送者经常试图通过在很短一段时间发送大量邮件阻塞邮件服务器 。 速率控制允许在一段时间内从相同IP试图的联接数量控制在设置的范围内 。,链接频度控制,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,反向域名验证,对收到邮件的来源IP地址采用反向DNS查找验证真实性 如果反向DNS查找提供的域与邮件上的来源IP地址相符合,该邮件被接受。如果不符合,该邮件被拒绝。 由于很多反向DNS目录未被有效建立 ,或无法正常建立,比如,任何”vanity”域名决大多数情况下没有一个正确的反向DNS查找。在这种情况下,由这些域发送的邮件将被阻断,造成不可接受的高误报告率。,简单有效、可以阻断绝大多数垃圾邮件; 词语过滤识别包含特定关键字的所有邮件,比如“免费”、“色情”等在垃圾邮件中经常发现的词语; 例如在MUA可以自定义过滤关键词 关键词过滤集能够持续升级 Q:垃圾邮件发送者经常将一些单词拼错,以图饶过词语过滤器,所以词语过滤器需要经常升级,加入关键字的变更。,关键词过滤法,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,贝叶斯过滤法,贝叶斯算法:以著名数学家托马斯贝叶斯(1702-1761)命名,一种基于概率分析的可能性推论理论。 分析过去事件的知识,预测未来事件 。 贝叶斯过滤器与以前收到的垃圾邮件和合法邮件的中相同词语及短语出现的概率对比来确定垃圾邮件的可能性。 贝叶斯过滤法强大,是阻断垃圾邮件最为精确的技术过滤准确率可达到99% 过滤准确性依赖大量的历史数据。,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,基于规则评分的过滤系统,系统代表SpamAssassin; 集合人工智能技术的应用系统; 对发现的每一个关键词赋予分数,分数越高,该邮件是垃圾邮件的可能性就越高 ;得分超过一定值时,该邮件将被分类为垃圾邮件。 可以清除90%的收到邮件中的垃圾邮件。 局限性:和词语过滤面临同样的挑战,为使评分有效,规则必须经常更新。,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,对于垃圾邮件的伪造域地址或伪造回复地址的有效阻断技术 SPF (Sender Policy Framework / Sender Permitted From ) 这是对SMTP协议的一个补充,防止发件人假冒,开放的标准,免费。 域(Domain)通过DNS发布反向MX记录,告诉Internet哪些计算机可以从该域发送电子邮件。接收方收到邮件后,通过DNS查询邮件来源是否符合源域的邮件发送策略。 DMP (目标发件人协议)、 RMX (反向邮件交换),SPF、 DMP、 RMX -1,SPF、RMX、DMP分别定义各自的反向MX记录,以确定一封从某一特定域发送的邮件是否允许从特定的IP地址发出。不是从正确MX/SPF/DMP 地址区间产生的邮件地址被识别为伪造,邮件自身被标记为垃圾邮件。 标识:“RMX” for RMX, “SPF” for SPF, and “DMP” for DMP 例如,可以定义SPF 记录:,v=spf2.0/pra ptr mx: mx: mx all,SPF、 DMP、 RMX -2,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,Domain Keys,sender 域的所有者生成公钥/私钥对,私钥用于所有发出邮件的签名。公钥通过DNS系统发布。当授权用户发送邮件时,邮件服务器自动产生邮件的数字签名,作为邮件头的一部分发送给接收方。 receiver 接收服务器从邮件中提取签名,从DNS系统中获得发送域的公钥,验证发送方的数字签名。如果没有签名或签名验证失败,接收方可以拒绝、标记或隔离该邮件。 Yahoo!公司提出,设置不同方式的过滤措施,Receiver 端:,布控点及相关技术(三),基于流量的入侵检测,基于honeypot或miningfield 的检测,订制第三方服务,例如:DSBL、DCC、Razor、APF Challenge-response,Challenge-Response,对付那些邮件自动发送程序 该系统维护了一个允许发件人清单 ,新发件人邮件在发送前被暂时保留 ,challenge-response系统发送给邮件发件人一个测试 ,如果发件人成功完成“测试”,测试/回复系统将他加入到允许发件人的清单中,该邮件被发送到目标地址。 测试信息通常要求发件人在回复邮件中复制一个数字到数字框中要求信息,或者包括一个URL链接。 采用虚假发件人邮件地址将不可能收到测试信息,大量的非法邮件是由病毒程序产生的。病毒扫描是减少垃圾邮件数量的一个重要手段。,病毒扫描,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,CCERT开展的反垃圾邮件工作,中文垃圾邮件过滤规则研究,CCERT反垃圾邮件工作历史,CERNET是国内首先开展反垃圾邮件工作的组织之一 1996年开始跟踪国际反垃圾邮件组织的工作,开始处理国际相关组织对国内Open-Relay服务器的投诉,通知用户; 1998年建立正式受理国际的投诉 1999年成立CCERT,专人负责垃圾邮件相关工作,通过 受理国内的投诉 2002年CCERT召开CERNET范围内的垃圾邮件处理协调会议,全国10个地区网络中心参加 2002年 全国电子邮件服务器系统调查 2002年制定了CERNET关于制止垃圾邮件的管理规定,CCERT反垃圾邮件工作历史,2002年组内研究生完成了反垃圾邮件硕士论文 2002年接受南方周末、中央电视台东方时空、北京晨报等媒体采访,引发了媒体对垃圾邮件的广泛关注; 2003年出版国内第一本关于反垃圾邮件方面的专著垃圾邮件与反垃圾邮件技术 2003年参加互联网协会反垃圾邮件协调小组活动,担任技术工作组负责单位 2004年10月主办中国反垃圾邮件技术会议CCAS2004 2004年9月发布国际第一套中文反垃圾邮件规则集合、并提供公益服务。,CCERT反垃圾邮件技术组主页,CCERT反垃圾邮件体系,Monitoring and detection,Active control,Internet,SMTP,Email gateway,Routers,Spam report,End users,Ccert-BL,analysis and Statistic,Filtering plug-in,Security configuration,主要内容,垃圾邮件的情况,反垃圾邮件技术分析,CCERT开展的反垃圾邮件工作,中文垃圾邮件过滤规则研究,垃圾邮件内容过滤方法,基于规则方法 (1999) 基于统计方法 (19992004) 统计规则方法 (2004),概念,基于规则方法 寻找“垃圾邮件的特殊模式”,例如:主题包含“免费”。 基于统计方法 文本自动分类,根据垃圾/正常样本训练分类机,概念图,正常邮件,垃圾邮件,基于规则分类面,基于统计分类面,统计学习理论,风险,经验风险,实际风险,h,VC置信度,过学习,欠学习,基于规则,基于统计,准确性,基于规则 检测垃圾邮件的准确率高 不能检测新的垃圾邮件,即漏检率高 基于统计 检测垃圾邮件的准确率不高 能检测新的垃圾邮件,即漏检率低,我可以容忍垃圾邮件,但绝不忍受正常邮件被丢掉!,参考值,Return-Path: Received: from 21 (68) by (MIMEDefang) with ESMTP id NOQUEUE for ; Thu, 23 Dec 2004 10:40:21 +0800 (CST) Message-ID: From: “iflkgj“ Subject: =?GB2312?B?08W73bT6v6q3osax?= To: Content-Type: text/plain;charset=“GB2312“ Reply-To: Date: Thu, 23 Dec 2004 10:54:34 +0800 X-Priority: 2 X-Mailer: Microsoft Outlook Express 6.00.2800.1158 贵公司负责人(经理/财务)您好: 我公司是深圳市如意广告有限公司,我公司实力雄厚,有着良好的社会关系。 因我公司是定额税额,每月有一部分普通广告发票和其他服务发票(地税)(2%) ,检测对象,基于统计,基于规则,应用范围,客户端,客户端,服务器,服务器,基于规则 (SpamAssassin),基于统计 (贝叶斯),推广性和时效性,基于规则 推广性强 时效性差 基于统计 时效性强 推广性差,时效性,推广性,基于规则,基于统计,?,语义问题?,CCERT的新方法,统计规则方法 规则由统计方法自动生成,CCERT的新方法和传统方法比较,SpamAssassin (SA),免费垃圾邮件过滤系统 公开源代码 支持sendmail、qmail、Postfix、Exim MTA、MUA、POP3 基于规则,用户自定义规则 查准率高,速度快 广泛使用,SA规则例子,body DEAR_FRIEND /s*Dear Friendb/i describe DEAR_FRIEND Dear Friend? Thats not very dear! score DEAR_FRIEND 0.542,正则表达式,名字,分值,说明,应用范围(信头、信体、原始信体、原始邮件、URI),垃圾邮件判别方法,总分值 6.3,阈值 5.0 pts rule name description - - - 0.5 DEAR_FRIEND Dear Friend? Thats not very dear! 0.1 NORMAL_HTTP_TO_IP URI: Uses a dotted-decimal IP address in URL 0.0 HTTP_ESCAPED_HOST URI: Uses %-escapes inside a URLs hostname 0.5 HTML_60_70 BODY: Message is 60% to 70% HTML 0.0 HTML_MESSAGE BODY: HTML included in message 2.9 HTML_IMAGE_ON

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论