




已阅读5页,还剩81页未读, 继续免费阅读
(计算机系统结构专业论文)高效可扩展的垃圾邮件过滤系统体系结构.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 由于互联网的普及,以及电子邮件的廉价性,e m a i l 正成为日常生活中最流行、 最方便、最经济的通信手段。但是电子邮件在成为一种信息交流工具的同时,也 正成为一种商业广告和网络犯罪手段。在收到对自己有用信息的同时,用户也从 网上收到各种各样的广告邮件,使得用户要花费大量时间和精力来处理这些所谓 的垃圾邮件( s p 狮o ru n s o l i c i t e db u l l ce m a i l ) ;垃圾邮件的泛滥也给网络管理员和 网络服务提供商i s p 带来了无尽的烦恼。用户的时间、带宽和存储资源被无效占 用,网络链路也因此造成拥塞,还使得不良信息被到处散发。目前已有一些比较 成熟的过滤方法采用通过软件自动过滤与用户设定规则的方式,但这类软件存在 着明显的不足:它需要人工设定过滤规则,这要求用户或管理员有较强的专业知 识,还要求用户能随着垃圾邮件情况的变化不断调整这些规则。这些要求给人们 带来了较大的工作量,而效果也不一定理想,只能过滤掉5 0 左右的垃圾邮件。 因此,我们迫切需要一种更为有效的、更加智能化和人性化的垃圾邮件过滤技术 来治理日益猖獗的垃圾邮件问题。 本论文课题的主要目标是探索设计一种具体的垃圾邮件过滤系统,实现并测 试该系统。研究该系统是否有效、可靠,还要注意此系统自身参数和环境参数调 节对过滤性能的影响。 本论文主要针对垃圾邮件发送者采用的方法,设计出一个层次化的垃圾邮件 过滤系统,该系统具有高度的层次化,包括改进型分布式黑白名单,域名反向解 析,以及n a eb a y e s 等过滤技术;该系统还具有可扩展性,用户可以根据自身 需要增加或者减少过滤的层次和方法。 虽然现在已经存在多种不同的垃圾邮件过滤技术,但是还有许多垃圾邮件的 相关问题没有找到好的解决方法,这影响了过滤系统的有效性和可靠性。本论文 提出的邮件过滤系统框架解决了其中的一些问题,在一定程度上提高了邮件过滤 的有效性和可靠性,因此,本课题的研究是具有意义的。 关键词:分层过滤:分布式;可靠:灵活;机器学习 a b s t r a c t e m a i li s b e c o m i n g 1 em o s tp o p u l a r c o n v e n i e m a n de c o n o m i cm e a n so f c o m m l l 董1 i c a t i o n ,d u et obc h e a p n e s sa t l dt l l ep o p m 撕z a t i o no fi n t e m e t h o w e v c r ,a t l es a m et i m e i ti sa l s ou s e df b rc o m m e r c i a la d v e r t i s e m e n t sa n dn e t w o r kc r i m e w h e nu s e r sr e c e i v et l l e i ro w nm e s s a g e s ,t h e ya r ea l s o 咖o y e db y 恤ev a r i o u sa d s 丘o mn e t 、o r k ,w i l i c hc o s tu s e r st o om u c he 行b i t a n dt l l e s ea d v e n i s e m e n tm e s s a g e s a r es o - c a l l e ds p 锄0 ru n s o l i c db 址e m a i l t h eo v e m o wo fs p 锄b r i n g st o o 舢c h a n n o ”n c et on e 柳o r ka d m m i s t r a t o r sa n di s p s t i m e ,b a n d 谢d t l la 1 1 dm e m o r y r e s o u r c e sa r eo c c u p i e dt or e s u i ti nt h el i r l kb l o c ka sw e l la st l l ed e l u g eo fu n h e a i t l l y m e s s a g e s c u r r e m l y ,t h e r ea r es o m em a t l l r e 铘t e r i n gm e t h o d sw h i c ha d o p ts o r w a r e a u t o m a t e dt i l 劬ga n du s e rs e m n gn l l e s m o s to fm es o f t w a r eh a sac o n s 廿a i n tm a t t h e yi l e e dm a i l u a ls e m n g ,w l l i c hr e q u i r e ss o m ep r o f e s s i o n a ld o m a i nl d l o 、v l e d g e t h e n l l e sa l s on e e d 丘e q u e n tu p d a t e 、v h i c hb 血g sl o t so fo v e r l o a d 谢t h o u tp e r f c c tr e s u l t t l e r e f o r e ,柚e 虢c t i v e ,s m a na 1 1 dn e x i b l es p 锄f i l t e r i n gt e c l l l l 0 1 0 9 yi si n d i s p e n s 曲1 e t h em a i np u r p o s eo f t i l i sd i s s e r t a t i o ni st op r o b ei n t oas p 锄f i l t e r i n gs y s t e m ,a n dt 1 1 e n i m p l e m e n ta 1 1 dt e s ti tt os e ew h e m e r i ti se 行c c t i v e ,r e l i a b l ea j l dn e x i b l e i nt h i sp 印e r , w ed e s i g nal a y e r e ds p a mf i l t e r i n gs y s t e mm a i n l ya g a i n s tt h ew a y su s e db ys p 锄 s e n d e r s 1 1 1 es y s t e mi sh i 曲l ys t a g e da n de x p a n s i b l e ,i n c l 戚n gi m p r o v e dd i s 心u t e d b l a c ka n dw h i t el i s t ,i 己e v e r s ed n sa j l dn a v eb a y e sf i i t e r i n gt e c h n o l o g i e s u s e r s c a l la d da i l dd e l e t el a y e r sa n df i l t e r si n d i v i d u a l l y a l t l l o u 曲t 1 1 e r e a r e p l e n 移o fd i 毹r e n ts p 锄m l t e r i n gt e c l l i l o l o 百e g ,m a i l y p r o b l e m sa r es t mn o tw e l lr e s o l v e d ,w h i c ha 行e c t s 也ee 疏c t i v e n e s sa i l dr e l i a b i l i t yo f f i l t c r 血gs y s t e m hac e r t a i ne x 把n t ,t h ea r c l l i t e c t u r ca d v a n c e di nt h i sd i s s e n a t i o n i m p r o v e st 1 1 0 s ew e a | m e s s e s s oi ti ss i g i l i f i c a mt op m b ei n t om i sa r e aa i l di m p l e m e m s u c ha r h n e c t l l r eo fl a y e r e ds p a mf i l t e r i n gs y s t e m k e yw o r d s :l a y e r e df l h e r i n g ;d i s 仃i b u t e d ;r e i i a b l e ;f l e x i b l e ;m a c h i n e1 e a n l i n g i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 签名:丛塑!日期:励本7 月娟 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:蕉望导师签名: 日期:五彬缉月一日 第一章引言 1 1 背景 第一章引言 电子邮件作为国际互联网使用最广泛、最普及的通讯工具,却一直被“垃圾 邮件”不断扩散的瘟疫所困扰。在2 0 0 3 年3 月出台的中国互联网协会反垃圾邮 件规范中,垃圾邮件被准确定位为:收件人事先没有提出要求或者同意接收的 广告、电子刊物、各种形式的宣传品等宣传性电子邮件;收件人无法拒收的电子 邮件:隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发 件人、路由等信息的电子邮件。因此,“垃圾邮件( s p a m ) ”又被称为“未经许可 的商业邮件( u n s o i i c i t e dc o 删i a le m a i l ,u c e ) ”或者“未经许可的大宗邮件 ( u n s o l i c i t e d b u l k e m a i l u b e ) ”。 现在所知道的最早被认为是垃圾邮件的e m a i l 是由美国一家法律公司c a l l t e f & s i e g e l 于1 9 9 4 年4 月发出来为自己做广告的 1 ,超过6 0 0 0 份信息被发送到 u s e n e t 的新闻组中。从那以后,s p 锄这个词就被创造出来代表这类广泛传播的、 未经许可的信息邮件。随着1 1 1 t e m e t 的普及以及电子邮件的廉价和方便使得垃圾 邮件已经在全球泛滥。十年以后,到2 0 0 4 年4 月,安全公司m e s s a g e l a b s 指出在 8 亿4 千多万封邮件中,垃圾邮件就占到了6 7 6 【2 】。在由r 鲥i c a t ig r o u p 所作的 调查研究得出的数据中,我们可以看到,在2 0 0 3 年为配置反垃圾邮件设施所花费 的费用已达到2 0 5 亿美元,预计到2 0 0 7 年这个数字会增长到近7 0 0 亿美元【3 。 在垃圾邮件越来越泛滥的今天,无论是个人用户还是企业用户都受到了不同 程度的骚扰。一台服务器在2 ma d s l 带宽下,每小时可以发送到9 0 多万个i p 地址,一天就可以把一个省的口地址全部发完。面对目前形形色色的垃圾邮件, 互联网用户不得不在一个个垃圾邮件的陷阱中跋涉,无法摆脱无视自己权益的商 业广告的狂轰烂炸。这些邮件不仅无情地消耗着服务器资源,而且经常使网络拥 堵,当然还会影响用户的心情。为了应对大量的垃圾邮件,用户不得不花费更多 的时间和支付更多的网络通信费用。但对企业用户的影响不仅仅如此,据最新的 一个调查显示,在企业邮件中,竟有2 8 的邮件属于垃圾邮件,而垃圾邮件中不 少是病毒邮件,如果一不小心打开之后就会使得企业的网络系统面临重大威胁, 对企业造成的经济损失将无法估量。垃圾邮件泛滥不仅使自己臭名昭著,给为可 电子科技大学硕士学位论文 怕的是,它亵渎了互联网的自由传播精神,正在极大地降低人们对电子邮件乃至 互联网信息的信任。 目前,国际上有3 0 多个国家已经制定了反垃圾邮件的相关法规。2 0 0 5 年4 月8 日,美国篼一起非法发送垃圾邮件案作出判决,杰里米詹尼斯因向互联网 用户大量发送垃圾邮件,而被判9 年徒刑。从国内看,中国互联网协会成立了反 垃圾邮件协调小组,并形成了“反垃圾邮件公约”,然而这只是一个行业内规定, 并不具备法律效力。部分国外公司甚至利用中国没有相关的法律限制,直接在中 国设立公司从事此类商业活动。这些行为带来的后果是使中国成了i n t e r n e t 世界 的众矢之的,国外的部分反垃圾邮件组织和公司开始大量屏蔽中国的i p 站点和来 自中国部分域名的邮件。在严峻的形式下,中国加大了反垃圾邮件技术的研究。 国内的邮件服务提供商所采用的反垃圾邮件的主要手段是通过软件自动过滤与人 工管理相结合的方式,比如系统全局规则、i p 过滤规则、客户过滤规则等等,但 是这些方法相对简单,不能很好的适应垃圾邮件的多样性,只能过滤掉5 0 左右 的垃圾邮件。因此,迫切需要引入更有效、更可靠、更智能化的垃圾邮件过滤技 术来治理目益猖獗的垃圾邮件问题。 通过许多学者不懈地努力,目前已经出现许多反垃圾邮件技术,大致上可以 分为两大类,一类是基于邮件内容的,包括有基于n a v eb a y e s 算法【4 、基于支 持向量机模型、k 最近邻居算法、基于指纹技术以及人工智能中的神经网络等; 另一类是基于邮件源的,例如:反向d n s 模型、白名单认证、分布式黑名单 7 】 等。众多学者通过各种技术对这些反垃圾邮件方法进行分析和测试 8 】【9 1 0 】 1 1 】【1 2 ,力图找到一种能完美识别出垃圾邮件的过滤技术,但是到目前 为止,仍然没有哪一种过滤方法能够绝对精确地区分出垃圾邮件与正常邮件。作 者被这一领域的知识和问题深深吸引,也在此方面做了一定的研究,希望能够设 计出一种能达到更有效、更可靠过滤效果,可扩展的过滤系统。 1 2 项目目标 本课题的主要目标是改进现有的几种过滤技术,并在此基础上设计和实现一 种具体的层次化垃圾邮件过滤系统,并测试该系统。研究过滤系统的有效性、可 靠性以及可扩展性。本论文主要是实验型的测试模型,用于理论研究目的,并不 是真正制造出一个产品,因此,文中的几种过滤技术都是由自己实现改进,其它 问题暂时不予考虑。 第一章引言 1 3 论文概要 论文首先介绍了垃圾邮件过滤的相关背景以及基础知识,描述了多种垃圾邮 件过滤技术。接着,详尽描述了层次化垃圾邮件过滤系统的框架设计,以及具体 实现,也完成了一个实验用于测试该过滤系统,实验性能测试结果以图表的形式 给出,以数据为基础该系统的有效性和可靠性。论文还对几种传统过滤技术进行 了改进。最后,提出了该系统的一些问题,以及解决方案,这也是作者下一步需 要完成的工作。其中,邮件过滤系统的设计以及实现是本论文最重要的部分。 本论文正文一共分为七章:第一章是引言;第二章介绍相关背景知识和基础 知识:第三、四章为本论文的重点,介绍了过滤系统的设计与实现,详细描述了 过滤系统的框架设计,它与邮件系统的接合,以及所采用各种过滤技术的相关算 法;第五章通过实验测试数据对该系统做了细致的分析;第六章提出了几个目前 的问题,并给出了相应的解决方案;第七章是本论文的结论。正文后是参考文献 以及致谢。 电子科技大学硕士学位论文 第二章理论基础 本章介绍了关于论文课题的相关理论和背景知识,简要概括了本课题所涉及 到的一些资议和使用到的技术,描述和评估了发送垃圾自5 件的伎俩和许多不同种 类的邮件过滤方法。本章是整个论文课题的基础,以后所有章节稚会涉及到本章 中所提到的理论瓤知识。 2 1s m t p 协议 s m t p 称为简单邮件传输协议( s i m p l em a i lt r a l l s f e rp r o t o c o i ) ,被用来在 i n t e m e t 上传递电子邮件,其目标是向用户提供高效、可靠的邮件传输。s m t p 的 一个重要特点是它能够在传送中接力传送邮件,即邮件可以通过不同网络上的主 机接力式传送。r f c 8 2 1 1 3j 描述了s m r p 的大部分细节,后来r f c l 8 6 9 1 4 】、 r f c 2 8 2 1 【l5 、r f c 2 5 5 4 1 6 1 等义针对s m t p 的不足对其做了补充和修改。s m t p 独立于特定的传输予系统,只需要一个可靠的有序的数据流通道,我们一般提到 的s m t p 都是建立在t c p 基础上的。 2 1 1 基本结构 s m t p 的设计如 s m t p 的设计如 图2 一i 所示 图2 一ls m l p 基本结构 第二章理论基础 当一个s m t p 客户端要发送一条信息,它会与某个s m t p 服务器建立一条双 向传输通道,客户通过命令应答方式与服务器交流,传送邮件,并且报告其状态。 而s m t p 服务器负责解析邮件目的域名到一个中间邮件转发器或者一个最终的目 的主机。一个s m t p 服务器可以是最终的目的主机,也可以是一个中继或者网关。 一旦传输通道建立成功,并且完成了握手,那么这个s m t p 客户就建立了一 个邮件事务会话,这个会话可以由一系列的命令组成。服务器对每个命令相应一 个应答来表明该命令被接收了,或者等待其它命令,或者出现了错误。当一封邮 件传送完毕以后,客户可以关闭链接,也可以继续发送下一封邮件。 2 1 2 扩展模型 从1 9 9 0 年开始,经过近十年的努力,专家们对s m t p 进行了修改,使其支 持“服务扩展模型”,允许客户端和服务器端同意使用原来s m t p 没有的共享功 能。s m t p 扩展机制定义了一些方法使得一个扩展的s m t p 客户和服务器可以相 互识别,并且服务器能够告知客户自己所支持的扩展服务。目前,s m t p 已被广 泛的运用,而且高质量的实现证明了它的健壮性,尽管如此,i n t e m e t 用户需要越 来越多重要的服务,而这些服务在协议设计阶段并没有被考虑到。为了能够使 s m t p 具有良好的向后兼容性,其扩展框架包括: 一 用s m t p 命令e h l o 代替以前的h e l o ; 一s m t p 服务扩展的注册机制; 一增加一些s m t pm a i l 和r c p t 命令的额外参数; 一一些可选择的替换命令。 2 1 3s m t p 认证 sm ,r p 的认证功能主要使增加了a u t h 命令。a u t h 命令有多种用法,而且 有多种认证机制。a u t h 支持的认证机制主要有l o g i n ,c r a m m d 5 拄1 等。 l o g 玳应该使大多数免费邮件服务器都支持的例如2 6 3 、新浪等等。而新浪还支 持c r a m - m d 5 机制。认证机制一般只在真正发送邮件之前进行,而且只需要执 行一次。当认证成功后,即可按原来正常的处理发送邮件。原理是口令一应答 ( c h a l i c n g e r e s p o n s e ,o rc o m m a d _ r 印1 y ) ,即由服务器发送命令要求客户端回 4 1c r a m :c h a i l c n g c r c s p o n s e a u m e n t i c a t i o nm c c h a 工i i s m u 令一应答机制。 m d 5 :一种摘要算法,主要用于r s a 、p g p 中。 5 电子科技大学硕士学位论文 答,客户端根据服务器发送信息进行回答,如果应答通过了,则认证成功,就可 以继续处理。下面对这两种制作一个简单介绍。 21 3 1l o g i n l o g i n 的过程比较简单。口令一应答过程如下 图2 2l o g 州过释 从上图中我们可以看到,首先客户端向服务器发送认证指令;服务端随即返 回一个b a s e 6 4 编码串,成功码为3 3 4 ,编码字符串解码后为“u s e m 锄e :”说明要 求客户端发送用户名;然后客户端发送用b a s e 6 4 编码的用户明,此处为 “u s e m a m e :”;服务器接收到用户名后,返回成功码3 3 4 ,后接一个b a s e 6 4 编码 串,解码后为“p a s s 、o r d :”,说明要求客户端发送用户口令;客户端将密码用b a s e 6 4 编码返回;如果用户名和密码正确,服务器就返回2 3 5 ,表示认证成功可以发送 邮件了。 对于l o g i n 方式认证,其实就是将用户名与密码用b a s e 6 4 进行编码,根据 服务器的要求,分别发出即可。就作者看来,由于b a s e 6 4 是一种公共的编码标准, 也起不到太大的保护作用。不过,本论文课题并不着力于电子邮件系统的认证机 制,因此,在实现垃圾邮件过滤系统的时候,使用的就是这种b a s e 6 4 的认证方式。 第二章理论基础 2 1 3 2c r a m m d 5 关于c 融蝴一m d 5 的机制主要是通过口令一应答机制,由服务器端发出一个 信息串,这个由随机数、时间戳、服务器地址构成,并且用b a s e 6 4 编码。客户端 收到后,发送一个由用户名,加一个空格,再加一个摘要构成的串,并用b 骶e 6 4 编码。摘要是通过m d 5 算法求出。这种机制要求服务器端与客户端有相同的加 密串。当客户端发送摘要后,服务器对其合法性进行验证,若成功,则返回2 3 5 。 在s m t p 的r f c8 2 1 中,与邮件服务器连接成功后,第一个命令一般是 “h e l 0 ”,但是在支持认证的邮件服务器中,第一个命令应改为“e h l o ”。在命 令成功后,邮件服务器就会返回自己支持的认证方式。 2 1 4s m t p 的先天缺陷 s m t p 本身不具有反垃圾邮件的特点,它的名字本身( 简单邮件传输协议) 也说明了这一点。在2 0 0 1 年4 月发布的最新版本s m t p 协议文档r f c 2 8 2 1 【1 5 】 中,在第七节“安全性的考虑”部分明确指出“s m t p ( 从以前的版本) 继承的 特性决定了它在有些场合是不安全的,它不能限制邮件发送者的某些欺骗行 为”,它进而指出“邮件的安全应该仅仅依赖于基于邮件正文的端到端方案, 如通过p g p 或s m i m e 对邮件进行数字签名和加密”。我们必须承认,这种说法 是完全符合i n t e m e t 传统的,即在传输层无法解决的问题,交给应用层来解决。 然而,i e t f 并没有表现出要尽快修改s m t p 的意向,关于垃圾邮件控制的l e t f 官方r f c 文本是r f c 2 5 0 5 “对于s m t p m l a 的反垃圾邮件推荐设置”,仅仅 进行了一些简单的外围技术的说明。只是由i i u 下( 互联网研究工程组) 成立了一 个“垃圾邮件研究小组”,开始对相关技术进行研究。 2 2p o p 3 协议 对于在网络上比较小的节点,支持消息传输系统( m t s ) 是不实际的。例如, 一台工作站可能不具有充足的资源允许s m t p 服务器和相当的本地邮件传送系统 保持驻留,并持续运行。同样的,将一台个人计算机长时间连接在i p 类型网络上 的费用也是可观的。虽然如此,在这样的小节点上允许管理邮件是十分有用的, 并且这些节点经常支持一个用户代理来管理邮件。为解决这一问题,能够支持 m r s 的节点就为这些不能支持的节点提供了邮件存储功能。邮局协议一版本3 就 电子科技大学硕士学位论文 是使这样的工作站可以用一种比较实用的方法来访问存储于服务器上的存储邮 件。通常,这意味着工作站可以从服务器上取得邮件,而服务器为它暂时保存邮 件。在本论文课题中,p o p 3 和s m t p 服务驻留在同一台服务器上。 2 2 1 基本操作 初始时,服务器通过侦听t c p 端口l l o 开始p o p 3 服务。当客户机需要使用 服务时,它将与服务器主机建立t c p 连接。当连接建立后,p o p 3 发送确认消息。 客户和p o p 3 服务器相互交换命令和响应,这一过程一直要持续到连接终止。 p o p 3 命令由一个命令和一些参数组成。所有命令以一个c j 对结束,命 令和参数由可打印的a s c i i 字符组成,它们之间由空格间隔。命令一般是三到四 个字母,每个参数却可达4 0 个字符长。p o p 3 响应由一个状态码和一个可能跟有 附加信息的命令组成,所有响应也是由c r l f 对结束。 在生命周期中,p o p 3 会话有几个不同的状态。 2 2 2“确认”状态 一旦t c p 连接由p o p 3 客户打开,p o p 3 服务器发送一个单行的确认作为响 应,此时p o p 3 会话就进入了“确认”状态。此时,客户必须向服务器证明它的 身份,可以采用两种机制,一种是u s e r 和p a s s 命令,另一种是a p o p 命令。 一旦服务器通过这些数据决定允许客户访问储存邮件,服务器会在邮件上加上排 它锁,以防止在进入“更新”状态前对邮件的改变。如果成功获得了排它锁,服 务器返回一个“确认”状态码。接着,会话便进入“操作状态”,同时没有任何邮 件被标记为删除。如果邮件因为某种原因不能打开,服务器将返回“失败”状态 码。在返回“失败”状态码后,服务器会关闭连接。如果服务器没有关闭连接, 客户可以重新发送确认命令,重新开始,或者发送o u i t 命令退出。 2 。2 3“操作”状态 一旦客户向服务器成功地确认了自己的身份,服务器将锁住并打开相应的邮 件,这时p o p 3 会话进入“操作”状态。现在客户可以重复p o p 3 命令,对于每 个命令服务器都会返回应答。最后,客户发送q u i t 命令,会话进入“更新”状 态。 第二章理论基础 2 2 4 “更新”状态 当客户在“操作”状态下发送q u i t 命令后,会话进入“更新”状态,注意: 如果客户在“确认”状态下发送q u i t 后,会话并不进入“更新”状态。如果会 话因为q u i t 命令以外的原因中断,会话并不进入“更新”状态,也不从服务器 中删除任何信件。 2 3 垃圾邮件的产生方式 垃圾邮件源于电子邮件营销,后者是一种许可营销,是现代营销的重要手段 之一。通常,电子邮件营销是在征得客户同意的前提下,向客户发送包含产品信 息、促销信息的电子邮件。这种营销方式的主要成本在于收集和整理包含目标客 户电子邮件的数据库。电子邮件营销具有针对性强、反馈率高的邮件,因此得到 广泛的应用。然而,如果免去了积累数据库的时间和费用,电子邮件营销的成本 将远远低于其它各种营销形式,想省去这部分成本的商家则大有人在。由此,收 集、销售各种电子邮件地址数据库以及大规模发送电子邮件都成了新的商机。为 了提高发送效率,群发工具也日趋普及,而对s m t p 协议的缺陷加以利用,则最 终导致了垃圾邮件泛滥成灾。 垃圾邮件问题远不只是技术问题,但是垃圾邮件的产生和防范都有其必然的 技术根源,只有了解了垃圾邮件产生过程中的技术,才能有效地阻止垃圾邮件的 传播。 有了邮件地址和邮件内容,垃圾邮件发送者要做的就是在尽量短的时间内将 垃圾邮件发送出去,他们通常使用专用的群发工具或邮件列表系统来达到目的。 这些群发工具可以不用通过某个指定的邮件服务器或某个特定的i s p 就能发送大 量的邮件,一些工具能在一个小时内通过2 8 8 k b s 的m o d e m 发送将近2 5 0 0 0 0 条 信息【1 8 】。他们能够同时连接多个邮件服务器,滥用l s p 的资源来发送从而达到 他们的目的。 垃圾邮件发送者有许多方法来隐藏他们的路径。大多数群发工具不使用他们 的i s p 邮件服务器,而是直接与目的邮件服务器连接,或者使用所谓的开中继 ( 0 p e nr e l a y ) ,这样垃圾邮件发送者能够避免被他的i s p 发现。开中继是s m t p 或e s m t p 服务器允许任何人使用自己来转发邮件。为了能够在使用丌中继的时 候,很好的隐藏自己的路径,大多数群发工具会在垃圾邮件信息里加入伪造的接 收头部,通常是在由s m t p 协议添加的真实接收头部之前。通过添加这些伪造的 电子科技大学硕士学位论文 头部信息,他们希望能把跟踪重定位到这些假地址中去。 群发工具同样具有许多方法来欺骗垃圾邮件过滤器。其中一个最常用的方法 是将发送给每个接收者的信息个人化。这种个人化的邮件可分为两类:一类是垃 圾邮件发送者只使用接收者的邮件地址作为接收地址,而不是使用b c c :头部来 发送信息;第二类是垃圾邮件发送者同时使用接收者的姓名和邮件地址来个人化 邮件的主体。另外一种方法是垃圾邮件包含随机的s u 巧e c t :域和f r o m :地址栏, 一些群发工具还会伪造m e s s a g c i d ,并且在s m l l p 会话中不发送t 0 :头部信息。 还有一种技术是专门用来混淆b a y e s i a t l 过滤器的,就是在邮件主体中添加一些毫 无关系的内容,这些内容通常是一些从词典中随机挑选的单词,或者只是从新闻 和书本中摘录出来的段落。 相对于i n t e m e t 形成初期完全对等的端到端网络环境,如今的i n t e m e t 已经有 了很大的不同,由于防火墙和代理服务器的限制,绝大多数应用都已经不再进行 端到端环境的假设。但由于s m r p 协议的灵活性、普遍性和特殊性,电子邮件应 用仍然保持了端到端的特点。在用户看来j 邮件收发双方是对等的,是没有中间 限制的。电子邮件如今成为病毒和黑客的突破口是历史的必然。 2 4 反垃圾邮件技术 垃圾邮件显然已经成了网民们通往地球村的障碍。面对这个人人喊打的网络 公害,目前至少有三种最基本的反垃圾邮件方法。第一,阻止或者限制群发工具 通过邮件服务器发送邮件;第二,增加发送电子邮件的费用,使得发送垃圾邮件 不再那么有利可图 1 9 ;第三,使用各种不同类型的垃圾邮件过滤技术来检测和 处理垃圾邮件 2 0 】 2 1 】 2 2 】【2 3 】。 2 4 1 关中继 防止垃圾邮件最直接的方法就是关闭所有i n t e m e t 上的o p e nr c l a y s ,并且完 善s m t p 协议,不允许伪造接收者头部信息,要求发送者认证,并以此来增强对 垃圾邮件发送者的跟踪。这样就促使垃圾邮件发送者通过自己的i s p 发送邮件。 但是,这种方法还依赖于这些i s p 要冻结那些发送垃圾邮件的账号。另外,这种 方法还违背了因特网开放的原则,对i n t e m e t 上的隐私带来威胁,而且,仅仅关 闭中继还不够,如今垃圾邮件发送者频繁地使用代理来隐藏自己的路径。 第二章理论基础 2 4 2 增加成本 另一个或许更加可行的阻止垃圾邮件的方法是使用经济手段来增加发送垃圾 邮件的成本,这里的成本包括时间和金钱。垃圾邮件如此泛滥的一个主要原因就 是发送大量的邮件与其它市场营销手段相比要便宜得多。而增加成本的方法就是 要使得发送邮件比现在更昂贵来抑止大量垃圾邮件的发送。我们可将它分为两类: 一种是基于计算时间的系统,迫使垃圾邮件发送者在发送一封垃圾邮件的时候花 费大量的计算资源;另一类是基于费用的系统,对每发送一封电子邮件都收取小 额费用。 2 4 2 1 基于计算时间 在这种系统中,每封邮件的发送方都需要调用一个被成为p r i c i n g c t i o n 的 函数 2 4 【2 5 】。对于一次只发送少量邮件的用户来说,这个函数不会耗费太多的计 算时间,但是对于那些一次发送大量邮件的垃圾邮件发送者来说,它会耗费许多 计算资源。这种方法使得垃圾邮件发送者在难以一段时间内发送大量邮件。 尽管如此,这种方法的可行性还很有待研究。首先,这种方法最终是需要集 成到因特网环境中,但这并非易事,虽然它不用修改现有的s m t p 协议,并且邮 件代理很容易升级;其次,存在一个硬件向后兼容的问题,我们必须保证使用旧 式电脑的用户能在一个合理的时间内发出封邮件,这就促使我们不能使用过于 耗费资源的p r i c i n g c t i o n 函数。但是这样一来,对于那些使用先进电脑的垃圾 邮件发送者来说,发送一封邮件的时间几乎为零。我们很难找到一个合适的p r i c i n g f u n c t i o n 函数来满足这两种需求。 2 4 2 2基于费用 基于费用的系统是将电子邮件系统分成多个通道,用户在使用通道接收或发 送信息时需要支付一定的费用【2 4 】。我们可以通过电子货币的形式来收取费用, 这种方法将使得发送垃圾邮件变得非常昂贵,从而达到抑止垃圾邮件的目的。然 而,由于缺乏一种全球范围的电子货币系统等原因,增加费用的实施依然存在一 些问题。 2 4 3 垃圾邮件过滤技术 为了消除大量垃圾邮件对用户、网络管理员和网络服务提供商的困扰,人们 电子科技大学硕士学位论文 投入了极大的精力对垃圾邮件过滤技术加以研究,而且已经取得了许多成果,现 在已经存在许多过滤方法,它们针对的过滤对象可能不同,针对相同过滤对象也 可以使用不同的过滤策略。根据工作原理的不同,我们可把这些过滤技术分为三 类:源过滤、基于传输流量过滤以及基于邮件内容过滤。 2 4 3 1源过滤 源过滤发生在信息被计算机用户完全接收之前。这类方法中最常用的技术称 为黑名单,又称为实时黑名单技术。这些从各个值得信赖的机构中得来的黑名单 可以用来拒绝在黑名单中的i p 地址发起的与邮件服务器的t c p i p 连接,如果在 f r o m :命令中给出的域名也出现在黑名单上连接也会被马上切断。但是,这 类方法存在一定的弱点,如果一个合法的、没有出现在黑名单上的s m t p 服务器 打开了中继服务,那么垃圾邮件发送者可以通过这个服务器转发邮件,从而避开 黑名单的过滤。黑名单过滤的另一个弱点就是那些提供黑名单的网站通常都会受 到d o s ( d e n yo fs e i c e ,拒绝服务) 攻击,这使得许多邮件服务器使用的黑名 单得不到及时的更新,而产生漏网之鱼。 另外一种源过滤的技术是通过配置s m t p 服务器执行反向d n s 查询来得到 m a i lf r o m 命令中的域名对应的i p 地址。如果这个i p 地址不是用来建立t c p 连接的i p ,那么s m t p 服务器可以拒绝处理这条信息,但是,这种方法还是不能 应付开中继的情况。 第三种方法是白名单技术。所谓的白名单包含了一系列的地址或者域名,从 这些地址或者域名发送出来的邮件会被自动接收和投递,其它不在白名单之列的 邮件就被拒绝。使用白名单技术可以基本上保证用户的收件箱不会收到任何垃圾 邮件。尽管如此,这种白名单技术存在很高的误判率,它会将那些来自不在白名 单之列,但却是合法发送方的邮件当作垃圾邮件处理掉。另外,垃圾邮件发送者 也逐渐采用伪装成一些值得信赖的发送方来欺骗邮件服务器。 2 4 3 2 基于流量分析过滤 基于流量分析的过滤方法可以用在网络服务提供商的邮件服务器上。各个 s m t p 服务器的日志记录文件可以用来检测在正常流量下的异常情况。这种异常 情况可以用来作为判定垃圾邮件盼依据,它们通常出现在与服务器建立t c p 连接 的时候,比如:在一小段时间内频繁地连接服务器,或者一次从一台主机向大量 接收者发送信息等等。 第二章理论基础 2 4 3 3基于邮件内容过滤 基于邮件内容过滤发生在信息己被完全接收以后,包括信息的主体。这类方 法可以通过识别信息主题或内容中的关键字,或者垃圾邮件的一些共有特征,以 及使用存储在因特网数据库中的签名校验和来判定接收到的邮件是否属于垃圾 邮件。 n a eb a y e s 过滤是使用最普遍,也是最有效的过滤技术之一 4 】 5 【2 3 】,其基 本想法是使用词汇的概率去估计文本所属类型的概率。这个模型中最简单的考虑 是假设文档中的每一个词汇都是独立的,换句话说,一个词汇的条件概率与在同 一分类中的其他词汇的条件概率都没有关系。这个假设带来的简单性使n a w e b a y e s 过滤器的计算远远有效于具有指数复杂性的非n a w eb a y e s 方法,并且具有 极高的垃圾邮件准确率和垃圾邮件查全率。本论文课题实现了个简单的n a v e b a y e s 过滤器,在下一章会具体介绍n a v eb a y e s 算法原理。 支持向量机( s u p p o r tv c c t o rm a c l l i n e ,s v m ) 在1 9 9 5 年由v a p 血k 提出,这 种方法基于结构化冒险最小原则,即寻找一个能保证返回最小错误的假说。假说 的错误是指在不能预期和随机选择的测试用例下出现错误的可能性。s v m 的一个 值得注意的属性是它的学习能力可以独立于特征向量的维数,因为它不使用特征 向量维数而是根据数据的边缘值来调节假说的复杂度,而且支持向量机具有较低 的训练时间 另一种基于邮件内容过滤的方法是使用遗传算法。这种算法通过一种被称为 特征检测器的方法来评估邮件信息,由评估得到的结果可以被用来区分该邮件是 垃圾邮件还是合法的正常邮件。 神经网络( n e u r a in 嘶v o r k s ) 是一种具有自我学习能力的基于内容过滤的方 法。与b a y e s i a n 过滤技术一样,神经网络在使用前必须由大量的垃圾邮件与非垃 圾邮件对其进行培训,通过这样的培训以后,神经网络就能基于这些邮件的一些 共有特征来对接收到的邮件信息进行分类【2 6 】。 在协作系统( c o o p e r a t i v es y s t e m ) 中,我们可以利用邮件内容的签名或校验 和机制来对邮件分类。当接收到一封邮件,系统计算出该邮件信息的签名或校验 和,然后与存储在因特网上的垃圾邮件数据库中的值比较,如果校验和与数据库 中的任何值匹配,则该邮件被认为是垃圾邮件。这种方法需要一种有效的算法来 计算邮件信息的校验和,目前我们可以使用m d 5 等公开算法来计算邮件信息的 摘要。 电子科技大学硕士学位论文 本节主要介绍了几种反垃圾邮件技术,不同的用户可能选择不同的过滤方法。 对于普通用户,应使用客户端防垃圾邮件软件以尽量将其拒之门外。此外,应尽 量避免“暴露”自己的电子邮箱地址,不要轻易将自己的邮箱注册到知名度不高 的i c p ,i s p 。对于企业用户而言,在用软件对电子邮件进行源过滤和内容过滤之 余,关闭邮件服务器的0 p e nr e l a y 功能可以避免自己的服务器被作为垃圾邮件的 转发站。在现行邮件传输协议s m t p 下,垃圾邮件的大规模发送可以说是轻而易 举。因此,一些电子邮件专家认为应从本质上对邮件传输协议进行修补和扩展乃 至重新制定邮件传输协议。尽管如此,在现阶段防止垃圾邮件肆意蔓延依然主要 依赖于包含这些反垃圾邮件过滤方法的技术手段。 2 5 面向对象设计模式 为了提高过滤系统的性能和可扩展性、可重用性,本论文课题采用了面向对 象的编程语言c + 上来实现该分层垃圾邮件过滤系统。因此在设计和实现过程中贯 通了设计模式的概念。本节将简要介绍面向对象设计模式,以及本课题中所使用 到的一些具体模式的概念,这是具体实现该系统的基础。 2 5 1 模式简介 一个围棋下得好的人知道,好的“形”对于围棋非常重要。形是棋子在棋盘 上的几何形状的抽象化。形就是模式,也是人脑把握和认识外界的关键 2 7 】。人 脑处理模式的能力也非常高超,人可以在几百张面孔中一下子辨认出所熟悉的脸 来,就是一个典型的例子。模式化的过程是把问题抽象化,在忽略掉不重要的细 节后,发现问题的一般性本质,并找到普遍适用的解决方案的过程。 现代科学和工程学能够发展到今天有赖于规则的制定,模式的研究也不例 外。简而言之,人们在自己的环境中不断发现问题和寻找问题的解决方案的时候, 发现一些问题及其解决方案不断变换面孔重复出现,但在这些不同的面孔后面有 着共同的本质,这些共同的本质就是模式。模式所描述的问题及问题的答案都应 当是具有代表性的问题和问题的答案。所谓具有代表性,就是说它以不同的形式 重复出现,允许使用者举一反三,将它应用到不同的环境中去。为了与其他人交 流,通常还要求给这个问题和问题的答案一个名字。 第二章理论基础 2 5 。2 模式的要素 描述模式需要一定的格式,尽管在不同格式中,正则格式的细节有所不同, 一般来说,大家均同意模式应当包含一下这些要素: 名字:一个模式必须有一个有意义的、简短而准确的名字。一个好的名字可以 使对模式的抽象讨论变得更容易。有时一个模式同时有多于一个的名字,这时 候这些名字就应当作为别名列出,比如说,观察者模式( o b s e r v e r ) ,又称为发 布一订阅模式。 问题:每一个模式必须有一个能够描述它的用意的问题,以便能够说明此模式 在给定的环境和力中要达到的目标和效果。 环境或初始环境:模式的问题和模式的解答出现所需要的前提条件。环境说明 模式的适用范围,环境也是模式应用之前的起始位形。 力:力给出与模式相关的力和约束,它们怎样彼此相互作用,以及它们对实现 目标所起的反作用,比如一个模式为所得到的好处付出的代价等。要比较好地 描述一个模式,就必须完整地给出所有对模式有影响的力。 解答:解答相当于一个生产产品的指令,它可能包括相片、图表、文字,用于 确定模式的结构、所涉及
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽宿州学院专职辅导员招聘12人模拟试卷及完整答案详解1套
- 2025内蒙古通辽市科左中旗教体系统招聘(教师岗位)30人考前自测高频考点模拟试题附答案详解
- 2025江苏苏州国家历史文化名城保护区、苏州市姑苏区区属国资集团副总裁招聘2人模拟试卷(含答案详解)
- 安全培训教师授课报道课件
- 2025安徽六安市中医院紧缺人才招聘考前自测高频考点模拟试题及一套参考答案详解
- 2025广东东莞市谢岗镇政府第一食堂招聘厨师长、副厨2人考前自测高频考点模拟试题及答案详解(新)
- 小学安全培训制度和计划课件
- 安全培训教室装饰标准课件
- 2025年山东兴罗投资控股有限公司招聘工作人员(14人)模拟试卷及参考答案详解一套
- 2025年衢州常山县公开招聘专职社区工作者12人考前自测高频考点模拟试题完整答案详解
- 婚后老公赌博协议书
- 拆迁商铺置换协议书
- 《当代建筑设计理念》课件
- 化工联锁知识课件
- 航空质量意识培训
- 空白个人简历表格模板
- 中国低空经济城市发展指数(LCDI) 2025(发布版)
- 中学美术教育中色彩运用的艺术探究
- 学习委员的竞选发言稿模版
- 砂场财务管理制度
- 拼多多“多多买菜”网格仓的加盟商管理
评论
0/150
提交评论