(计算机科学与技术专业论文)基于行为解析的反垃圾邮件系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)基于行为解析的反垃圾邮件系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)基于行为解析的反垃圾邮件系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)基于行为解析的反垃圾邮件系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)基于行为解析的反垃圾邮件系统的设计与实现.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学硕士擘位论文 摘要 基于行为解析的反垃圾邮件系统的设计与实现 摘要 随着网络技术的不断发展,电子邮件已经成为人们日常生活和工作中沟通的一种重 要方式。然而,由于电子邮件先天安全的脆弱性,随之而来的垃圾邮件问题严重困扰着 邮件用户,降低了邮件通信的便捷性。目前对反垃圾邮件这一问题已经有了很多研究, 出现了很多反垃圾邮件技术。但是,由于垃圾邮件技术也在不断发展变化,这些技术往 往只能在不长的时间内发挥作用。行为解析技术作为第三代反垃圾邮件技术的代表,在 这样的背景下应运而生。这一技术与传统技术不同主要在于,它不依赖于邮件内容,仅 把邮件的行为作为邮件过滤的依据,效率高,性能好。 在分析和总结现有行为解析技术研究的基础上,本文设计并实现了基于行为解析的 反垃圾邮件系统。系统提出了两种行为解析机制,分别是基于邮件通信人际关系网络的 浅层行为解析和基于会话和邮件头信息的深层行为解析。浅层行为解析以用户群组这一 概念为核心,而深层行为解析则强调了解析中所使用的数据源。在把两种机制转化为具 体模型后,引入了人工神经元网络a n n ( a r t i f i c i a ln e u r o nn e t w o r k ) 算法,把模型应用 到反垃圾邮件领域中。为了提高运行效率,本文使用了完全散列技术和以神经元为中心 的a n n 表示方法。另外,系统把收到的邮件归档并存储到数据库中,便于今后的功能 扩展和系统升级。 本文使用多种指标对实现的系统进行了全面的性能评价。评价结果一方面验证了两 种行为解析机制正确性,另一方面表明了基于行为解析的反垃圾邮件系统性能良好。 关键词:电子邮件;反垃圾邮件;行为解析;人工神经元网络;用户群组 一一 东北大学硕士学位论文 a b s t r a c t d e s i g na n di m p l e m e n t a t i o no fa na n t i s p a r es y s t e mb a s e do n b e h a v i o r a n a l y s i s a b s t r a c t w i t ht h ec o n t i n u o u sd e v e l o p m e n to fc o m p u t e rn e t w o r kt e c h n o l o g y , t h ee m a i lw h i c h r e f e r st oa se l e c t r o n i cm a i lh a sb e c o m eo n eo f t h em o s ti m p o r t a n tw a y st oc o m m u n i c a t ew i t h e a c ho t h e ri no u rd a i l yl i f ea n dr o u t i n ew o r k b u tab u n d e n to fs p a r e sc o m i n gt o g e t h e r 、 ,i t h t h i sd u et ot h ei n - b o r nf r a g i b i l i t yo fe m a i lt e c h n o l o g ya n n o yp e o p l ev e r ym u c ha n dm a k ei t l e s sc o n v e n i e n t t h e r ed oc o m eo u tm a n ya n t i - s p a i nt e c h n i q u e sa sar e s u l to f l o t so f s t u d i e so i l s u c hp r o b l e ma tp r e s e n t u n f o r t u n a t e l y , t h e s et e c h n i q u e so n l yw o r ko u tf o ran o tl o n gp e r i o d d u et ot h er a p i dd e v e l o p i n ga n dc h a n g i n go fs p a mt e c h n i q u e s a l lo ft h e s eg i v eb i r t ht ot h e b e h a v i o ra n a l y s i st e c h n i q u ew h i c hs t a n d sf o rt h et h i r dg e n e r a t i o no fa n t i - s p a mt e c h n i q u e s t h em a i nd i f f e r e n c eb e i 阳f 嘲t h i sk i n do f t e c h n i q u ea n do t h e rt r a d i t i o n a lo n e si si td e p e n d so n b e h a v i o ri n s t e a do f c o n t e n to f e m a i l sw h i c hr e s u l t si nm o l le f f i c i e n ta n db e t t e rp e r f o r m a n c e t h i st h e s i sd e s i g n sa n di m p l e m e n t sa na n t i - s p a r es y s t e mb a s e do nb e h a v i o ra n a l y s i sa f t e r a n a l y z i n ga n ds u m m a r i z i n gu p - t o - d a t et e c h n i q u er e s e a r c ho ns u c hf i e l d t w om e c h a n i s m sa l e b r o u g h tf o r w a r di nt h es y s t e ma n dt h e ya s h a l l o wb e h a v i o ra n a l y s i sb a s e do ni n t e q 圮r s o n a l r e l a t i o n s h i pn e t w o r ko f c r n a i lc o m m u n i c a t i o na n dc o m p r e h e n s i v eb e h a v i o ra n a l y s i sb a s e do n i n f o r m a t i o no fs e s s i o na n de m a i lh e a d e rr e s p e c t i v e l y t h es h a l l o wo n ef o c u s e so nt h ec o n c e p t o f u s e rg r o u pw h i l et h eo t h e ro n e p u t si t se m p h a s i so nt h ed a t as o u r c e su s e di na n a l y s i s a f t e r d e v e l o p i n gt h e s et w om e c h a n i s m si n t oc o n c r e t em o d e l s , a n n ( a r t i f i c i a ln e u r o nn e t w o r k ) a l g o f i t h mi si n t r o d u c e dt od e t e c ts p a r e s w i t ht h ep u r p o s eo fi m p r o v i n gs y s t e me f f i c i e n c y , c o m p l e t eh a s hm a p p i n gt e c h n i q u ea n dn e u r o nc e n t e r e da n np r e s e n t a t i o nm e t h o da u s e d a l s o ,e m a i l sa l la r c h i v e da n ds t o r e di n t od a t a b a s eo n c et h e y r er e c e i v e df o rf u n c t i o n e x t e n d i n ga n ds y s t e mu p g r a d i n ga f t e r w a r d m u l t i p l ei n d i c e sa l lu s e dt oe v a l u a t et h es y s t e mc o m p r e h e n s i v e l yi nt h i st h e s i s t h e r e s u l to ft e s tn o to n l yp r o v e st h ee n e s so fs u c ht w ob e h a v i o ra n a l y s i sm e c h a n i s m s ,b u t a l s os h o w st h i sa n t i - s p a r es y s t e mb a s e do nb e h a v i o ra n a l y s i sw o r k sw e l lw i t hh i g h p e r f o r m a n c e k e y w o r d s : e l e c t r o n i cm a i l ;a n t i s p a r e ;b e h a v i o ra n a l y s i s ;a r t i f i c i a ln e u r o nn e t w o r k ;u s e r g r o u p 。 一i 一 独创声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示诚挚的谢意。 学位论文作者签名:陈琪 签字日期:二d 卵口2 2 d 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:圈采舌典导师签名: 1 名律 签字日期:2 0 0 7 j 啦2 0签字日期:加一7 经彳。 东北大学硕士学位论文第一章序言 第一章序言 1 1 研究背景 随着互联网技术的迅猛发展以及网络信息的急剧膨胀,电子邮件得到了越来越广泛 的应用,它已经成为互联网上最基本的服务之一。用户可以通过电子邮件与远程用户进 行经济、方便和快捷的信息交流。目前,互联网上超过3 0 的业务量是电子邮件提供的, 再加上企业网内部广泛使用的网络消息传递系统,实际的电子邮件用户数量已经非常庞 大电子邮件也正在成为一种商业广告手段。用户在收到有用信息的同时,还必须花费 大量时间和精力来处理收到的各种各样的广告邮件,这些各种各样广告邮件就属于人们 常说的“垃圾”邮件。 1 2 电子邮件 1 2 1 电子邮件工作原理 用户用来写邮件、读邮件和寄邮件的软件称为邮件用户代理m u a ( m a i lu s e r a g e n t ) ,常见的m u a 有o u t l o o ke x p r e s s 、f o x m a i l 等。m u a 并非直接将邮件送到收件 人手中,邮件在互联网上的路由和传输是通过邮件传输代理m t a ( m a i l t r a n s f e r a g e n t ) 完成的,负责投递本地邮件到适当邮箱的软件称为邮件投递代理m d a ( m a i ld e l i v e r y a g e n t ) 。上述的m u a 、m t a 和m d a 共同构成了邮件系统。 当用户要求m u a 送出一封邮件时,它首先将该邮件交给一台运行m t a 软件的服 务器。m t a 收到m u a 的寄信请求后,它会依据收件人是否是本地系统用户来进行邮件 传输。如果收件人是本地用户,则把邮件交给m d a 。m d a 将邮件保存在服务器的邮箱 中,供收件人的m u a 连接、收取并处理。如果收件人不是本地用户,m t a 就可能把邮 件交给另一个m t a 继续进行传输。这一过程中,m u a 和m t a 之间以及两个m t a 之 间传输邮件的标准协议称为简单邮件传输协议s m t p ( s i m p l em a i lt r a n s p o r tp r o t o c 0 1 ) , 而m u a 从邮箱中收取邮件的协议则是邮局协议第3 版本p o p 3 ( p o s to i t i c ep r o t o c o l v e r s i o n3 ) 或i n t e m e t 邮件应用协议i m a p ( i n t e r n e tm a i la p p l i c a t i o np r o t o c 0 1 ) 简化的 电子邮件传递流程如图1 1 所示。 发件人连接的m t a 通过查询域的d n s 服务器,得到收件域m t a 的口地址,然后 与该口的2 5 号端口( s m t p 服务默认的端口) 建立连接,使用s m t p 协议完成邮件的 东北大学硕士学位论文 第一章序言 传输。当用户想从邮箱取出邮件时,经常通过m u a 连接到p o p 或i m a p 服务器,由服 务器代为访问邮件。常用的s m t p 服务器有开源的s e n d m a i l 、q m a i l 和p o s t f i x 等,代表 性的p o p i m a p 服务器有c y r u s i m a p 和c o u r i c r - i m a p 。 d n s 服务器 图1 i 简化的电子邮件传递流程 f i g1 1s i m p l i f i e de m a i ld e l i v e r yp r o c e s s 发送邮件的s m t p 会话主要命令、命令在s m t p 协议中是否必须和命令描述如表 1 1 所示。 表1 1s m t p 会话主要命令 t a b l e1 1p r i m a r yc o m m a n d so f s m t ps e s s i o n 1 2 2 电子邮件结构 电子邮件是由邮件头( h e a d e r ) 和邮件体( b o d y ) 组成的。r f c 8 2 2 中明确规定了 一2 一 东北大学硕士学位论文 第一章序言 邮件的格式和邮件头必须包含的字段,如“d a t e ”,“f r o m ”,“t o ”,“s u b j e c t ”等字段; 邮件体的格式则必须遵循r f c 2 8 2 2 。在r f c 2 8 2 2 中引入多功能i n t e m e t 邮件扩展m i m e ( m u l t i p u r p o s ei n t e m e tm a i le x t e n t i o n s ) 类型以后,邮件的结构就从原来单一的结构发 展成比较复杂的结构。m i m e 中的m u l t i p a r t 类型,是m i m e 邮件的精髓。常见的m u l t i p a r t 类型有三种,分别是m u i t i p a r l m i x e d ,m u l t i p a r t r e l a t e d 和m u l t i p a r t a l t e r n a t i v e 。图1 2 是 对m u l f i p a r t 类型邮件结构的解析,其它类型的邮件结构也是对该结构的扩充。 图1 2m u l t i p a r t 类型的层次关系 f i g1 2h i e r a c h i c a lr e l a t i o n s h i pb e t w mm u l t i p a r tl e v e l s m i m e 邮件丰富了邮件的内容,它也包含邮件头( h e a d e r ) 和邮件体( b o d y ) 这 里存在三个实体:邮件、邮件头和邮件体,每个实体以及它们之间的对应关系如图1 3 所示。图1 3 中的m i m e m e s s a g e 对应m i m e 邮件 图1 3 电子邮件实体关系 f i g1 3r e l a t i o n s h i p so f e m a i le n t i t y 可以把m i m e 邮件整个也看成是一个邮件体,其中包含自己的邮件头和邮件体。也 就是说,对m i m e 邮件可以用递归的方法进行定义:m i m e 邮件是由邮件头和对应的包 含邮件头的邮件体组成的,递归的终止条件是邮件体的内容为纯文本正文、超文本正文 以及内嵌资源。这一定义如图1 4 所示。 东北大学硕士学位论文 第一章序言 图1 4 邮件的递归定义 f i g1 4r e c u r s i v ed e f i n i t i o no f t h e e m a i l 1 3 垃圾邮件 1 3 1 垃圾邮件的概念及危害 事物都具有两面性,电子邮件也不例外。在给人们的生活交流带来极大便利的同时, 电子邮件也带来了一些负面影响,最常见的就是垃圾邮件。学术界把垃圾邮件称为 s p a m ,把正常邮件称为h a m 。在国外,垃圾邮件的定义【1 】为u c e ( u n s o l i c i t e dc o m m e r c i a l e m a i l ,不请自来的商业电子邮件) 或u b e ( u n s o l i c i t e d b u l k e m a i l ,不请自来的批量电 子邮件) 。 信息产业部2 0 0 6 年3 月开始实施的互联网电子邮件服务管理办法中有如下九 条界定垃圾邮件: ( 1 ) 未经接收者明确同意而向其发送的包含商业广告内容的电子邮件。 ( 2 ) 没有在邮件标题前面标注“广告”或英文“a d ”字样,以便于接收者区分鉴 别的广告邮件。 ( 3 ) 接收者之前同意,但一段时间后表示拒绝继续接收,之后发送者继续向其发 送的广告邮件。 ( 4 ) 故意伪造或隐匿发送者电子邮件地址等真实信息的电子邮件。 ( 5 ) 采用黑客、病毒、匿名转发等技术控制、利用他人计算机系统发送的电子邮 件。 ( 6 ) 通过字母数字随机组合等方式获得他人的邮件地址并向其发送电子邮件。 ( 7 ) 传播色情、恐怖、邪教、民族歧视等国家法律明令禁止的违法或有害信息的 电子邮件。 ( 8 ) 蓄意进行欺诈、窃取信息等违法活动的电子邮件。 ( 9 ) 故意传播计算机病毒或进行网络攻击等破坏他人电信网络或计算机系统的电 一4 一 东北大学硕士学位论文 第一章序言 子邮件。 中国互联网协会公布的2 0 0 6 年第三次中国反垃圾邮件状况调查报告显示,今年6 月至9 月份,网民平均每周收到的垃圾邮件有1 8 9 6 封,正常邮件只有1 2 9 6 封。有六 成电子邮件是垃圾邮件。调查显示,6 月到1 0 月期间,中国网民收到的垃圾邮件比例由 6 1 9 9 下降到5 9 4 9 * 。网民用于处理垃圾邮件每周所需时间平均为1 2 6 7 分钟。以2 0 0 5 年国内生产总值为依据可以发现,垃圾邮件每年给我国国民经济造成约6 3 8 亿元的损 失。这仅仅是按照时间计算出的相对损失,还没有列入诸如邮件服务器处理垃圾邮件的 额外付出、存储成本以及用于处理垃圾邮件的技术及人力付出。 垃圾邮件的泛滥给整个网络社会带来了严重危害,这主要体现在以下几个方面1 2 1 : ( 1 ) 消耗网络资源。垃圾邮件一次可以传播上万、甚至高达上亿个副本,这些垃 圾邮件占用了大量的带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率,严重 时甚至拥塞整个互联网链路。 ( 2 ) 侵犯收件人利益。垃圾邮件制造及传播者不顾他人反对,强制性地把邮件发 到别人的邮箱,侵犯了个人隐私权。同时,垃圾邮件占用了收件人邮箱空间,收件人清 除垃圾邮件需要耗费时间、精力和金钱。有的垃圾邮件制造及传播者盗用他人邮件地址 做发信地址,这不仅会使该受害者收到大量的退信通知,而且损害了他人信誉。 ( 3 ) 威胁网络安全。很多垃圾邮件带有病毒,在网上传播,使很多系统在没有防 范的情况下遭到病毒袭击。而且大部分垃圾邮件都是利用别人的服务器转发,占用了别 人的资源,影响了被盗用系统的正常运行。还有些垃圾邮件的附件中带有诸如特洛伊木 马程序之类的病毒,收件人一旦打开,就会对系统造成各种各样的破坏。 ( 4 ) 危害社会很多垃圾邮件的内容是有害的,如赌博、传销、妖言惑众、骗人 钱财、传播色情等内容的垃圾邮件,对收件人特别是青少年造成很大的危害。 ( 5 ) 影响i s p 、地区甚至国家的形象。国内的许多网段曾经因为发送垃圾邮件或者 转发垃圾邮件而被国外多个组织列入黑名单,在国际上造成不良影响。 1 3 2 垃圾邮件的起因及特点 垃圾邮件之所以存在,根本原因是因为寄送成本便宜。邮递量从几百人增加到几千 人并不会增加太多成本,因此垃圾邮件发送者的目标就是尽量收集邮件地址。 垃圾邮件的产生除了垃圾邮件制造者为了个人利益,达到个人目的而不择手段等原 因外,系统本身存在的问题也是不可忽视的。总的来说,电子邮件系统有以下两个方面 东北大学硕士学位论文 第一章序言 的缺陷,使得垃圾制造者有机可乘。 ( 1 ) s m t p 协议的缺陷。垃圾邮件的产生首先是i n t e m e t 自身的原因,由于i n t e r n e t 的开放性和共享性,其本身采用的t c p i p 协议的弱安全性,特别是电子邮件发送时使 用的电子邮件传输协议的弱认证机制,任何邮件都有可能被发送。s m t p 协议的这些缺 陷无疑为垃圾邮件制造者提供了便利。初级的系统管理员在配置本地邮件服务器时,往 往使用软件的缺省配置,而这些缺省配置通常只实现了基本的s m t p 协议,对系统的使 用并没有作严格的限制。于是,本地用户在管理员不知情的情况下,就可以利用邮件服 务器发送垃圾邮件。 ( 2 ) 开放中继( o p e nr e l a y ) 。开放中继不限制客户端的位置,也不查证邮件是否 寄给自辖网域,就愿意收下并转寄到最终目的地。它很容易被利用来发送垃圾邮件。中 继服务器上运行的同样是支持s m t p 协议的软件,所以事实上任何一台邮件服务器都可 以被当作中继服务器,假如邮件服务器接收到一封邮件,其来源地址和目的地址都不是 本地用户的邮箱地址,该服务器照样把这封邮件传送出去,那么它就充当了开放中继。 事实上,互联网大部分垃圾邮件都是通过开放中继发送的。 垃圾邮件虽然形式多种多样,但是常具有两个基本特点:第一个特点是垃圾邮件制 造者大量发送垃圾邮件的目的就是让尽可能多的人接收到他的信息,所以如果用户收到 一封垃圾邮件,那么他肯定不是唯一的受害者;第二个特点是通过开放中继发送。垃圾 邮件制造者为了隐藏他的所在,除了在邮件中根本不指明来源地址或指明虚假来源地址 之外,邮件的发送往往通过开放中继完成,收集互联网上的开放中继是他们经常做的工 作。另外,垃圾邮件还具有数量多、反复性、强制性、欺骗性、不健康性和传播速度快 等特点。 1 3 3 垃圾邮件产生的技术手段 垃圾邮件制造者在发送垃圾邮件之前需要获取目标地址,他们通常会使用购买邮件 地址搜索软件扫描和猜测邮件地址、利用病毒从本地邮箱获取联络人邮件地址等方法。 为了逃避检测、追踪,他们采用的技术手段主要有: ( 1 ) 利用开放中继 ( 2 ) 自架设m t a 服务 ( 3 ) 采用动态口地址 ( 4 ) 伪造或隐藏发信地址 东北大学硕士学位论文 第一章序言 一7 一 东北大学硕士学位论文第一章序言 这些技术可以进一步细分为垃圾邮件过滤技术、邮件服务器的安全管理和培植技 术、邮件发信权限控制技术以及对s m t p 协议的改进研究等。其中,垃圾邮件过滤技术 是反垃圾邮件技术发展的重要方向之一。计算机判断收到的邮件是否是垃圾邮件,主要 判定依据有两点,首先是“邮件来源”,其次是“信息内容”。前者是在收信期间检查送 信方是否为已知的垃圾来源,或是其寄信行为是否符合滥发垃圾邮件的条件。后者是在 收下邮件后,检查信息内容是否包含可被判定为垃圾邮件的字眼或其他条件。反垃圾邮 件的目标兼顾以下两点: ( 1 ) 尽可能挡掉可疑的垃圾邮件 ( 2 ) 尽可能降低误判率 常用的基于邮件来源的过滤技术主要有: ( 1 ) 反向域名验证 ( 2 ) 黑名单和白名单 ( 3 ) 基于行为的过滤 常用的基于信息内容的过滤技术主要有: ( 1 ) 关键词过滤 ( 2 ) 基于内容的过滤 下面对目前常用的垃圾邮件过滤技术进行阐述。 1 4 1 反向域名验证技术 由于垃圾邮件一般都是使用伪造的发送者地址,用真实地址的是极少数,所以如果 能智能地识别出哪些是伪造的邮件,就能阻挡一大批垃圾邮件,反向域名验证技术正是 基于这样的出发点而产生的。 反向域名验证是对收到邮件的来源i p 地址采用反向d n s 查找,如果反向d n s 查 找提供的域与邮件上的来源i p 地址相符合,该邮件被接受;如果不符合,该邮件被拒 绝。该技术对垃圾邮件发送者采用虚假的域地址或回复地址能进行有效阻断。 反垃圾邮件国际标准草案r f c 2 5 0 5 的作者试图通过域名反向解析来确认发送邮件 服务器的合法性。但是,由于互联网上有大量的d n s 服务器未配置域名反向解析,这 样可能导致大量的合法的邮件服务器被认为是非法的,因此该方案推广难度比较大。 1 4 2 黑名单和白名单 黑名单b l ( b l a c k l i s t s ) 和白名单w l ( w h i t el i s t s ) ,分别是己知的垃圾邮件发送 一8 一 东北大学硕士学位论文 第一章序言 者或可信任的发送者i p 地址或者邮件地址b l 中比较常见的技术是实时黑名单r b l ( r e a l t i m eb l a c kl i s t s ) 。这个技术的原理是将已知的开放中继或垃圾邮件来源记录在一 个动态数据库中,并通过d n s 系统开放给m t a 服务器查询。白名单则与黑名单相反, 对于那些信任的邮件地址或者口完全接受 目前很多邮件接收端都采用了黑白名单的方式来处理垃圾邮件,包括m u a 和 m t a 。当然,在m t a 中使用得更广泛,这样可以有效地减少服务器的负担。 b l 技术也有明显的缺陷,因为不能在b l 中包含所有的( 名单的不完整性) i p 地 址,而且邮件发送者很容易通过不同的p 地址来制造垃圾邮件。 1 4 3 关键词过滤 关键词过滤技术通过创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处 理垃圾邮件,比如某些病毒使用的邮件标题作为关键词大量出现在垃圾邮件中。这种方 式比较类似反病毒软件利用的病毒特征一样。可以说,这是用简单的内容过滤处理垃圾 邮件,它的基础是必须创建一个庞大的过滤关键词列表。 这种技术缺陷很明显,过滤的能力同关键词有明显联系,关键词列表也会造成误报 可能比较大,系统采用这种技术来处理邮件的时候消耗的系统资源会比较多,并且一般 躲避关键词的技术比如拆词、h t m l 混淆就很容易绕过过滤。 1 4 4 基于内容的过滤 从内容上看,垃圾邮件过滤可以看成一个二类问题【习:垃圾邮件类和合法邮件类。 因此,各种分类方法都适用于垃圾邮件过滤。 目前基于内容的垃圾邮件判别方法可以大体分成基于规则的方法和基于概率统计 的方法 6 1 。前者常常得出人们可以理解的显式规则;后者往往通过某种计算表达式推出 结果。本质上,概率统计方法可以看成规则方法的一种推广,只不过概率统计方法中得 到的规则是一种不被人轻易理解的“隐式规则” 不管是基于规则的方法还是基于概率统计的方法,在使用时都经历从训练到过滤的 过程。通过已有的训练集合( 正例+ 反例) 训练出相应的垃圾邮件规则( 包括显式规则 或隐式规则) ,然后将规则应用到新的邮件判定中去。 1 4 4 1 基于规则的过滤 基于规则的方法通过训练得到显式规则( 形如:i f 邮件标题包含f r e e 且邮件体包含 a d v e r t i s e m e n t ,t h e n 该邮件为垃圾邮件) 。通常,基于规则方法的过滤技术采用人工智能 一9 一 东北大学硕士学位论文第一章序言 技术对垃圾邮件进行特征分析、规则提取和规则匹配,对发现的每一个关键词赋予分数, 分数越高,该邮件是垃圾邮件的可能性就越高;得分超过一定值时,该邮件将被认为是 垃圾邮件。 基于规则的过滤方法的主要优点是可以生成人类理解的规则。它的缺点是更新速度 慢,并且在规律性不明显的应用领域效果较差。因为规则一般都是人工编写生成,所以 新规则的产生速度跟不上新垃圾邮件出现的速度,换句话说,它的时效性较差。目前最 常见的开源基于规则过滤的垃圾邮件过滤器是s p a r ea s s a s s i n ,它对英文邮件的过滤取得 了良好的效果。应用在这一技术中的算法主要有:决策树方法、b o o s t i n g 方法、粗糙集 方法等。 1 4 4 2 基于统计方法的过滤 基于统计方法的过滤是通过建立一系列模型,把概率和统计知识运用到这些模型 中,从而判别垃圾邮件并过滤。其中,判别邮件用的分类器是根据垃圾邮件和正常邮件 的样本训练出来的。常见的方法有k - 最临近方法、支持向量机、w i n n o w 方法和贝叶斯 方法等。 基于统计方法过滤的主要优点就是分类器由程序自动训练出来,只要及时更新样本 训练集就可以使分类器更新的速度跟上垃圾邮件出现的速度,即它的时效性很强。然而 该方法的缺点是分类器不能共享,某个用户使用自己的邮件样本集训练出来的分类器对 其他用户可能效果不佳,因此推广性较差。 1 4 5 基于行为的过滤 对于上述四种过滤技术的研究已经取得了很多成果,也比较好地应用在反垃圾邮件 中。但是,这些技术都有一定的局限性,现在最流行的基于内容的过滤由于过滤的是文 本内容,在垃圾邮件内容不断变化,出现类似图片、语音等多种媒介的邮件的情况下, 内容过滤的困难越来越大,而且这种过滤需要进行大量的匹配运算,对处理器和内存的 占用很高,系统容易出现瓶颈,因此,这些技术无法圆满解决垃圾邮件问题。 正如上面叙述的,目前反垃圾邮件技术并没有领先于制造和发送垃圾邮件的技术, 图1 6 关于中国网民每周收到垃圾邮件所占的比例反映了矛盾斗争的僵持性。从图1 6 可以看出,虽然用户收到的垃圾邮件略有下降,但离杜绝或最大限度减少垃圾邮件数目 这个目标还有很大距离。在这个背景下,反垃圾邮件技术研究的热点逐渐转移到基于行 为的过滤,也就是行为解析过滤这个方向。 东北大学硕士学位论文 第一章序言 7 5 4 5 百分比 3 0 1 5 o 4 2 0 0 57 2 0 0 51 0 2 0 0 53 2 0 0 6e 2 0 0 61 0 2 0 0 6 图1 6 中国网民每周收到垃圾邮件所占的比例 f i g1 6 p r o p o t i o n o f s p a m sr e c e i v e d b y c h i n e s ec i t i z e n s e v e r y w e e k 作为新兴的第三代反垃圾邮件技术,行为解析技术能够高效、准确地区分垃圾邮件 与正常邮件,使得采用任何垃圾邮件发送技术发出的垃圾邮件都无法躲过它的检测。该 技术对大量的垃圾邮件样本进行了统计、分析和计算,建立垃圾邮件发送的行为判别模 型。这一模型能够在m t a 通信阶段就能够判别所接收邮件是否为垃圾邮件,不需要使 用全部的邮件内容进行内容分析,从而提高了邮件过滤速度,减少了网络延迟,同时还 避免了内容过滤技术不可避免的高误报率问题,提高了对垃圾邮件的识别精度。 除了上面的方法外,还有基于安全认证的算法如寄件人策略框架s p f ( s e n d e r p o l i c y f r a m e w o r k ) 和域密钥d k ( d o m a i nk e y s ) ,分布式协作指纹分析方法如r a z o r 技术对防 止垃圾邮件的产生也起了积极作用,也是今后重要的研究方向。 1 5 课题来源 1 5 1 “垃圾邮件综合举报系统关键技术研究和系统实现”项目简介 “基于行为解析的反垃圾邮件系统”这一课题所属的“垃圾邮件综合举报关键技 术研究和系统实现”项目( 2 0 0 5 c 5 9 ) 得到“国家2 4 2 信息安全计划”的资助。这个项 目期望通过构建垃圾邮件综合举报系统模型与功能框架,实现垃圾邮件综合举报原型系 统,使之具备高效、高精确度、实时性较好、易维护、反馈学习等特点,从而有效遏制 垃圾邮件产生和传播。 该项目采用“初审、复审、学习反馈”处理策略,集垃圾邮件过滤检测、邮件内容 分析、用户举报,垃圾邮件处理响应器等功能于一体。初审使用基于行为解析和规则匹 配的过滤技术,处理海量邮件,要求降低漏判率,快速得到初始垃圾邮件集合。复审使 用基于领域知识和内容分析相结合的技术对初始垃圾邮件集合进行再次识别,对初审误 判的正常邮件“平反”,使用基于反馈学习的自适应技术,更新初审规则。通过内容分 析支持垃圾邮件特征库和垃圾邮件工具特征库的生成。另外,通过基于内容分析的垃圾 东北大学硕士学位论文第一章序言 邮件分类技术得到特定或指定特征的垃圾邮件特定集合,提供给垃圾邮件处理响应器, 做出相应的垃圾邮件响应处理。 1 5 2 基于行为解析的反垃圾邮件系统 课题是附属于上述项目的一个子系统。它作用于初审阶段,主要是通过对邮件行为 进行分析,从中提取有用的行为特征,把这些特征作为判别邮件正常与否的依据,进行 行为解析,从而得到判别结果。把行为解析引入初审是为了提高初审的性能,减轻邮件 系统复审的负担。 东北大学硕士学位论文第二章基于行为解析的反垃握塑堡! 叁查 第二章基于行为解析的反垃圾邮件技术 由于以黑白名单为代表的第一代反垃圾邮件技术和以内容过滤为代表的第二代反 垃圾邮件技术的局限性,这两种技术无法对新形式的垃圾邮件进行有效的过滤。正是在 这一背景下,行为解析反垃圾邮件技术应运而生 行为解析技术是从电子邮件发送和传输行为出发,根据邮件会话信息,寻找垃圾邮 件的来源,提取邮件的行为特征,进而加以判断识别。这个技术不必完整收下邮件即可 完成“是否是垃圾邮件”的判断,是垃圾邮件阻断的一种新的技术,目前被认为是第三 代反垃圾邮件技术的代表,因此成为新的研究热点 正因为行为解析技术仅对邮件行为合法性把关,与邮件内容不相关,这就克服了在 邮件正文内容可能是多种语言的情况下基于内容分析的垃圾邮件阻断误报率较高的缺 点。因此,行为解析技术和内容分析技术相结合,前者可以弥补后者无法克服的浪费网 络带宽的缺点,而后者可以克服前者查全率较低的缺点。这两种技术的结合,是一个比 较好的过滤垃圾邮件方案。下面将从两个方面对行为解析技术的研究现状进行介绍。 2 1 基于s m i p 的行为解析 2 1 1 全域邮件发送行为 文献【7 】中介绍了网络层的垃圾邮件行为。它根据垃圾邮件的两种来源,详细分析了 垃圾邮件的整体网络层特征和防范措施。虽然对于某个域的某台邮件服务器,它的发送 和接收邮件的行为没有规律,但是文献【7 】把研究对象扩大到大规模网络,总结并提取全 域邮件服务器的运行特征。如果某邮件服务器因为开放中继或者僵尸网络发出大量垃圾 邮件,接收的邮件服务器能够根据当前全域的信息,判断这个域的发送行为是否正常, 并采取相应策略,如更新全域邮件服务器信息、暂时阻断可疑的邮件服务器等。这样就 能较好地遏制垃圾邮件发送,把垃圾邮件对网络的影响降到最小。 2 1 2s m ,r p 连接行为 基于s m r p 连接行为的行为解析比较直观,它是根据客户端s m t p 连接的各种特征, 如连接频率、对应的主机名、域名指针p t r 记录值、流量等,对客户端进行判别。现 在常用的邮件服务器一般都具有连接频率控制和主机名发信域地址校验功能。 如果同一个客户端频繁出错,通常这是有问题或被攻击的征兆。根据客户端的连接 频率阻挡垃圾邮件正是以这个假设为基础的。p o s t 血邮件服务器能累计客户端曾经发生 东北大学硕士学位论文第二章基于行为解析的反垃圾邮件技术 错误的次数,对于可疑的客户端,它会延迟响应的时间,延迟时间随着错误次数的增加 而延长。如果错误次数超过一个给定的上限,服务器主动断开与客户端的连接。这样提 高了对大规模群发垃圾邮件的处理能力,遏制同一m 大量滥发垃圾邮件的行为。 主机名发信域地址校验功能是拦截带有非法的或不规范的主机名的邮件 文献【8 】提出一种新型的基于流的反垃圾邮件方法。该方法根据邮件流的类型和各自 的性质,检测垃圾邮件和网络上不正常的邮件行为。文献【9 】分析了垃圾邮件的主要的量 化特征,指出了垃圾邮件与正常邮件在流量方面存在显著差异。 由于邮件传输可能经过多个邮件服务器,这部分信息记录在邮件头部的“r e c e i v e d ” 字段中。垃圾邮件的这个字段多是伪造的,把这样的s m t p 连接特征作为判定垃圾邮件 的依据,也取得了一定效果。文献【l o 】提出了基于邮件头部“r e c e i v e d ”字段的路径分 析模型,主要是使用遗传算法对“r e c e i v e d ”字段中出现的邮件发送路径上经过的m 地 址进行可疑性分析,从而确定邮件的分类属性。 2 1 3 会话模型 会话模型是从邮件发送的会话阶段提取信息,对这些信息使用一定的规则或其它方 法进行判别,从而判定邮件的正常性。 文献 1 1 1 从邮件日志分析入手,把垃圾邮件日志信息进行数据预处理,把非结构化 数据经过数据转化、离散化,转换为结构化数据,记录邮件发送过程中的各类行为要素, 如时间、频度、发送i p 、协议声明特征等;然后从中抽取出垃圾邮件发送行为的特征属 性,利用数据挖掘和决策树算法相关技术,生成判定用的决策树,由决策树生成垃圾邮 件行为判定规则;最后用这些规则来判别接收到的实时邮件。测试结果表明,该模型在 过滤垃圾邮件方面具有比较好的效果。 2 2 基于应用的行为解析 文献【1 2 】在分析了基于关键字过滤垃圾邮件技术缺点的基础上,提出了发送垃圾邮 件基本的行为模式包括数据欺骗、时间异常和转发异常。这些模式可以通过对邮件头的 “f r o m ”、“t o ”、“r e p l y - t o ”、“d e l i v e r e d - t o ”、“r e t u r n - p a t h ”、“r e c e i v e d ”和“d a t e ” 这七个字段进行统计分析获得。然后,使用支持向量机方法过滤垃圾邮件,取得了不错 的效果。 文献0 3 1 从用户通信角度提出了用户行为模型和附件行为模型。这两个模型在文献 【1 4 1 6 e 被应用到反垃圾邮件领域,并有效地降低了反垃圾邮件系统的误报率。 东北大学硕士学位论文 第二章基于行为解析的反垃圾邮件技术 2 2 1 用户行为模型 2 2 1 1 发送使用习惯模型 这个模型从邮件发送的角度出发,估算邮件用户的固有使用习惯。它的目标是量化 邮件用户使用自己帐户的特定方式。使用柱状图来表示用户发送使用习惯比较直观。 每个柱状图的横轴代表一天2 4 小时,它被分成2 4 等份,每一份表示一个时间段( 如 8 :0 0 9 :0 0 ) 某一用户发送的邮件中所包含的特征按照发送时间被分配到它所对应的时 间段。某个时间段上柱状图的值,代表在这个时间段内该用户发送的邮件中具有指定特 征邮件的平均数目。特征包括附件数目、邮件大小和收信人的数目等。随着统计任务的 不同,特征可以扩展和变化。 通过使用柱状图比较算法,可以比较两个柱状图的相似性。常用的柱状图比较算法, 包括单一交叉法、欧几里德距离、二次距离、统计距离测量等。计算得到两个待比较的 柱状图的距离值,如果这个值大于某个固定的阈值,表示两个柱状图不相似,或者说是 柱状图所代表的用户习惯有偏离:反之,用户习惯没有发生偏离。 2 2 1 2 相似用户模型 把帐户按照行为习惯的相似性分成不同的组,每组代表相似的用户。这个功能在许 多情形中都非常有用,如发现用户别名或同一用户多个不同帐户。这个模型的提取可以 根据上- - d 节中所提到的用户使用习惯模型计算得到。通过计算不同帐户的柱状图与某 一帐户的柱状图的距离,可以得到相似的用户,或者可以使用l 【- 近邻法得到多个相似的 用户集。 2 2 1 - 3 用户派系模型 这是另一种从用户发送行为中提取的模型。用户发送的一封邮件中包含一组收件 人,把这组收件人作为一个集合,在不同邮件中综合这些收件人集合以及集合随时间变 化的情况,从而形成了这个模型。当用户发送的邮件违反了该用户的派系模型,可以判 断这封邮件是异常邮件。 形式上,邮件通信可以用一个有向图g ( v ,层) 来表示。该有向图可以根据用户发送 的邮件情况得到。一封邮件可以看成是涉及到多个邮件用户的事务,这些邮件用户包括 发送者( 在邮件头的“f r o m ”字段中) 和接收者( 在邮件头的。t o ”,“c c ”,“b c c ”字 段中) 如果能够找出这些地址的共现规律,就可以使用这些规律来判定该发送者发送 的邮件是否违反了这些规律。可疑的邮件将进一步使用其它模型进行检验以确定它是否 是垃圾邮件。 一1 5 一 东北大学硕士学位论文第二章基于行为解析的反垃圾邮件技术 2 2 1 4v i p 通信模型 v i p 通信模型描述了对一个特定用户来说,哪个用户和他的关系相对来说最为重要。 通过计算用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论