(计算机软件与理论专业论文)基于特征点分析的垃圾邮件检测.pdf_第1页
(计算机软件与理论专业论文)基于特征点分析的垃圾邮件检测.pdf_第2页
(计算机软件与理论专业论文)基于特征点分析的垃圾邮件检测.pdf_第3页
(计算机软件与理论专业论文)基于特征点分析的垃圾邮件检测.pdf_第4页
(计算机软件与理论专业论文)基于特征点分析的垃圾邮件检测.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)基于特征点分析的垃圾邮件检测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学硕士学位论文摘要 摘要 伴随着i n t e m e t 的普及和发展,电子邮件以其方便快捷、低成本的优点得到 迅速而广泛的应用,并成为人们交流沟通的主要工具之一。与此同时,垃圾邮件 也越来越泛滥,最近,图片型垃圾邮件对于i n t e m e t 以及它的用户来说,成为了 一种新的威胁。因此,如何过滤该类邮件,已成为i n t e m e t 领域一个亟待解决的 问题。 我们研究小组先前的工作提出了一种图片过滤系统。当用户认为一封图片邮 件是垃圾邮件的时候,由用户对该邮件中的图片进行截图,然后把所截得的图片 作为黑名单,以便下次在收到相同的图片邮件将其过滤掉。该方法具有因人而异 和易于实现的优点。但是,该方法也有两个缺点,即系统中采用的图像匹配算法 效率不高,以及用户截图会影响整个系统的性能。 针对上述缺点,本文提出了相应的解决方案。首先,提出一种基于几何变换 的图像匹配算法。该算法使用d o g 算子提取图像的特征点,然后采用几何变换 的方法对特征点进行匹配,有效地提高了系统的效率。其次,针对由用户自主截 图所产生的随意性,本文采用m e a ns h i f t 对图像中的特征点进行聚类,然后根据 聚类的结果对图像进行分割,这样就较好地克服了用户自主截图的盲目性。 实验结果表明,本文提出的改进方法的效率较之先前有了较大的提高,从而 为更加有效地解决图片垃圾邮件的过滤问题做了有益的探索。 关键词:图片型垃圾邮件,d o g 算子,几何变换,m e a i ls h i f t a b s t r a c t w i t ht h ep o p u l a r i t yo f t h ei n t e r n e t ,e m a i l ,w h i c hi sc o n v e n i e n t ,f a s ta n d l o w - c o s t , h a sb e c o m eo n eo ft h em a i n c o m m u n i c a t i o nt o o l so nt h ei n t e r n e t m e a n w h i l e ,s p a m i s b e c o m i n gm o r ea n dm o r eh a r m f u l r e c e n t l y , i m a g e b a s e ds p a m i sb e c o m i n gan e w t h r e a tt ot h ei n t e m e ta n di t su s e r s t h e r e f o r e ,h o wt o d e a lw i t hi m a g e - b a s e ds p 锄 b e c o m e sa l le m e r g e n c yt a s kf o ri n t e r n e ts e c u r i t y i nt h ee a r l yw o r ko fo u rr e s e a r c hg r o u p , w h i c hd e t e c t st h es p a mi m a g eb ym a t c h i n gi t w ep r o p o s e da ni m a g ef i l t e r i n gs y s t e m w i t hu s e r - s p e c i f i e di m a g ec o n t e n t t h e e x p e r i m e n t ss h o w e dt h a t t h e r ea r et w oa d v a n t a g e si nt h a ts y s t e m t h er u l e s 娥 v a r y i n gf r o mp e r s o nt op e r s o na n dt h es y s t e mi se a s y t oi m p l e m e n t h o w e v e r ,恤s s y s t e ma l s oh a st w od i s a d v a n t a g e s t h e f i r s to n ei st h a ti t sm a t c h i n ga l g o r i i s n o t e f f i c i e n te n o u 曲t h eo t h e ro n ei s t h a tt h eu s e r - s p e c i f i e di m a g e sm a y b ea f f e c tt h e e f f i c i e n c yo ft h es y s t e m i nt h i sp a p e r , w ep r o p o s es o l u t i o n st os o l v e t h ea b o v ep r o b l e m s f i r s t ,w ep r e s e n t an o v e li m a g em a t c h i n ga l g o r i t h m i nt h i sa l g o r i t h mw eu s ed o g t oe x t r a c t 姗a g e f e a t l 眦s ,a n dt h e na d o p tg e o m e t r yt r a n s f o r mt oj u d g e w h e t h e rt w ol m a g e sa r e m a t c h i n g t h i sa l g 嘶也mh a si m p r o v e d t h ep e r f o r m a n c eo ft h es y s t e me f f e c t i v e l y t o s o l v et h cs e c o n dp r o b l e m ,w eu s em e a ns h i f ta l g o r i t h mt oc l u s t e rt h ef e a t u r ep 0 i n t s a l l dt h e nl o c a t et h eh i g h e s td e n s i t ya r e ao ft h ef e a t u r ep o i n t s ,w h i c h i sh e l p f u lf o r r e d u c i n gb l i n d n e s so fu s e r s o p e r a t i o n 1 1 1 ee x p e r i m e n t a lr e s u i t sh a v ed e m o n s t r a t e dt h ef e a s i b i l i t ya n dv a l i d i t yo f0 u r p r o p o s e dm e t h o d s k e yw o r d :i m a g e - b a s e ds p a m ,d o g , g e o m e t r yt r a n s f o r m ,m e a n s h i f t v 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究2 r _ 作及 取得的研究成果。据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果。对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名: 窒l 登 日期:兰孥:! 兰:2 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名: 桶 导师张似 日期: o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o r t h em a s t e r sd e g r e ea te a s tc h i n an o r m a lu n i v e r s i t y ,1w a r r a n tt h a tt h i s t h e s i si so r i g i n a la n da n yo ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v e b e e nf i g u r e do u tb ym e a n yo ft h er e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r k , p a t e n t ,s t a t u t o r yr i g h t , o r p r o p r ie t yr i g h to f o t h e r s h a v e b e e n e x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h er e f e r e n c e ss e c t i o na tt h e e n do ft h i st h e s i s s i g n a t u r e :j 塑 。, c o p y r i g h tn o t i c e 厶“d a t e : ) 9o | 阢、 产一 ih e r e i na g r e et h a tt h el i b r a r yo fe c n us h a l lm a k ei t sc o p i e sf r e e l y a v a il a b l ef o ri n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h e t h e s i si sa l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ,i np a r t i c u l a r ,s t o r i n g t h ec o n t e n to ft h i st h e s i si n t or e l e v a n td a t a b a s e s ,a sw e l la sc o m p i l i n g a n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s ,c o n s i s t e n tw i t h f a i ru s e a sp r e s c r i b e di nt h ec o p y r i g h tl a wo ft h ep e o p l e sr e p u b li c o fc h i n a - s i g n a t u r e :! 坠竺勺乩 d a t e : l i 华东师范大学顾:l 学位论文第一章绪论 第一章绪论 本章首先介绍了垃圾邮件过滤系统的研究背景和现实意义,接着概述了垃圾 邮件过滤的国内外发展现状,相关学者在该领域的研究工作和成果,最后给出了 本文的主要工作和组织结构。 1 1 研究背景与意义 伴随着i n t e m e t 的普及和发展,电子邮件( e m a i l ) 以其方便快捷、低成本 的优点得到了迅速而广泛的应用,并成为人们交流沟通的主要工具之一。然而, 电子邮件在给人们带来众多好处的同时,也显现出它的巨大隐患,那就是被别有 用心的人利用,生产垃圾邮件( s p a me m a i l ) 。垃圾邮件的危害【l j 主要有: ( 1 ) 浪费网络资源,影响正常的信息传播。大量的垃圾邮件的存在和传播 会占用网络的传输、存储和运算资源,造成邮件服务器拥堵,降低服务器的效率, 影响正常的服务。 ( 2 ) 侵犯个人隐私权和信箱空间。垃圾邮件强制发送邮件到用户邮箱,侵 犯个人隐私,同时占用有限的信箱空间,并耗费收件人的时间、精力和金钱。 ( 3 ) 威胁网络安全。带有病毒的垃圾邮件危害更大,它会攻击没有严密防 范的系统,造成网络瘫痪。黑客们还会使用他人的服务器转发垃圾邮件,影响被 盗用的正常运行。 ( 4 ) 有的垃圾邮件的内容妖言惑众,骗人钱财,传播色情、反动等内容, 对现实社会的和谐造成严重损害。 ( 5 ) 影响电子邮件服务商,甚至国家的形象。我国开始被其他国家视为垃 圾邮件的温床,许多i p 地址有遭受封杀的危险,长期下去可能使我国成为“信 息孤岛”。 鉴于垃圾邮件的诸多危害,中国互联网协会提出中国互联网协会反垃圾邮 件规范1 2 ,对垃圾邮件的定义如下: ( 一) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式 的宣传品等宣传性的电子邮件; 华东师范大学硕士学位论文第一章绪论 ( 二) 收件人无法拒收的电子邮件; ( 三) 隐藏发件人身份、地址、标题等信息的电子邮件; ( 四) 含有虚假的信息源、发件人、路由等信息的电子邮件。 然而,迄今为止,垃圾邮件在国际上并没有一个准确的定义,这是因为垃圾 邮件的判定是因人而异的。比如,大学生一般会认为学术杂志征文邮件是很有用 处,而药品宣传广告邮件是垃圾邮件;但药品营销人员会对药品宣传广告邮件感 兴趣,而判定学术杂志广告是垃圾邮件。因此,垃圾邮件的一个重要特性就是因 人而异,不同用户对同一封邮件的判断结果可能是截然相反的【3 l 。 目前反垃圾邮件的手段主要是通过识别邮件文字中的关键字的方式来判断 是否存在垃圾信息,其本质就是一种文本分类器【4 】。这种垃圾邮件过滤器对文本 型垃圾邮件的过滤效果是令人满意的,然而当垃圾邮件制造者们将文本信息以图 片的形式传播的时候,它就无能为力了。这种图片型垃圾邮件是目前垃圾邮件的 发展的趋势【4 】。 在2 0 0 6 年底,图片型垃圾邮件已经占所有垃圾邮件的6 5 ,而这一数字在 2 0 0 6 年初还是3 0 ,这种邮件已经成为当前最难过滤的垃圾邮件1 5 1 。如图1 1 是一封推销药品的垃圾邮件,制造者将文本信息嵌入到图片中以逃过文本过滤器 的识别和过滤。 2 华东师范大学硕十学位论文第一章绪论 n e e d $ o l l l el o v ep m s ? 岛w 知g ot o y o u rl o c a l 机础撑7 吼仲础t i m ea n de x t r am o n e y ? 脚l e t p e o p l ek n o wa b o u y o u ri 犯五瑚抬啦p e v i l - w i s h e ma i ea l w a y sa r o u n dt os p r e a dn l h d 塔 w eg y o ut h ei s s u e ! m a k eaq 血ks e c l l 弛a l i da b s o l u t e l yc o n f i d e n t i a l p u r c h a s eo n l i l 舱a m r e c e i v ey d l l rl i c e n s e d 研el i f ee a h a a c e rh 龇t oy o u rd o o r ! n op r i v a c ye x p o s u x - e ,n 露t i m ew a s t e d , l oe x o r b i t a n t p r i c e s ! s t a r tas u p e r 硷帕w ! c i a i ss o f tt h 由i $ 5 7 8 v i a s o f t t a b s $ 重l v a l i u m $ 2 。8 5 x a n a x $ 2 5 4 s o m a $ 1 2 2 h u m a ng r o w t hh o r m o n e 一$ 4 3 3 了 t r a m a d 0 1 $ 1 8 v i a g r ap r o 血s o o h a l $ 4 - 0 7 c i a l i s $ 5 6 7 g e n e r i cv i a g r a 害3 5 t a m f l u $ 3 7 8 a r a b i e n 拳2 。8 6 m e r i d a $ 3 3 2 b 嫩隐$ 1 1 9 7 o l s 如m 妇v 勘融嗣匝db yb b b ! a t r a n s a c t i n m sa l ea p i 佩0 v i 口d 丑y s a ! p m d m s eo n l i n e 图1 1 :推销药品的垃圾邮件 图片垃圾邮件被垃圾邮件制造者普遍采用的原因有如下几点1 5 l : ( 1 ) 如前所述,图片垃圾邮件可以逃过普通的文本过滤器,使得传统的过 滤方法失效。 ( 2 ) 图片垃圾邮件的形式多样。垃圾邮件发送者开始对图片进行随机处理, 使这些图片在人看来是一样的,但是对于垃圾邮件过滤器却是完全不同。例如, 有些垃圾邮件发送者利用附加g i f 文件进行广告宣传,促使人们购买股票。附加 的g i f 文件在图片中随机插入了“圆点 ,而且边界的颜色和宽度也有细微的差 别。大部分反垃圾邮件厂商赖以根据图片的这些微小变化检查发现垃圾邮件的特 征相差很大,这意味着反垃圾邮件厂商可以发布一条规则来阻挡一种图片变种, 但是这条规则并不能阻挡这种垃圾邮件的其他变种。 1 2 研究内容及研究目标 对于图片垃圾邮件,通常的做法是首先将图片中的文字从背景中分割出来, 然后采用文本识别的方法得到文字信息,最后根据所含的文字信息判断是否垃圾 邮件嘲;或者根据图片中色彩的分布不同,将垃圾邮件与正常邮件区分出来【4 】。 3 华东师范大学硕:l 学位论文 第一章绪论 但是,这些方法对于复杂背景的图片处理起来困难重重。 于是,本研究小组之前的研究工作提出一种新的思路【3 1 ,即通过图像匹配的 方法进行垃圾邮件的识别和过滤。具体方法如下: 步骤1 :当一封新的图片邮件到来,系统首先将邮件中的图片与黑名单中的 图片进行图像匹配,如果匹配成功,那么直接将该邮件过滤;如果匹配失败,那 么转入步骤2 。 步骤2 :由用户判断是否垃圾邮件。如果不是,那么正常阅读;如果是,那 么由用户对图片进行截图,系统将截图存入黑名单。 但是,先前的研究工作存在以下缺点: 1 图像匹配算法效率不高,耗时长。 2 用户自主截图不当,要么会造成截图区域过大,影响识别速度;要么会 造成截图区域含有的特征不够多,影响后续的识别工作。 于是,本文作者在之前研究的基础上提出了两个改进目标: 1 提高图像匹配算法的效率。在保证准确率的前提下,尽量提高匹配速度, 节省时间。 2 采用新的算法,由系统提供截图区域,使截图区域具备面积小、特征多 的特点。 基于此,本文的主要研究内容如下: 第一,研究各种反垃圾邮件的背景和技术特性,包括电子邮件的协议以及文 本分类的技术。 第二,研究图像匹配算法。在s i f t 等算法的基础上,提出新的图像匹配算 法。 第三,研究特征点聚类算法,利用m e a ns h i f t 算法对特征点进行聚类。 1 3 本文组织结构 本文各章节安排如下: 第一章:绪论,主要是对垃圾邮件( 特别是图片型垃圾邮件) 的概念以及危 害做简要的介绍。 第二章:垃圾邮件过滤研究现状,概述电子邮件的体系结构和背景资料,包 4 华东师范大学硕上学位论文 第一章绪论 括各种协议等。重点介绍了国内外反垃圾邮件的各种方法和策略,并提出本文的 方法思路。 第三章:图像匹配算法,介绍s i f t 算法用于图像匹配,重点讨论本文提出 的基于d o g 算子与几何变换的图像匹配算法用于图像匹配。 第四章:使用m e a ns h i f t 算法截取垃圾图片特征区域,介绍m e a ns h i f t 算法 的原理和使用方法,并通过实验结果证明本文采用的方法的优越性。 第五章:相关实验结论,主要介绍本文提出的解决方案的实验结果,并由此 得出结论。 第六章:总结与展望。 5 华东师范大学硕士学位论文 第二章垃圾邮件过滤研究现状 第二章垃圾邮件过滤研究现状 2 1 电子邮件系统结构 2 1 1 电子邮件的概念 电子邮件1 7 j ( e l e c t r o n i c m a i l ,e m a i l ) ,又称电子函件,是指通过电子通讯 系统进行书写、发送和接收的信件。互联网是当下使用得最多的通讯系统,而电 子邮件是互联网中最受欢迎并且最常用到的功能之一。有时电子邮件会被简称为 电邮或邮件。 历史上第一封e m a i l 确切的发出时间、地点、人物是有争议的。互联网周 刊报道为:“1 9 6 9 年1 0 月,世界上的第一封电子邮件是由计算机科学家 l e o n a r d k 教授发给他的同事的一条简短消息。而另一说法是,1 9 7 1 年由为阿 帕网工作的麻省理工学院博士r a y t o m l i n s o n 测试软件( s n d m s g ) 时发出的, 并且首次使用“ ”作为地址间隔标示。 电子邮件使用电子通讯系统提供信息交换,是i n t e m e t 中应用最为广泛的通 信方式。只要用户使用连入网络l f j 的电子邮件系统,就能够以极低廉的价格和极 快的速度,与世界上任何一个角落的网络用户取得联系。电子邮件具有价格低、 易使用、投递快、易保存、全球通的优点,正是这些优点使得电子邮件在i n t e m e t 上被广泛地使用,从而极大地改变了人们的通讯和交流方式。 2 1 2 电子邮件的地址和邮件结构 电子邮件和普通邮件一样,也是需要写地址的【引。它的地址格式如下: 登录名 主机名域名 标准电子邮件包括两个部分:信头和信体。在实际中,端到端的安全电子邮 件技术一般只会对信体进行加密和签名。可由于邮件传输过程中寻址以及路由的 需要,信头必须保证不变。但在某些应用背景下,传输过程的信头可能也会被要 求保密,而这就需要应用传输层技术作为必要的技术保障。当下可以在传输的过 程中实现电子邮件安全的方法主要有两种,其一是利用s s ls m t p 和s s lp o p , 6 华东师范人学硕士学位论文第二章垃圾邮件过滤研究现状 其二是利用v p n 或者其他i p 通道技术1 8 1 。在最高层,邮件的结构是非常简单的, 用户在实际的电子邮箱客户端上看到的一般邮件格式见下图2 1 : 1 f r o m :u s e r l d o m a i n 1 c o m 一 2 t o :u s c f 2 d o m a i n 2 。c o n 如 3 s u b j e c t :e x p l a i n a t i o no fm a i lf o r m a t , 4 d a t e :t h u ,la p r1 9 9 9 1 0 :0 0 :0 0g m t 。 5 一 6 h i , j a c k , 7 。t h i sm a i li st oe x p l a i ny o ut h em a i lf o r m a t 8 叫 9 t h a n k s l o b o b 一 图2 1 一般邮件格式 该图中,第一行到第四行称作信件的信头( m e s s a g e h e a d e r ) ,第六行到第十 行叫做信件的信体( m e s s a g eb o d y ) ,它描述了信件想要表达的内容。第五行是空 行,信头与信体之间是必须插入一个空行的,这是根据r f c 8 2 2 的要求。信头通 常包含字段f r o m ,t o ,s u b j e c t 和d a t e ,有些电子邮件还包含c c ,b c c 等字段8 1 。 2 1 3 电子邮件系统的实现原理 电子邮件与普通邮件相比,有很多类似的地方。因而其实现原理也很容易被 人们理解。简单地说,过程如下:发件人将收件人的姓名和地址( 在电子邮件发 送过程中也就是电子邮件地址) 写好后发送,发件服务器会对所填写的电子邮件 地址进行解析,然后把邮件按地址信息传送到收件服务器,收件服务器再把电子 邮件发到收件人的电子邮箱中1 9 。如下图所示: 图2 2 电子邮件系统示意图 电子邮件系统主要由以下三个模块组成: 7 华东师 学碰十# 位* i * = 章h 城m 口件研r 目状 剽匿= 三渭举i! 善il :。渖警严 圣| | 烈嬲麓罄搿勰黑麟j 篓引旨j 蕊! 鍪l 亭富。糍三i | i 篓1 一i 岫。_ - 蝌h 柚b & h 自“- 自l 岫 图2 3 电子邮件界面例子 m t a :m a i l t r a n s p o r t a g e n t ,也就是邮件传输代理,它负责把电子邮件从 一个服务器传输到另一个服务器或者是邮件投递代理,它的内部实现决定了邮件 传递的路径; m d a :m a i l d e l i v e r y a g e n t ,即邮件投递代理,它的任务是将电子邮件存 入用户的电子邮箱里吼 整个电子邮件的详细传输过程如下: l发件人点击“发送”发出一封电子邮件,该邮件第一步到达m t a 。 2m t a 首先会判断邮件的目的地是不是自身:如果是,那么就将邮件转 发给本身的m d a ;如果不是,那么就根据地址将邮件发送给下一个 m t a ,下一个m t a 继续转发直到找到邮件的目的m t a 为止。 3 然后,该m t a 将电子邮件发给自己本身的m d a ,m d a 再将邮件传给 客户端电脑。 这样,就完成了一次电子邮件的发送。当前使用的s m t p 协议是存储转发协 议,这就意味着它可以允许电子邮件通过一系列的转发服务器发送到堆终目的 地。到达的邮件存储在服务器的一个队列中,等待被发送到r 个服务器。下 华东师范大学硕士学位论文 第二章垃圾邮件过滤研究现状 个服务器可能是本地用户,也可能是另一个邮件服务器,如下图所示。如果下游 的服务器暂时不能使用,那么m t a 就会暂时在队列中保存信件,并在以后尝试 发送。 2 2 邮件传输协议 图2 4 电子邮件系统工作流程 ( 1 ) s m t p 协议 s m t p ( s i m p l em a i lt r a n s f e rp r o t o c o l ,简单邮件传输协议) 是基于t c p 服务 的应用层协议,由r f c 8 2 1 定义【1 0 】。 s m t p 是一个基于文本的相对简单的协议。如果在s m t p 上注明一条消息的 一个或者是多个接收者( 在大多数情况下默认认为这些接受者是存在的) ,确定 发送后,消息文本会被传输出去。我们可以很简单地通过一个t e l n e t 程序来测试 s m t p 服务器是否可用。s m t p 使用的是t c p 的2 5 端口。如果我们要实现对一 个给定的域名确定一个s m t p 服务器,那么我们就需要使用m x ( m a i le x c h a n g e ) d n s 。 早在上世纪八十年代早期,人们就开始广泛地使用s m t p 了。但在当时,它 海只是作为对于u u c p ( u n i xt ou n i xc o p yp r o t o c 0 1 ) 的补充。其实,u u c p 比 较适合处理在网络间歇连接的服务器之间传输邮件。相反,在网络连接正常的情 况下,服务器之间发送与接收的工作s m t p 完成得最好。 9 华东师范大学硕士学位论文第二章垃圾邮件过滤研究现状 s m t p 在最初的时候是针对纯a s c i i 文本的,因此它在对二进制文件进行处 理的时候表现就不那么理想了。于是人们开发出m i m e 等标准来编码二进制文件 以使其通过s m t p 来进行传输。今天,大多数s m t p 服务器都可以支持8 位 m i m e 的扩展,这就是使得二进制文件的传输变得几乎和纯文本一样简单。 s m t p 的实质就是“推”,因此是不允许通过它来从远程服务器上“拉 消 息的。而要完成这项任务,邮件客户端必须使用p o p 3 或者是i m a p 。一个s m t p 服务器能够使用e t r n 在s m t p 上触发一个发送【1 0 1 。 ( 2 ) p o p 3 协议 p o p 3 ( p o s to f f i c e p r o t o c o l 3 ) 即邮局协议的第3 个版本,它规定怎样将个人计 算机连接到i n t e m e t 的邮件服务器并通过它下载电子邮件【1 1 】。它是i n t e m e t 电子邮 件的第一个离线协议标准,p o p 3 是用来接收电子邮件的,它允许用户从服务器 上把邮件下载并存储到本地主机( 即个人计算机) 上,同时可以选择删除保存在 邮件服务器上的邮件。而p o p 3 服务器指的是遵循p o p 3 协议的接收邮件服务器。 由r f c1 9 3 9 定义,作为t c p i p 协议族中的一员,p o p 3 服务所用的端口默 认为1 1 0 。该协议主要用于支持使用客户端远程管理存储在服务器上的电子邮 件,比如删除和转发等操作i l l 】。 ( 3 ) i m a p 协议 i m a p ( i n t e r a c t i v em a i la c c e s sp r o t o c 0 1 ) ,即交互式邮件存取协议,是由美国 华盛顿大学所研发的一种电子邮件获取协议【1 2 】。 它的主要作用是让邮件客户端软件( 比如m so u t l o o ke x p r e s s ) 可以通过这 种协议从邮件服务器上获取邮件的信息,下载邮件等。i m a p 当前的权威定义是 r f c 3 5 0 1 。i m a p 协议运行在t c p i p 协议之上,其使用的端口是1 4 3 。从功能上 看,i m a p 与p o p 3 非常相似,但它们又有很多不同。 i m a p 与p o p 3 协议的主要区别是:i m a p 它只下载邮件的主题,并不是把所 有的邮件内容都下载下来,当用户使用邮件客户端软件阅读邮件时才下载邮件的 内容。这就是说,使用i m a p ,用户可以不必把所有的邮件伞部都下载下来,而 只需要通过阅读主题就可以直接对服务器上的邮件进行操作了【1 2 1 。 i m a p 的另一个比较酷的功能是用户可以维护自己在服务器上的邮件目录; 也可以直接抓取邮件的特定部分( 比如只有文本) 。 1 0 华东师范人学硕士学位论文 第二章垃圾邮件过滤研究现状 目前国内外免费的i m a p 服务提供商有很多,例如国内有s i n a 、1 6 3 、 w w w 2 1 0 n c o m 和t e n c e n t 的q q 邮箱等,国外有g m a i l 、y a h o o ! 等。 ( 4 ) m i m e m i m e ( m u l t i p u r p o s ei m e m e tm a i le x t e n s i o n s ) 1 1 3 】,即多功能i n t e m e t 邮件扩 展服务,它是一种多用途的互联网间邮件扩展协议,1 9 9 2 年被应用于电子邮件 系统,但后来也应用到浏览器。m i m e 完成的功能就是设置某种后缀名的文件的 打开方式,当访问该扩展名文件时,浏览器将会自动启动指定的可执行程序将其 打开。因此,m i m e 多用于指定一些客户端自定义的文件名,并使用一种可执行 程序来打开某一类型的媒体文件。 服务器会通知浏览器其发送的多媒体数据的类型,即多媒体数据的m i m e 类 型。这样,浏览器知道接收到的信息哪些是m p 3 文件,哪些是s h o c k w a v e 文件等 等。服务器将m i m e 标志符放入传送的数据中来告诉浏览器使用哪种插件读取相 关文件。 m i m e 能够支持非a s c i i 字符、二进制格式附件等多种格式的邮件消息。这 个标准被定义在r f c2 0 4 5 、r f c2 0 4 6 、r f c2 0 4 7 、r f c2 0 4 8 、r f c2 0 4 9 等r f c 中。电子邮件标准r f c2 8 2 2 是由r f c8 2 2 转变而来的,它规定了不允许在邮件 消息中使用7 位a s c i i 字符集以外的字符。正因为如此,在电子邮件中不能传输 非英语字符消息和二进制文件、图像、声音等非文字消息。m i m e 规定了用于表 示各种各样的数据类型的符号化方法【1 3 1 。 2 3 垃圾邮件过滤技术 邮件过滤按照在邮件系统结构中的角色可以分为三类【1 4 】:m t a( 邮件传 输代理) 过滤,m d a ( 邮件递交代理) 过滤,m u a ( 邮件用户代理) 过滤。 2 3 1 三类过滤方式 ( 1 ) m t a 过滤 m t a 过滤【1 5 1 是指m t a 在会话过程中对会话的数据进行检查,对于符合过 滤条件的邮件进行过滤处理。邮件会话过程中有两个阶段可以进行过滤: 华东师范大学硕士学位论文第二章垃圾邮件过滤研究现状 1 ) 在发送d a t a 指令前,即邮件发送邮件数据前的过滤。在发送d a t a 指 令前,邮件对话可以在s m t p 连接开始、h e l o e h l o 指令、m a i lf r o m 指令 和r c p tt o 指令中对会话数据进行检查。邮件发送邮件数据前的检查也叫做信 封检查。 特定的不允许连接的i p 地址会被列入黑名单,s m t p 在连接时会检查其客户 端i p 地址是否被列入黑名单。如果是,那就会立刻拒绝连接。组成黑名单的可 能是实时黑名单( r b l ) ,也可能是访问列表。 在对h e l o e h l o 指令所提供的身份进行检查时,可以确定是否f q d n ( 完 全限定域名,包括完整的主机名、域名的地址) ,以及是否为要求的身份等。 在对m a i lf r o m 指令所提供的邮件来源进行检查时,可以确定是否有效域 ( 可使用d n s 反向查询检查) 、是否f q d n 、是否符合r f c 8 2 2 格式等。 在对r c p tt o 指令所提供邮件接收者进行检查时,可以确定是否属于允许 转发的域、是否符合r f c8 2 2 格式、是否为通过认证的发信人等。 在检查的过程中,如果该会话满足被过滤的条件,那么就可按照过滤规则采 取相应的措施,比如在会话阶段直接断开连接、发出警告代码等。 2 ) 邮件发送邮件数据后的过滤,也就是在发送d a t a 指令后的过滤。在通 过一个点的单行结束d a t a 指令后,系统可以对d a t a 指令接收到的数据进行 检查,这包括信头检查和信体两项检查。如前面所讲,在d a t a 指令所传送的数 据中,信头和信体是通过一个空行分隔开的( 图2 1 ) 。 信头检查。通常情况下,垃圾邮件在信头中都有一定的特征可供识别,比如 含有广告的关键字等。通过对这些特定信头字段的检查,可以很快地判定其是否 为垃圾邮件。 信体检查。垃圾邮件制造者为了躲避过滤,信头部分通常经过伪装,所以很 多情况下仅仅通过信头检查还不足以判断一封邮件是否是垃圾邮件,于是往往还 要针对具体情况进行信体检查。 信头一般都比较小,通常在i k b 1 0 k b 之间,检查信头也比较快。而信体一 般比信头要大得多,检查时就要进行大量的数据运算,这会给邮件服务器带来很 大的负载,所以通常信体检查要放在其他检查的后面进行。目前最流行的信体检 查是贝叶斯( b a y e s ) 算法的内容概率检型1 5 】。 1 2 华东师范大学硕上学位论文第二章垃圾邮件过滤研究现状 事实上,是在邮件数据传输基本完毕后才进行邮件发送邮件数据的检查的, 因此这并不能节省下被垃圾邮件占用的带宽和处理能力,这样做的好处只是可以 让用户不再收到那些已被过滤的垃圾邮件。 ( 2 ) m d a 过滤 i v i d a 过滤【1 5 1 是指m d a 在从m t a 中接收到信件,在本地或远程进行递交时 进行检查,对于符合过滤条件的邮件进行过滤处理。 很多的m d a ,如p r o c m a i l 、m a i l d r o p 和c y r u s i m a p 等,都支持在这个过 程进行过滤,甚至它们本身就是作为过滤器使用的。这些过滤器使用过滤语言来 制订过滤规则,因此配置比较灵活、功能强大。比如s i e v e 语言,它是一种标准 化的邮件过滤语言,现在已成为i e t f ( t h ei n t e r n e te n g i n e e r i n gt a s kf o r c e ,互联 网工程任务组) 标准。但是由于是在邮件递交阶段进行过滤,同m t a 的邮件发 送邮件数据后的检查一样,这样做并不能节省下被垃圾邮件占用的带宽和处理能 力,只是可以让用户不再收到这些已被过滤的垃圾邮件而已【1 5 】。 ( 3 ) m u a 过滤 m t a 和m d a 过滤都是邮件服务器端的过滤,而m u a 过滤是邮件用户的客 户端的过滤f 1 5 】。多数流行的邮件客户端,如o u t l o o k 、o u t l o o ke x p r e s s 、 n e t s c a p em a i l 、f o x m a i l 等都支持m u a 过滤。 邮件过滤技术作为一个有效的对抗垃圾邮件的手段,就如同杀毒软件对病毒 的查杀一样,也是需要不断根据情况更新邮件过滤规则的。通常都是管理员自行 根据垃圾邮件监测情况来更新过滤规则【1 5 1 。 以上是三种过滤方式,下面介绍几种具体的过滤方法。 2 3 2 黑白名单过滤 黑8 名单技术是一种被广泛应用的垃圾邮件过滤技术【16 1 。黑名单是一组邮 件服务器的i p 地址、域名或者e m a i l 地址列表。记录在黑名单列表中的任何邮件 都被认为是垃圾邮件;而相对于黑名单,记录在白名单列表中的任何邮件都被认 1 3 华东师范人学硕一 :学位论文第二章垃圾邮件过滤研究现状 为是合法邮件。后来,根据这个机制,各家安全厂商逐渐将其演化为实时更新的 黑名单( r e a l t i m eb l a c k h o l el i s t ,r b l ) 机制。通常情况下,该技术是通过查询和 区域传输d n s 的方式来实现的。目前国外流行的几个主要的实时黑名单服务器 都是通过d n s 方式提供的,如m a i l a b u s e 的r b l 、r b l + 等【1 6 j 。 由于垃圾邮件制造者经常会改变其i p 地址和i s p ,或者通过不在黑名单上的 o p e nr e l a y 来转发,在实际应用中这种技术的表现往往不尽如人意,漏报率和误 报率都比较高,同时黑白名单的实时更新和维护也比较困难。 2 3 3 基于统计内容的过滤技术 基于统计的过滤指的是应用统计方法来解决邮件是否垃圾邮件的二元分类 问题,其中分类器是根据垃圾邮件和正常邮件的样本集训练出来的【1 6 】。这类方 法的优点就是分类器由程序自动训练出来,算法性能较好,通过及时更新样本训 练集就可以使分类器更新的速度和垃圾邮件出现的速度相匹配,时效性较强。然 而该方法的缺点是计算复杂度很高,同时分类器间不能共享,某个用户用自己的 邮件样本集训练出来的分类器对其他用户可能效果不佳,因此该方法的推广性较 差。基于统计的过滤方法有贝叶斯分类算法【3 6 】( b a y e s i a n c l a s s i f i e r s ) 、支持向量 机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 方法等。 2 3 4 光学识别技术 目前,光学识别( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,o c r ) 技术被更广泛地 用于防范图片垃圾邮件用。利用o c r 技术,垃圾邮件过滤系统能够正确地识别 图片中的文字,并根据特定的规则给予相应的评分,再结合邮件的其他部分,如 信头、信体的各种特征,最终判断这封邮件是否是垃圾邮件,然后采取相应的措 施。 但是o c r 技术存在着一个问题:这种技术使用起来,需要先将图片中所包 含的文字信息部分完全转换成文本文字,然后再对文本文字进行分析比对,从而 判断该邮件是否为垃圾邮件。对于经过变形以及噪声等方法处理过的图像,这种 1 4 华东师范人学硕上学位论文第二章垃圾邮件过滤研究现状 方法非常容易出现错误,于是对垃圾邮件的识别效率很低。此外,由于需要将图 片中的文字信息先转换成文本文字再进行过滤,因此这将会占用邮件系统大量的 资源。 有一种改进的方案是,对图片中的各个可变因素进行综合分析,使防垃圾邮 件设备能通过采用核心标识法来对这些可变因素进行阻挡【1 8 1 。使用这种方法, 可通过应用一些特定签名来阻隔图片垃圾邮件。这种新的o c r 技术不需要对图 片巾的所有文字进行检测,而仅仅查看图片垃圾邮件中的关键字。它可以更有效 率地检查垃圾邮件。此外,该技术不仅仅可用于反垃圾邮件,还可用来防j 卜数据 流失1 9 , 2 0 】。不过,这种方法实际操作起来,也遇到许多的问题,比如图片的可变 因素如何分析、特定签名如何准确有效地获得都是难题,如果这些问题不h 匕e , 1 4 氏e i 好 的解决,后续的工作依然无法展开【1 7 1 。 2 3 5 本文的解决方案 第一章已经讲到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论