(计算机应用技术专业论文)基于svm和ds证据理论的垃圾邮件过滤技术的研究.pdf_第1页
(计算机应用技术专业论文)基于svm和ds证据理论的垃圾邮件过滤技术的研究.pdf_第2页
(计算机应用技术专业论文)基于svm和ds证据理论的垃圾邮件过滤技术的研究.pdf_第3页
(计算机应用技术专业论文)基于svm和ds证据理论的垃圾邮件过滤技术的研究.pdf_第4页
(计算机应用技术专业论文)基于svm和ds证据理论的垃圾邮件过滤技术的研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机应用技术专业论文)基于svm和ds证据理论的垃圾邮件过滤技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

桂林工学院硕士学位论文 皇! 皇曼嬲鼍! 曼曼麓苎鼍苎燮篡拿皇苎黑葛! 皇篁糕寰鼍! 篁糟詈鼍詈燮姥! ! 苎舞皇曼! 曼懋鼍苎皇篁慧皇曼! 苎鼎 一 i l l i i i i i i i 燃! ! 曼篁嬲! 皇曼型麓! ! 曼燃鼍 摘要 随着i n t e r n e t 的飞速发展,电子邮件以方便、快捷、高效、低成本的优势成 为最受欢迎的网络功能之一,成为人们工作和生活中重要的通讯工具。由于随 之而来的垃圾邮件数量多,具有反复性、强制性、欺骗性、不健康性或传播速 度快等特点,污染网络环境,占用大量传输、存储和运算资源,影响了网络的 正常运行,严重干扰了入们正常生活。因此,研究有效地治理垃圾邮件的方法 是全世界共同面临的难题,也是互联网上待解决的问题。 支持向量机( s v m ) 是一种建立在统计学习理论之上的机器学习方法,已被 成功地运用于许多分类问题的研究。本文基于s v m 分类器出色分类性能对垃 圾邮件过滤技术展开研究。 1 对电子邮件工作原理及垃圾邮彳牛特征的分析,构建了垃圾邮件信头特征 模型。本文提出了基于邮件信头特征及s v m 的垃圾邮件过滤方法。 2 在学习、分析邮件信体内容文本预处理及特征提取方法的基础上,对性 能较为稳定及有效的c h i 统计方法进行了变形,将其评估丞数变形规范化在 o , 1 】区间。应用基于信体内容的分类方法进行垃圾邮件过滤研究。 3 街b 件的信头和信体内容都是邮件的重要组成部分,仅仅对其中一部分进 行分析过滤得到的结果都不是客躐的。本文提出了基于s v m 和d s 证据理论 的垃圾邮件判别模型,首次应用带概率估计信息的s v m 分类器分别针对邮件 信头特征及信体特征分类,首次采用d s 融合规则对信头及信体的分类结果进 行融合,最终判别是否为垃圾邮件。 本文对以上垃圾邮件过滤算法分别进行了实验测试院较,实验结果证实了 方法的有效、可行。 关键词:垃圾邮件,过滤,支持向量机,具有概率估计信息的支持向量机, 特征选择,d s 证据理论 l i 桂林工学院硕士学位论文 a b s tr a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e t ,e m a i lh a sg r a d u a l l yb e c o m eam a j o r c o m m u n i c a t i o nm e a r l sw i t ht h ea d v a n t a g e so fs w i f t n e s s ,c o n v e n i e n c ea n dl o w c o s t 。 b u tj u n km a i l sh a v eb e e nt r o u b l i n gt h eu s e r sn o r m a lw o r k ,s t u d ya n dl i f e , c h a r a c t e r i z e db yr e p e a t i v e n e s s ,a r b i t r a r i n e s s ,f r a u d u l e n c e ,u n h e a l t h i n e s s ,f a s ts p r e a d a n ds oo n t h e r e f o r e ,h o wt oe f f e c t i v e l ym a n a g ej u n km a i l si sn o wa l lu r g e n t p m n e mo ft h ei n t e r n e ta sw e l la sa c o m m o nd i f f i c u l t yt ot h ew o r l d s u p p o r tv e c t o rm a c h i n e ( s v m ) i sak i n do fn e wm a c h i n el e a r n i n gm e t h o d b a s e do nt h es t a t i s t i c a ll e a r n i n gt h e o r y i th a sb e e na p p l i e di nm a n yr e s e a r c h e so f c l a s s i f i c a t i o n ,i nt h i sp a p e r , t h er e s e a r c hi ns p a mf i l t e r i n gu p o ns v m i sc a r r i e do u t a st h ef 0 1 1 0 w i n g : 1 t h i st h e s i s s y s t e m a t i c a l l ya n a l y z e s t h ep r i n c i p l eo fe m a i la n dt h e c h a r a c t e r i s t i c so fs p a r e ,s t r u c t u r e st h ef e a t u r em o d e lo fs p a mb a s e do ne m a i lh e a d , a n dp r e s e n t sas p a r ef i l t e r i n gm e t h o db a s e do ne m a i lh e a da n ds v m 。 2 。b a s e do nt h es t u d yo ft h ep r e p r o c e s s i n ga n df e a t u r es e l e c t i n go fe m a i lb o d y c o n t e x t ,w ec h o o s et h ec h i s t a t i s t i c a lm e t h o db e c a u s ei t sf u n c t i o ni sm o r es t a b l ea n dv a l i d a n dt r a n s f o r mt h ev a l u a t i o nf u n c t i o ns t a n d a r d i z a t i o ni n 【0 ,l 】。 3 g i v e nt h el i m i t a t i o no fc l a s s i f i c a t i o nb a s e do nm a i lb o d yt e x t u a lc o n t e n t ,t h i s p a p e rf o c u s e so nd e s i g n i n gt h es p a md i s c r i m i n a t i o nm o d e lb a s e do ns v m a n dd _ s t h e o r y ,w h i c hu s e ss v m w i t hp r o b a b i l i t yt oc l a s s i f ye m a i la c c o r d i n gt ot h ef e a t u r e s o fm a i lh e a d e r sa n dm a i lb o d yr e s p e c t i v e l y ,a n du s e sd st h e o r yt oj u d g et h e c o m b i n a t i o nr e s u l t 。 t h i sp a p e rr e s p e c t i v e l yc a r r i e so u te x p e r i m e n t sw i t ht h ea b o v e - m e n t i o n e d m e t h o d sa n dc o m p a r e st h e i rr e s u l t s 。e x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h ep r o p o s e d m o d e lc a ni m p r o v ea c c u r a c yi ns p a mi d e n t i f i c a t i o n k e y w o r d s :s p a m ,f i l t e r i n g ,s v m ,s v m f o rp r o b a b i l i t ye s t i m a t e ,f e a t u r e s e l e c t i o n ,d st h e o r y - i i i - 桂林工学院硕士学位论文 “- - 鼍 l l l li l l l i i 篁黑鼍曼! 苎冀葛鼍! 苎冀苎! ! 曼奠篡! ! ! 邕黑! ! ! 舅篡! ! ! 苎鼍! 鼍曼! 燃鼍! ! ! 篡鼍 声明 研究生学位论文独创性声明和版权使用授权说明 独创性声明 本人声明:所呈交的论文是我个人在第一导师姜良华副教授和第二导师叶 菌老师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特剐 加以标注和致谢的地方外,论文中不包含他人已经发表或撰写过的研究成果, 也不包含为获得桂林工学院或其它教育机构的学位或证书而使用过的材料。对 论文的完成提供过帮助的有关久员己在论文串作了髓确的说明并致以了谢意。 学位论文作者( 签字) :鸯孰看 版权使用授权说明 本人完全了解桂林工学院关于收集、保存、使用学位论文的规定,即:按 照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印露l 本和电子版,并提供目录检索与阅览服务;学校可以采用影印、编印、数字化 或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部 分或全都内容。( 保密论文在解密后遵守此规定) 学位论文作者( 签字) : 指导教师签字: 签字曰期: 盏醯 娄粗 一 桂林工学院硕士学位论文 暑曼! 鼍黑! 皇曼烹兰! ! 苎嬲i i i i i i i i i in i lu li i i i i 删i i i l u l 一i 鼍曼! 鼍姥! ! ! 烹詈 第一章引言 1 1 课题研究背景 随着i n t e m e t 的飞速发展,网络已成为一种人们获取信息和传递信息豹重要 手段。网络技术的发展促进了电子邮件的广泛普及及繁荣,电子邮件以方便、 快捷、高效、低成本的优势成为最受欢迎的网络功能之,成为人们工作和生 活中重要的通讯工具。 电子邮件给人们带来了极大的便利,但随之两来的垃圾由瑟件却带来了无尽 的烦恼。一些商家和不法分予开始利用垃圾邮件这种便利的方式来获取暴利, 通过垃圾邮件传播色情、反动等各式各样的有害信息,给社会带来危害;邮件 系统被利用来发送数以万计的垃圾龌件风暴攻击嚣标,使之瘫痪、拒绝服务; 垃圾邮件还可以被病毒利用,成为它们的传播途径。最早在1 9 7 5 年的r f c 7 0 6 “o nt h ej u n km a i lp r o b l e m 1 】中就提到了垃圾邮件的问题。从1 9 9 4 年4 月互 联网历史上次著名的垃圾邮件事件,c a n t e r 和s i e g e l 的法律事务所把一封电 子邮件发到了6 0 0 0 多个新闻组【2 】。经过近1 0 多年的演变,到如今,垃圾邮件 已经到了极为猖狂的地步,大量不请自来的垃圾邮件像黑洞一样蚕食着有限的 网络资源、邮箱空间还有人们的时间和精力。 虽然垃圾邮件闻题是最初从西方开始,以英文垃圾邮件为主,但是现在它 越来越变成为一个国际性的润题,2 0 0 7 年l o 月1 2 曰消息,国外媒体报道,据 赛门铁克最新报告显示,今年9 月,中国的垃圾邮件比例为6 8 。在整个亚太 市场,除了澳大利亚和新西兰,其他任何国家的垃圾邮件比例都高于全球6 1 的平均水平【3 】。垃圾邮件的泛滥使得英特网不堪重负,为对付大量的垃圾邮件, 人们需要花费大量的时间和精力。由此,营造一个安全,和谐的网络环境是全 世界人民所迫切需要的,反垃圾邮件已成为刻不容缓的重要课题,具有深刻的 意义。 譬前,反垃圾垄瑟馋从采取限制发送数量、通过过滤地址与关键词等技术措 施,利用反垃圾邮件产品在服务器或个人电脑上本地处理垃圾邮件问题,以上 这些方法的效果有限,都还不足以彻底阻止垃圾邮件的发送。随着垃圾邮件制 造者越来越狡猾,发送方式更为隐蔽,以及垃圾邮件破坏性逐步放大,反垃圾 由g 件技术也需随时更新换代以做抵御。中国互联网钫i 会反垃圾邮件中心闩前在 桂林工学院硕士学位论文 詈! ! ! 舅鼍鼍! 苎兰鼍! ! ! 卷舞鼍! ! 苎黑曼! 鼍! 寰! 鼍曼兰懋皇! ! 曼堂基! 曼曼苎葛! 喜苎苎燃! 詈i i i i i 燮寰鼍! ! 篓篡! ! ! 苎黑! ! ! 篁黑皇! 鼍竺曼篡! 皇! 燃拦! ! 曼兰黑! ! ! ! 麓詈! ! 曼燃鼍 北京公布“2 0 0 7 年第四次中国反垃圾邮件状况调查报告。报告显示,截至2 0 0 7 年1 2 月,活跃的电子邮箱账号总量为6 5 9 亿,与去年同期数据相比增长了 5 3 3 。中国网民在过去一年收到的垃圾邮件总量为6 9 4 亿封,与2 0 0 6 年的5 0 0 亿封相比增长率为3 8 8 【4 】。反垃圾邮件仍然是一个长期的过程,垃圾邮件过 滤技术也成为人们学术上不断挖掘研究的热点。 1 2 垃圾邮件的定义及危害 1 2 1 垃圾邮件的定义 垃圾邮件诞生于1 9 7 4 年,主要可以分为两类,一类是名目繁多的商业宣传 广告,另一类是非法团体为其政治、经济利益等目的而进行的“网络宣传”。 普通意义上的垃圾邮件可以简单的指代未经用户主动请求的大量的电子邮件。 垃圾邮件英文名称s p a m ,是2 0 0 3 年m u e l l e r 给出的一个关于s p a m 的定义,内 容包括了邮件和贴子 5 】。垃圾邮件也被称为u c e ( u n s o l i c i t e dc o m m e r c i a le m a i l ) 即不请自来的商业邮件,或者被称为u b e ( u n s o l i c i t e db u l ke m a i l ) 耳1 不请自来的 大量邮件。垃圾邮件最初是指新闻网络组上面的某一类特殊的贴子,之后这个 单词被越来越多的用来指代网络上的某一类特殊的虫墨件。 可以知道垃圾邮件的定义有很多,实际上垃圾邮件并没有严格的定义,在 2 0 0 4 年中国反垃圾邮件立法工作研讨会上,因内有关垃圾邮件第一次有了明确 的定义【翻。根据反垃圾邮件规范的定义,以下4 种情况属于垃圾邮件: 一、收件人事先没有提出要求或者同意接受的广告、电子刊物、各种形式 的宣传晶等宣传性的电子邮件; 二、收件人无法拒收的电子邮件; 三、隐藏发件人身份、地址、标题等信息的电子邮件; 四、含有虚假的信息源、发件人、路由等信息的电子邮件。 由以上垃圾邮件的定义可以归纳其特点为:发件人地址随机变化;邮件主 题随机变化;伪造邮件头干扰信息;信体内容随机变化;正文以图片方式显示, 难以识别;垃圾邮件在不同的时段、范圈内的传播内容不一样等等。 桂林工学院硕士学位论文 皇! 曼曼燃詈鼍曼竺黧! ! 曼岂黑曼! ! 苎黑毫! ! 邕黑鼍曼! 邕黑! ! ! 苎黑! 蔓! 曼i i ii i i 。i i i i 一 i i i 寰葛! ! 曼冀詈鼍! 鼍寰篡曼詈! 舞兰 1 2 2 垃圾邮件的危害 垃圾邮件像瘟疫一样蔓延,污染网络巧境,占用大量传输、存储和运算资 源,影响了网络的正常运行。垃圾邮件的内容形形色色,常见的包括广告、色 情信怠,还有病毒或蠕虫引起邮件深度扩散等诸多类型。由于垃圾邮件数量多, 具有反复性、强刳性、欺骗性、不健康性或传搔速度快等特点,严重干扰了入 们j f 常生活,浪费用户的时间、精力甚至造成很多额外的经济支出和信息安全 隐患。本文将垃圾邮件的主要危害归纳为以下六点【7 】 1 占用大量传输、存储和运算资源,造成邮件服务器拥堵,降低了网络的 运行效率,严重影响正常的邮件服务; 2 垃圾邮件泛滥的图家或地区已被视为垃圾邮件的温床,反垃圾邮件的追 踪使得许多i p 地址有遭受封杀的危险,长期下去可能使其成为“信息孤岛”; 3 垃圾邮件以其数量多、反复性、强制性、欺骗性、不健康性和传播速度 快等特点,严重干扰用户的正常生活,侵犯收件人的隐私权和信箱空间,并耗 费收件人的时间、精力、金钱; 4 垃圾邮件一旦被黑客利用,危害更大。2 0 0 0 年2 月,黑客侵入并控制了 一些高带宽的网站,集中众多服务器的带宽能力,然后用数以亿计的垃圾邮件 发动猛烈攻击,造成部分网站瘫痪;据中新网的新闻报道,美国臭名远接的“垃 圾邮件天王拉斯基,与另外1 0 人于前日受联邦大陪审团起诉4 1 项罪名,包 括利用电子邮件影响部分中资仙胶股票交投,从中获利,单在2 0 0 5 年夏季便赚 褥最少3 0 0 万美元【8 】; 5 严重影响电子邮件服务商的形象。在利益驱使下,更多、更难对付的垃 圾邮件让邮件服务商防不胜防,收到垃圾邮件的用户可能会因为服务商没有建 立完善的垃圾邮件过滤机制,丽转向其他服务商; 6 妖言惑众、骗人钱财、传播色情、反动等内容的垃圾邮件,已经对现实 社会造成危害。 1 3 反垃圾邮件技术发展历史 随着网络的发展,垃圾邮件的出现,回顾反垃圾邮件技术的发展历程,霹 将其分为四代【9 】如表1 。1 : 第一代:从1 9 世纪2 0 年代垃圾邮件的诞生,国际上就开始利用简单易实 现的技术实施反垃圾邮件的工作。例如:基础m t a 控制( 对l p 连接数量的限 桂林工学院硕士学位论文 薯皇! 皇燃皇i i i i i i i i i i i i i 1 i ii i i i ii i i i i i。 一一 i i ii i i _ i i 寰燃 制) ;黑自名单( 拒绝那些被列入的发送垃圾邮件i p 或邮件地址) ;简单的关 键字搜索( 作为内容过滤的一部分,误判率高) ;标题过滤及简单d n s 测试。 第二代:实时黑名单和电子签名是第二代反垃圾邮件技术,主要对第一代 技术的改良。1 9 9 7 年5 月,国际上成立了c a u c e ( c o a l i t i o na g a i n s tu n s o l i c i t e d c o m m e r c i a le m a i l ) 组织,【1 蜘主要从倡议立法的兔度戡发,力图唤醒有志者共 同参与。从那时起,许多国际组织和服务单位相继成立,一起投入到抵制垃圾 邮件的工作中。1 9 9 8 年我国成立了第一家开展垃圾邮件与反垃圾邮件技术研究 单位“中国教育与科研网紧急响应小组( c c e r t ) ”。实时黑名单由这些反垃 圾由g 件组织收集提供,取得一定的过滤效果,但容易被绕过。电子签名对于大 量相同信息的垃圾邮件产生个唯一电子签名来收集和辨别垃圾邮件,这种技 术需要及时操作才能达成效果。 第三代:19 9 9 年2 月,r f c 2 5 0 2 ,a n t i s p a mr e c o m m e n d a t i o n sf o rs m t o m t a s 的正式发布标志着反垃圾邮件技术研究的蓬勃发展【ll 】。许多国际知名大 学和研究机构都组织人员开始了反垃圾邮件技术的研究。机器学习、神经网络 和遗传算法等先进的研究经验都被引入到这领域。这一阶段的研究成果成为 近几年毽内外开发反垃圾邮件产晶的主要技术依据。 第四代:经过了十几年的发展,新兴的反垃圾由墨件技术也层出不穷。但无 论哪一种技术,都无法完全应对多变的垃圾邮件。多技术整合,分层过滤的技 术为第四代反垃圾邮件技术。 表1 - 1 反垃圾邮件技术发展阶段 第一代第二代第三代第四代 基础m t a 控制实时糕名单贝叶斯过滤多技术融合 黑白名单电子签名 机器学习分层过滤 简单关键字搜索神经网络 标题过滤遗传算法 麓单d n s 测试 垃圾邮件损害邮件使用者的利益,占用网络资源等危害,使得各界人士对 垃圾邮件造成的问题日益关注,网络服务商和邮件运营商们纷纷提出了自己的 技术方案:雅虎的“d o m a i n k e y s ,它利焉公私钥加密技术为每个电子邮件地 址生成个唯一的签名,实现对邮件发送者的身份验证;微软的“电子虫墨票 有偿发送邮件方案;a o l 正在试验一种名为“s e n d e rp e r m i t t e df r o m ( s p f ) 4 桂林工学院硕士学位论文 篡! ! 皇篡詈! 曼皇嬲詈! ! 邕罡! 鼍! 璺皇! ! ! 兰黑。 i i i i w i l l 拦! ! ! 燃鼍! ! ! 黧鼍! 曼! 舅鼍 的新电子邮件协议,禁止通过修改域名系统( d n s ) 伪造电子邮件地址。反垃 圾邮件技术的研发和产品的推广也成为商家继防火墙技术以及入侵检测技术之 后的又一热点,各种反垃圾邮件产品基本上都对以上各阶段的研究技术进行了 产品转化。阔前比较热门的反垃圾邮件产品如:s y m a n t e cb r i g h t m a i la n t i s p a m 采用多层垃圾邮件防御并结合了包括启发式技术、特征过滤等1 7 种以上的不同 过滤技术。博威特梭子鱼垃圾邮件防火墙采用了l o 层过滤体系,同时采用了基 于邮件指纹技术进行过滤。美讯智反垃圾邮件过滤网采用多层反垃圾邮件防御 结构,超强的信息过滤弓i 擎。 1 ,4 课题来源及创新点 本文研究基于广西壮族自治区教育厅科研项目:基于支持向量机及d s 证 据理论的垃圾邮件识别过滤系统,项目编号:2 0 0 7 0 8 l x 2 11 。 首先通过全面系统地学习及查阅大量当前卺内外相关反垃圾邮件领域的研 究成果,然后对反垃圾邮件技术进行了深入细致地研究,并取得了一定的工作 成果,部分成果以小论文的形式在期刊上发表,所做工作归纳如下: 1 归纳总结了当前反垃圾邮件技术的现状及发展。随着垃圾邮件制造技术 的更薪和垃圾由器件数量的快速增长,对反垃圾邮件技术的研究也b 益迫切。传统 的黑白名单等过滤方法难以胜任垃圾邮件识别过滤的要求。当前一些机器学习 方法成为垃圾邮件过滤技术的研究热点。典型的方法有k n n ,贝叶斯,神经网 络,支持商量视等。这些方法中,支持向量机( s v m ) 是v a p n i k 等人提出的 一类新型机器学习方法【1 2 】,出于其出色的泛化学习性能,在反垃圾由器件技术 中得到广泛的讨论和研究。 2 通过对电子邮件工作原理及垃圾邮件特征的分析,提出了垃圾邮件信头 特征模型。邮件信头中包含有大量的发信入的重要信息,医此在邮件信头信息 中可以找到垃圾邮件的主要特征。例如:垃圾邮件发送一般通过非标准的客户 端;对发件者的身份伪造等分别可以通过信头中的x m a i l 、r e c e i v e d 头域值中 获得。本文构建了信头特征模型,提出并验证了基于邮件信头特征及s v m 的 垃圾由器件过滤方法。 3 在学_ 习、分析邮件信体内容文本预处理及特征提取方法的基础上,参考 已有的研究成果,选择中科院的分词系统进行分词预处理,并对性能较为稳定 而有效的c h i 统计方法进行了变形,将其评估函数变形规范化,将其特征提取 的阀值定义在【o ,l 】区间。在确定了信体的特征空间居嗣s v m 进行分类讨论。 桂林工学院硕士学位论文 根据支持向量机的惩弱因子c ,以枚举方法获取最佳的c 值柬进行垃圾邮件分 类过滤。 4 对文本内容的分类判别,一般都带有主观识别的倾向,相同的邮件内容 对不同的收件人对象和不同的场合,会有不同的判断。对于部分简短的信件文 本内容,这对垃圾邮件更难以分类判别。若结合邮件信头特征进行判断,识别 的结果会比较客观、准确。鉴于上述问题,本文首次提出了基于s v m 和d s 证据理论的垃圾邮件判别模型,应用带概率估计信息的s v m 分类器分别针对 邮件信头特征及信体特征分类,再采用d s 融合规则对信头分类器和信体分类 器的概率值进行融合,得到垃圾邮彳牛的最终决策判别,以提高分类器的性能。 其中,本文的创新点主要体现在以下两含方面: 1 通过对文献的仔细分析,设计了基于邮件信头的垃圾邮件特征判别模型, 利焉s v m 进行分类识别垃圾邮件。与传统的垃圾邮件信头规员| j 模型相比,该 识别方法综合考虑的信头特征更加全面。 2 首次将带有概率的s v m 及d s 融合规则应用于垃圾邮件过滤中,构建 了基于s v m 及d s 证据理论的垃圾邮件过滤模型。其中依据1 ,一s v m 的v 参数 数学含义,提出了基于y s v m 的d - s 概率分配醋数算法。通过编写的v c + + 程序运行结果表明提出的算法合理实用,能切实提高分类性能。 1 5 论文内容结构 本文各章的内容按排如下: 第一章描述了本文课题研究的背景及课题来源,概括了本文的内容结构及 作者的主要研究工作和创新点。 第二章从电子邮件工作原理分析,简要介绍了垃圾邮件的特征,总结归纳 了广泛推广的垃圾邮件过滤技术,如黑囱名单、规则过滤、贝叶斯、s v m 、k n n 等,并分析了其优缺点。 第三章针对垃圾邮件信头特征,提出垃圾邮件特征模型。采用s v m 进行 分类识别垃圾邮件,针对带有邮件信头原始信息的中文垃圾邮件数据集,通过 实验得到一定的成效,证实了过滤方法的有效性。 第四章针对垃圾邮件信体内容特征,分析现有的特征选择算法,对性能较 为有效及稳定的c h i 统计方法进行了规范化变形。通过比较,选择最佳的s v m 惩罚因子c ,对邮件信体内容文本进行分类识别垃圾邮件。 桂林工学院硕士学位论文 第五章首次将带概率的s v m 算法及d s 证据理论应用到垃圾邮件过滤, 提出了基于s v m 及d s 证据理论的垃圾邮件过滤模型。依据v s v m 的v 参数 数学含义,提出了基于1 ,一s v m 的d - s 概率分配函数算法。分别将邮件的信头 及信体分别用带概率的s v m 进行训练识别,再结合d s 证据理论进行数据融 合得到最佳的分类结采。 第六章对本文的研究工作进行了总结及展望。 桂林工学院硕士学位论文 第二章反垃圾邮件技术的发展与现状 电子邮件是i n t e m e t 中最善及,最普遍的应用,成为人们生活、学习、工作中 必不可少的通讯工具。电子邮件在为人类服务的同时,随之而来的垃圾邮件却 给人们带来无尽的烦恼。随着反垃圾邮件技术不断地提出新方法,狡猾的垃圾 邮件制造者为谋取私利,不断地改变垃圾邮件特征。垃圾邮件在网络中的泛滥, 使得反垃圾邮件与垃圾邮件的斗争成为长期过程,需要不断地改进、完善反垃 圾邮件技术来抵抗其危害。要在原有的反垃圾邮件技术研究基础上,寻找更好 的垃圾邮件判别方法和过滤方法,有必要通过研究电子邮件的工作原理来分析 垃圾邮件的特征,并了解当前反垃圾邮件技术的现状及发展。 2 1 电子邮件工作原理 电子邮件的传输过程 电子邮件与传统的邮件相类似,按照一定的规则才能被不同的邮件服务器 正确识别,通过t c p i p 协议在网络中进行交互。发信者注明收件者的姓名与邮 件地址,发送方服务器通过s m t p 协议把邮件传输到收件方服务器,收件方服 务器再把邮件发送到收件者的邮箱中,收件者通过p o p 3 协议从收件方服务器 获得邮件。电子邮件传输过程如图2 1 1 3 】。 甬 驯i p 、1 一训 8 早一 一 n 。 1 掣一 l蟛一 ,。幻、j一 一 ,一 桂林工学院硕士学位论文 由图示邮件传输过程中涉及到以下三个概念: m u a ( m a i lu s e ra g e n t ) ,邮件用户代理,帮助用户阅读、编写、发送邮 件的媒介。 m t a ( m a i l t r a n s p o r ta g e n t ) ,邮件传输代理,负责将邮件从一个服务器 传到另个服务器。目前的s m t p 协议是存储转发协议,允许邮件通过系列 的服务器发送到最终的目的地。如果下游的服务器暂时不可用,m t a 就暂时在 队列中保存信件,并在以后尝试发送。 m d a ( m a i l d e l i v e r ya g e n t ) ,邮件投递代理,将邮件放入篇户邮箱里。 2 。1 2s m t p 协议 s m t p ( s i m p l e m a i lt r a n s f e rp r o t o c 0 1 ) 即简单邮件传输协议,是一组用于由 源地址到目的地址传输邮件的规则,定义了保证电子邮件的可靠和高效传送的 枫制,盘r f c 8 2 1 所定义【1 4 】。s m t p 是基予t c p 服务的应用层协议,僵事实 上它与传输系统和机制无关,仅要求一个可靠的数据流通道。它可以工作在t c p 上,也可以工作在n c p 、n i t s 等协议上。在t c p 上,它使用端口2 5 进行传输, 其重要特点是可以在可交互的通信系统中转发邮件。 1 3 】 s m t p 提供一种邮件传输机制,s m t p 设计基予以下通信模型:针对用户 的邮件请求,发送s m t p 与接收s m t p 之间建立一个双向传送通道。接收s m t p 的可以是最终接收者也可以是中间传送者。基本原理如图2 2 : ;m t p 客户机 会令 s m t p 服 务器 厂 应昝 发送邮鞠:, 。 詹 一。叠、 邮件 2 5 号端口哽 t 一, 蹬2 - 2s m t p 的基本原理 电子邮件遵循s m t p 协议的规则,连接和发送过程如下: 1 首先建立t c p 连接; 桂林工学院硕士学位论文 i ! i i i 一i 一一_ i i ! 一, i i i i i i - 鼍曼曼燎曼曼鳞黑 2 客户端发送h e l o 命令以标识发件入自己的身份,然后客户端发送m a i l 命令,服务器端正希望以o k 作为响应,表明准备接收; 3 客户端发送r c p t 命令,以标识该电子邮件的计划接收人,可以有多个 r c p t 行,服务器端则表示是否愿意为收件人接受邮件; 4 。协商结束,发送邮件,用命令d a t a 发送; 5 以”。”表示结束输入内容一起发送浅去; 6 结束此次发送,用q u i t 命令退出。 s m t p 的基本命令如表2 1 所示 表2 - 1s m t p 命令集 命令 描述 h e l o 向服务器标识用户身份 m a l l 初始化邮件传输 r c p t 标识单个的邮件接收入,允许多个r c p tt o 0 疆弱 表示赝存酶邮件接收人已标识,初始化数据传 a v r f v 刚予验证指定的用户,邮箱是否存在 e x p n验证给定的邮箱列表是否存在,扩充邮箱列表 h e l p 查询服务器支持什么命令 n 0 0 p 无操作,服务器应响应o k q u i t 结康会话 哭s e 善 重鳘会话,当前铸输被驭淡 随着电子邮件在人们工作、学习、商业以及政府通信中的作用越来越重要, 人们对其安全性和保密性提浅了越来越离的要求。从s m t p 协议的分孝厅来看, 电子邮件存在着诸多的安全隐患。 1 、缺乏足够的、必要的验证要求。由于s m t p 协议中,允许发信人伪造信 息,假冒他人邮件和滥用别人的s m t p 服务器。如:发信入、信件路由等。目 前,绝大多数的垃圾邮件都伪造了其真实的发信来源,这对予发现制止垃圾邮 件的传播造成了很大的困难。 桂林工学院硕士学位论文 鼍! 皇苎艘! 鼍曼篁麓! i i i i i l u l l i i i i i i 黑! ! 皇苎鼍曼! 苎黑暑! ! 竺燃鼍! ! 邕爱曼皇! 邕黑! 曼苎黑詈鼍! 竺燃曼詈! 邕黑! ! ! 曼墨! ! ! 燃鼍 2 、信件的完整性不能得到保证,容易被窃听,一些命令中会显示用户的重 要信息,攻击者可以从中找到用户信息及漏洞。 3 、缺少一些必要的行为控制,不能有效的识别邮件发送行为。垃圾邮件的 发送通常有定的行为特征,比如在较短的时间内发送极其大量的电子邮件, 发信通讯中通常有特定的通讯特征等。 以上安全隐患正是造成垃圾邮件泛滥的部分重要原因。 2 。1 3p o p 3 协议 p o p ( p o s to f f i c ep r o t o c 0 1 ) ,即邮局协议,用于电子邮件的接收。p o p 服 务器主要是为了解决用户的终端不能总连接在网上等闻题,是适腭于c s 结构 的脱机模型的电子邮件协议。其基本功能是鉴别用户和口令,把用户的邮件从 服务器传送到客户机的邮件软件,同时可删除保存在邮件服务器上的邮件。p o p 有几个版本,现在常用的是第三版,所以简称为p o p 3 ( p o s t o f f i c ep r o t o c o l 3 ) 即 邮局协议的第3 个版本。【1 5 】 p o p 使用t c p 的1 1 0 端口,其模型如图2 3 所示,p o p 重复进行服务器对 客户机的命令进行应答的信息交换。 图2 - 3p o p 模型 客户端电子邮件收取的过程:客户端软件根掘预先设置好的p o p 服务器 u r l 及邮箱帐号及密码发送接收邮件命令,首先通过调用d n s 对p o p 服务器 的l p 地址解析,使用t c p 协议连接邮件服务器的确1 1 0 端翻。连接成功后, 鉴别用户( u s e r 、p a s s ) ,取得到邮件目录( l i s t ) ,接收邮件( r e t r ) , 删除服务器邮件( d e l e ) ,最后结束传输( q u i t ) 。 桂林工学院硕士学位论文 兰! ! 詈冀孽詈詈苎兰麓! ! ! 苎寰詈毫曼竺燃鼍! ! 笪簟曼詈i i i i i i i i i i i i i i i i im! i i ! ! 一h一 i i 鼍鼍鼍! ! 苎拦詈! 皇苎甍攀 2 1 4i m a p 协议 i m a p ( i n t e r n e tm e s s a g ea c c e s sp o rt o c o l ,i n t e r n e t 消息访阀协议) ,它被定义 在r f c 2 0 6 0 中。i m a p 协议有许多特性,p o p 提供了方便的邮件下载服务,让 用户迸行邮件交互后可以脱机工作,离线阅读邮件,i m a p 能完成的却远远不 只这些,使用i m a p 协议可以在c l i e n t 端管理s e r v e r 上的邮箱,它与p p 不闲: 邮件是保留在服务器上而不是下载到本地,提供的邮件“摘要浏览方式极大 地提高了邮件浏览速度,可有效地节省客沪宝贵的时间。i m a p 不需要通过到 达编号来定位邮件,可以利用属性柬定位邮件。i m a p 不仅可以投递进来的电 子邮件,也可以接受往外发送邮件至尽的地的任务。i m a p 的一般风格与p o p 3 协议的风格相似,不过它有更多的命令,在t c p 上使用1 4 3 端口。i m a p 与p o p 的比较如表2 2 : 表2 2p o p 3 与i m a p 西汔较 特往 p o 犸l m a p 协议定义的位置 灯c 1 9 3 9r f c 2 0 6 0 所阁熬t c p 端日 1 0 4 3 电子邮 牟存皴位置客户端 服务器 阅读电子邮件髋梳联撬 缀务器资源侵臻最,j 、大量 臻户辩下载靛控制弱强 楚否可以部分下载消怠否楚 磁盘限额问题否有时 便予实现是 否 桂林工学院硕士学位论文 2 2 垃圾邮件特征 根据上述电子邮件的基本原理、相关协议,可以分析电子邮件格式。丽垃 圾邮件可以简单的指代未经用户主动请求的大量的电子邮件。未经用户允许, 大量发送正是垃圾邮件的特征。本节从电子邮件格式及垃圾邮件定义来分析垃 圾邮件特征。 2 2 1 邮件格式 电子由件的逶焉性,能使您给任何入发送电子邮僻丽不用考虑缝所处的地 理位置或他所使用的是什么软件作为邮件接受的客户端。如同其他各种电子文 档一样,电子邮件内容也必须遵循一定的格式要求,而这种格式是由r f c 8 2 2 标准【1 6 】和m i n e 协议定义的,通过统一标准各种邮件处理程序才能从中分析 和提取信息。 2 2 1 1r f c 8 2 2 邮件格式 表2 - 3邮件头中常见的头域 头域含义 t o 主收信入的邮件地址 c c 次收信入的邮件墟缝 b c e 密件抄送麓郏佟逢址 r e c e i v e d在传递路径上每个传输代理增加的行 f r o m刨建消息的人或地址 s e n d e r 实际发送者的邮件地址 r e t u r n p a t h可用来确定返问至发送者的路径 d a t e发送消怠的西期及时阀 r e p l y - t o 回复瀵息对应被发送到的电子邮l 孛缝址 m e s s a g e l d : 唯一l d 号 s u b j e c t 邮件消息的简短摘要 x - m a 订 发信人客户端信息 桂林工学院硕士学位论文 苎! ! ! i i i i i i i i i il l i i l l l_i i i i i i ii l li i i i i i i i ii ii i i ii i i i i i ii i i i 一一一一一l l l l l m 1 i u 一一 i i i i i i i i i i 鼍! 鼍詈詈簟鼍 由r f c 定义可知,电子邮件很简单,由一系列的a s c i i 文本行组成,每一 行以换行符结束。邮件消息主要是由邮件头和塞器件体两个部分组成的。邮件头 由许多头域组成,每一个头域( 逻辑上) 由一行a s c i i 文本组成,其中包括域 名、冒号、域值、回车换行符组成,即以“域名:域值的格式出现。由r f c 8 2 2 文档中定义了多个标准的邮件头域,每一个帮件头域表示一种特定的信息。邮 件头中也可以包含自定义的头域,这种自定义的头域通常是某个组织或机构内 部专用的。表2 3 列出了一些与邮件消息传输相关的和一些常见的主要邮件头 域【17 】。 乳该域用于指定收件人地址。 c c 该域用于指定邮件的抄送地址。 b c c 该域用于指定邮件的暗送地址。抄送地址和暗送地址的区别在于,邮 件阅读程序通常都不显示暗送地址,而会显示抄送地址。 r e c e i v e d 该域的基本格式为r e c e i v e df r o mab ybf o rc ,其中a 为发送 方,b 为接收方,c 为收件人的邮箱地址。该域的内容由接收邮件的s m t p 服 务器填写,常常被用来追踪邮件传输的路线和分析邮件的来源,由此通过分析 一封邮件的源内容,是可以知道发件入的l p 地址的。 f r o m 该域用于指定的发件人地址,邮件阅读程序显示的发件人地址就来 源于这个域。f r o m 域中指定的发件人地址可以随意乱写,甚至不写,所以,邮 件阅读程序厦示的发件入地址不一定是真实的,这通常可以通过查看邮件头中 的r e t u r n p a t h 域来判断发伴人的囊实性。注意,s m t p 协议中m a i lf r o m 命令 中指定的发件人地址也可以伪造,所以,邮件头中的r e t u r n p a t h 域也不是可以 完全信赖的,对予比较重要的邮件,最好还是通过电话确认下。 s e n d e r 实际发送者的电子邮件。 r e t u r n p a t h 该域代表函器件的回复地址,该域内容由接收鎏蒌件的s m t p 服 务器填写,接收邮件的s m t p 服务器从邮件发送程序发出的m a i lf o r m 命令中获 得该域内容。 d a t e 该域用于指定邮件的发送时间。 r e p l y t o 回复消息应该被发送到这里的电子邮件地址 m e s s a g e i d : 以后引用这条消息时的一个唯一号 s u b j e c t 该域用于指定邮件的主题。 在邮件头之后是邮件体,用户可以在这里存放他们想传递的任何蠢容,包 括文本内容、a s c i i 卡通画、音频、视频等。 桂林工学院硕士学位论文 篡! 苎! 曼曩曼! ! ! 黧皇! ! 曼曼篡! 鼍i i i i i i i i i i i i i ii i i i i i i l u l i i i i i i i i 曩i i 鼍 2 2 1 2m l m 芝一多用途邮件扩展 r f c 8 2 2 文档定义了邮件内容的主体结构和各种邮件头字段的详细细节, 德是,它没有定义邮件体的格式。对于早期电子邮件普通的a s c i i 码形式消息 文本,r f c 8 2 2 已完全能够胜任。由于i n t e m e t 的迅猛发展,人们已不满足予电 子邮件仅仅是用来交换文本信息,而希望使用电子邮件来交换更为丰富多彩的 多媒体信息,例如,在邮件中嵌入图片、声音、动画和附件。而图片和声音等 内容是非a s c i i 码的二进制数据,所以,要使用r f c 8 2 2 邮件格式发送这些非 a s c i i 码的二进制数据时,需要先采用某种编码方式将它们“编码 成可打印 的a s c i i 字符后再作为r f c 8 2 2 邮件格式的内容。在r f c l 3 4 1 中提出了解决方 案,即m i m e ( m u l t i p u r p o s ei n t e m e tm a i le x t e n s i o n s ,多用途i n t e m e t 邮件扩展) , 现已成为i n t e m e t 电子由器件编码的主流。 m i m e 的基本思想是继续使用r f c 8 2 2 的格式,但在消息头中增加了结构, 并为非a s c i i 码的消息定义了编码规则。由于它没有偏离r f c 8 2 2 ,邮件的传 输仍然可以使用原有的邮件程序及协议。 m i m e 定义了一组消息头,指定编码数据的性质,主要的头域妇列表2 一碡。 表2 4m i m e 增加的r f c 8 2 2 头域 头域含义 m l m e v 色r s i o n 标识了m i m e 的版本 c o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论