(计算数学专业论文)基于决策树的邮件分类技术研究.pdf_第1页
(计算数学专业论文)基于决策树的邮件分类技术研究.pdf_第2页
(计算数学专业论文)基于决策树的邮件分类技术研究.pdf_第3页
(计算数学专业论文)基于决策树的邮件分类技术研究.pdf_第4页
(计算数学专业论文)基于决策树的邮件分类技术研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算数学专业论文)基于决策树的邮件分类技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 应用的迅猛发展,电子邮件得到了越来越广泛的应 用。电子邮件一方面给人们提供经济、方便和快捷的服务,另一方面 也给一些商人和不法分子提供了利用它进行违法行为和宣传的机会。 2 0 0 6 年第一次中国反垃圾邮件状况调查报告显示,2 0 0 5 年1 1 月到 2 0 0 6 年2 月,中国互联网用户收到的垃圾邮件比例达到6 3 9 7 ,垃 圾邮件每年给国民经济造成6 3 亿损失。 对电子邮件进行分类过滤是有效对付垃圾邮件的主要手段。目前 的过滤技术手段主要分为二种,一种是针对邮件地址的过滤,另一种 是针对邮件内容的过滤。这两种技术都缺乏智能性和自适应性,因此 研究能根据邮件的不断变化来学习识别垃圾邮件的特征,自动建立和 升级新的垃圾邮件特征代码和过滤规则条件,并智能地用于新邮件的 分类过滤系统具有较大的现实意义。 本文针对邮件分类技术进行了研究,主要工作如下: 1 分析了垃圾邮件可能出现的类型,深入研究了当前邮件分类技术 的国内外研究现状,特别是基于决策树的邮件分类技术。 2 提出了一种改进的基于测试属性对分类贡献的属性选择标准。该 方法在建立每个内结点进行计算属性对分类的贡献程度时,选择 的数据集的范围是其父节点在该节点分支所划分得到的数据集, 而不是整个训练集。与改进前的方法比较,生成的决策树结点少、 树较浅,提高了分类准确率。 3 理论证明了该方法没有多值偏向,与基于信息熵的选择标准比较, 执行效率更高。 4 建立了基于决策树的邮件分类模型,并实现了模型模拟器。该模 型具有自适应、自学习能力,当有新的、不同于历史训练库的特 征出现时,则累计并存贮邮件特征向量库,当变化的特征向量数 达到某个阈值时,则启动邮件规则的形成。 关键词:邮件分类,决策树,多值偏向,模型 a b s t r a c t a l o n gw i t ht h ea p p l i e df a s tf i e r c ed e v e l o p m e n to ft h ei n t e r a c t , t h e e m a i lg o tam o r ea n dm o r ee x t e n s i v ea p p l i c a t i o n o nt h eo n eh a n dt h e e - m a i lp r o v i d e se c o n o m y ,c o n v e n i e n c ea n df a s ts e r v i c ef o rp e o p l e ,a n d o nt h eo t h e rh a n di ta l s op r o v i d e st oi n a k eu s eo ft h eo p p o r t u n i t yt h a ti t c a r l i e so ni l l e g a lb e h a v i o ra n dp u b l i c i z e sf o rs o m eb u s i n e s s m e na n d i l l e g a lm e m b e r t h ef i r s tt i m ea n t i - i n v e s t i g a t i o nr e p o r to ft h es p a m c o n d i t i o ni nc h i n as h o w si n2 0 0 6 ,f r o mn o v e m b e r , 2 0 0 5t of e b r u a r y , 2 0 0 6 ,t h ec h i n e s ei n t e r a c tc u s t o m e rr e c e i v eo ft h es p a mc o m p a r i s o n a t t a i n6 3 9 7 a n dt h es p a mr e s u l t si nt h el o s so f6 3b i l l i o n sr m bf o r n a t i o n a le c o n o m y a n n u a l l y c a t e g o r i z i n gp e r c o l a t i o nt ot h ee - m a i li se f f e c t i v e l yt h em a i nm e a n s w h i c hd e a l sw i t has p a m t h ec u r r e n tp e r c o l a t i o nt e c h n i q u em e a n si s m a i n l yd i v i d e di n t ot w ok i n d s :o n ei st h ep e r c o l a t i o nw h i c ha i m sa tam a i l a d d r e s s ;a n o t h e ri st h ep e r c o l a t i o nw h i c ha i m sa tam a i lc o n t e n t s t h e s e t w ok i n d so ft e c h n i q u e sa nl a c ki n t e l l i g e n c ea n da d a p t a b i l i t y s os t u d y c h a r a c t e r i s t i co fi d e n t i f yt h es p a r ea c c o r d i n gt ot h ec o n t i n u o u s l yc h a n g e o ft h em a i l ,a u t o m a t i c a l l ye s t a b l i s ha n du p d a t en e ws p a mc h a r a c t e r i s t i c c o d ea n df i l t e rr u l ec o n d i t i o n , a n di n t e l l i g e n t l yu s e df o rn e wm a i lf i l t e r s y s t e mh a v eb i g g e ra n d r e a l i s t i cm e a n i n g t h i sp a p e rc a r r i e do nar e s e a r c ho nm a i lc l a s s i f i c a t i o n st e c h n i q u e , m a i nw o r ka sf o l l o w s : m 1 a n a l y z ep r o b a b l ya p p e a r e dt h es p a mt y p e ,d e e p l ys t u d yc u r r e n t s t a t eo fm a i lc l a s s i f i c a t i o nt e c h n i c a ld o m e s t i c a l l ya n di n t e r n a t i o n a l l y , e s p e c i a l l ym a i l c l a s s i f i c a t i o nt e c h n i q u eb a s e do nd e c i s i o nt r e e 2 p u tf o r w a r dak i n do fi m p r o v e da t t r i b u t e c h o i c es t a n d a r d a c c o r d i n gt ot e s t a t t r i b u t et oc l a s s i f i c a t i o nc o n t r i b u t i o n t h a tm e t h o d w h i l ec o m p u t i n gc o n t r i b u t i o nd e g r e eo fa t t r i b u t et oc l a s s i f i c a t i o nt ot h e c n m o d e si n s i d ee a c ho n e ,t h ec h o i c ed a t a b a s es c o p ei st h ed e m a r c a t i o no f i t sf a t h e rn o d e sb r a n c h , n o tt h ew h o l et r a i n i n gd a t a b a s e c o m p a r e dw i t h o r i g i n a lo n e ,r e s u l to ft h ed e c i s i o nt r e ei ss h a l l o w e ra n d t h ea c c u r a c yi s h i g h e r 3 t h e o r yp r o v e st h a tm e t h o dh a sn o tv a r i e t yb i a s c o m p a r e dw i t h t h ec h o i c es t a n d a r do f t h ei n f o r m a t i o ne n t r o p y , e f f i c i e n c yi sh i g h e r 4 b u i l du pa nm a i lc l a s s i f i c a t i o nm o d e lb a s e do nd e c i s i o nt r e e ,a n d i m p l e m e n t e d t h em o d e ls i m u l a t o r t h em o d e lh a st h ea b i l i t yo fs e l f - a d a p t a n ds e l f - s t u d y w h e nt h e r ea p p e a r sn e wa n dd i f f e r e n tc h a r a c t e r i s t i cf r o m t h eh i s t o r yt r a i n sd a t a b a s e ,t h et o t a la m o u n ta c c o u n ta n dk e e pb o t hi nt h e m a i lc h a r a c t e r i s t i cv e c t o rd a t a b a s e w h e nt h ec h a r a c t e r i s t i c v e c t o r n u m b e ro fv a r i e t yr e a c hac e r t a i nv a l u e ,t h e ns t a r tt h ef o r m a t i o no fm a i l r u l e k e yw o r d s :m a i lc l a s s i f i c a t i o n , d e c i s i o nt r e e ,v a r i e t yb i a s ,m o d e l 同等学力硕士学位论文 位论文原创性声明与版权使用授权书 湖南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 文不合任何其他个人或集体已经发表或撰写过的作品成果。对本文 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 完全意识到本声明的法律结果由本人承担。 位论文作者签名: 蔫,粕l 勤a 一一7 年月j 日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 究生在校攻读学位期间论文2 t _ 作的知识产权单位属湖南师范大学。 意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密口。 ,( 请在以上相应方框内打“”) 作者签名:李方j 国日期:呻年石月j 一日 导师签名: 班。 日期:眵年布月巧日“ 基于决策树的邮件分类技术研究 第一章综述 1 1 研究背景 随着i n t e m c t 应用的迅猛发展,电子邮件得到了越来越广泛的应 用。目前在i n t e r a c t 网上,用户通过电子邮件与远程用户进行信息交 流的业务超过3 0 ,仅次于w w w 服务,已成为人们生活中不可缺少 的一部分。电子邮件一方面给人们提供经济、方便和快捷的服务,同 时,另一方面,也给一些商人和不法分子利用它进行一些违法的行为 和宣传的机会。据调查显示,2 0 0 6 年我国网络信息安全形势依然严峻, 病毒危害正在不断加剧,同时,隐藏和逃避技术更加高级、金钱利益 成为更大的驱动力、隐私和机密数据面临风险提高。而且,安全威胁 已经不限于删除数据,更多的是以金钱为目标的犯罪行为:安全攻击也 不再一味追求大规模、大范围,而是向小型化发展,且大多是钓鱼欺 骗、数据窃取和犯罪行为。尤其需要强调的是僵尸网络,根据今年上 半年监测的数据,中国拥有的“僵尸网络”电脑数目最多,全世界共有 4 7 0 万台,而中国就占到了近2 0 ,还因为它已经成为散布垃圾邮件 和钓鱼信息、传播间谍软件和广告软件、集体攻击组织团体、盗取机 密信息的重要手段。可见,它的数量增加快,危害之大。病毒型垃圾 邮件最遭用户讨厌,邮件地址搜索和群发软件依然是垃圾邮件的根源 所在。此外,图片垃圾邮件开始盛行。一年以前,图片垃圾电子邮件 在所有垃圾电子邮件中只占l ,而现在它在垃圾电子邮件中所占比 例已经上升到3 0 。图片垃圾电子邮件的增长为垃圾电子邮件的再次 同等学力硕士学位论文 泛滥起到了推波助澜的作用。垃圾邮件每年给国民经济造成6 3 亿损 失,治理垃圾邮件意味着为国民挽回经济损失作贡献。垃圾邮件因其 数量多、反复性、强制性、欺骗性、危害性、不健康性等特点,严重 干扰用户的正常使用,耗费收件人的时间、精力和金钱;有些邮件妖 言惑众、骗人钱财、传播色情、散布反动信息等,垃圾邮件严重干扰 了人们的工作和生活,给我国的经济带来负面影响。 中国互联网协会反垃圾邮件工作委员会发布了2 0 0 6 年第一次中 国反垃圾邮件状况调查报告。报告显采,2 0 0 5 年1 1 月到2 0 0 6 年2 月,中国互联网用户收到的垃圾邮件比例由6 1 5 3 上升到6 3 9 7 , 上升了2 “个百分点;中国互联网用户平均每周收到垃圾邮件数量为 1 9 3 3 封,较2 0 0 5 年1 0 月的每周1 7 2 5 封上升了2 0 8 封,平均每个网 民每周处理垃圾邮件时间为1 3 1 5 分钟。自从信息产业部2 月2 l 目启 动了“阳光绿色网络工程”并颁布互联网电子邮件服务管理办法, 首当其冲治理垃圾邮件到3 月3 0 日互联网电子邮件服务管理办法 正式实施;最新的调查结果表明,从2 0 0 6 年6 月到2 0 0 6 年1 0 月期 间中国互联网用户收到的垃圾邮件比例由6 1 9 9 下降到5 9 4 9 ,比 例再下降2 5 个百分点,首次跌破6 0 大关。这证明,面对危害极大 的垃圾邮件,政府部门的重视,立法和完善技术手段使得垃圾邮件得 以控制。要消除它,还需全社会人漫长而艰苦的共同努力。 国际上早已非常重视垃圾邮件对网络和网络用户的影响,而对电 子邮件进行分类过滤是有效对付垃圾邮件的主要手段,国内外己经有 许多种类的邮件过滤器在市场上销售。目前的过滤技术手段主要分为 基于决策树的邮件分类技术研究 二种,一种是针对邮件地址的过滤,另一种是针对邮件内容的过滤。 但这两种技术都缺乏智能性和自适应性。对于新出现的垃圾邮件,必 须人工的重新修改过滤条件以适应新变化,这要求用户的素质很高。 并且随着垃圾邮件制造者手段的多样化,一些邮件过虑软件显得力不 从心。因此需要研究一个能根据邮件的新变化,来学习识别垃圾邮件 的特征,自动建立和升级新的垃圾邮件特征代码和过滤规则条件,并 智能地用于新到邮件的分类过滤系统是有比较大的现实意义的。 1 2 垃圾邮件在中国的走势与特点 垃圾邮件存在很多新的趋势,如:垃圾邮件发送的手段更加隐蔽 和狡猾垃圾邮件的危害性会更加大;病毒、”网络钓鱼”( p h i s h i n g ) 等和破坏性的垃圾邮件增多垃圾邮件将更多的与网络安全漏洞相关 联;”僵尸网络”( b o t h e r ) 等黑客手段控制垃圾邮件严重。 针对垃圾邮件产生手段的不断变化,垃圾邮件过滤技术也随着在 不断发展。现在很多反垃圾邮件技术方案都不会只采用一种技术。丽 是多种技术的综合体。目前的反垃圾邮件产品所采用的技术主要还是 黑名单、白名单、d n s 识别、速率控制、o c r 识别和分析、病毒扫 描、全面信誉系统,基于规贝4 的评分系统和数据挖掘等技术。除数据 挖掘技术外那些过滤技术属于事后防备型,而且名单内容需要专人不 断添加,所依赖的规则也要根据垃圾邮件的发展状况不断改写并且在 阻隔效果上受技术影响有滞后性。但是,数据挖掘技术具有依据历史 数据自动预测未来趋势和行为,使事后防备型变为主动预防型。因此, 近几年来。大量的研究人员研究基于数据挖掘技术的垃圾邮件分类技 同等学力硕士学位论文 术。目前基于数据挖掘技术的垃圾邮件分类技术有贝叶斯分类法、人 工智能、文本聚类和决策树等,而决策树学习是一种归纳学习算法, 它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分 类规则。决策树很容易用于种类字段,对种类值较少时效果不错,而 且可解释性好。但目前的决策树分类模型都采取信息熵建立的决策 树,计算信息熵的计算量大,训练样本库要求与实际相符,这个条件 很难达到,因为历史不能再现,未来不可预则,整个模型缺乏自适应 性。本文正是针对这些存在的问题进行进一步的研究。 1 3 本文研究内容 本文对基于决策树的邮件分类技术进行了深入研究,建立了一种 自适应的邮件分类模型,提出了一种改进的决策树的选择属性标准, 对该模型进行了测试验证。论文的主要工作包括以下几个方面: 1 ) 建立模型:通过对现有的各种邮件的信头和内容的特征进行分 析和研究,利用决策树技术,建立了一种自适应的邮件分类模 型。该模型首先从收集到的合法邮件和垃圾邮件组成的样本库 中提取特征向量,形成特征向量库;在对邮件进行实时分类的 同时将与邮件特征向量库中不相似的邮件特征向量自动加入 到邮件特征向量库中,并累计其数;邮件特征向量库需进行数 据预处理,形成邮件特征目标数据库,才能构造决策树;对所 构造的决策树进行测试评估及优化;随着新邮件特征向量的加 入,当新的特征增加到用户自已所设置的阀值时,将启动邮件 生成规则,对当前的邮件特征向量库重新进行数据预处理,构 4 基于决策树的邮件分类技术研究 造新的决策树,并进行评估和优化,形成新的邮件分类规则。 2 ) 提出了一种改进的决策树的选择属性标准,该选择属性标准优 化了基于测试属性对分类贡献的属性选择标准。在计算测试属 性对分类属性的贡献程度时,其一般方法是在构建决策树前, 决策树的每个内结点一次性进行计算属性对分类属性的贡献 程度,数据集合是整个样本集,然后将计算的属性对分类属性 的贡献程度进行排序,依次选择贡献最大的属性作为分裂属性 生成决策树;改进后的方法是在建立每个内结点进行计算属性 对分类的贡献程度时,选择的数据集的范围是其父节点在该节 点分支所划分的数据集,而不是整个训练集,计算所剩余的测 试属性( 除父结点以上的结点外) 对分类的贡献程度累计值, 选择最大的那个属性作为分裂属性;在整个训练集中,对分类 贡献最大,则在其分支所在的数据子集中它对分类贡献不一定 是最大的贡献。因此,与改进之前的方法相比,决策树节点少, 树的深度浅,并且理论分析该标准无偏向多值属性。 3 ) 对该模型进行实验、测试和验证。 同等学力硕士学位论文 第二章邮件 2 1 邮件的工作原理 2 1 1 邮件的格式 在用户看来,邮件【2 】的结构是非常简单,其格式一般为: l f r o m :u s e r l d o m a i n l c o m 2 t o :u s e r 2 d o m a i n 2 c o i n 3 s u b j e c t :e x p l a i n a t i o no f m a i lf o r m a t 4 d a t e :t h u , la p r1 9 9 9 1 0 :0 0 :0 0g m t 5信头和信体之间的空行 6 h i ,j a c k 7t h i sm a i li st oe x p l a i ny o ut h em a i lf o r m a ,t 。 8t h a n k s 9b o b 其中1 - 4 行为邮件的信头( m e s s a g eh e a d e r ) ,6 - 1 0 行描述邮件要表 达的内容称为信体( ( m e s s a g eb o d y ) ,第5 行是空行。r f c 8 2 2 定义了基 本的邮件头的格式和结构,而m i m e ( m u l t i p u r p o s ei n t e r a c tm a i l e x t e n s i o n s ) 多用途因特网邮件扩展协议则对r f c 8 2 2 中定义的邮件头 字段进行了扩充。 2 1 2 邮件的传送 电子邮件与普通邮件有类似的地方,发信者注明收件人的姓名与 地址( 即邮件地址) ,发送方服务器把邮件传到收件方服务器,收件方 6 基于决策树的邮件分类技术研究 服务器再把邮件发到收件人的邮箱中。如下图所示 3 1 图2 - l邮件传输过程 m u a m a i lu s e ra g e n t ,邮件用户代理,帮助用户读写邮件: m t a m a i l t r a n s p o r ta g e n t ,邮件传输代理,负责把邮件由一个 服务器传到另一个服务器或邮件投递代理: m d a m a i ld e l i v e r ya g e n t ,邮件投递代理,把邮件放到用户的 邮箱里。 整个邮件传输过程如下: 。 图2 - 2 邮件传输中的代理 目前使用的s m t p 协议是存储转发协议,它允许邮件通过一系列 的服务器发送到最终目的地。服务器在一个队列中存储到达的邮件, 等待发送到下一个目的地。下一个目的地可以是本地用户,或者是另 一个邮件服务器,如下图所示。 同等学力硕士学位论文 翻2 - 3 邮件的存储转发 如果下游的服务器暂时不可用,m t a 就暂时在队列中保存信件, 并在以后尝试发送。 2 1 3 邮件头的基本格式和结构 电子邮件由一个基本的信封 4 1 ( 定义在r f c 8 2 1 ) 、一些头字段、一 个空行和消息主体组成。每个头字段由一行a s c 文本组成,包括字 段名、冒号以及字段值。r f c 8 2 2 为信头定义了2 0 多个标准的字段, 包括d a t a , f r o m , t o ,c c 等一些必须的字段和一些非必须的字段,另 外,在信件的传输过程中,m u a 和m t a 还会在信头上加入一些路径 信息,它们和在一起构成了收到的邮件的信头部分,下面是一个完整 的信头: r e c e i v e d :( e y o us e n dp r o g r a m ) ;t u c ,0 9a p t2 0 0 2l1 :0 2 :0 3 + 0 8 0 0 r e c e i v e d :f r o mu n k n o w n ( 1 i e l o d a s c c :e l t e d u c n ) ( u n k n o w n 2 0 2 1 1 2 5 7 6 ) 勿1 6 6 1 1 1 8 1 6w i t h s m t p ;t u e ,0 9a p r2 0 0 211 :0 2 :0 3 + 0 8 0 0 r e c e i v e d :f r o m k y l i n t p ( 2 0 2 11 2 5 0 2 3 1 ) 勿d n s c c e r t e d u ( 8 1 0 2 + s u n $ 1 0 2 ) w i t he s t m p i d 9 3 9 3 e p 0 0 4 5 6 2f o r ;t u e ,0 9a p t 2 0 0 2l l :1 4 :2 6 + 0 8 0 0 ( c s l ) r 基于决策树的邮件分类技术研究 r e p l y - t o :c a o q l d n s c c e r t e d u 0 1 1 f r o m :c a o q l d n s e c , e r t e d u c , n t o :c a o q l 0 0 m a i l s t s i n g h u a e d u c n s u b j e c t := ? g b 2 31 2 7 b ? 0 8 q s r x e v e g s u q = = ? = d a t e :t u e ,0 9 a p r 2 0 0 21 1 :1 4 :2 6 + 0 8 0 0 o r g a n i z a t i o n :c c e r t m e s s a g e - d : n 巳v e r s i o n :1 o c o n t e n t - t y p e :t e x t p l a i n ;c h a r s e t = ”g b 2 3 1 2 c o n t e n t - t r a n s f e r - e n c o d i n g :b a s e 6 4 x - p r i o r i t y :3 ( n o r m a l ) x - m s m a 讧- p r i o r i t y :n o r m a l x - m a i l e r :m i c r o s o f to u n o o k , b u i l d1 0 0 2 6 1 6 i m p o r t a n c e :n o r m a l x - m i m e o l e :p r o d u c eb ym i c m s o f tm i m e o l ev 6 0 0 2 6 0 0 0 0 0 0 下面列出了与邮件传输有关的r f c 8 2 2 主要字段: t o ;字段给出第一收件人的d n s 地址。多个收件人是允许的。 c c :字段给出了第二收件人的地址。在邮件术语中,第一收件人 和第二收件人没有区别。 b c c :( 隐含抄送) 字段,该字段与c c :字段类似,只是这一行被从所 有发送给第一收件人和第二收件人的拷贝中删除。这个特征允许人们 在第一收件人和第二收件人不知道的情况下把拷贝发给第三者( 相当 同等学力硕士学位论文 于抄送) ; f r o m :该字段指出了邮件的书写者,表示撰写邮件的人:, s e n d e r :该字段指出发送邮件的人,这个字段的取值可能与f r o m : 不同。例如,一个公司的经理写了一封邮件,但是他的秘书是实际的 发信者,在这种情况下,f r o m :字段是必要的,但是如果s e n d e r :字段 与,f r o m :字段一样的话则可省略。如果邮件无法递交并且必须退回给 发信者的话,这些字段都是必须的: r e c e i v e d :在邮件的传输途中每个邮件转发代理都添加一行包含 的信息。这一行包含代理的名称、邮件收到的日期和时间,以及其他 一些用来在路由选择系统中查错的信息。 r e t u r n - p a t h :字段由最后一个邮件传输代理添加,用来说明如何回 到发信人。理论上,该信息能从所有的r e c e i v e d :头部获取( 除了发件 人的信箱名之外) ,但实际上很少这样填写,通常只包含发件人的地址。 除了上述所示的字段以外,r f c 8 2 2 还定义了许多用户代理或收 件人所使用的头部字段。下表列出了最常见的字段。当邮件撰写者和 邮件发信者都不想收到回执时,有时后使用r e p l y - t 0 :字段。r e p l y - t o : 字段指出了该邮件的回复地址,这个地址可以与s e n d e r :字段和f r o m : 字段不一样。+ 基于决策树的邮件分类技术研究 2 2 垃圾邮件 2 2 1 垃圾邮件定义 到底什么是垃圾邮件呢? 垃圾邮件的定义往往是见仁见智的事情。 目前,有关垃圾邮件的定义没有一个统一的规则,不同的机构给出了 不同的垃圾邮件定义。 美国交互广告署i a b 公布垃圾邮件的定义是:非现有商业关系或 未经对方事先确认而发送的商业邮件即垃圾邮件( c o m m e r c i a le m a i l s e n tw i t h o u ta ne x i s t i n gb u s i n e s sr e l a t i o n s h i po rp r i o ri n f o r m e dc o n s e n t 。 香港i s p 协会反滥发电邮一实务守则中指出:垃圾邮件是在 互联网上充斥的某种电子信息的大量复本,而该信息是未经收件人许 可而发出的,即收件人没有要求索取该信息。 中国电信对垃圾邮件的处理办法的文件中规定,垃圾邮件的定义 为:向未主动请求的用户发送的电子邮件广告、刊物或其他资料;没 有明确的退信方法、发信人、回信地址,利用网络从事违反其他网络 服务提供商安全策略或服务条款或其他预计会导致投诉的邮件 中国互联网协会反垃圾邮件规科5 1 中定义的垃圾邮件是指包括下 述属性的电子邮件:( 一) 收件人事先没有提出要求或者同意接收的广 告、电子刊物、各种形式的宣传品等宣传性的电子邮件:( 二) 收件人 无法拒收的电子邮件:( 三) 隐藏发件人身份、地址、标题等信息的电 子邮件:( 四) 含有虚假的信息源、发件人、路由等信息的电子邮件。 本论文在研究上述几个定义的基础上,定义文中提到的“垃圾邮 件”名词是指这样的电子邮件: 同等学力硕士学位论文 。通常是单方向向用户发送以推销产品信息或传递某种信息,具 有非常明显的商业目的、社会目的和政治目的; 通常以批量方式发送给成百上千的用户; 。通常是用户不知晓、不信任和不情愿收到的电子邮件。 。通常是用户无法回信和无处投诉的。 。通常以传播病毒,破坏接收者为目的的电子邮件。 现在互联网上的垃圾邮件主要分为以下几种:商业广告、站点宣 传、政治宣传邮件、色情宣传邮件,网络谣言,邮件炸弹、连环信和 病毒邮件。 2 2 2 垃圾邮件的制造手段 发送大量邮件、钓鱼攻击以及其他形式的垃圾邮件攻击事件,构 成了目前邮件威胁的主体。垃圾邮件制造者在发送垃圾邮件之前需要 获取目标地址,他们通常会使用购买,扫描、猜测或利用病毒从本地 邮箱获取联络人的e m a i l 地址。为了逃避检测、追踪和过滤,他们采 用的技术手段主要有: ( 1 ) 采用开放的代理和开放的中继站( o p e n - r e l a y ) ,无限制的转 发,因为此类邮件服务器不必通过用户真正身份鉴别就可以使用它, 这给垃圾邮件发送者有可乘之机。 ( 2 ) 自架设m t a 服务。 ( 3 ) 采用动态p 地址。 ( 4 ) 伪造或隐藏信源地址。 ( 5 ) 为了逃避内容过滤,采用以图片、网页链接、错误拼写等手段。 基于决策树的邮件分类技术研究 ( 6 ) 通过网络僵尸机来代发邮件 道高一尺,摩高一丈,近年来,随着反垃圾邮件的技术的进步和 发展,垃圾邮件制造者也不断出新招,使用新技术,使得垃圾邮件呈 现多样化手段进行制造和发布,主要有以下特点: ( 1 ) 发件人地址随机变化。 ( 2 ) 邮件主题随机变化。 ( 3 ) 伪造邮件头干扰信息。 ( 4 ) 信体内容随机变化。 ( 5 ) 正文以图片方式显示,难以识别。 ( 6 ) 垃圾邮件在不同时段内的传播内容不一样。 ( 7 ) 垃圾邮件在不同范围内的传播内容不一样。 2 2 3 垃圾邮件的特征 2 2 3 1 垃圾邮件的信头特征 在邮件头的基本格式中,r e c e i v e d 栏是头信息中最有启发价值的 一部分内容,它是在邮件发出以后,每经过一个邮件服务器,由邮件 服务器写上的信息。大多数邮件在到达收信人的电脑之前要至少经过 三台计算机:发件人的计算机、邮件服务器、收件人的邮件服务器, 然后收件人才能从服务器收到邮件。对于一些更复杂的系统( 比如安装 了防火墙的系统) ,邮件将经过更多的中转点才能到达收信人手中。邮 件经过的每一台机器都会写入一行r e c e i v e d 信息。r e c e i v e d 的书写顺 序是从底部向上,因此头信息中最上面的一行是邮件最后经过的中转 点写入的信息。由于r e c e i v e d 行可以显示邮件的来源,有时垃圾邮件 同等学力硕士学位论文 发送者会试图加入伪造的r e c e i v e d 行以干扰人们的判断。这些伪造的 r e c e i v e d 行出现在底部。 与未经修改的正常的头信息相比,垃圾邮件的信头特征有: 1 ) 经过很多的服务器转发,在信头上有3 个以上的r e c e i v e d 字段。 2 ) 伪造发送服务器 r e c e i v e d :字段中f r o m 后的注解中的域名和m 地址经过w h oi s 数据库检查后不相符合( w h 0i s 数据库的有关情况可参阅网页: h t t p :a n t i - s p a m o r g c n s e r v i c e s p a r s e r p h p ) 。 3 ) 发送服务器地址是垃圾邮件服务器地址。 r e c e i v e d :字段中f r o m 后的注解中的口地址是国内外权威反垃 圾邮件组织公布的垃圾邮件服务器地址。本论文采用的是中国互联网 协会反垃圾邮件协调小组于2 0 0 4 年4 月,6 日公布的第4 期垃圾邮件 服务器名单,总共包括2 1 1 个国内外发送垃圾邮件服务器m 地址。 4 ) 发件人试图隐藏身份 在未经伪装的邮件中,m e s s a g e i d 行是由发送邮件的邮件服务器 加上的。它通常以 符以及发件人的域名作结尾。比如,发件人是 b o b f l u g e l h o m e x a m p l e c o m ,m e s s a g e i d 的结尾就是 f l u g e l b o m e x a m p l e c o m ,如果你发现这两个字段不匹配时,就表明 发件人有可能试图隐瞒其身份。 5 1 信件是电子邮件炸弹 6 1 一般来说,“电子邮件炸弹”的“发件人”和“收件人”这两个栏目填 写的都是被攻击者的地址( 当电子邮件系统已满,无法容纳任何电子邮 1 4 基于决策树的邮件分类技术研究 件进入时,被攻击者所寄出的电子邮件就会进入死循环,永无休止的 返回给自己r 刀) ,所以为了防止出现这种情况,如果发现字段中f r o n l 与 t o 这两个字段内容相同,则表明这是一封垃圾邮件。 6 ) 垃圾邮件的批量发送性质 同一个发信人拥有很多个收信人或者在短时间内同一个发信人 向很多发信人发送信件。 7 ) 没有x - m a i l e r 字段,或者x - m a i l e r 字段与正常信件有差别 垃圾邮件可能没有x - m a i l e r 字段,或者垃圾邮件会竭力模仿正常 的m u a 如o e ,f o x m a i l 等发送邮件,但它和正常的m u a 生成的邮 件体( 通常符合r f c 8 2 2 及m i m e 协议瑶;有细微的区别。如f o x m a i i 中,x - m a i l e r 字段为f o x m a i l5 0b e t a i ”,m u l t i p a r t 的b o u n d a r y 会类 似予一删1 _ d r a g o n 8 6 5 7 2 7 2 7 2 7 7 3 _ ,如果一个邮件 x - m a i l e r 字段为 f o x m a i l5 0b e t a l 9 ,但m u l t i p a r t 的b o u n d a r y 却没有 d r a g o n ”子字符串,就表明这是一封伪造的邮件,多半就是垃圾邮件。 8 ) 垃圾邮件的标题经常会出现我们不乐于见到的单词和客套话, 例如:“中奖”,“优惠套餐”,“请随手删除”,“不好意思打扰了”, 。f r 髓! ”“$ $ $ $ $ ”等等。 2 2 3 2 垃圾邮件的内容特征 t 不管垃圾邮件采取什么方法,都是为了传播它真正要传播的内容, 这才是它的目的。一般垃圾邮件的内容为:产品宣传广告,反动政治 宣传,黄色、淫秽录象以及病毒传播等。过去一些垃圾邮件过滤器针 对垃圾邮件的内容过滤,是基于一些关键词的过滤技术,利用数学统 同等学力硕士学位论文 计的方法,一些词和一些特征在垃圾邮件中出现的频率高,而在正常 的电子邮件中出现的频率低。近来,一些垃圾邮件制造者为了逃避内 容过滤采用以图片、网页链接、错误拼写等手段,使得难以识别。这 就要求我们进一步的研究来对付垃圾邮件。 2 3 垃圾邮件过滤技术国内外研究现状 电子邮件通常具有标准电子邮件地址( 包括收发件人邮箱名、收发 人邮箱服务器口地址或域名) 、主题、信件内容( 包括正文、关键字、 附件) 等相关字段,而这些特征正是成为我们进行分析、判断、统计和 提取垃圾邮件的过滤技术的依据。目前国内外研究的垃圾邮件过滤技 术【1 】主要有以下几种: l l黑名单过虑技术 。早期的黑名单过虑技术是服务器收到邮件后,- 先查询该邮件的护 地址是否列在黑名单中,若是,则拒绝接收该邮件;否则,接收。由 于这种过滤技术只是简单的屏蔽掉可能产生垃圾邮件的,而很多垃 圾邮件是通过别人的服务器来转发的,所以可能会殃及无辜。 r b l s ( 实时黑名单) ,也被称为d n s r b l s ,检查所有收到邮件的 地址,与在r b l 中的d 地址核对。如果该p 地址是r b l 的一部 分,该邮件被识别及阻断。与黑名单不同,实时黑名单不是由使用单 位手动维护的,r b l 运营商维护公共r b l s ,使用单位仅需订阅该实 时黑名单服务。 分布式适应性黑名单过滤技术是在缺少预先过滤的情况下。每个 垃圾邮件的接收者必须按自己的 d e l e t e ”按钮来删除垃圾消息。分布 基于决策树的邮件分类技术研究 式黑名单过滤器会让一个用户的 d e l e t e ”操作去警告其他用户,注意 这个垃圾邮件消息。应用这种技术的服务器上存储了一些已知垃圾邮 件的摘要。当邮件传输代理( m a i lt r a n s p o r ta g e n t ,m t a ) 收到一条 消息时,会调用分布式黑名单过滤器来确定这条消息是否是已知的垃 圾邮件。该方法的缺点是需要与服务器进行对话以进行验证,执行效 率要比其它技术慢得多,而且决定是否为垃圾邮件完全依赖接受人的 判断或网络中其它接受者的判断结果,大量发送但又是合法的消息可 能会导致错误报告。采用分布式黑名单方法发生“误否认”的频率要比 其它技术高。 2 ) 白名单过器技术 白名单过滤技术的核心是白名单过滤器,它直接连接到m t a ,只 有当接收者显式地同意接收邮件,过滤系统才将邮件发到用户收件 箱。系统会对其它的邮件消息产生一个特殊的质询( c h a l l e n g e ) 响应给 发送者,这个质询消息包含让发送者答复的指示,当合法的发送者答 复了这个质询之后,系统自动将其地址添加到白名单中。 这种过滤技术的缺点是对于合法的发送者来说,给接收者带来了 额外的负担。由于有些通信者可能出于各种原因,比如发送者是无法 响应质询的自动响应系统;发送者可能无法发送他们合法的消息;发 送者具有不可靠的i s p 、防火墙的要求过于严格;发送者具有多个电 子邮件地址、不能够理解英语( 或者质询所使用的语言) 或者发送者只 是忽略了质询以及不想被质询所干扰而无法响应质询等等。所有这些 情况都会带来“误承认”的发生。 同等学力硕士学位论文 3 ) d n s 识别 d n sm x 查找是一项对于垃圾邮件发送者采用虚假发自或回复 邮件地址的有效阻断技术。系统到发自邮件地址的域上进行查找。如 果该域没有一个有效的d n sm x 记录,这样发白地址就是无效的,该 邮件就被分类为垃圾邮件。对回复邮件地址也可以进行相应查找。 反向d n s 查找是一种有效的垃圾邮件阻断技术,对收到邮件的 来源疋地址采用反向d n s 查找,如果反向d n s 查找提供的域与邮件 上的来源m 地址相符合,该邮件被接受。如果不符合,该邮件被拒绝。 4 ) 速率控制 垃圾邮件发送者经常试图通过在很短一段时间发送大量邮件阻塞 邮件服务器。这被称为d o s ( 拒绝服务1 攻击。有了速率控制,系统管 一理员可以设置一个保护邮件服务器接受大量垃圾邮件的数量参数一速 率控制允许在一段时间内从相同珀试图的联接数量在设置的范围内。 5 )病毒扫描 病毒扫描本身被看成是一个阻断垃圾邮件传播的一个方式,因为 大量的非法邮件是由病毒程序产生的,这些病毒试图自我复制和传 播。病毒扫描是减少企业垃圾邮件数量的一个重要手段。 对于多变的垃圾邮件来说,任何单一的技术都百密终有一疏,只 有众多技术整合起来进行屏蔽,才能疏而不漏。 6 )o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论