(计算机系统结构专业论文)垃圾邮件过滤系统的改进及样本库生成系统的设计与实现.pdf_第1页
(计算机系统结构专业论文)垃圾邮件过滤系统的改进及样本库生成系统的设计与实现.pdf_第2页
(计算机系统结构专业论文)垃圾邮件过滤系统的改进及样本库生成系统的设计与实现.pdf_第3页
(计算机系统结构专业论文)垃圾邮件过滤系统的改进及样本库生成系统的设计与实现.pdf_第4页
(计算机系统结构专业论文)垃圾邮件过滤系统的改进及样本库生成系统的设计与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机系统结构专业论文)垃圾邮件过滤系统的改进及样本库生成系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

垃圾邮件过滤系统的改进及样本库生成系统的设计j 实现 摘要 垃圾邮件过滤系统的改进及样本库生成系统的设计与实现 徐选丁伟东南大学 随着对垃圾邮件过滤的各种技术和算法的不断发展,大部分基于机器学习的文本分类算 法在实际使用中取得了较好的效果,但由于采用了文本分类中的一些算法,大部分算法都要 求在应用前就需要用已分类好的邮件样本对过滤系统进行学习、训练,以达到过滤系统性能 最优化。邮件样本特别是j e 常邮件样本集的缺乏成为阻碍过滤技术发展的一个重要问题。同 样为了比较各种过滤算法的性能,需要在同一个基准上的实验结果才有可比性。缺乏邮件样 本集的基准使得评价各种过滤系统的性能变得很难实现。为此本学位论文对样本集构建过 程中的关键技术进行了研究,并以c e r n e t 华东( 北) 地区网络中心的邮件服务器为实验 环境,设计和实现了一样本库生成系统。在此基础上,根据构建样本库过程中对收集的垃圾 邮件特征的研究,在不改变原有综合邮件过滤系统框架的前提下使用b n r 算法对网络中心 现有的邮件过滤系统进行了相应的改进,以提高系统的过滤性能。 论文在研究目前邮件样本集现状的基础上根据邮件过滤算法的需求,设计了构建一个、 基于真实邮件环境,能够生成包含标准邮件分类的中英文邮件样本集生成系统。 首先,论文从技术和非技术两个方面提出了构建样本集中存在的问题,并通过对现有构 造样本集的方法的研究分析得出目前过滤系统所需的是能够模拟真实邮件环境的包含标准 分类的邮件样本集。在此基础上,根据实际邮件收集环境特点,论文着重研究了构建样本库 生成系统的关键技术。主要包括用户评判邮件技术、用户评分和正常邮件隐私保护等方面 提出采用识别重复邮件、模糊综合评判、多层信息抽取替换并加密存储等方法并具体实现。; 其次,论文在对关键问题研究的基础上,给出了样本库生成系统的总体结构设计,以及 各个子系统的实现机制和功能结构,实现了一个可基于真实邮件环境,结合用户人工评判的 生成标准邮件样本集的生成系统并将该系统在c e r n e t 华东( 北) 地区网络中心的邮件 服务器环境下投入使用。并且从系统生成的样本集各项数据对系统的性能进行了实验和分 析,结果表明,该系统生成的邮件样本集满足了邮件来自真实环境且邮件样本标准分类的需 求,验证了系统的有效性。 再次,论文研究了现有的邮件过滤系统运行过程中存在的问题,并从升级病毒过滤软件、 调整系统自学习资源和引入刚r 算法三个方面对系统进行了部分改进并通过第三方评测 系统的实验数据分析表明改进后的系统具有较好的过滤性能。 论文最后作了简要的总结,回顾论文完成的工作并对未来工作进行了展望。 【关键词】垃圾邮件、电子邮件过滤系统、公共样本集、模糊综合评判、贝叶斯过滤 东南人学硕 二学位论文 a b s t r a c t d e s 磅锄di m p i e m e n t o fs a r n p l eg e n e r a t j o ns y s t e m 柚dt 1 1 el m p r o v e m e n tf o rs p 锄f i i t e n g x ux u 锄,d i n gw e js o i l i h e a s tu n i v e 幅i 母 1 1 1 ew e n - d o c u m e n t e dp r o b i 锄o fs p 锄i sc u r r c n t i yo f 辩一。世卸de s c a l a t j n gc o n c e m t l l e s p 锄n i t e n n gp m b i e mh 鹋t r a d n i o n a i l yb e 朗p 陀鸵n t e d 鹤柚i n s t 柚c eo fat e x tc 龇e g o z a i i o n p r o b l 锄o nt 1 1 eb a s i st h mm te m 矧c o n t a i 吣s 帅ef o mo fi d e t l t m a b l et e x m a lc o n t e n lw h i l e v a o 峭s p a m 矗l t e 晤h 纠eb e g 帅t o6 n d t l l e i rw a y 帅t o t l l e m 盯k e l l l e r e i sa i ko fr i g o m 吣 “a i u a t i 伽o f 曲e 时r e l a t i v ee 仃醐i v 棚e 豁i i lf 龃“s t i cs e t t i n g s a n dt t l e 仃a i n i n 譬柚dt e s ts e t s 峨 s m a j i 柚dn o tp u b l i c l ya v a i l a b l e 。t 1 1 惜r e n d 甜n gt l l ee x p 鲥m e n t sn o n - 陀p l i c a b i e i nl i g l l to f t l l 幢n l l a sb e 舶。吐o f t i l ea i m so f t l l i sp m j e c t t 0b e g i | ld “e i o p j n gac o r p l l so fs t a n 捌i z e ds p 锄a n d g 即u i 鹏锄础d a 诅蛐w 协c hd i 毹啪tt 1 1 t l i q u 器啪b er i g o r o u s l ye v a i u 越c d u n d 盯t i l c e x p e m 舶tb a c k g r o 帅do fc e r n e tc a s t 唧c h i 衄( n h ) n e t v o r kc e n t a | i dt i l e 蛐l y s i so ft i l e p m b i 啪o f m ea v a i l a b l ed a t a s e t s 卸dt i l e 陀鸵a r c hr 豁u l 协o f t h ea :v a i l a b i ed 出l 辩忸难打删o l i t h e s 咖p i eg e n c r a l i 伽s y s t e i l lw d e s j g n e d 卸di i i l p i e m c m e d 1 1 1 el yt e c h n o l o g i 嚣a 他s n j d i e da i l d i m p i e m t e d a c c o r d j n gt ot l l e 陀;e a r c ho f t l l es p a mf 细玮i nt l i ep r o c e 嚣o f 出t a 辩bc o n s h l l c t i o n , t h c d i s 矧训p 懈加tb n ra l g o t i l i n w h i c hc 锄p n o v i d eb e 岫p d j s i 彻a n d m 忙r i n g p 响皿锄w 曲o i l tt h ec l l a i l g 鹤o f t l l eo n g i nm o d e l f i 哪l y t t l ep r o b l 咖so fm a i l r p 峭c o n s n l i c t i 伽a 把p r o p o s e di np e r s p e c t i v eo ft e c l i i l o l o 科 柚dn 彻啦c i i t l o l o 醪b 罄e d 蛐t i l er e 辩a r c ho f 忙p 瞄舶tc ot l s _ 眦n o nm e t l l o d s eo fl l l em a j o r i 骆嘲t ob e n 肋n t e di nt h e 鹊s 哪b i yo f s ha n 锄a i lc o r p 峭i st h el 粒kf b rt l l e 止曲辩t sw h i c h c 柏s i m u i a l et h e 陀a l i s t i cs e n j n g s 锄dc 锄p r o v i d et 1 1 es t a l l d a r dc l 笛s i 矗c a c i o nc t e o i la c f d i f 培 t ot i i ec o n c i u s i o na n dt l l e 删i c a l 朋v i r o m c n tf e a l i i 佗,t 1 1 i st l l 髂i sf b c u 转so nt l l e 忙l e v 锄k e y t e c i l l l 0 1 0 9 i 髂i n c l u d i n gt h em e t l l o do f 叫b m i t t i n gt l l em i lf 如m l e 啦吼墨t h e 陀s e a r c ho f d e t e n l l i n i n g 廿圮触i n go fu 辩俗柚dt l l em e t h o do fp i d t 。c t i n gp 加c e d u 坤f o rt i l eh 锄m a i l s t t 砖 t t l e s i sp r 0 v i d e st 1 1 e l i i t i o 惦s u c h 雒恤m 岫0 do f f h z 巧c o m p 陀h e m i v e j u d g m e n ta n dm u l 戗一l a y 盯 i i l f o m a 士i e x t 甩c t i o n 锄d 朗c 1 ) r p t i 伽 s e c o n d l y t l l ea 亿h i 锄觚o ft l l e 姗p l eg e n e r a t i 佣s y s t e i i ibd e n 删t h ej m p l e m e n 诅c i o n m o d e lo ft l l es y 咖m 加dt l l ej m p l e m e n 诅t i m e t l l o d sa fe v e f ys u b - s y s i e ma r ep r e i l t e d t h i s t l l 嚣i si m p l 哪朋t c das 绷p l eg 明e m t i o i ls y s t e i l lw i t i it t l ec l a 骚讯c 面b y 吣e r s 咖d e r 廿l er e 鲥 印“m 咖e l l t 卸dw 勰p i i tj 呦p 眦t i i i lc e i 乇n e te a s t e mc h i n a ( n o n l l ) n 咖o r kc e n t 盯1 1 1 e p r o c 嘟o fe x p e r i m e n t sf o rt h es y s i e mi si n t r o d u c e d t a k i n gt l l ep 瞅i c a lr e a ld a t ai su s e db yt l l e m 髓i st ov a j i d a t et l l ee 伍c j e n c y0 f g 朗e r a t i o ns y s t e m t h i r d l y ,t l l m u g hu p d a t et l l ev i 几峙n l c c r i n gs o 行w 玳,a d j u s tt l l es y s t e m 辩i f _ l 啪j n gr e u r c 嚣 a n du 辩t h eb n ra i g o t i l m ,t i l et l l e s i s o v i d e st h es 0 l u t i o 扯c o r d i n gt ot t i ep m b i e m so ft i l e a v a i l a b l en h e r i 唱a l g o r i 岫s 唧c t i v e i yt 0m a l 【et h 哪w o r kb e t i e fi nc h i n e 辩锄a ne n v i 删硼即l t h e 懈u l t so f t l l ee v a l u a t i o ns y s t e ms h o w e dt | l ee 币c i c yw e 化i m p m w 一 f i n a l l y as u m m a r yo ft l l i st l l e s i sj s 舀v c n 柚dt t l e “p e c t a t i o no ft h es 枷p i eg 明e r a l j s y s t c m i sa l p r o p 0 s e d 【k e yw o r d s 】s p a 啪m a i l ,a n t i - s p 帅n l t e r i n gs y s t e m ,p u b l i cc o r p 璐,f i i z 巧c o m p r e h e n s i j u d g m c 咄b a y e s i 6 l t e n g i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 ,a 。u 研究生签名:叠刍12 竺日期:迦2 :五:之 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子 文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查 阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生躲芗弛导师虢百钐日期:姐l 垃圾邮件过滤系统的改进及样奉库生成系统的设计j 实现 第一章绪论 随着电子邮件成为人们日常的通讯方式之一垃圾邮件也成为每个邮件用户都遇到的问 题。垃圾邮件占用大量网络资源和浪费 j 户的大量时间,并常常成为网络病毒传播j 【具,威 胁互联网信息安全,侵害电子邮件用户的合法权益。而且从历年来关于垃圾邮件的统计数据j 来看,垃圾邮件在邮件用户所收邮件中所占比例越来越大,情况也愈来愈恶劣,亟需能够对 垃圾邮件处理的技术。近年来许多学者对于垃圾邮件问题展开了全面的研究其中大部分研 究着重于如何识别垃圾邮件并过滤。大多数流行的过滤算法都是基于机器学习的文本分类算 法,并取得了不错的效果,对垃圾邮件的过滤产生了一定的作用。 但随之而来的一个问题是,由于采用了文本分类中的一些算法,大部分算法都要求在应 用前就需要用已分类好的邮件样本对过滤系统进行学习、训练,以达到过滤系统性能最优化。 邮件样本的选择和过滤算法的研究是研究垃圾邮件问鹿的重要组成部分。本学位论文的研究 工作将以此为背景展开,设计并实现一个标准样本库生成系统,在此过程中研究和解决有关 的技术问题。 本章主要进行相关背景知识介绍,包括邮件过滤的基本方法、邮件样本集的作用、研究 现状,并给出论文的主要研究内容和组织结构。 1 1 研究背景 电子邮件是最早产生的网络应用之一,但现阶段电子邮件也成为一个滥用的目标。由于 发送成本低,垃圾邮件的数量越来越多已经超过了邮件用户接收正常邮件的数量,也带来 了越来越多的危害。要解决垃圾邮件问题,必须综合法律、技术等各种手段。一般反垃圾邮 件技术上可以分为两类:“阻止根源”和。存在发现”。 。阻止根源”是指通过遏制垃圾邮件的产生来减少垃圾邮件,并通过经济和法律手段对 垃圾邮件发送者进行惩罚。如全球最大的两家电子邮件服务提供商 o l 和雅虎计划采 用一套颇具争议性的系统:企业只需为每封电子邮件支付四分之一美分至1 美分的费用: 而我国则通过立法一互联网电子邮件服务管理办法刚于2 0 0 6 年3 月3 0 日正式施行。 在该管理办法中给出了垃圾邮件的定义,同时宣布电子邮件服务将实行市场准入,并通过实 施邮件发送方不能匿名发送邮件,对违规邮件运营者处以最高三万罚款等一系列措施试图 遏制了垃圾邮件的产生。但是这些管理办法,在现阶段显然在具体的执行方面还有很大的困 难,因此还需要继续研究。 目前主要应用的垃圾邮件过滤技术是。存在发现”。即是对已经产生的垃圾邮件进行过 滤,通过对垃圾邮件的各种特征的研究,找出判断邮件为垃圾邮件的依据来实现邮件过滤。 但随着垃圾邮件过滤算法种类越来越多,算法精度越来越高邮件样本库的作用也日渐明显。 无论什么过滤算法,一个先决条件是需要一个有效的样本集。且衡量一个算法的优越也需要 公正可以信赖的样本集。 东南人学硕 :学位论文 1 2 邮件过滤方法研究 从电子邮件的结构出发,寻找垃圾邮件的特征,在发件人、收件人、邮件头、邮件内容 等方面展开识别和过滤是邮件过滤系统常采_ l 】的基本方法b ”。从邮件的体系结构来看 邮件过滤可以分为服务器端过滤和客户端过滤。从邮件过滤技术上来看,目前常使用的有黑 白名单技术、规则过滤以及基于邮件内容过滤等方法。这些技术一般都适用于服务器端和客 户端的邮件过滤。 邮件过滤系统常采用黑名单白名单或手t 制订规则的方法,黑白名单可以看成是手工 制订规则方法的特例。黑名单给出了发送垃圾邮件的邮件地址( 或者是i p 地址范围、域名 等属性1 列表,凡是属于黑名单的邮件被判定为垃圾邮件。白名单收录了邮件接收者确信的 邮件地址信息,凡是属于白名单的邮件都被判定为合法邮件。 手工建立规则的方法通过用户建立系列规则来判定垃圾邮件。例如,邮件中文字比 较少,却有大量的超级链接;邮件正文中包含有大量的随机字符等。还有些垃圾邮件在l 格式正文中将大量的无敏感内容的文字设置为很小而几乎看不见的字体,而将较少的敏感内 容设为正常字体,这样既可以保证邮件的视觉效果,又因为充斥着大晕的正常文字,欺骗邮 件过滤工具的检查。但这些方法一是过于主观性会造成大量合法邮件的误判和垃圾邮件的漏 判,二是垃圾邮件制造者可以熟知这些规则而对邮件系统进行攻击。因此,目前逐渐倾向于 采用基于内容的机器学习判别方法。 通常并不仅仅是某几个固定的发件人在发送垃圾邮件,垃圾邮件发送者在不断地变化, 黑、白名单方法有局限性,而规则方法的不足之处在于规则都是人工指定的,需要人们不断 去发现和总结、更新,人为因素比较多,一些没有经验的用户可能很难提供有效的规则。而 且,手工制定规则比较耗时,准确率也受到了限制。随着时间的变化,垃圾邮件的特征也在 变化,让用户维护这些规则也不是一件易事。一个很自然的想法是,对电子邮件的内容( 如 正文文本) 进行分析,识别出垃圾邮件。这就将垃圾邮件过滤与文本分类和信息过滤联系起 来了,将文本分类和信息过滤中常用的方法引入垃圾邮件过滤任务。一般将这种邮件过滤技 术称为“基于内容的垃圾邮件过滤4 或者“垃圾邮件内容过滤”。这种内容过滤技术提供了 更为准确的邮件过滤方法,可以自动获得垃圾邮件的特征,并即时捕捉到垃圾邮件特征的变 化。基于内容的判别方法又大体可以分成基于规则的方法和基于概率统计的方法。 目前应用于邮件过滤的基于统计的过滤方法有k n n i ”1 方法、s 订( s i i p p o r tv c c t o r m h i n e ,支持向量机) 方法1 9 h 3 肼j 、r o c c h i o 方法、w m o w 方法和b a y 方法等。 已有多位学者将b a y 方法应用于垃圾邮件的判别。s t a r i f b r d 大学的s a l i i i 圳将n a “e b a y 方法引入到垃圾邮件过滤进行实验。s a l l i 采用了自己收集的邮件作为实验数据。值 得一提的是,s a l l 锄i 除了使用词汇作为特征外,还使用了词组特征和其他属性特征,实验 结果表明,其他属性特征能够较大幅度地提高过滤结果( 精确率在9 5 左右) 。s a h m i 的另外 一项工作是将垃圾邮件细分为色情和非色情邮件,再加上合法邮件,变成一个三类问题进行 实验( 当然实验的最终目标还是区分垃圾和合法邮件两类) 。 a n d m u t s o p o u l o s 也利用n a “e b a y e s 来判别垃圾邮件。他采用了公开样本集l i n g - s p m 进行实验。实验中考查了不同文本预处理形式对过滤结果的影响,得出的结论是如果对原始 文本除去停用词和进行词汇还原,能获得虽佳结果。该论文的另一个工作是提出垃圾邮件的 代价因子指标,并分析了不同过滤阂值条件下代价因子的变化情况,文章指出,一味地追求 高的邮件正确率在系统实现时可能去造成很大的代价。s c h t l e i d e ,”1 利用n a i v e b a y e s 模喇来 判别垃圾邮件,他们使用了两种不同的概率估计方法:贝努利分布模型和多项式分布模型。 比较发现,前者不仅计算上更简便,效果上也优于后者。除了n a eb a y 外,不少学者 2 垃圾邮件过滤系统的改进及样奉库生成系统的设计j 实现 还使用了其他的b a y e s 模型。i b m 的m e n z 4 j 不是采用独立性假设而是考虑使_ 【f jn 元语言 模型来估计相关的概率。文章发现3 元语言模型是一个很好的选择。a n d r o u t s o p o u l 使用 了一种f l e x i b l eb a y e s 模型,虽然该模型仍然采用独立性假设但是对概率的估计使f j 了高 斯分布模型。 综上所述看出基1 :统计的邮件过滤方法,训练过程是一个统计学习过程得到相应 的分类器。但无论是基于规则的方法还是基于概率统计的方法,都需要训练后再过滤使_ 【 j 的 过程。 邮件过滤技术通过已有的训练集合( 正例和反例) 训练出相应的垃圾邮件规则,然后 将新规则应用到新的邮件判定当中,有时井通过反馈对已有的垃圾邮件规则进行更新。可以 看出,训练过程中选取的样本也直接影响到该过滤算法的精度和过滤效果。 1 3 邮件样本集的作用 1 3 1 对评测过滤系统的作用 为了比较各种相同功能算法的性能,需要一个公共的样本集( c o r p ) ,通常包括训练 集合和测试集合。样本集相当于提供了一个“基准”( b c 岫a r k ) 。在同一个基准上的实验 结果才有可比性。从第三方的角度,对垃圾邮件过滤系统进行全方位的评价是一件有广泛的 实际需求的事情,无论是这类系统的用户,还是开发商,都有这方面的要求。类似的问题在 i r 、在j d s 测试等许多领域都普遍存在。如何使对垃圾邮件过滤系统的评判公正是一个更 加复杂的问题,因为它涉及更多的方面。但就像对i r 系统的评价一样,优质的评判数据是 整个评判的基础。在这里,这个评判数据体现为一个普通的邮件的集合,但其中的每封邮件 都有明确的性质标识,优质则体现为数据的真实性和标识的正确性。这样的集合也可称为样 本。与已经成熟的面向英文的垃圾邮件过滤系统相比,针对中文垃圾邮件过滤的各种新技术 也在不断出现,但邮件过滤系统的过滤性能,如误报率,查全率等等这些指标均是基于自身 的实验样本,公布的实验结果都是能够达到很好的效果,但往往在实际应用中却很难达到声 称的效果很难令人信服。缺乏邮件样本集的基准使得评价各种过滤系统的性能变得很难实 现。 1 3 2 对训练过滤系统的作用 目前大部分的垃圾邮件过滤系统使_ i j 的技术都基于已知的正常邮件和垃圾邮件的集合, 通过对已知样本的学习从而判断新样本的类别。由于电子邮件本身的特殊性,使得目前邮件 样本集出现了不平衡的情况,正常邮件数草很少而垃圾邮件数量巨大。正常邮件样本的缺少 严重影响了垃圾邮件过滤系统的发展。现有的垃圾邮件过滤系统大都是通过小样本集合训 练大部分研究过滤算法的开发者使用的正常邮件来源自己的私人邮件或网上公布的样本 库。 在机器学习和a i 领域中对相似问题研究后有结论口5 1 指出,一个垃圾邮件过滤系统若没 有平衡的邮件源,例如正常邮件的小样本集和垃圾邮件大样本集,而训练的正向样本和负向 样本高度不平衡的话。该分类器则会对训练大样本集出现较低的错误率以及对训练小样本集 出现较高的错误率。因此在较少正常邮件和较多垃圾邮件的情况下,分类器会降低垃圾邮件 的猫报率但会提高正常邮件的误报率。但h j 户恰恰对正常邮件的误判不能容忍。另外一种 东南人学硕 二学位论文 解决这种不平衡的训练样本源是降低垃圾邮件样本集合的规模。例如,b o g 娟i t e j 4 l l 建议训 练使用相似数苗的正常邮件和垃圾邮件。而从目前邮件样本集的收集情况来看,非常缺乏合 理组织的邮件样本集。 因此无论出于评估过滤系统的目的或者做过滤系统的训练或测试样本,都亟需一个来自 于真实邮件环境的中英文邮件样本集。 1 4 现有邮件样本集 为了排除样本集内容对算法的偶然性影响一般要求样本集中的数据都来自于实际应 用中的真实场景。但由于电子邮件本身的特殊性,合法的邮件涉及到用户的个人隐私,因此 各种样本集都采用了一些方法来解决:( 1 ) 从各种公_ j 的邮件列表( m a j l l i s t ) 或者新闻组 ( n e w s g r o u p ) 获得一些文本来代替正常邮件:( 2 ) 将邮件采用一些手段“加密”,即隐藏了 邮件的真实内容,又不影响过滤实验性能。 文献m 魄出英文的l i n g - s p a m 样本集、p u 样本集。p u 样本集只保留了邮件的标题和 正文的纯文本内容。为了保护提供者的隐私,样本集中将邮件中的不同词汇用不同整数代替。 l i n g s p m 由提供者收到的垃圾邮件和来自于语言学家列表( l i n g i l 碗l 砬) 的非垃圾邮件组 成。因此,l i n g s p m 的样本集的邮件内容没有像p u 那样加密。s p a m a s s s i n 刚提供的邮 件样本集与l i n 争s p a m 类似,但是其正常邮件来自公众论坛。邮件样本集在国内还是一个刚 刚初步研究的阶段,目前只有c c e r 一”卟组于2 0 0 5 年8 月公布的中文邮件样本集,其中只 包括了中文简体邮件。 目前较大的邮件样本集有: 1 ) e n r o n 样本集 e n r o n 1 样本集由t i l ef e d e m ie 眦r 斟r e g u l a t o 叮c o m m i 髂i 公开发布,收集e i l f o n 公司 经理级别以上人员共1 5 l 位用户的5 1 7 ,4 3 l 封邮件。样本集中包含了前e n r 公司职员的 各种私人和工作往来邮件。e n 1 样本集中邮件没有加密,仅仅是其中的一些邮件由于涉及 个人和公司隐私而被删去部分内容。后来由c m u 的w j i l i c o h 已经把数据集放在网页 上b 丛乜;型里里尘! :2 墨:堡婪:鱼型蔓! 盟型i 。 e n m n 样本集的组织邮件不包含附件,包含了1 5 l 位用户目录,目录中每一封信有发送 者和接收者的邮件地址数据和时间主题信体内容。e n r 样本集给开发者和研究者提 供了一个较大的正常邮件源。但缺陷在于:e m n 样本集主要由正常邮件组成,因此如果用 户还需要自己另外收集垃圾邮件。 2 ) l i n g - s p 样本集 l i n g - s p a m m l 样本集由1 a n d r o u t s o p o u i 提出并应用的。样本集中有四个子目录 l i n g - s p 枷包含提供者收到的4 8 l 封垃圾邮件和来自于语言学家列表( l i n g u i s t1 i s t ) 的2 4 1 2 封非垃圾邮件,共2 8 9 3 封。l i n g - s p 的邮件内容没有加密,因为其合法邮件来自公用邮 件列表。 l j n g s p 样本集的不足之处是它的合法邮件都来自于一个特定的邮件列表,因此邮件 内容都偏向于一个主题,而某个特定用户收到的正常邮件内容主题一般都很发散。从实验上 看来,这种内容专指性可以导致比较好的结果。如果我们关注某个邮件组或者邮件列表上的 垃圾邮件过滤,可以采用在l l n g s p 样本集上表现较好的算法。 3 ) p u 样本集 和l i n s p a m 一样由1 a n d m u t s o p o u l d 驯提出。p u 【a n d m u t s o p o u l 2 0 0 0 】是英文样本 集,来源于提供者在一段时间内收到的真实邮件,去掉了h t m l 格式的t a g 、附件等,保留 了邮件正文的纯文本内容。由于对用户地址薄中的联系人( 白名单) 发送的邮件一般认为都 4 垃圾邮件过滤系统的改i 北及样本库生成系统的设计1 j 实现 不是垃圾邮件,不进行垃圾邮件检查。冈此p u 中的合法邮件来自于两个部分,一部份是非 地址薄中的联系人发送的合法邮件,另一部分是地址薄中的联系人发送的头5 封邮件,认为 发送5 封合法邮件以后就将该联系人加入地址薄中。p u 共有1 0 9 9 封邮件,包含4 8 l 封垃圾 邮件、6 1 8 封非垃圾邮件。为保护提供者的隐私,将邮件中的词汇_ i j 其整数i d 替换,词汇 和档数i d 的对照表不公开。1 0 1 9 9 封邮件分为1 0 份,每份大约1 1 0 篇,可以每次取其中的9 份作为训练集另外l 份作为测试集,如此交义做1 0 次,这种实验方法被称为k 次交叉验 证( k f o i dc m s sv a l j d a t j o n ) 。 其他形式的p u 系列样本集如p u 2 、p u 3 、p u a ,如下表1 1 所示。 表l 一1 p u l 系列样本集 样本集名称正常邮件数量( 封)垃圾邮什数量( 封) 总数量( 封) p u l6 1 84 8 l1 0 9 9 p u 25 7 91 4 2 7 2 l p u 32 3 1 31 8 2 6 4 1 3 9 p u a5 7 15 7 l1 1 4 2 4 ) s p l a s s s i n 样本集 s p 栅a s s 越s n i 删1 是n e t w o r k a s s i a t e s 的j u s l i n m a s 彻提供的。与l i n g - s p 姗有些类似, 其合法邮件来自公众论坛。包含j 8 9 7 封垃圾邮件和4 1 5 0 封非垃圾邮件。s d a s s s i n 可 以从h t t p 舶;p m s s i n a p a c h e o q 卯u b i i c c o r p 吲获得。每封邮件保持原样。 5 ) s 咖b 样本集刚 s p b a 样本集由h o p k i m 、r b e r 等人提供。与之前样本集不同,s p m b a 将每一 封邮件都表示为向量的形式,每个向量都是5 7 维( 预先选择出来的5 7 个词特征) ,权重一 般是词频。s p b a 包含1 8 1 3 封垃圾邮件,2 7 船封非垃圾邮件,这些邮件都来自于提供 者的私人邮件s p a m b a 样本集可以从h n p :伽m vi c s u c i e d u m l e a n l ,m l r e p o s i t o h t i i l l 获 得。 6 ) s p a m c h i v e 样本集 s p a m a r c h i v e o 唱i ”1 是一个提供已知的垃圾邮件的社区资源,用于测试,衡量反垃圾邮 件的工具。收集的垃圾邮件每天都在增长。目前为止已经有2 2 2 5 0 6 封垃圾邮件。 7 ) c c e r t 小组的中文邮件样本集 c c e r t 中文邮件样本集”是由c c e r t 小组于2 0 0 5 年8 月公布,使用垃圾邮件蜜罐 技术来收集垃圾邮件,正常邮件是收集公开论坛所发表的帖子模仿正常邮件的格式、主题和 内容构成。2 0 0 5 年8 月公布的样本集包含了2 0 0 5 年6 月1 日至7 月3 1 日收集到的垃圾邮 件和正常邮件大约6 3 7 l o 封。但c c e r t 小组的中文邮件样本集只包含纯中文简体邮件,不 包含英文邮件且该邮件样本集的正常邮件为公众论坛的帖子,这与实际的邮件环境还是有很 多差距的。 本论文的重点是研究邮件样本集生成系统的构造上文介绍的各种邮件样本集均已经在 实际环境中使用,但又各有不同,适用不同的使用环境。下表1 2 列出这些邮件样本集,并 对它们的优点和缺点加以总结和比较,以供参考。 表1 2各种邮件样本集比较 邮件样本集名称优点缺点 e n m n 样本集 正常邮什样本数餐多 没有垃圾邮件样本 “n s p a m 样本集 正常邮什样本程度分类清晰邮件内容都偏向于一个主题, p u 样本集正常邮什样本程度分类清晰样本均为英文邮件;加密方法 过于简单 东南人学硕l 学位论文 s p a m a s s s n 样本集 包含了上e 常邮件和垃圾邮件样本均为英文邮件,合法邮件 样本,且邮件样本分类清晰来自公众论坛 c c e r t 小组的中文邮件首份包含中文邮什的样本集样本来源与真实环境中数据 样本集 有筹距 从目前的邮件样本集的研究现状可以看出,国外的由匹件样本集构建虽然比较完善,但都 是纯英文的邮件,不适用于中文垃圾邮件过滤系统的应用:而c c e r t 小组的中文邮件样本 集因为垃圾邮件采_ i j 蜜罐技术收集和从公众论坛收集帖子模拟正常邮件,并不能代表真实环 境中的样本,对于衡量邮件过滤系统的性能缺乏一定的可信度。 因此针对目前已有的邮件样本集的缺陷和不足基于c e r n e t 华东( 北) 地区网络中 心的邮件系统支撑上,构建一个应用于第三方的,可以实时收集邮件数据,结合用户人工评 判的标准答案的样本库生成系统。 1 5 论文的研究目标与主要内容 本论文工作的研究目标总结为:针对目前需求为能够模拟真实邮件环境的包含标准分类 答案的邮件样本集设计一个基于邮件服务器环境,并带由用户人工评判标准答案的样本库 生成系统。论文主要对系统的整体结构进行设计和对构建样本库生成系统中涉及的关键技术 进行研究,并实现系统中的各个功能模块。 并在样本库生成系统的支持下,根据实际采集的样本,从过滤算法上对现有实验室使 用的邮件过滤系统做必要的改进使垃圾邮件过滤系统的多层过滤框架不变的情况下过滤性 能更优。 围绕上述目标,本论文研究的内容主要包括样本库生成系统的总体结构设计、各功能模 块的具体设计与实现等问题展开。具体研究内容包括: 1 )系统的总体结构设计 通过分析现有的邮件样本库的优缺点和对邮件样本集的需求,根据实际邮件收集环 境和系统从收集邮件到最终样本集输出整个流程,详细设计系统的基本框架和功能模 块。 2 )用户评判邮件方法的研究 样本集中垃圾邮件与正常邮件的区分由用户完成用户评判邮件过程中面l 临重复邮 件等多种问题,论文将根据垃圾邮件的定义、用户的人工评判、用户的评分和系统管理 员的监测。采用备种方法进行研究使得系统生成的邮件样本集中邮件分类标准。 3 对用户评分的研究 为了防止用户恶意提交邮件,系统将会根据用户的提交行为和邮件内容对用户评 分,该分将会确定用户日后提交的邮件是否入库。系统将采用综合评价的方法对用户进 行打分,以及通过实验验证,对分值和总阀值进行计算和调整,以达到最优效果。 4 )正常邮件的数据隐私保护的研究 为了保护邮件用户的隐私,论文将在对正常邮件内容如何进行数据隐私保护,且隐 私保护处理后不影响垃圾邮件过滤系统的过滤性能方面进行研究。 5 ) 过滤算法的改进 通过对垃圾邮件特征的研究和对现采用的过滤算法的研究,从升级病毒过滤软件、 调整系统自学习资源和引入b n r 算法分别对邮件过滤系统存在问题的各个方面进行改 进。 6 垃圾邮件过滤系统的改进及样本库生成系统的设计,实现 1 6 论文的组织结构 本论文的组织安排如f : 第一章首先介绍了垃圾邮件的影响,以及针对垃圾邮件的各种邮件过滤算法;随后分 析了邮件样本集的重要作 j ,并比较了现有邮件样本集它们各自的优缺点,提出构建标准邮 件样本库生成系统的必要;最后给出论文的研究目标和主要内容。 第二章首先提出了构建一个邮件样本库生成系统存在的各种技术、非技术方面的问题, 分析了现有邮件样本集的构造方法。通过总结对现有邮件样本集构造方法的不足,阐述了样 本库生成系统对非技术类的问题的解决方案以及针对实际邮件收集环境,详细介绍生成系 统中关键技术的研究。主要包括:与邮件服务器的融合、用户评判邮件类别技术的研究、对 用户评分的研究和正常邮件隐私保护方法的研究四个方面。 第三章详细介绍样本库生成系统总体结构设计和主要模块说明,以及各个子系统的实 现机制和功能结构。 第四章首先分析邮件过滤系统存在的问题并提出从升级病毒过滤软件、调整系统自 学习资源和引入b n r 算法三个方法对邮件过滤系统进行改进。并详细介绍了阶恨算法以 及针对中文邮件环境做了部分改进。 第五章首先介绍了样本库生成系统的实验步骤,然后给出样本库生成系统的实验结果 和数据分析。以及通过第三方垃圾邮件评测系统的数据验证了改进后的邮件过滤系统性能的 提高。 第六章总结论文的主要成果,并展望未来的研究方向。 东南人学硕1 :学位论文 第二章邮件样本库生成系统关键技术的研究 本章用绕样本库生成系统的构建流程,研究了在此过程中存在的技术方面、非技术方 面的问题。随后对现有的样本集生成方法进行了分析和探讨,并在此基础上分别介绍了对于 非技术问题和技术问题的解决方案,为f 一步实现标准邮件样本库生成系统提供依据。 2 1 邮件样本集构建流程 利”绷晰雠黝翎腓件胁集喜 圆 圆 圆 生成一个标准邮件样本集的难度有很多,如在邮件收集过程中正常邮件难以收集、邮 件分类过程中垃圾邮件的定义还有很多争议,正常邮件和垃圾邮件分类是否准确等问题。论 文在下面将详细描述构建邮件样本集中存在的问题。 2 2 构建邮件样本集存在的问题 2 2 1 非技术方面 1 ) 垃圾邮件定义问题 垃圾邮件的定义是处理所有垃圾邮件相关问题的一个基点。在中国互联网协会反垃圾 邮件规范中垃圾邮件被界定为: 收件人事先投有提出要求或者不同意接收的广告、电子刊物以及各种形式的宣传邮 件。 收件人无法拒收的电子邮件。 隐藏发件人身份、地址、标题等信息的电子邮件。 含有虚假的信息源、发件人,路由等信息的电子邮件。 按照上述界定,上面四类邮件都属于垃圾邮件范畴。相反,我们可以称收到的其他邮 件为“正常邮件一。这意味着虽然垃圾邮件的判定会冈人而异,不同的用户对同一邮件的判定 结果可能存在差异但对一封邮件是否为垃圾邮件的判定只能由用户给出,由于恶意和疏忽 8 垃圾邮件过滤系统的改进及样奉库生成系统的设计j 实现 等冈素的存在,使得这个问题变得更加复杂。 2 ) 收集邮件过程中涉及到的法律问题 电子邮件属于个人隐私范畴,根据中国互联网协会公共电子邮件服务( 试行) 规范中 的规定,电子邮件服务商对于客户的电子邮件地址、邮件内容、个人资料负有保密的义务, 未经允许不得以任何形式将客户信息提供给第三方等。 3 ) 正常邮件收集困难 因电子邮件本身的特殊性,正常邮件的收集比较困难。大部分邮件用户不愿意自己的邮 件内容被公布,特别是邮件中会涉及到很多商业信息或者个人隐私使得用户拒绝提供正常邮 件。 2 2 2 技术方面 1 ) 邮件服务器的融合问题 邮件样本的收集应该尽可能地不干扰所在邮件服务器的正常运作,且作为收集邮件样本 的第三方应该能在不考虑原有邮件服务器系统细节的情况下能与其合作工作。在收集邮件样 本过程中要与原有邮件服务器保持相同的安全等级。同时,不论样本收集系统运行与否, 原邮件服务器的参数设置和运行方式都不应该受到影响。最后还需考虑如何保证所有收集的 邮件的信息安全。 2 ) 邮件内容安全保证问题 邮件样本库生成系统的用户虽然是自愿提交他们的私人邮件但仍要保护这些“贡献 者。体现在邮件中的一些个人隐私内容。所谓邮件用户的隐私信息,是指能从邮件中得出与 用户个人信息相关的内容,如用户最近的活动、邮件体中涉及用户姓名以及商业机密等信息。 邮件内容的安全保证就是采用技术手段对用户提交的正常邮件这些信息替换掉,增强用户对 于提交自己正常邮件后而不会产生个人隐私泄漏的信心,同时尽可能保证原来邮件的特征。 3 ) 影响样本集质量的因素 总结论文i 4 节中对多个邮件样本集的优缺点就可看出,现在缺少的并不是邮件样本, 而是高质量的邮件样本集。这个质量主要体现在2 个方面,一个是准确性,一个是真实性。 邮件样本集中的邮件分类标准是指垃圾邮件和正常邮件的区分不是某个邮件过滤系统 的结果,而是遵从前面对垃圾邮件的定义。既然分类标准要依赖于用户的人工的评判,则在 样本收集过程需要区分对一封邮件是否为多重评判以及用户的评判是否为恶意评判。一封邮 件的多重评判是指对于同一封发送给多个用户的邮件被这些用户判断成为两类。如某个用户 订阅了某个电子杂志,同样该封邮件也发送给了某个并没有订阅的用户,则对这封邮件的评 定就会出现两种不同的评判。用户的恶意评判是指参加自愿提交邮件的某些用户故意将正常 邮件分类提交为垃圾邮件或将垃圾邮件分类提交为正常邮件,以混淆样本集中分类的标准。 因最后提供给邮件过滤系统使用的是需经过邮件内容保护后的邮件样本集,则又带来的 一个新的问题,内容保护后的邮件不可避免的会对邮件整体进行一些更改,而不适当的邮件 内容替换则会影响过滤系统的过滤性能。随着替换内容的增多,邮件的属性改变的就越大。 2 3 现有邮件样本集构造方法 本节通过对现有邮件样本集构造方法的总结,介绍了它们对构建样本集中出现的问题 解决方案,结合垃圾邮件的定义,探讨了这些方案的优点和不足。 1 ) c c e r t 小组的中文邮件样本集 9 东南人学硕 :学位论文 邮件定义: 垃圾邮件:1 ) c c e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论