（计算机应用技术专业论文）电子邮件个性化过滤系统研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：60 大小：4.64MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

（计算机应用技术专业论文）电子邮件个性化过滤系统研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要电子邮件已成为互联网上最重要的通信方式之一，随之也带来了垃圾邮件的泛滥。各种垃圾邮件过滤技术发展迅速，但它们依然存在着不少缺陷，其中最主要的两点是：没有完全面向用户而导致过高的误报率以及垃圾邮件过滤系统整体过滤效果欠佳。本文试图通过研究电子邮件个性化过滤以推进上述问题的解决。本项研究的思路是：采用一种二级协同过滤的机制来研究电子邮件的个性化过滤问题，即第一级共性化垃圾邮件过滤级设计一组过滤器以达到过滤某类共性化垃圾邮件的目的，在第二级个性化垃圾邮件过滤级则依照用户的个性化规则设计一组个性化过滤器实现更精密的过滤以满足用户的要求，并最终有效提高邮件过滤的准确率和降低邮件过滤的漏报率、误报率。在该过滤系统中，共性化垃圾邮件过滤级与个性化垃圾邮件过滤级并不是完全独立的，两级规则库间设计恰当的通信机制，实现两者的协同过滤以提高系统性能。本文主要围绕电子邮件过滤研究的相关方面展开，具体工作如下：分析垃圾邮件现状，研究最新的垃圾邮件过滤产品，探讨其不足之处，在此基础上，提出电子邮件个性化过滤系统研究的技术路线；剖析电子邮件系统的工作原理以及相关协议，研究常用电子邮件过滤技术、主要模型，为进一步研究做准备；刻画电子邮件个性化过滤系统应具备的特征，并以此为目标提出一种新的个性化过滤电子邮件的研究思路，进而构建“电子邮件个性化过滤系统的系统结构模型；针对构建的结构模型及各模块预计的功能，研究实现邮件个性化过滤系统的若干关键技术；实现电子邮件过滤系统的主要功能并进行相关试验，验证系统过滤性能。关键词：个性化；邮件过滤：结构模型；垃圾邮件 a bs t r a c t e m a i li st h eo n eo ft h em o s ti m p o r t a n ti n t e m e tc o m m u n i c a t i o nm e a n q ，b u ta tt h es a m e t i m e ，t h a tb r i n g ss p a mo v e r f l o w i n g s o m ek i n d so fa n t i - s p a mt e c h n i q u eh a v eb e e nd e v e l o p i n g r a p i d l y ；h o w e v e r , t h e r ea r es e v e r a lf a u l t si ni t ，e g ，n o tr e a l l yu s e r - o r i e n t e ds ot h a tg i v er i s et o t h ef a l lr a t ea n dt h ej u n km a i lf i l t e rd o e s n tw o r kw e l l t h i sp a p e rt r i e st os o l v et h e s e p r o b l e m sb yp r o p o s i n gt h er e s e a r c ho fe m a i lp e r s o n a l i z e df i l t e rs y s t e m t h er e s e a r c ho fe - m a i lp e r s o n a l i z e df i l t e rs y s t e mi sb a s e do nc o - o p e r a t i o nt o g e t h e rt h e t w og r a d e si nt h ep a p e r , t h a ti s ，a tt h ef i r s tg r a d ei tf i l t e r ss o m ec o m e rs p a mb yag r o u po f f i l t e r , a n da tt h es e c o n dg r a d ei tf i l t e r st h eo t h e rs p a mm o r ep r e c i s i o nb yd e s i g n i n gs o m e p e r s o n a l i z e df i l t e r t h a tm e t h o da d v a n c e st h ep r e c i s i o no ft h ef i l t e rs y s t e ma n d r e d u c e st h e f a l lr a t ea n dt h em i s sr a t e ，s om e e t i n gt h ed e m a n do f c u s t o m e r i nt h er e s e a r c ho f t h i ss y s t e m , t h e r ei sn o tt o t a l l ya u t o c e p h a l yb e t w e e nt h ec o m e rs p a mf i l t e rg r a d ea n dt h ep e r s o n a l i z e d s p a r ef i l t e rg r a d e ，b u tt h e r ei ss o m ec o m m u n i c a t i o nm e c h a n i s mb e t w e e nt h et w og r a d e s ，t h a t i m p r o v e dt h ep e r f o r m a n c eo f t h ew h o l es y s t e m i nt h ep a p e rt h ea u t h o rm a k e st h ef o l l o w i n gc o n t r i b u t i o no ns o m er e l a t e de m a i lf i l t e r s y s t e mr e s e a r c h ： a n a l y z i n gt h es p a mo v e r f l o wa c t u a l i t y , r e s e a r c h i n gt h el a t e s te - m a i lf i l t e rp r o d u c t s a th o m ea n da b r o a d ，i n d i c a t i n gi t s s h o r t , a n db a s e do nt h o s e ，p r e s e n t i n gt h e t e c h n i q u e sr o u t eo f t h ep e r s o n a l i z e de m a i lf i l t e rr e s e a r c h ； t a k i n ga p a r tt h ew o r k i n gp r i n c i p l eo fe m a i ls y s t e ma n ds o m er e l a t e dp r o t o c o l , r e s e a r c h i n gs o m ec o m m o n e - m a i lf i l t e rm e t h o d sa n dt h o s em o d e l s ； d e p i c t i n gt h ef e a t u r et h a tt h ee - m a i lp e r s o n a l i z e df i l t e rs y s t e ms h o u l db e l o n g ，p u t f o r w a r dan e wr e s e a r c hm e t h o dt oa c h i e v et h ef i l t e rs y s t e ma n de s t a b l i s ht h ew h o l e s y s t e mf r a m e w o r km o d e l o f t h ep e r s o n a l i z e de - m a i lf i l t e rs y s t e m ； a i ma tt h ef r a m e w o r km o d e la n a l y z i n gt h ef u n c t i o no fa l lm o d u l e s ，r e s e a r c ht h e k e yt e c h n i q u e sf o ra c h i e v i n gt h ee - m a i lp e r s o n a l i z e df i l t e rs y s t e m ； a c h i e v i n gt h em a i nf u n c t i o no f t h ef i l t e rs y s t e ma n dp u tu pr e l a t e dt e s t s , v a l i d a t i n g t h es y s t e mp e r f o r m a n c e k e yw o r d s ：p e r s o n a l i z e d ；e - m a i lf i l t e r i n g ；f r a m e w o r km o d e l ；l a y e rf i l t e r i n g i i 长沙理工大学学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名： 1 王灸日期：2 1 年| 1 月7 2 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于 1 、保密口，在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“4 ) 作者签名：乍久日期：2 呷年帅2 乙日导师签名：彳扒醐：叩沙日 1 1 研究背景第一章绪论随着i m e m e t 的发展，电子邮件已成为一种常用的通信方式。有数据表明目前全球注册的电子邮件信箱已经超过5 亿个，每时每刻都有成千上万的用户在使用电子邮件系统进行信息沟通。但由于其成本低廉、传播迅速，i m e m e t 上出现了越来越多的不被请求的邮件，即垃圾邮件。这些不受欢迎的垃圾邮件使用户不得不花费大量的时间和精力来处理它们，从而严重影响了用户对电子邮件的正常使用。 1 1 1 垃圾邮件定义目前国际上对垃圾邮件并没有形成一个统一的定义【】。 i r e s e a r c h 根据d o u b l e c l i c k 公布的数据整理分析发现：超过百分之九十的美国网络用户认为含有“欺骗性语言标题、“攻击性语言标题和“未知发件人地址的邮件都是垃圾邮件。而有5 7 的用户表示，那些自己曾经同意接收但后来不再希望继续接收的商业邮件也被认为是垃圾邮件。中国电信将垃圾邮件的定义为：。向未主动请求的用户发送的电子邮件广告、刊物或其他资料；没有明确的退信方法、发信人、回信地址等的邮件；利用中国电信的网络从事违反其他i s p ( i m e m e ts e r v i c ep r o v i d e r ) 的安全策略或服务条款的行为；其它预计会导致投诉的邮件。斗中国互联网协会在中国互联网协会反垃圾邮件规范给出了一个关于垃圾邮件正式的定义，只要是符合下述条件之一的电子邮件都可被称为垃圾邮件：( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件； ( 2 ) 收件人无法拒收的电子邮件：( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件：( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件；( 5 ) 含有病毒、恶意代码、色情、反动等不良信息或有害信息的邮件。 1 1 2 垃圾邮件现状调查最近，美国一项新的基于m a s s a c h u s e t t s 的n u c l e u sr e s e a r c h 研究机构对8 4 9 名电子邮箱用户进行了抽样调聋z 】，其研究结果表明：垃圾邮件的泛滥对美国企业的每位员工可造成平均7 1 2 美元的经济损失；从研究结果中还发现，每位电子邮箱用户平均每天收到的邮件中，有三分之二是垃圾邮件；各企业单位平均每天收到的邮件中有至少百分之九十是垃圾邮件，而电子邮箱用户平均每天可收到垃圾邮件多达2 1 封。垃圾邮件给个人用户、企业用户都带来了极大的危害。从个人用户未看，垃圾邮件浪费了用户大量的时间、精力和金钱。根据美国n u c l e u sr e s e a r c h 公司公布的数据，全球每天大约有1 5 0 亿封垃圾邮件在网上传输，平均全球每人每天收到二封以上的垃圾邮件，单是下载它们所花费的上网费和电话等费用，每年就会花掉全球网民9 4 亿美元，而且如色情、电脑病毒以及各种欺诈信等更是造成难以评估的损失。更重要的是，垃圾邮件侵犯收件人的隐私权，侵占收件人信箱空间。个人邮件箱中充斥的垃圾邮件可能装载了供人跟踪您网上行踪的软件，而您甚至无法意识到一切秘密都呈现在别人眼前。有的垃圾邮件还盗用他人的电子邮件地址做发信地址，严重损害了他人的信誉。对于企业，垃圾邮件占用网络带宽，造成邮件服务器拥塞，进而降低整个网络的运行效率，甚至威胁企业网络的安全，影响企业正常的生产和经营活动。据美联社引述f e r r i sr e s e a r c h 研究报导，垃圾邮件每年除对美国，欧洲企业分别造成高达8 9 亿美元和2 5 亿美元的损失外，另外还花掉欧美服务器提供商至少5 亿美元的资源。 t r c 历次调研中围阿民每月收j ：u 垃墩呱什m 占的比例 4 1 2 0 0 57 1 2 0 0 510 1 2 0 0 50 1 2 0 0 6 6 1 2 0 0 6 10 1 2 0 0 6 巾固互联网协盒反垃圾邮件巾，山n n 岫，o n t i - - p am c n l 图1 1i s c 历次调查中国网民每周收到垃圾邮件所占比例图1 2 用户处理垃圾邮件时间调查结果我国垃圾邮件现状同样不容乐观，根据中国互联网协会反垃圾邮件中心2 0 0 6 年3 2 罨需：2 坫鲫博 d 月发布的2 0 0 6 反垃圾邮件报告指出【l 】，中国互联网用户平均每周收到垃圾邮件数量为1 9 3 3 封，较2 0 0 5 年7 月的报告的1 7 2 5 封上升了2 0 8 封。图1 1 给出了2 0 0 5 年4 月至2 0 0 6 年1 0 月6 次i s c ( i n t e m e ts o e i e t yo f c h i n a ，中国互联网协会) 关于中国网民每周收到的垃圾邮件所占比例的调查报告，由该图可清楚的看出垃圾邮件比例明显大于正常邮件的比例，说明了目前垃圾邮件的泛滥程度。图1 2 给出的是中国网民处理垃圾邮件的时间，从该图可以看出超过7 0 的入处理垃圾邮件所花费的时间都很少。另以2 0 0 5 中国国民经济生产总值为依据，结合本次调查报告中“用户每周处理垃圾邮件所需时间，计算出平均时间为1 2 6 7 分钟，依照科学的比例计算方法，得出垃圾邮件将给中国的国民经济每年造成约为6 3 8 亿人民币的损失。这仅仅是按照时间计算出的相对损失，还没有列入诸如邮件服务器处理垃圾邮件的额外付出、存储成本，以及用于处理垃圾邮件的技术人力付出所造成的损失。如将上述项目整体计算，显而易见最终的损失还要严重。由此可以看出一个高性能的邮件分类过滤器对于人们处理邮件是非常必要的。 1 1 3 垃圾邮件的危害性通过对垃圾邮件现状的一系列调查，可以总结出垃圾邮件具有以下危害性：垃圾邮件数量的庞大给网络带来了巨大的危害，它占用了大量传输、存储和运算资源，造成邮件服务器拥堵，严重影响正常的邮件服务；垃圾邮件具有数量多，反复性，强制性，欺骗性，不健康性和传播速度快等特点，对社会带来很大影响；垃圾邮件给国家经济造成的损失正在逐年增加，如果不及时采取相应的遏制措施，它将愈演愈烈。 1 2 国内外垃圾邮件过滤产品研究现状 1 。2 1 国内外产品介绍随着电子邮件的广泛应用，为了防范垃圾邮件可能造成的各种危害，国内外研究人员做了大量的工作，并取得了很大的成绩，研发出许多反垃圾邮件产品。本节介绍国内外最新的垃圾邮件过滤产品，分析它们采用的过滤技术、工作原理、特征和应用范围。 k i l l 邮件安全网关( k s g m ) 该网关是冠群金辰公司专为企业级用户设计的邮件安全设备r ，1 ，采用身份认证、规范检查、特征分析、行为分析、黑白名单、智能识别等超过二十种领先的邮件安全技术，通过流量预处理、行为分析、深度内容分析过程，多因素关联分析，精确识别垃圾邮件。全面的邮件安全防御技术不仅防御邮件病毒、垃圾邮件，而且在反垃圾邮件技术基础上进行全面扩展，全面抵御邮件假冒( s p o o f i n g ) 、网络钓鱼( p h i s h i n g ) 、d h a ( d i r e c t o r y h a r v e s ta t t a c k ) 攻击、邮件d o s 攻击等，对邮件威胁进行综合防范。这是一种功能比较全面的邮件安全网关，能够精确识别企业级用户垃圾邮件。 s p a m f i g h t e rh o s t e ds p a mf i l t e r 托管垃圾邮件过滤器托管垃圾邮件过滤器【4 】是由来自2 1 6 个国家地区的3 7 7 7 3 7 8 位s p a m f i g h t e r 用户支持的。该过滤器不是运行在个体电脑下的一种软件或服务。其工作原理是如果有少数的s p a m f i g h t e r 用户报告了同一封垃圾邮件，这封垃圾邮件会立即被删除，以避免其他用户收到此封垃圾邮件。这就意味着用户不用进行任何配置或维护，它就会对用户的业务进行保护，以免受到垃圾邮件的困扰。该过滤器的设计原理具有一定的现实意义，但采用的过滤方式过于单一，需要大量用户的支持，同时，该方法过滤参数阈值选取不当可能导致大量邮件的误判，造成更大损失，另外这种过滤器可能存在较高的漏报率。 s y m a n t e ca n t i v i r u sf o rs m t pg a t e w a y s 该网关为互联网电子邮件通信提供了集成的多层邮件安全机制1 5 】。它使用多层技术的组合( 如反垃圾邮件启发式技术、多种实时黑名单( r b l ) 、定制的黑名单和白名单) 扫描附件中的病毒，并阻挡垃圾邮件等不受欢迎的内容。可以根据常见的邮件特征( 如主题、附件名称、扩展名和最大邮件大小) 来阻挡不受欢迎的内容。管理员可以从一个安全的w e b 浏览器制定灵活的策略、安排更新、接收系统和安全警报以及生成管理报匕口o s y m a n t e ca n t i v i r u sf o rs m t pg a t e w a y s 合并了赛门铁克各种获奖的防病毒技术，包括独立于平台的可扩展的n a v e x t m 扫描引擎，使管理员可以进行动态更新，而无需停止扫描服务或导致服务器宕机。凭借其集成的l i v e u p d a t e t m 功能，可以在整个企业中快速而安全地部署病毒防治方案，从而提供防御迅速蔓延的威胁的最佳方法。该邮件过滤网关同时提供垃圾邮件过滤和病毒过滤，具有较好的性能，但从采用的过滤方法分析，其内容过滤的精确率不高。在当今垃圾邮件特征越来越不明显、变异性越来越强的情况下，其过滤效率越来越难以满足实际的需要。 r i n g s u n gm a i lf i l t e r ，龙翔信达邮件过滤系统，简称i 洲f 【6 】这是一款软硬结合的邮件过滤设备，它集透明防火墙、传输代理、内容过滤、网络连接控制等技术于一身，对垃圾邮件进行全方位( 内容、连接频度、i p 地址等) 的防堵。具有以下功能：并发连接控制：可以限制来自相同i p 的最大同时连接数量；可以限制来自相同i p 的最大连接频率；可以设置黑白名单，对指定i p 作特别限制等；实时发现攻击、自动防卫：根据“规则”实时检测；发现问题自动处理；多种报警方式。强大的规则管理：扫描范围限制；丰富的“条件设置；支持“和、“或规则；方便的规则设定、查询；规则自动手动导入、导出及冲突检测；支持b a s e 6 4 、q u o t e dp r i n t a b l e 和u u e n c o d e 等各种编码；支持h t m l 、附件、m i m e 嵌套和多层嵌套：业务模块采用插件方式( p l u g i n ) ，方便业务的扩展。支持主题、发件人、收件人、抄送人、信头、信体、附件、i p 连续性等各种扫描条件。灵活的处理措施：支持报警、弹回、丢弃，转发、投递、等待、延时等动作。完备的攻击记录和统计信息：详细记录攻击日志：匹配记录及图表：清晰的分析图表；方便的管理；通过控制台进行c m a i l - s c a n 的管理任务。记录详细的日志，包括时间、i p 地址、并发数、频率、匹配规则等信息。通过日志可以统计系统的负载情况和垃圾邮件的分布情况。所有规则存放在中央数据库中，过 4 滤模块会定时或接受管理端的更新指令，自动更新所使用的规则库，规则立刻起作用，而无需重起服务进程，适合集中式管理。该过滤系统功能较为完善，其误报率极低，约为0 1 ，但整体过滤率为9 0 左右。。 m c a f e es e c u r i t yw e b s h i e l ds m t p 这是一种基于软件而独立于防火墙的扫描程序，其内容过滤功能扫描标题行、邮件正文和文件附件名，以针对特定电子邮件进行防护【7 l 。对特定类型电子邮件其精度非常高，但也因此其应用范围有限。 b e t t e r 垃圾邮件过滤器 b e t t e r 垃圾邮件过滤器【s l ，原名邮件探针，是一款高效简洁的邮件预处理程序，可有效清除垃圾邮件和可疑病毒邮件。采用先进的软件技术和独到的设计，可以快速有效地清除垃圾和病毒邮件，保护个人计算机安全，提高工作效率，使用对象为日常邮件较多的用户。该程序显示邮件内容时不执行任何邮件附件和网页代码，脚本，所以非常安全。该软件可以与瑞星邮件监控等杀毒软件相配合，双重保护您的邮件安全。该过滤器充分的考虑了系统的安全性，是其最大的优点。 1 2 2 现有产品的不足由1 2 1 节可知，现在国内外专家学者对垃圾邮件过滤技术进行了很多研究，并出现了很多优秀的实用性产品。这些产品在功能上各有千秋，各有特色。由于技术的不断发展，当前邮件过滤产品至少还有以下三个方面的不足。现有的邮件服务器端过滤产品开发以及相关学术研究基本上没有个性化过滤的概念，而其结果就是导致邮件过滤系统较高的误报率和漏报率，影响整体过滤效果。垃圾邮件的判定与邮件的接收者、邮件的接收时间都有很大关系，不同用户对同一邮件的判断结果可能会存在差异，同一用户不同时间对同一类型邮件的判断结果可能也会不同。这就是邮件的个性化特征。如果不对此进行考虑，那发往不同邮件接收者的同一类型邮件经过同一邮件过滤装置过滤将产生同样的判断结果，但该结果仅相对于邮件服务器下的部分用户是正确的，而对其它用户而言可能邮件被处以了错误的判断。这种结果是邮件用户所不乐意见到的。反垃圾邮件过滤系统通常不具备对当前流行的垃圾邮件的预测能力。垃圾邮件通常具有群发的性质，即同一封邮件不经过任何改变或经过简单的变化被发送给众多用户，这意味着众多用户都将受其困扰，这也是垃圾邮件泛滥的重要原因，因此，用户渴望自己的邮箱在不进行任何配置或维护的同时，也能够有效的阻挡一部分垃圾邮件。用户规则制定与反馈机制的不完善。个性化过滤的实现很大程度上是通过规则的个性化来实现的，已有的用户规则制定模块规则制定不方便，需要用户具有一定的专业知识，不够灵活，功能有限，反馈机制同样过于简单，不能满足用户的要求，也降低了用户自身参与反垃圾邮件斗争的积极性。 1 3 本文主要研究内容为更好的研究邮件的个性化过滤，本文将网络上的垃圾邮件划分为共性化垃圾邮件与个性化垃圾邮件，以下是对共性化垃圾邮件和个性化垃圾邮件的定义。共性化垃圾邮件指所有用户共同认为的垃圾邮件，主要有以下几类：病毒邮件、具有反动宣传性、色情性等内容的邮件、来自一些权威机构发布的黑名单地址的邮件以及本邮件服务器用户共同反馈的垃圾邮件。个性化垃圾邮件指那些针对某个电子邮件系统用户而言，在某一时间段内不愿意接收到的电子邮件，具有因人而异、因时而异的个性化特征的垃圾邮件。根据定义，可以发现共性化垃圾邮件具有较明显的垃圾邮件特征，通过选用合适的过滤算法可以实现这类垃圾邮件的高效过滤，而个性化垃圾邮件是针对特定用户或特定时间的，它的过滤难以通过共性化过滤策略来实现，为此，本文提出一种共性化垃圾邮件与个性化垃圾邮件分开过滤的策略，研究一种共性化邮件过滤与个性化邮件过滤相结合的协同过滤方案来实现邮件个性化过滤系统。该过滤系统位于邮件服务器的前端，所有到达该服务器的邮件都将通过该过滤系统的过滤。该过滤系统的工作原理是在共性化邮件过滤级采用高效率地过滤算法及共性化过滤策略实现对共性化垃圾邮件的过滤，而在个性化邮件过滤级实现客户邮件按个性化规则进行的个性化精确过滤。共性化垃圾邮件过滤级的过滤规则具有共性化特征，即这些规则为所有该邮件服务器用户接受；个性化垃圾邮件过滤级的过滤规则具有个性化特征，这些规则由用户制定或者来自用户收到反馈的邮件特征信息。同时，本文将对两级过滤规则建立通信机制，使得共性化规则与个性化规则能够进行一定程度的转换，这样将有利于整个邮件服务器用户避免大量共性化垃圾邮件的困扰，以更好的处理用户自身的个性化邮件。理论上来说，这样做有三方面的意义：一方面有利于更灵活的构建过滤系统，采用更灵活的过滤策略，更充分的考虑用户的过滤要求，使过滤系统具有更高的过滤精确率，并降低邮件漏报和误报的发生几率；另一方面个性化规则能够转化成共性化规则，将帮助整个邮件服务器用户更好的预防当前流行的垃圾邮件，以免受其困扰；第三，该过滤系统位于服务器前端，是一个独立的硬件系统，不会对客户机、服务器和内部网络带来额外负荷。通过对已有产品不足的分析，本文提出“电子邮件个性化过滤研究试图推动这些问题的解决。具体来说，围绕电子邮件个性化过滤系统研究的相关方面，本文主要内容包括以下几个方面： ( 1 ) 分析垃圾邮件现状及危害，研究最新的垃圾邮件过滤产品，探讨其不足之处，在此基础上，提出电子邮件个性化过滤系统研究的技术路线； ( 2 ) 剖析电子邮件系统的工作原理以及相关协议，研究常用电子邮件过滤技术、主要模型，为进一步的研究做准备； ( 3 ) 刻画电子邮件个性化过滤系统应具备的特征，并以此为目标提出一种新的个性化过滤电子邮件的研究思路，进而构建“电子邮件个性化过滤系统”的系统结构模型； ( 4 ) 针对构建的结构模型及各模块预计的功能，研究实现邮件个性化过滤系统的若干关键技术； ( 5 ) 实现电子邮件过滤系统的主要功能并进行相关试验，验证系统过滤性能。 7 第二章电子邮件过滤技术电子邮件是当前应用最广泛的i n t e r n e t 服务之一，随着社会信息化的发展，它给人们日常的通信带来了极大的便利。尤其是经过3 0 多年的发展，电子邮件系统的功能越来越完善，从单纯传递文字信息发展为可以传送各种多媒体信息的通信，成为了互联网用户最主要的信息交流工具之一。与此同时，垃圾邮件也日益猖獗，研究垃圾邮件过滤技术成为了互联网领域的一项研究热点。本章的主要内容是探讨电子邮件系统的基本原理，分析常用的电子邮件过滤技术的特点，讨论已有的电子邮件过滤系统的结构模型，分析其构建方式，为下一步研究电子邮件个性化过滤系统做准备。 2 1 电子邮件系统的工作原理电子邮件过滤系统的工作内容是对电子邮件系统接收或发送的电子邮件进行判断、分类，为此，研究电子邮件过滤系统首先应当掌握电子邮件系统的组成及其工作原理，掌握电子邮件的发送和接收过程，掌握基本的邮件通信协议，掌握电子邮件的组成元素。电子邮件系统主要由三部分组成f 9 j ：邮件用户代理( m a i lu s e r a g e n t ，m u a ) ，邮件分发代理( m a i ld e l i v e r y a g e n t ，m d a ) 和邮件传输代理( m a i lt r a n s f e r a g e n t ，m t a ) 。下面对其功能进行简单介绍。邮件用户代理( m u a ) 是用户接口。在电子邮件系统中，用户在邮件服务器上拥有一个信箱来存放自己的邮件。m u a 向用户提供了读取并处理存放在他们信箱中电子邮件以及向外发送电子邮件的操作界面。m u a 至少具有以下三个方面的功能：显示信件：即提供方便的界面，将用户信箱里的电子邮件( 包括新接收到的和已有的) 展现到用户面前。撰写信件：即给用户提供一个能够方便编辑信件的环境。处理信件：支持用户根据实际情况按照不同的方式对各种信件进行处理操作。例如自建目录对信件进行分类保存，在阅读后删除，存盘，打印或转发，先查看来信的发信人及长度再读取等。邮件分发代理( m d a ) 的主要工作是将邮件服务器接收到的电子邮件分发给相应的目的用户。也就是说，将每一封电子邮件根据收信人账户存放到相应的信箱中。除了上述的电子邮件分发功能，m d a 还拥有一些辅助功能。例如自动邮件回复功能。所谓自动邮件回复，是指m d a 允许电子邮件用户基于来信的信头区域定义的内容发送回复邮件。电子邮件用户可以对自动邮件回复功能进行个性化定制，来满足对所接收信件进行不同类型的回复要求。邮件传输代理( m t a ) 负责处理所有接收和发送电子邮件的工作。m t a 是整 8 个电子邮件系统的中心环节。m t a 采用客户服务器的方式进行工作。如果电子邮件用户利用m u a 编辑好一封信件准备进行发送，m u a 就要将这封信件交给m t a 。本地的 m t a 作为远程目的邮件服务器的客户，与目的主机( 实际上是与目的主机上的m t a ) 建立t c p 连接，并将邮件传送过去。目的主机上的m t a 完成来信的接收工作。随后， m t a 把来信转交给m d a ，由m d a 根据收件人账号将这封信投递到相应的用户信箱里。总之，上述的m u a 、m d a 和m t a 共同组成整个电子邮件系统。图2 1 为电子邮件的存储转发示意图。图2 1 电子邮件存储转发示意图电子邮件的投递过程【l o l ： s t e p l ：邮件发送者利用本地的m u a l ，按照简单邮件传输协议s m t p ( s i m p l e m a i lt r a n s f e rp r o t o c 0 1 ) 把邮件发送给本域m t a l ； s t e p 2 m t a l 根据邮件的接收地址中的域名去查询域名服务器d n sfd o m a i n n a m es e r v e r ) 获得接收者的m t a 2 的i p 地址； s t e p 3 ：m t a l 与m t a 2 按照s m t p 协议通讯，把邮件转发到m t a 2 ； s t e p 4 ：m t a 2 发现邮件是本地邮件，则把邮件转发给m d a ； s t e p 5 ：m d a 把邮件分发到对应的邮箱中； s t e p 6 ：邮件接收者通过m u a 2 ，按照邮局协议p o p 3 ( p o s to f f i c ep r o t o c o lv e r s i o n3 ) 或i n t e m e t 邮件访问协议i m a p 4 ( i n t e m e tm e s s a g ea c c e s sp r o t o c o lv e r s i o n4 ) 从邮箱中获取邮件。由上述邮件投递过程可以看出，电子邮件系统的正常通信还需要很多相关协议的支持，例如p o p 3 、s m t p 等等。电子邮件系统的每个部分都有一系列的协议来规范其行为。由于整个电子邮件系统所涉及到的工作非常多，非常繁杂，所以相应的r f c 规范超过4 0 个。下面仅对比较重要的若干电子邮件协议 t l l 进行讨论。 ( 1 ) 邮局协议，版本3 ( p o p 3 ) p o p 3 协议由r f c l 9 3 9 定义，是一个颇为流行的允许客户机从远程服务器上收取邮件的协议。它允许用户的电子信箱安置在某个运行邮件服务器程序的计算机( 邮件服务器) 上，并允许用户从其个人计算机连接到邮件服务器，然后下载信箱中的内容。图 2 2 描述了p o p 3 协议的工作原理。 9 图2 2p o p 3 协议的工作原理示意图对于p o p 而言，从网上接收到的邮件交付给服务器，用户计算机不定期的连接到服务器，将自己的邮件下载到个人计算机上。此后，所有对邮件的处理都在用户的计算机上进行。因此p o p 服务器是一个具有存储转发功能的中间服务器。一旦邮件交给用户，p o p 服务器上就不再保存这些邮件。也就是说，邮局协议是一个脱机协议。这样做的优点是可以节省邮件服务器的存储空间。但是有一个很大的弊端，就是对于经常改变上网地点的用户来讲，不能随时查看自己的所有信件。另外，使用起来也不是很方便。交互邮件访问协议( i m a p ) 的出现，正是为了解决p o p 协议的这些不足。 ( 2 ) 交互邮件访问协议( i m a p ) i m a p 由r f c 2 0 6 0 定义。该协议使得用户可以在远地操纵邮件服务器上自己的信箱，就像在本地操纵一样。用户通过个人计算机，可以随时随地连接到远程i m a p 服务器上。如果用户需要打开某个邮件，则该邮件才被传送到用户的个人计算机上。用户也可以按照某种条件对所有邮件进行查找。在用户发出删除邮件的命令之前，用户信箱中的邮件一直被保存着。 i m a p 可以弥补p o p 3 协议的不足。但是其缺点是服务器占用空间较大。 ( 3 ) 多用途互联网邮件扩展( m i m e ，m u l t i p u r p o s ei n t e m e tm a i le x t e n s i o n s ) 简单邮件传输协议( s m t p ，s i m p l em a i lt r a n s f e rp r o t o c 0 1 ) 具有一系列的缺点。如 s m t p 不能传送可执行文件或其他的二进制对象，而且只限于传送7 位a s c i i 码，许多非英语国家的文字就无法传送。为了尽可能弥补s m t p 的这些缺陷，定义了 m i m e 。m i m e 是一种对二进制数据进行编码的互联网标准，其报文格式由r f c 2 0 4 5 和r f c 2 0 4 6 定义。 m i m e 并没有打算改动或取代s m t p 。m i m e 的意图是继续使用目前的电子邮件信头格式( r f c 8 2 2 ) ，但增加了信件主体结构，并且定义了传送非a s c i i 码的编码规则。也就是说，使用m i m e 的邮件可以在现有的电子邮件系统和协议下传送。 ( 4 ) 简单邮件传输协议( s m t p ) l o 简单邮件传输协议( s m t p ) 从1 9 8 2 年起就被用来在不同类型的计算机系统件传送电子邮件及其附件。因其使用方便，可移植性强而成为国际互联网络上计算机系统间传输电子邮件的标准协议。s m t p 由r f c 8 2 1 来定义。 s m t p 是整个电子邮件系统最为重要的一个协议。它定义了两个邮件传输代理 ( m t a ) 之间相互通信的规范。这里将对简单邮件传输协议( s m t p ) 进行较为深入的研究。图2 3 描述了s m t p 的会话过程。发送命令 1 、j 发送命令 + 一 1 发送命令发送命令发送命令卜、发送命令，，1 发送命令发送命令发件方s m t p收件方s m l p 图2 3s m t p 会话过程 s m t p 的目标是可靠高效地传送邮件，它独立于传送子系统而且仅要求一条可以保证传送数据单元顺序的通道。s m t p 的一个重要特点是它能够在传送中接力传送邮件，传送服务提供了进程间通信环境( i p c e ) ，此环境可以包括一个网络，几个网络或一个网络的子网。进程可能直接和其它进程通过已知的i p c e 通信。邮件可以通过连接在不同i p c e 上的进程跨网络进行邮件传送。更特别的是，邮件可以通过不同网络上的主机接力式传送。 s m t p 设计基于以下通信模型：针对用户的邮件请求，发送s m t p 建立与接收 s m t p 之间建立一个双向传送通道。接收s m t p 可以是最终接收者也可以是中间传送者。s m t p 命令由发送s m t p 发出，由接收s m t p 接收，而应答则反方面传送。一旦传送通道建立，s m t p 发送者发送m a i l 命令指明邮件发送者。如果s m t p 接收者可以接收邮件则返回o k 应答。s m t p 发送者再发出r c p t 命令确认邮件是否接收到。如果s m t p 接收者接收，则返回o k 应答；如果不能接收到，则发出拒绝接收应答( 但不中止整个邮件操作) ，双方将如此重复多次。随后，s m t p 发送者再发出 d a t a 命令，开始正式传送邮件信息。当接收者收到全部邮件后会接收到特别的序列，如果接收者成功处理了邮件，则返回o k 应答。 s m t p 提供传送邮件的机制，如果接收方与发送方连接在同一个传送服务下时，邮件可以直接由发送方主机传送到接收方主机；或者，当两者不在同一个传送服务下时，通过中继s m t p 服务器传送。为了能够对s m t p 服务器提供中继能力，它必须拥有最终目的主机地址和邮箱名称。 m a i l 命令参数是回复路径，它指定邮件从何处来；而r c p t 命令的参数是转发路径的，它指定邮件向何处去。向前路径是源路径，而回复路径是返回路径( 它用于发生错误时返回邮件) 。 ( 5 ) 扩展s m t p 协议 s m t p 协议在国际互联网络上计算机之间传输电子邮件的工作一直作得很好。但是随着电子邮件系统的升级和迅速处理要求的增加，它的局限性也开始被系统管理员所认识。人们没有尝试去取代这套全世界都在使用的标准协议，而是对基本的s m t p 进行了改进，在保持原有特性的基础上增加了一些符合实际需要的新功能。 1 9 9 5 年公布的r f c l 8 6 9 定义了一套扩展s m t p 功能方法的规范。使用扩展 s m t p 的标志是将s m t p 中的问候命令h e l o 改为新的问候命令e h l o 。一旦 s m t p 服务器接收到这条命令，它就能够意识到客户s m t p 服务器有能力发送扩展的 s m t p 命令。扩展s m t p 协议主要试图解决s m t p 服务器的安全性问题。它定义了e t r n 命令，允许s m t p 的客户端请求同服务器建立另一条s m t p 连接来反向传送电子邮件。 e t r n 命令仅仅开始另一个s m t p 对话，并不通过已经存在的s m t p 对话进行数据的传输。这样，s m t p 服务器就可以使用正常的d n s 域名解析方法同客户机进行联系。也就是说，e t r n 并不依赖于客户机自己声明的身份。如果黑客建立了一条未经授权的 s m t p 连接并发送了e t r n 命令，s m t p 服务器只会同真正的客户机建立连接并发送所有等待发送的邮件。这样并不会造成什么危害。扩展s m t p 协议另一个新提出得重要命令是a u t h 。它允许s m t p 客户机使用用户i d 和密码或其他认证技术向服务器正确标识自己的身份。这个命令主要是为了保证合法用户的信箱账号免遭他人的非法盗用。扩展s m t p 协议主要由r f c l 8 6 9 ，l 讧c 1 8 7 0 ，r f c l 8 9 1 来定义。还有更多的邮件协议，其内容可以在i e t fh o m ep a g e t l i 】的网站上了解。电子邮件过滤系统的过滤原理通常是先对接收或发送的电子邮件按其组成部分进行拆分，然后再对各个部分做相应的判断，最后按一定规则将判断结果联合起来对整封邮件的性质进行判断。由此，要对电子邮件过滤系统进行研究还需要掌握电子邮件的组成。电子邮件是由一个基本的信封、一些头域、一个空行和消息体组成的。每个头域由一行a s c i i 文本组成，其中包括域名、一个冒号，对于大多数字段来说都具有的值。具体格式如表2 1 。表2 1 与消息传输有关的r f c 8 2 2 头字段头字段含义 t o ：第一收件人的电子邮件地址 c c ：第二收件人的电子邮件地址 b c c ：盲抄送的电子邮件地址 f r o m ：撰写消息的个人或多个名字 s e n d e r ：实际发件人的电子邮件地址 r e c e i v e d ：传送途中，每个传送代理加上的一行内容 r e t u r n p a t h ：用于标识返回给发件人的路径 r f c 8 2 2 0 中用到的一些字段及其含义如表2 2 。表2 2r f c 8 2 2 使用到的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）电子邮件个性化过滤系统研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）电子邮件个性化过滤系统研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档