




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 题目:针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 专业:计算机应用技术 硕士生:张小林 指导教师:成良玉教授 摘要 电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾 邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。 目前经常采用的垃圾邮件过滤技术一般包括黑名单与白名单技术、规则过滤 以及基于关键词匹配的内容扫描等。 另外一种方法是从电子邮件的文本内容入手,使用文本分类、信息过滤 的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文 本分类方法有k 一近邻、决策树、b 0 0 s t i n g 等。现有的邮件分类器算法其中一 个重要步骤是将邮件的文本内容出现的字与词标记化,也就是将邮件文本内 容分词。但由于中英文环境中语素的不同特点,英文分词相当简单而中文分 词的问题比较复杂。 本文将中文内容邮件分词算法同贝叶斯定理相结合,提出了针对中文内 容和基于贝叶斯定理的邮件分类器,并使用这一分类器架构了反垃圾邮件应 用系统进行了垃圾邮件过滤的实验,有效的验证了这一针对中文内容和基于 贝叶斯定理的反垃圾邮件方法,最后对应用实验的不足进行了总结并提出了 进一步的研究方向。 关键词:中文分词、贝叶斯分类、邮件过滤 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 n t l e :比h 佃a m i s 呻m m 枷n da i 删妯a t c m n e c o 眦m 蚰d b d 佃 b - ”s h n a 菇o m m 岫o r :、o m p l l i e ra p p b c - t 岫 n i m e :z h 雌- o 陆 s 叩e 丌i s o r :p m 如s s 叫c k 略u a n 目u a b s t r a c t e l e c t m n i cm a i l ( e m a i l ) i sb c c o i n i n go n eo f t h cf a s t e s la n dn l o s te c o n o l i l i c a l w a y so fc o 咖n i c a t i 0 a v a i l a b l e t h cs a i mt j l e ,t h e 粤o w i i l gp r o b k mo f j u l l l 【 m 订( a l s or e f e r f e dt o 弱“s p a m ,) h 豁g e n e r a l c da e d 如re 咀m i lf i n c m g ,柚d r e c e i v e ds p a me m a i lq u a n t i t yh 踮a h a d yb e 饥m o r et h a i lg o o de 一豫i l q u a n t i t y n o w a d a y s ,a m i - s p a mm e 鸽u r c s m 瑚n l y 如c l u d cb l a c ko rw h i t cl i s t t e c i l i m 】o g y ,i m n u a ln l k s 壮dk e ) 7 w o r db a s c dc o n t e mf n t c r i n g a i l o t h e r a p p r o a c h i s u s i l l g a u t o m a t e dt c x tc a t e 9 0 r i z a t i o n 锄di i l 如r m a t i o n f i h e r j n gt of i h c rs p a m a ne - i m i lf i t t e 血gs y s t c m 啪l c 锄d i r e c t l y 劬m au s c r s r n a i ls c t s u c ha 1 9 0 r i t h m so ft e x tc a t e g o 血a t i o n 勰l 【- n n d e c i s i o nt r 柚d b o o s t i n gc a nb ea p p l i e d i ns p a mf m e la ni m p o n 粕ls t e pi nc i l r r c n te - m a i l c l a 蟠i f i c a t i o nw a y s 讧t h a tw o r d so fc - m a nc o m c n t 盯ct o k e n i z c d 柚da l c m a i l c o m e mi sd j v i d e di l l t ow o r d s b e c a u s co fd i 丘b r c mc h a r a c t e r i s t i c so f c h i n e s e - e n g l i s hl a n g u a g ee n v 曲砌e n t ,e g u s ht o k e n j z 吨i ss i m p l eb u tc h i e t o k e n i z i n gi sa h a f dp f o b k l i l t h ct h c s i sp u t sf o 聃盯dt oc h i n e s e a i l i l e de m a i lc h s s i f i e rb a s c do nb a y c s i a n a x i o m s ,a n du s e st h ec l a 鲻i f i e rt 0s c tl l p 柚t i s p a ma p p l i c a t i o ns y s t e ma n dh a sa s p a me - m a i lf i h e r i n ge x p e r i m e m ne 伍:c t i v e l y v c r i f i e st h cc h i i l e s e a i m e d a n t i - s p a mw a yt h a tt h et h e s i sd e s c f i b c sb a s e do nb a y e s i 雅a x j o m i nt h ee n dt l l e t h e s i ss u m m a r i e st h er e s e a r c hs h o n a g e 柚d 舀v c st h er e s e a r c hf i l n h e rd j r e c t i o n k e yw o r d s :c h i e s ek x i c a la j l a l y s i s ,b a y e s i a nc a t e g o 血a t i o i l e 一瑚i lf i n c r i n g i i 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 引言 随着i n t e r n e t 的普及,电子邮件日益得到了广泛的应用,成为日常生 活中人与人之间通信、交流的重要手段。但是随之而来的垃圾邮件也越来越 猖獗。垃圾邮件是i n t e r n e t 发展中出现的一个副产品,在美国曾经泛滥了很 长一段时间,经过软件开发商及用户的努力,目前在欧美国家得到了基本有 效的控制。但一些垃圾邮件制造者开始转向像中国这样还没有采取有效控制 垃圾邮件的国家,一些机构利用中国还没有垃圾邮件相关的法律限制或法律 漏洞,甚至直接在中国设立公司从事垃圾邮件相关的商业活动。这些行为的 后果是中国成了世界的主要垃圾邮件源头,中国成了i n t e r n e t 世界的众矢之 的,国外的许多反垃圾邮件组织和公司将大量的中国邮件服务器加入他们的 邮件“黑名单”,以致于中国发往国外的邮件往往被退回。 一直以来,人们一直讨论通过立法来约束垃圾邮件,但是法律法规只是 解决办法之,而且法律法规的作用是受诸多不确定因素影响的。就目前而 言,对付垃圾邮件主要还得依靠反垃圾邮件技术。当前反垃圾邮件技术主要 有通过邮件服务系统的安全加固( 例如增强邮件服务器的安全性,防止漏洞, 及时补丁,提高系统防病毒能力,提供邮件服务安全身份认证等) ,垃圾邮件 过滤技术( 例如i p 、域名、邮件地址的黑白名单及肺l 方式,s m t p 通信链接 速率、频度的设定,反向域名验证,基于信头、信体、附件的内容关键词, 基于匹配判定规则的方式等) 以及现在正在热烈讨论的改进邮件系统的协议。 通过综合分析以上各种技术我们发现目前在反垃圾邮件技术领域专门针对中 文邮件分析的研究相当少。 本文致力于对中文邮件的过滤研究,并将搭建一个具体应用,此应用可 用于针对中文内容分析的反垃圾邮件系统。 本文第一章概要叙述了垃圾邮件概念及其危害;在第二章中详细介绍电 子邮件工作原理以及安全缺陷;第三章中介绍邮件系统的漏洞以及当前反垃 圾邮件方法的发展现状:第四章中讨论了基于内容和贝叶斯定理的反垃圾邮 件方法;第五章提出了一种针对中文内容和基于贝叶斯定理的邮件过滤方法; 第六章是针对中文内容和基于贝叶斯定理的邮件过滤应用系统的架构设置实 验部分;最后一章对全文所进行的研究工作进行了总结,并提出了进一步研 究的方向。 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 第1 章垃圾邮件概述 以下我们围绕项目的研究目标,首先介绍垃圾邮件的基本概念以及垃圾 邮件的危害。 1 1 垃圾邮件概念 经常使用电子邮件的用户可能都曾经收到过不认识的人发来的广告邮 件或其它一些毫无关系的邮件。这些邮件还会不断收到,删除了又来,这些 就是所谓的“垃圾邮件”。一些人这样定义:垃圾邮件就是那些你并不希望收 到,并且你也没有订阅过,但却被人利用电予邮件的特点强行塞入你的邮箱 的商业广告,产品介绍,发财之道等内容的电子邮件。 我国和世界其它一些国家对“垃圾邮件”都有自己的定义。 2 0 0 0 年8 月,中国电信制定了垃圾邮件处理办法,并将垃圾邮件定义为: 向未主动请求的用户发送的电子邮件广告、刊物或其它资料;没有明确的遇 信方法、发信人、回信地址等的邮件;利用中国电信的网络从事违反其它i s p 的安全策略或服务条款的行为:其它预计会导致投诉的邮件。 2 0 0 2 年5 月2 0 日,中国教育和科研计算机网公布了关于制止垃圾邮 件的管理规定,其中对垃圾邮件的定义为:凡是未经用户请求强行发到用户 信箱中的任何广告、宣传资料、病毒等内容的电子邮件,一般具有批量发送 的特征。 中国互联网协会在中国互联网协会反垃圾邮件规范中是这样定义垃 圾邮件的:本规范所称垃圾邮件,包括下述属性的电子邮件:( 一) 收件人事 先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传 性的电子邮件;( 二) 收件人无法拒收的电子邮件;( 三) 隐藏发件人身份、 地址、标题等信息的电子邮件;( 四) 含有虚假的信息源、发件人、路由等信 息的电子邮件。 普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件,s p a m u b e ( u n s o l i c i t e db u l ke m a i l ) 。u c e ( u n s 0 1 i c i t e dc o 姗e r c i a le m a i l ) , 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传 品等宣传性的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地 2 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电 子邮件。 总的来说,垃圾邮件通常指未经收件人许可,但却被强行塞入用户邮箱 的电子邮件。垃圾邮件一般具有批量发送的特点,在网络上同时传递多个副 本:从内容上看,它们通常是商业广告、宣传资料或者其它一些无关的内容。 垃圾邮件在英文中又称为u c e ( u n s o n c i t e dc o 帅e r c i a le m a 订,不请自来 的商业电子邮件) ,u b e ( u n s o l i c i t e db u l ke 眦i l ,不请自来的批量电子邮 件) 。 垃圾邮件又可以分为良性和恶性的。良性垃圾邮件是各种宣传广告等对 收件人影响不大的信息邮件。恶性垃圾邮件是指垃圾邮件炸弹或附带有病毒 的具有破坏性的电子邮件。 垃圾邮件和那些强行塞入用户门缝或信箱中的传单有本质的区别。这些 传单的印刷和分发的成本由发这些传单的公司承担。而垃圾邮件的成本却是 由收件方来承担。垃圾邮件还盗用他人的邮件服务器及带宽来传输。 1 _ 2 垃圾邮件的危害 以下是一些垃圾邮件危害的数字: 第十五次c n n i c 调查结果【1 j 显示,网民平均每周收到2 6 9 封电子邮件( 不 包括垃圾邮件) ,收到垃圾邮件2 8 8 封,每周发出电子邮件3 6 封。在第十 四次调查中网民每周收到的垃圾由$ 件数是收到的正常电子邮件数的两倍。 1 5 0 0 亿:2 0 0 3 年,中国的邮件服务器共收到1 5 0 0 亿封垃圾邮件,尽管 其中6 0 到8 0 9 6 被服务器过滤掉,但至少有4 7 0 亿封最终流入用户的信箱。 数据还显示,2 0 0 3 年,每个网民平均每天收到1 8 5 封垃圾邮件。为处 理这些垃圾邮件,每个网民每天至少需要花费3 6 5 分钟。这意味着,全国网 民每年会浪费掉1 5 亿小时的宝贵时间。 4 8 亿:2 0 0 3 年我国处理垃圾邮件浪费的g d p 高达4 8 亿元人民币。 8 9 亿美元:美国企业每年由于垃圾邮件要8 9 亿美元的损失,欧洲企业 的损失为2 5 亿美元,美国和欧洲的i s p 的损失为5 亿美元。垃圾邮件给美国 企业造成的损失落实到每位职员身上折合约为8 7 4 美元。 垃圾邮件从诞生之日起就遭到了许多网络用户的强烈谴责,到大规模的 3 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 屏蔽和现在的法律条文明确的禁止,这背后有很多的原因。 首先,这种行为违背了i n t e r n e t 文化。i n t e r n e t 崇尚的是开放、民主、 平等。国家界限、政府约束等在这里都不是有效的方式,热情、乐于助人、 主持正义等一些人类善良的本性却占据了i n t e r n e t 文化的主流。垃圾邮件不 顾他人的反对,强制性的把垃圾邮件发到别人的信箱,这侵犯了个人隐私权, 打破了平等自愿交流的规则,无疑会遭到人们的反对。 垃圾邮件与其它媒体不同,它的成本是加在收件人的头上的,还浪费电 子邮件用户的时间,占用网络、系统资源,降低了网络的运行效率。如,大 量的垃圾邮件占用网络带宽,占用邮件服务器的磁盘空间。 垃圾邮件还对网络安全角成威胁。传播有害信息,危害社会;成为“黑 客”的工具,利用数以亿万计的垃圾邮件造成被攻击目标瘫痪;传播计算机 病毒等。 垃圾邮件同时也带来了严重的社会问题。如一些含有色情内容以及含有 商业欺诈性质的邮件。一些组织利用电子邮件容易隐藏真实身份的特点,做 一些违法欺骗的事情。一些政治宗教团体利用邮件宣传反动思想,危害社会 安定。 综上所述,虽然从历史上来看垃圾邮件很早就出现了,但真正形成规模 还是最近1 0 年的事,从此垃圾邮件也产生了越来越巨大的危害,反垃圾邮件 工作也慢慢开始正式提上电子邮件技术工作的日程。 4 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 第2 章电子邮件的工作原理及安全缺陷 垃圾邮件的危害巨大,源头正从欧美国家向亚洲国家转移,反垃圾邮件 工作也越来越受到亚洲国家的重视。本章从电子邮件的结构开始介绍电子邮 件的工作原理,最后指出电子邮件的安全缺陷。 2 1 邮件结构【2 】 为了邮件能在i n t e r n e t 上传送,并能够被不同平台的邮件服务器识别, 自b 件要遵循严格的格式规定。而邮件过滤技术首先需要对邮件的结构有有详 细的掌握。以下将介绍当前电子邮件结构上的具体的协议规定。 2 1 1 普通邮件结构 最早规定电子邮件核心结构的是在1 9 8 2 年发表的r f c 8 2 2 ,它也是 i n t e r n e te m a 订信件格式的当前标准盹r f c 8 2 2 定义了信件从主机传送到主 机时需要的格式化方式。 以下为一封简单信件: 表2 一l 简单邮件示例 信件非常简单,由一系列的文本行构成,每一行以回车换行符( c r l f ) 结束,由a s c i i 字符组成。每一行的长度和信体的长度在r f c 8 2 2 中没有规定, 但由于与信件相关的许多长度限制在s m t p 的r f c 中进行了规定,这些规定决 定了邮件在处理信件时的最大长度。 在s m t p 协议中规定邮件每一行最多有1 0 0 0 个字符,包括终止字符。为 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 了增加可读性,每一行应该少于8 0 个字符。 上面的简单邮件有两个部分: 信头: d a t e :t u e 。0 4d e c2 0 0 31 6 :1 9 :0 2 + 0 8 0 0 f r o m :f o x c c e r t e d u c n s u b j e c t :h e l l o t o :d a d a s o h u c o m 信体: h i ,e v e r y o n e i 锄lf o x 这两个部分由中间的空白行分离。 邮件结构可以分为两个部分:信头和信体。空白行用于分离各个部分。 信头是必须的,信体是可选的。以下详细介绍邮件的结构。 ( 1 ) 信体 在r f c 8 2 2 中信体比信头简单,只是一系列的文本行,并没有附加的结 构或含义。 对于有附件及其它非a s c i i 文本的信息的邮件结构规定后面专门介绍。 ( 2 ) 信头 字段 信头的结构比较复杂,总的来说是由一些字段组成。这些字段为用户和 程序提供了关于信件的信息。 每个信头字段由一行或多行文字组成,对于跨多行的字段,附加行以一 个空格开始作为续行。每个信头字段由以下部分组成:字段名称、可选的空 格、一个冒号、可选的注解空格和一个可选的字段体。 例如一个s u b j e c t 字段的描述: s u b j e c t :s a yh e l l o ! r f c 8 2 2 为信件定义了一些标准字段: 表2 2 信头的标准字段 字段名字段说明 f r o m写信人 s e n d e r邮件发信人 6 中山大学硬士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 字段名字段说明 r e p l y t o发送回复的地址 t o邮件的主收信人 c c 邮件的抄送人 b c c邮件的密件抄送入 m e s s a g e i d邮件的标识符 i n r e p l a y t o邮件被回复人 r e f e r e n c e s邮件来源 d a t e邮件的创建日期 s u b j e c t邮件主题 r e c e i v e d邮件的抄送人 r e t u r n p a t h发件人 k e v 胃o r d s邮件的主题关键字 e n c r y p t e d加密信息( 很少使用) r e n s e n t 卑邮件重新分发是创建字段 c o m e n t s邮件说明 x - 邮件扩展字段 邮件所要求的字段 在r f c 8 2 2 中定义的2 0 多个字段中,只有少数几个信头字段是实际要求 必须的。邮件必须使用d a t e 或r e s e n t d a t e 制定创建邮件的日期,还必须使 用f r o m 字段指定创建该邮件者的信箱,还必须有一个收件人的字段,可以是 t o 、c c 或b c c ,处理邮件的 盯a 服务器必须在每个信头的开始增加一个 r e c e i v e d 字段,以便知道邮件发送所经过的网络路径。 字段的顺序 除了几个例外,信头的字段不要求任何特点的顺序。这些例外是 r e c e i v e d 、r e t u r n p a t h 和r e s e n t 一奉字段。在邮件经过一系列的m t a 时,每 个m t a 在邮件的开始处增加一个r e c e i v e d 字段。r e t u r n p a t h 是只在最后一 个w r a 投递前在邮件开始增加的字段。 扩展字段 如果要加入到信头中的信息在r f c 中有规定的相应字段,这时需要创建 7 中山大学碗士学位论文 针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 新的非标准字段,这时使用r f c 8 2 2 中规定的扩展字段解决。扩展字段名称前 要求加上前缀x - 。 扩展字段允许创建新的字段,而不会出现该字段名称在以后的标准被使 用的矛盾。事实上,有许多扩展字段已被广泛使用。例如: x l o o p :此字段常常通过过滤器和邮件列表程序来防止邮件循环。过滤 器或邮件列表处理程序,可以给它处理过的每个邮件增加一个x l 0 0 p 字段, 如果它遇到在这个字段中含有特别值的邮件,就假定该邮件有一个循环,从 而以不同的方式处理该邮件。 x m a i1 e r :此字段用于指示邮件的创建程序。它是使用最广泛的扩展字 段。例如:x m a i l e r :m s o u t l o o k 。 2 1 2 非a s c i i 文本及带有附件的峨件结构f 4 】 r f c 8 2 2 以及r f c 8 2 2 的更新版本r f c 2 8 2 2 咧( 目前为建议稿) 都只规定了 a s c i i 码数据邮件的编码格式。邮件服务器又只能发送a s c i i 码数据。对于 带有非a s c i i 文本信息,例如非英语文件、图片和附件程序的邮件发送,有 一套简单的机制;在邮件的处理过程中将非a s c i i 的二进制信息转换为a s c i i 文本,然后通过s m t p 协议发送到远程主机,远程主机收到后再还原为原来的 二进制,也就是那些图片等的数据。 在目前i n t e r n e t 上最流行的有三种转换的方法:u u e n c o d e 、m i m e 和 s m i m e u u e n c o d e 编码与解码 在m i 皿出现并得到广泛应用之前,有过一些不是特定标准的解决发送 二进制文件的方案,u u e n c o d e 编码与解码方案应用非常广泛。 u u e n c o d e 的u u 就是u n i xt ou n i x 的简写,是指在u n i x 间传送二进制 的编码。u u d e c o d e 就是解码的过程。目前n e t s c a p e 、m s m a 订、h o t m a i l 甚 至u s a n e t 之类的w e b m a i1 等绝大多数锄a il 程序都支持u u e n c o d e d e 编码方 式。 由于现在大多邮件程序较少使用u u e n c o d e 编码邮件,因此不再详述。 u u e n c o d e 的复杂编码及解码可查看相关参考资料。 8 中山大学硕士学位论文 针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 m i m e m i m e 是m u l t i p u r p o s ei n t e r n e t 帆i le x t e n s i o n s 的简写,也就是多用 途互联网邮件扩展。许多新开发的邮件软件都不再使用u u e n c o d e 编码二进制 文件,因为出现了种对二进制数据进行编码的互联网标准:m i m e 。m i m e 的 报文格式及示例在【6 ,7 ,8 ,1 0 j 中有详细定义及介绍。m i m e 的功能比u u e n c o d e 要 丰富的多,它将文件的附加信息也同时传送给解码器,使解码器可以自动检 测不同类型的二进制文件并解码。 m i m e 使二进制数据可以直接加到标准的r f c 8 2 2 邮件中,通过在邮件头 中新增加的5 个字段来标识嵌入的二进制类型,处理m i m e 邮件必须能够处理 这5 个新字段。下面为编码后数据同r f c 8 2 2a s c i i 数据结合示意图: 图2 一lm i m e 邮件与传统邮件的结合示意 m i m e 使用的5 个邮件头新字段用来表示m i m e 邮件体中的数据是怎样编 码的。 9 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 表2 3m i 胍邮件头字段 字段字段说明 m i m e v e r s i o n所使用的m i 狐版本 c o n t e n t t r 8 n s f e r e n c o d i n g将二进制数据编码为a s c i i 文本使用的编码 方案 c o n t e n t i d邮件内容部分的唯一标识 c o n t e n t d e s c r i p t i o n邮件内容部分的描述 c o n t e n t t y p e编码数据中的内容类型 只有c o n t e n t t y p e 字段是必须的,其它字段提供附加信息,提供的信 息越多解码就越准确。 以下为5 个m i m e 邮件头字段详细介绍: m i m e v e r s i o n :此字段用来标识发送方编码所使用的m i 胍版本,目 前总是为1 o c o n t e n t t r a n s f e r e n c o d i n g :该字段标识嵌在邮件中的二进制数据 是怎样被编码的,常用的有以下7 种编码方式。 表2 4m i m e 编码方式 编码方式说明 7 一b i t 标准的7 位a s c i i 文本 8 一b i t标准的8 位a s c i i 文本 b i n a r v原始二进制 q u o t e d p r i n t a b l e将数据转换位u s a s c i i 可打印字符 b a s e 6 4 每6 位二进制数据转换位一个8 位可打印字符 i e t f t o k e n扩展令牌编码 x t o k e n 没有任何令牌产生的分隔字符 7 _ b i t 编码方式是没有设置c o n t e n t t r a n s f e r _ e n c o d i n g 字段时的默认 编码方式。最常用的编码方式是b a s e 6 4 方式,该方式每6 位二进制数据被唯 一映像为一个8 位长的a s c ii 文本字符,此种方式与u u e n c o d e 编码相似。 下表列出了对6 位数据进行b a s e 6 4 编码的6 4 个基本数据。 1 0 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 表2 5b a s e 6 4 编码示例 数据和对应编码数据和对应编码数据和对应编码数据和对应编码 oa1 6q3 2 g 4 8w 1b1 7r3 3h 4 9 x 2c1 8s3 4i5 0 y 3d1 9t 3 5 j 5 1z 4e2 0u3 6k5 20 5f2 1v3 7l5 31 6g2 2w3 8m5 42 7h2 3x3 9n5 53 8i2 4y4 0o5 64 9j2 5z4 1 p 5 75 l ok2 6a4 2 q 5 86 1 1l2 7b4 3r5 97 1 2m 2 8c4 4s6 08 1 3n2 9d4 5t6 19 1 4o3 0e4 6u6 2 + 1 5p3 1f4 7v6 3 c o n t e n t i d :内容标识字段c o n t e n t i d 使用一个唯一的标识号标识 邮件中的m i 胍部分,通过该标识号,一封邮件中的内容能被另一封m i m e 邮 件引用。 c o n t e n t d e s c r i p t i o n :此字段是关于数据的a s c i i 文本描述信息。 具体的描述信息可以是任意长a s c i i 文本,当发送图片及字处理文档等二进 制数据时使用该字段,否则经过b a s e 6 4 编码处理后,这些数据将无法标识。 c o n t e n t t y p e :内容类型字段c o n t e n t t y p e 是m i m e 中最重要的字段。 m i m e 部分的数据通过该字段中的两个不同的值来标识。格式如下: c o n t e n t t y p e :t y p e s u b t y p e 上面格式中t y p e 为内容的基本类型,子类型参数s u b t y p e 用来进一步 定义内容类型 m i m e 目前定义了7 种基本类型: t e x t 文本类型 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 - m e s s a g e 报文类型 i 腿g e 图像类型 - v i d e o 视频类型 - a u d i o 声音类型 - a p p l i c a t i o n 应用程序类型 - m u l t i p a r t 混合类型 下面的部分详细介绍这7 种类型。 ( 1 ) t e x t 文本类型 t e x t 类型表示能被几乎所有的邮件软件识别的a s c i i 码类型,它有三种 子类型: p l a i n 予类型,表示没有格式的普通a s c i i 文本; h t m l 子类型,表示使用标准的h t 札标记来格式化文本; e n r i c h e d 子类型,表示文本的格式类似于很多字处理软件中的丰富 文本格式,此种类型也就是微软的r i c ht e x tf o r m a t 文件格式; 文本类型还应该使用字符集参数c h a r s e t 明确数据编码时采用的字符 集,如下面的例子所示: c o n t e n t t y p e :t e x t p l a i n : c h a r s e t = u s a s c i i 该例子表明邮件中包含的m i m e 数据是使用a s c i i 码字符集的普通a s c i i 文本。h t m l 和e n r i c h e d 子类型表示使用特殊格式标记来产生诸如下划线、 粗体、不同的字体大小和颜色等文字效果的文本类型,现在绝大多数新版的 邮件客户端软件都能显示这两种类型的邮件。 ( 2 ) m e s s a g e 报文类型 m e s s a g e 报文类型允许邮件软件在一条邮件中发送多条r f c 8 2 2 邮件,下 面是该类型的子类 r f c 8 2 2 子类型,表示嵌入的是一条普通的r f c 8 2 2 邮件; p a r t i a l 予类型,表示被分成几部分的一段长邮件; e x t e r n a l _ b o d y 子类型,表示指向邮件以外某位置的指针。 ( 3 ) i 髓g e 图像类型 i i i l a g e 类型定义邮件中嵌入的表示图像的二进制数据流,目前有两种子 类型:j p e g 格式和g i f 格式。 这两种格式表示标准的j p e g 和g i f 图像类型。当然,事实上图像文件 中山大学颂士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 必须使用c o n t e n t t y p e e n c o d i n g 字段中定义的标准m i m e 编码方式来编码。 ( 4 ) v i d e o 视频类型 v i d e o 类型定义邮件中嵌入的表示视频数据的二进制数据流,它只有 m p e g 一种子类型。同图像类型一样,肝e g 格式视频文件也必须使用 c o n t e n t t y p e e n c o d i n g 字段中定义的标准m i m e 编码方式来编码。 ( 5 ) a u d i o 声音类型 a u d i o 类型定义邮件中嵌入的表示声音的二进制数据流,目前只有一个 子类型:b a s i c ,表示采用8 i 【 f z 采样频率编码的单信道综合服务数字网 m u 一1 a w 。 和前面一样,声音文件也必须使用c o n t e n t t y p e e n c o d i n g 字段中定义 的标准m i m e 编码方式来编码。 ( 6 ) a p p l i c a t i o n 应用数据类型 a p p l i c a t i o n 类型用来表示邮件中嵌入的表示应用数据的二进制数据, 例如电子数据表、字处理文档和其它应用数据等。该类型现在有两种格式的 子类型: p o s t s c r i p t 子类型,定义以附录格式出现的打印文档; o c t e t s t r e a i n 子类型,定义包含任意二进制数据的邮件。 o c t e t s t r e 砌子类型通常在包含应用已知的数据时使用,例如微软 的w o r d 文档和e x c e l 电子数据表格。 ( 7 ) m u l t i p a r t 混合类型 m u l t i p a r t 类型是一种特殊的类型,它定义在一条邮件中包含多种不同 数据类型的邮件。这种类型通常用于可以采用多种形式显示邮件的邮件软件 ( 例如a s c i i 文本、h t m l 和声音格式,以及包含二进制文件附件的邮件) 。 每种类型都使用一个内容类型字段( c o n t e n t t y p e ) 来定义,不同类型 之间使用边界标志符来分隔。边界标志符必须在m u l t i p a r t 子类型定义起始 处定义: c o n t e n t t y p e :m u l t i p a r t a l t e r n a t i v e :b o u n d a r y = b o u n d s i 边界标志符确定m u l t i p a r t 类型邮件中每一部分的开始和结束。标志符 前的两个短横线用来表示一部分的开始,最后一部分的标志符后面也有两个 短横线,表示混合类型邮件的结束。 c o n t e n t t y p e :m u l t i p a r t m i x e d :b o u n d a r y = b o u n d s 2 1 3 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 一一b o u n d s 2 c o n t e n t t y p e :t e x t p 1 a i n : c h a r s e t = u s a s c i i f i r s ts e c t i o n 一一b o u n d s 2 c o n t e n t t y p e :t e x t p l a i n :c h a r s e t = u s a s c i i s e c o n ds e c t i o n 一一b o u n d s 2 c o n t e n t t y p e :t e x t p 1 a i n : c h a r s e t = u s a s c i i l a s ts e c t i o n 一一b o u n d s 2 一一 m u l t i p a r t 类型的每部分都使用c o n t e n t t y p e 字段来标识该部分的数据 类型。 哪l t i p a r t 类型有4 个子类型: m i x e d 予类型,表示各部分间互相独立,应该按照它们在邮件中嵌入 的顺序向接收者显示; p a r a l l e l 子类型,表示各部分间互相独立,可以按照任何顺序向接 收者显示; a l t e r n a t i v e 子类型,表示各部分都是同一数据的不同表示方式,只 需要使用最合适的显示方式显示其中的一部分; d i g e s t 予类型,表示同m i x e d 子类型一样的方式,但是邮件体总是 r f c 8 2 2 格式。 下面列表显示了混合类型邮件中c o n t e n t t y p e 字段的不同定义,为了 方便后面的讨论在每行前加上行号。 表2 6s m t p 混合类型m i m e 邮件会话示例 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 中山大学硕士学位论文针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 例子中的邮件是一封两个版本的m i 她邮件,第1 8 行显示了整个邮件的 内容类型定义,类型子类型标识叫l t i p a r t a l t e r n a t i v e 表明该邮件中包含 了多种类型,通过边界标识符b o u n d s l 分隔,只需要向接收者显示其中的一 部分即可。第一部分从第2 1 行开始,是简单的a s c i i 码普通文本,所有的邮 件软件均可阅读。 第二部分从第2 7 行开始,使用了t e x t e n r i c h e d 类型定义,这是邮件 采用r t f 格式的版本。因为该邮件的m i m e 内容类型是 m u l t i d a r t a l t e r n a t i v e ,究竟显示那个版本的邮件由客户端的阅读软件来决 定。 s m i m e f l l 1 2 ,1 3 ,1 4 】 近年来人们一直争论关于增加m i m e 协议功能的问题,出现了很多r f c , 创建了新的类型和子类型,增加了一些前面介绍的核心功能中没有包括的特 性。安全性就是其中之一。 安全m i m e 协议( s e c u r em i m ,s m i m e ) 的出现允许在互联网上发送安全 电子邮件。标准m i m e 类型只是在邮件发送前将二进制数据编码为a s c i i 码文 本,信息本身很容易被截获并解码,因此这种方法不适用于安全通信。 s m i m e 试图解决这个问题,不仅对原始数据进行编码,而且还使用某种 安全算法对数据进行加密。文本邮件可以先进行加密,然后再使用某种标准 m i m e 编码方式将其转换为a s c i i 文本,转换为a s c i i 文本后就可以通过s 岍p 协议发送到远程的接收者。尽管a s c i i 文本仍有可能被截获并解码出二进制 数据,但是将它包含的加密后的信息解密出来就没那么容易了。 以下部分将介绍为增强安全性丽在m i m e 类型中加入的不同的方法。 s m i m e 1 t i p a r t 子类型 这种方法包括在删l t i p a r t 混合类型中加入一个子类型。s i g n e d 签名子 类型标识一封签过字的邮件,这种邮件由两部分组成:标准邮件部分和数字 签名。数字签名方法允许发信人使用一个唯一的代码来“签发”邮件,其它 人可以使用公钥来验证该代码。这种方法并不对邮件进行加密,因此不具备 s m i m e 功能的邮件软件也能够阅读。 子类型第二部分的数字签名在使用s m t p 发送前也必须转换成a s c i i 码 文本形式,这部分编码操作一般采用b a s e 6 4 方式。同样,接收端的邮件阅读 软件在验证数字签名前也应首先将其解码。 1 6 中山大学硕士学位论文 针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究 下面部分显示了一个哪l t i p a r t s i g n e d 类型的邮件。 表2 7s m i m e 眦1 t i p a r t s i g n e d 邮件例子 c o n t e n t t y p e :m u l t i p a r t s i g n e d : p r o t o c 0 1 = “a p p l i c a t i o n p k c s 7 一s i g n a t u r e ” m i c a l q = s h a l :b o u n d a r y = b o u n d a r v 4 2 一一b o u n d a r y 4 2 c o n t e n t t y p e :t e x t p l a i n t h i si sac l e a r s i q n e dm e s s a q e 一一b o u n d a r y 4 2 c o n t e n t t y p e :a p p l i c a t i o n p k c s 7 一s i g n a t u r e :n 锄e = s m i m e p 7 s c o n t e n t t r a n s f e r e n c o d i n o :b a s e 6 4 : c o n t e n t d i s p o s i t i o n :a t t a c h m e n t :f i l e n a m e = s m i m e p 7 s g h y h h h u u j h j h j h 7 7 n 8 删g t r f v b n j 7 5 6 t b b 9 h g 4 v q p f y f 4 6 7 g h i g f h f y t 6 4 v q p f y f 4 6 7 g h i g f h f y t 6 j h 7 7 n 8 h h g g h y h h h u u j h j h 7 5 6 t b b 9 h g t r f v b n j n 8 h h g t r f v h j h j h 7 7 6 t b b 9 h g 4 1 旧b n j 7 5 6 7 g h i g f h f y t 6 9 h y h h h u u j p f y f 4 7 g h i g f h “t 6 4 v q b n j 7 5 6 一b o u n d a r y 4 2 一 整体的内容类型字段类容c o n t e n t t y p e 将邮件定义为 m u l t i p a r t s i g n e d 类型。这个混合类型的邮件中除了使用了通常的边界参数 b o u n d a r y 外,还使用了两个附加参数:p r o t o c o l 参数和m i c a l g 参数。这两 个参数定义了产生数字签名使用的协议方法。接收端的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一般固体废物处置及综合利用项目可行性研究报告
- 高中语文和外语通跨学科教学中的评估与反馈机制
- 2025至2030年中国生长鸡颗粒饲料行业投资前景及策略咨询报告
- 2025至2030年中国獭兔皮披肩行业投资前景及策略咨询报告
- 工业绿色转型的当前挑战与发展趋势
- 区域医疗协同发展模式的创新探索与实践
- 2025至2030年中国海绵车门密封条行业投资前景及策略咨询报告
- 2025至2030年中国汽车起动机轴行业投资前景及策略咨询报告
- 2025至2030年中国果菜保鲜剂行业投资前景及策略咨询报告
- 2025至2030年中国曲皮螺栓行业投资前景及策略咨询报告
- 全国大学英语六级词汇表
- FZT 74005-2016 针织瑜伽服行业标准
- 2024年广东佛山市顺德区公安局辅警招聘笔试参考题库附带答案详解
- GB/T 43701-2024滑雪场地滑雪道安全防护规范
- 2024年高考工作总结(35篇)
- 文字学概要完整版本
- 酒店前台接待培训课件
- 《电力机车制动机》课件 7-02 最大最小有效减压量计算
- 《冠脉造影流程操作》课件
- 岚皋县某钛磁铁矿初步详查设计
- 消防泵房阀门更换施工方案
评论
0/150
提交评论