(计算机应用技术专业论文)电子邮件过滤系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)电子邮件过滤系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)电子邮件过滤系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)电子邮件过滤系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)电子邮件过滤系统的研究与设计.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 作为i n t e r n e t 上的一种重要服务一e 眦i 1 ,给人们提供了一种重 要的通信手段。但是,由于电子邮件原理上的缺陷,垃圾邮件日益泛 滥,已经引起了人们的高度重视。邮件过滤技术已经成为当前研究的 热点之一。 本文设计了一种基于l i n u x 平台的邮件过滤系统,通过病毒扫 描引擎清除邮件中的病毒,并采用基于向量空间模型的文本分类算法 根据邮件内容对邮件进行过滤,从而防止垃圾邮件对邮件服务器和邮 件用户造成不良影响。 论文首先研究了电子邮件的原理和相关协议,介绍了垃圾邮件的 现状及其危害以及各种反垃圾邮件技术及其相关产品。接着论文详细 分析了各种文本分类算法的特点,对向量空间法分类精度不高的原因 进行了分析,从特征提取和权值计算两个方面对算法加以改进,有效 地提高了向量空间法的分类精度,并将此改进的向量空间法作为论文 所设计的邮件过滤系统的分类算法。论文分析了邮件过滤中所涉及到 的邮件解码、邮件文本信息规范化问题,实现了基于停用词表的中文 文本分词算法,并对向量空间法中的特征提取、权植计算和分类阀值 的确定等相关问题进行了研究。 论文设计的邮件过滤系统采用多级过滤模型,实现了对邮件基于 规则和基于信件内容的多级过滤,能够有效的区分正常邮件和垃圾邮 件,具有较高的应用价值。 关键词邮件过滤,向量空间模型,文本分类 a b s t r a c t a sak i n do fi m p o r t a n ts e r v i c eo nt h ei n t e r n e t - - e m a i l ,p r o v i d e sa k i n do fi m p o r t a n tc o m m u n i c a t i o nm e a n sf o rp e o p l e b e c a u s eo ft h e d e f e c to nt h ee m a i lp r i n c i p l e ,i th a v ec a u s e dm o r ea n dm o r eu n s o l i c i t e d b u l ke m a i lt h a th a v ea l r e a d yc a u s e dp e o p l e sg r e a ta u e n t i o n t h em a i l f i l t e r i n gt e c h n o l o g yh a sa l r e a d yb e c o m eo n eo f t h ef o c u s e so f t e c h n o l o g y r e s e a r c h i n g a tp r e s e n t t h i sp a p e rh a sd e s i g n e dak i n do fm a i lf i l t e r i n gs y s t e mb a s e do n l i n u xp l a t f o r m , r e m o v i n gt h ev i r u si nm a i l st h r o u g ht h ev i r u s s c a n n i n g e n g i n e ,a d o p t i n gt h ec a t e g o r i z e da l g o r i t h mo f t e x tb a s e do nv e c t o rs p a c e m o d e lt oc l a s s i f yt h em a i la c c o r d i n gt ot h ec o n t e n to ft h em a i l t h u si t p r e v e n t st h es p a m f r o mc a u s i n gt h eh a r m f u le f f e c t st ot h em a i ls e r v e ra n d m a i lu s e r t h ep a p e rh a ss t u d i e dt h ep r i n c i p l ea n dr e l a t e dp r o t o c o l so ft h e e m a i la tf i r s t , i n t r o d u c e dt h ep r e s e n tc o n d i t i o na n dt h eh a r mo ft h es p a r e a n dv a r i o u sk i n d so f a n t i s p a mt e c h n i q u e sa n dt h er e l a t e dp r o d u c t s a f t e r t h a tt h ep a p e rh a sa n a l y z e dt h ec h a r a c t e r i s t i co fe a c hk i n do ft e x t c l a s s i f i c a t i o na l g o r i t h m s ,h a sc a r r i e do nt h ea n a l y s i st ot h er e a s o nw h yt h e s o r tp r e c i s i o no fv e c t o rs p a c em e t h o dc l a s s i f i c a t i o ni sn o th i 曲, i m p r o v i n gt h ea l g o r i t h mf r o mt w oa s p e c b :t h ec h a r a c t e r i s t i ce x t r a c t i n g a n dt h e p o w e rc o m p u t i n g ,i n c r e a s i n gt h e v e c t o r s p a c em e t h o d s c l a s s i f i c a t i o np r e c i s i o ne f f e c t i v e l y , a n dh a su s e dt h i si m p r o v e da l g o r i t h m a st h ec l a s s i f i e da l g o r i t h mo ft h em a i lf i l t e r i n gs y s t e mw h i c ht h i sp a p e r d e s i g n e d 1 1 1 ep a p e rh a sa n a l y z e dt h eq u e s t i o n so fm a i ld e c o d i n ga n d m a i lt e x ti n f o r m a t i o ns t a n d a r d i z a t i o nw h i c ht h em a i lf i l t e r i n gi n v o l v e s , h a sr e a l i z e dt h ec h i n e s et e x tp a r t i c i p l ea l g o r i t h mb a s e do ns t o p p e dw o r d s t a b l e ,h a sc a r r i e do nr e s e a r c ho nc h a r a c t e r i s t i ce x t r a c t i n ga n dt h ep o w e r c o m p u t i n ga n dt h ec l a s s i f i e d v a l v e sv a l u ec o m p u t i n gw h i c ha r et h e c o r r e l a t i o nq u e s t i o n so f s p a c ev e c t o rm e t h o d 1 1 1 em a i lf i l t e r i n gs y s t e mw h i c ht h ep a p e rd e s i g n e du s i n gm u l t i s t a g e f i l t e r i n gm o d e l ,h a sr e a l i z e dm u l t i s t a g ef i l t e r st oc l a s s i f ye m a i l sb a s e do n t h er u l ea n dt h et e x tc o n t e n t ,c a nd i s c r i m i n a t et h ej u n km a i lf r o mn o r m a l m a i le f f e c t i v e l y , h a sh i g h e ra p p l i c a t i o nv a l u e k e yw o r d se m a i lf i l t e r i n g , v e c t o rs p a c em o d e l ,t e x tc l a s s i f i c a t i o n i i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的成果。尽我所知,除论文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 中南大学或其他单位的学位或证明而使用过的材料。与我共同工作的 同志对本研究所作的贡献已在论文的敛谢语中作了明确的说明。 作者签名: 掘熬日期:2 丝互年土月生闩 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文,允许学位论文被查阅;学校可以公布学位论文的全 部或部分内容,可以采用复印、缩印或其他手段保存学位论文;学校 可根据国家或湖南省有关部门规定送交学位论文。 ,作者签名:盘盏导师签名:日期:;! 五年:! l 月巫日 中南大学硕十学位论文 第一章绪论 1 1 课题背景 第一章绪论 电子自口件的发展有着悠久的历史,是i n t e r n e t 上最早出现的服务,也是最 基本、最重要的服务之一。经过将近3 0 年的发展,电子邮件已经从单纯传递文 字信息进化为可以传送图像、声音及影视片断等各类多媒体信息的通信工具,并 成为现代社会生活中不可缺少的组成部分。掘统计,i n t e r n e t 上百分之三十以 上的业务是电子邮件。在国内,据中国互联网信息中心c n n i c ( c h i n ai n t e r n e t n e t w o r ki n f o r m a t i o nc e n t e r ) 发布的第十五次互联网统计报告显示【l 】,2 7 的 互联网用户常用的互联网服务是电子邮件。电子邮件已经成为人们的一个重要信 息来源和信息发布渠道。 但是,由于电子邮件系统本身的安全缺陷,电子邮件病毒为电子邮件的应用 前景蒙上一层阴影;很多不法分子常常利用电子邮件散播非法信息。因此,虽然 电子邮件具有快捷、方便、廉价等许多优点,但也带来了以下问题:敏感信息泄 露、病毒泛滥、垃圾邮件充斥邮箱。 本文中所指的垃圾邮件是指向未主动请求的用户发送的电子邮件如广告、刊 物或其他资料;或没有明确的退信方法、发信人、回信地址等的邮件;或者利用 网络从事违反网络服务供应商的安全策略或服务条款的行为和其他预计会导致 投诉的邮件。 一些非法组织和个人,利用网络邮件服务存在的漏洞,大量发送垃圾邮件, 造成正常的邮件业务无法提供服务,尤其是国外的一些组织和个人利用我国部分 拥有邮件服务器的单位对邮件服务器的管理不严的问题,借道转发他们的垃圾邮 件,在国际上造成了不良影响。另外,一些不法分子利用这些服务器或自己建立 邮件服务器传播一些反动的或有害的信息。 垃圾邮件的危害主要有: 1 降低网络运行效率,占用网络带宽,造成邮件服务器拥塞,进而降低整个 网络的运行效率。 2 降低生产力,用户只好每天耗费大量的时日j 、精力来过滤清除垃圾邮件; 垃圾邮件成为黑客利用的工具,用数以亿万计的垃圾邮件猛烈袭击目标, 造成被攻击网站网路堵塞,最终瘫痪。 3 垃圾邮件可能装载了跟踪用户网上行踪的软件,而用户甚至无法意识到一 中南大学硕七学位论文 第一章绪论 用 切秘密都正在呈现给别人。 4 对社会造成危害:妖占惑众、骗人钱财、传播色情等内容的垃圾邮件,已 经对现实社会造成了危害。 中国互联网协会2 0 0 4 年4 月份的调查研究显示:在中国,垃圾邮件占邮件 总数量的6 0 5 。2 0 0 4 年l o 月1 1 日,电子邮件研究机构c o m m t o u c h 公布了最新 的全球垃圾邮件调查报告:中国再次登上了垃圾邮件服务器的“冠军宝座”,有 6 7 0 1 的垃圾邮件所指向的网站都来自中国。 如何有效防止垃圾邮件的泛滥己成为当前研究的热点之一。 1 2 电子邮件系统简介 电子邮件的发展有着悠久的历史,是i n t e r n e t 上最早出现的服务,也是最 基本、最重要的服务之一,1 9 7 2 年由r a yt o m l i n s o n 发明。电子邮件系统一般 由两个子系统组成:用户代理m u a ( m e s s a g eu s e ra g e n t ) ,它容许用户读取和 发送电子邮件;报文传输代理m t a ( m e s s a g et r a n s f e ra g e n t ) ,它将消息从出 发地传到目的地。 用户代理使用一个本地程序,它提供命令行方式、菜单方式或图形方式的界 面来与电子邮件系统交互。报文传输代理是在后台运行的系统幽灵程序,在系统 间传输电子邮件。示意图如图1 - 1 所示。 图1 - 1 电子邮件系统的结构图 电子邮件所用到的传输协议有p o p 、s m t p 、 a m p 协议等,下面简单加以 介绍。 1 2 1 邮件传输代理协议( m t ap r o t o c o is ) m t a 程序必须能够在不同的程序包之日j 传递邮件,有些还将邮件送到远程 邮件服务器上的用户。为实现这种功能,一个m t a 程序必须能够同其它的 中南大学硕士学位论文第一章绪论 m t a 程序包进行通信,通信内容不仅可以是邮件,还包括使远程邮件服务器能 够识别邮件的信息。下面的协议是m t a 程序在远程主机间传递邮件和信息时用 到的。 1 简单邮件传输协议( s m t p ) 【2 】 简单邮件传输协议( s i m p l em a i lt r a n s f e rp r o t o c o l , s m t p ) 是互联网上m t a 服务器间传递邮件最基本的协议( r f c 8 2 1 ) ,互联网上的任何一台主机都可以通 过s m t p 协议向其它主机发送邮件。s m t p 协议在主机问建立连接并传输信息 和数据时使用一些简单的命令。s m t p 命令由一个单词和跟随其后的一些附加信 息组成,例如: m a i l f r o m : 这条命令告诉远程的邮件服务器邮件是由谁发出的。每条命令都在互联网上 以a s c i i 码( a m e r i c a ns t a n d a r dc o d ef o ri n f o r m a t i o ni n t e r c h a n g e ,美国信息互换 标准代码) 的文本方式传输收到命令后,远程主机会向发送主机返回应答码, 通知命令是否成功。 s m t p 协议使用域名系统( d o m a i nn a m es y s t e m , d n s ) 来确定远程主机。 d n s 是互联网上的一个分布式数据库,它允许像使用地址一样,使用名字 来唯一确定主机。互联网上的每一个区域都有一台d n s 服务器,负责维护该区 域的d n s 数据库。任何一台该区域中的使用注册d n s 名字的主机在d n s 服 务器的数据库中都有一条记录,这条记录将该主机的i p 地址同正式的d n s 名 字联系在一起。 2 扩展的简单邮件传输协议( e s m t p ) 1 3 随着s m t p 的流行,最初的协议中也暴露了一些缺点,如s m t p 缺乏认证 机制等。对此开发者们并没有创建一个新的协议,而是决定采用新的命令来扩充 基本的s m t p 命令扩充后的协议被命名为扩展的简单邮件传输协议e s m t p 。 它的新功能在过去的几年中被证明比s m t p 更健壮,对m t a 主机问的邮件传 输环境也支持得更好。 e s m t p 实现的一个重要的安全特性是提供m t a 主机登录到接收e s m t p 端主机的能力。正如介绍s m t p 时所提到的,最初的s m r p 协议没有办法验 证客户主机的身份,这会产生一些“有趣”的情况。为弥补这一缺陷,e s m t p 协 议引入了a u t h 命令,客户主机通过使用a u t h 命令能够向服务器主机发送 用户名和密码来验证自己。这种验证方法有助于确定远程客户的身份。 1 2 2 邮件用户代理协议( m u ap r o c o c o i s ) m u a 协议的目的是允许用户从他们的邮箱中读取邮件。在一个单用户的 3 中南大学顾十学位论文第一章绪论 u n i x 系统中这通常不是问题用户从主控台登录进系统。但是,在一个多用 户的环境下,多个用户需要访问他们的邮箱阅读邮件,这在一个主控台屏幕上是 不能实现的。 为解决这个问题,协议被设计成允许用户从远程通过网络登录到邮件服务 器,并阅读他们邮箱中的邮件每个用户都能够通过运行在本地工作站上的 m u a 程序连接邮件服务器上的邮箱,m u a 程序使用特殊的协议连接邮件服务 器并对邮箱中的邮件进行操作。下面将介绍目前使用的最流行的两种m u a 协 议。 1 邮局协议( p o p ) 最简单的m u a 协议是邮局协议( p o s to f f i c ep r o t o c o l ,p o p ) ,现在的版本是 3 ,通常称为p o p 3 。工作站上的m u a 程序使用p o p 3 协议访问并读取用户邮 箱中的邮件。 使用p o p 3 协议时,用户的所有邮件都从用户邮箱中读取并存储到本地计 算机。一般情况下使用p o p 3 协议时,用户计算机上的m u a 程序在从邮件服 务器上的邮箱中读取邮件的同时将其删除,从而释放邮件服务器上的空问。 2 交互邮件访问协议( i m a p ) 另一个常用的m u a 协议是交互邮件访问协议( i n t e r a c t i v em a i la e e e s s p r o t o c o l 。i m a p ) 。i m a p 协议当前的版本是4 ,经过了1 次修订,因此称为 i m a p 4 r e v l 。用户计算机上的m u a 程序能够使用i m a p 协议对邮件服务器上文 件央中的邮件进行操作。 在i m a p 连接中,所有用户的邮件都驻留在邮件服务器上,这些邮件信息 只有当需要在用户计算机上显示时才被下载到本地。当用户需要从不同的计算机 访问他的邮箱时,这个协议是很有用的。每次当用户使用p o p 3 协议访问他的 邮箱时,当前的邮件都将被下载到本地工作站,这样容易就造成邮件被递送到若 干不同的计算机上。不管用户是在哪台工作站上显示邮件,i m a p 协议通过在邮 件服务器上保存所有的邮件防止了这种情况的发生。虽然这种方法对用户来说很 方便,它却使邮件管理员的工作变得困难。邮件服务器上的磁盘空间必须被仔细 监视,因为没有被删除的邮件很快会将其填满。 1 3 国内外垃圾邮件过滤系统现状 随着垃圾邮件危害的扩大,治理垃圾邮件的呼声也越来越高,反垃圾邮件已 经具有很大的市场,国内外许多公司已经加入到反垃圾邮件的研究开发中来。 现在,采用的反垃圾邮件技术主要从三个方面柬防范垃圾邮件:邮件发送方、 邮件传输过程、邮件接收方。采用的主要技术有: 4 中南大学硕十学位论文第一章绪论 1 邮件服务系统的安全加固:主要措施有增强邮件服务器的安全性、提供邮 件服务安全身份认证、添加反垃圾邮件的专用设备或插件等。 2 邮件过滤技术主要技术有基于规则( 如i p 地址、域名、邮件地址等) 和基于统计的过滤方式( 基于邮件内容过滤) 。 3 提高发送垃圾邮件成本,从源头上阻止垃圾邮件的产生。主要技术有电予 邮票、c h a l l e n g e r e s p o n s e 、s p e ( s e n d e rp o l i c yf r a m e w o r k ) 等。 当前,电子邮件过滤系统已经有很多产品面世,其主要代表产品有: 1 s y m a n t e 虻a n t i v i r u sf o rs m t pg a t e w a y s s y m a n t e ca n t i 、r m j sf o rs m t pg a t e w a y s 为互联网电子邮件通信提供了集成 的多层邮件安全机制。它使用多层技术的组合( 如反垃圾邮件启发式技术、多种 实时黑名单( 砌扎) 、定制的黑名单和白名单) 扫描附件中的病毒,并阻挡垃圾 邮件等不受欢迎的内容。可以根据常见的邮件特征( 如主题、附件名称、扩展名 和最大邮件大小) 来阻挡不受欢迎的内容。管理员可以从一个安全的w e b 浏览 器制定灵活的策略、安排更新、接收系统和安全警报以及生成管理报告。 2 m c a f e es e c u r i t yw e b s h i e l d s m t p m c a f e e w e b s h i e l ds m t p 是基于软件而独立于防火墙的扫描程序,可以方 便地连接到所有的现有网络中,并且在扫描s m t p 流量时不会影响其它对性能 至关重要的系统( 如防火墙或邮件服务器) 。其内容过滤功能监控所有进出网络 的内容,将扫描标题行、邮件正文和文件附件名称,以针对特定电子邮件进行防 护。w 曲s k e i ds m t p 还将根据文件大小或文件名,对进出用户网络的文件进 行拦截。 3 趋势科技s p a mp r e v e n t i o ns e r v i c e 趋势科技的s p a r ep r e v e n t i o ns e r v i c e ( 简称s p s ) 为企业r r 网络资源提供一 套高性能、基于策略的网关垃圾邮件过滤解决方案,架设于企业的s m t p 对外 网关上,运用智能垃圾邮件扫描引擎及已有垃圾邮件数掘库匹配,能有效判别并 阻止各类已知或未知的垃圾邮件进出企业,同时通过集成趋势科技网关病毒过滤 产品i m s s 的紧密集成,实现在进行病毒过滤的同时,也防范垃圾邮件对企业网 络资源的消耗与破坏。 4 c m a i l - s c a n 电子邮件监控、过滤网关 c m a i l s c a n 电子邮件网关是北京思能科贸有限公司独立开发的一套增强邮 件系统安全的软硬一体产品,可以配合各种支持s m t p e s m r p 的邮件服务器进 行工作,增强其防攻击、反垃圾邮件和防病毒邮件能力。 c m a i l s c a n 电子邮件网关对电子邮件正文信息和附件内容根据语法和语义进 行分析,按管理员制订的不同规则进行实时监控,并对非法或敏感信息按管理员 中南大学硕学位论文 第一章绪论 要求提出警报或进行封杀。 当前市场上的邮件过滤产品虽多,但其防范垃圾邮件的效果并不是非常理 想,存在着过滤精度不高,容易发生误判的现象。为此,本人从改进邮件分类的 精度出发,研究设计了一种新型的邮件过滤系统。 1 4 论文结构 本论文后面的章节安排如下: 第二章文本分类模型研究:介绍了基于文本分类模型的信息过滤原理及其 应用。讨论了各种文本分类模型的特点;着重研究了向量空日j 法的不足,并加以 改进,做为本文中电子邮件过滤系统所采用的分类模型。 第三章邮件过滤系统总体设计:在研究了各种邮件过滤技术后,设计了一 种基于s m t p 协议的邮件网关,介绍了邮件过滤系统的逻辑结构和所采用的技术。 第四章邮件过滤系统功能模块设计:详细介绍了邮件过滤系统各个功能模 块的功能和设计方案。 第五章邮件文本分类器设计:介绍了邮件文本分类器的构成和功能及其实 现,包括邮件解码、中文文本分词、文本分类算法的实现。 第六章总结:对论文中论述的工作进行了总结,并提出了今后研究的方向。 6 中南大学硕十学位论文第二章文本分类模型研究 第二章文本分类模型研究 最开始的电子邮件过滤系统是基于邮件地址过滤或者基于关键字过滤,过滤 垃圾邮件的效果不理想,现在采用的电子邮件过滤系统通常采用基于文本分类的 过滤算法。本章介绍了基于文本分类模型的信息过滤原理及其应用,讨论了各种 文本分类模型的特点以及本文中的电子邮件过滤系统所采用的分类模型。 2 1 信息过滤的概念 信息过滤( i n f o r m a t i o nf i l t e r i n g ) 1 4 1 是一个十分广泛的概念。有人定义信 息过滤为:根据用户的信息需求对动态数据流进行过滤,仅仅把满足用户需求的 信息传送给用户,以提高获取信息的效率。这种定义主要是着重于信息检索方面, 他们主要研究的问题在于信息的自动分类、文本文摘自动化,以及w e b 数据的检 索等问题【5 j 。 本文主要是将信息过滤技术引入到网络安全领域,利用信息过滤技术结合网 络安全规则的需求,达到对邮件信息的获取的目的,同时阻止某些不符合正常邮 件规则的邮件在网络内的传播,避免垃圾邮件的泛滥。 2 ,1 1 信息过滤的模型和阶段 结合我们人类自己获取信息的过程,可以得到如图2 - l 所示的一个通用的信 息过滤模型。 卜信息获取+ l卜信息处理1卜模式匹配+ ll + 信息表求+ l 图2 - 1 信息过寤模型示意图 从图2 - i 将人类处理信息的过程映射到计算机处理的过程,信息过滤系统可 以分为这样的几个阶段: l - 信息获取阶段:从某种信息源或多种信息源的大量离散随机信息集合中抽 取原始信息( r a wi n f o r m a t i o n ) 。 7 中南大学硕七学位论文 第二章文本分类模型研究 2 信息处理阶段:将信息获取阶段的原始信息,按照某种规则剔除其中信息 量小的成分,提取出中间信息量大的成分,并且利用一定的格式进行表示 ( f o r m a t t e di n f o r m a t i o n ) 。 3 模式匹配阶段:接受格式化后的信息,根据规则数据库中的规则,按照某 种相似度计算算法计算信息与实际需求的相关性,在达到一定的阀值后,输出到 敏感信息集合中( s e n s i t i v ei n f o r m a t i o n ) 。 4 信息表示阶段:提供对过滤后的敏感信息的游览和管理,以及对过滤效果 的评价,用户对于敏感信息的反馈。 5 规则构造阶段:根据特定的安全需求,确定一些强制性的规则,作为信息 过滤器过滤的依据。另外还包括了用户对于敏感信息的评价与反馈这样一个阶 段。 2 1 2 信息过滤相关问题 信息过滤所需要解决这样几个问题: 1 如何获取信息。 2 信息如何进行表示。 3 根据什么样的规则和方法来处理信息。 4 信息相似度如何计算。 5 匹配规则的自动生成。 其中信息表示是系统的基础部分,信息表示的好坏将直接影响到其他的几个 方面,因为它决定了信息处理的方法、规则的生成等。 2 1 3 信息过滤研究现状 信息过滤是当前的一个研究热点,因为它是目i i w e b 查询f 6 j 、文档自动分类 u 1 、信息检索削、w e b 知识挖掘9 1 等研究问题中的一个基本问题,而且是非数值化 数据如何转化为数值处理的基础问题,也是自然语占处理方面的一个核心问题。 本文研究的对象仅仅主要局限于文本,将不考虑其他它的信息如声音、视频等多 媒体信息的表示。 文档表示的核心问题主要是选取什么特征来代表整个文档,也就是特征提取 的问题。现在表示方法有布尔模型f l d i 、概率模型f i l j 、向量空问模型和基于知识 的表示模型。 向量空日j 模型v s m ( v e c t o rs p a c em o d e l ) ( g s a l t o n e t a l ,1 9 9 3 ) u 2 1 是关于 文本表示的模型。它将文本表示的基本单位定义为由字、词或短语构成的特征项, 所有特征项构成特征项集。每个文档由一个维数等于特征项集个数的向量构成, 8 中南大学硕士学位论文 第二章文本分类模型研究 该向量的每个分量是特征项在文档中出现的次数。 由于布尔模型和空间向量模型具有比较简单的表现形式而易于理解,并且具 有较小的计算复杂度,成为了文档表示的主要工具。现在已经有许多基于这些模 型的应用,其中较为成功的系统有麻省理工学院( m i t ) 为白宫开发的邮件分类 系统,卡内基集团为路透社开发的c o n s t r u e 系统f 1 3 l 等等。 2 2 文本分类模型 信息过滤在文档类信息中的应用就是将文档内容按照一定的表示方法如向 量空间模型进行整理后,采用文本分类的方法进行信息过滤。 2 2 1 文本分类的概念 文本分类( a u t o m a t i ct e x tc a t e g o r i z a t i o n ) 就是利用计算机对文本集( 或其 它实体或对象) 按照一定的分类体系或标准进行自动分类标记,从而将文本分成 不同的类型。文本分类是人工智能技术和信息获取( i n f o r m a t i o nr e t r i e v a l ) 技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术l ,国外 在自动文本分类以及相关的信息检索、信息抽取等领域进行了较为深入的研究 i t s , 1 6 八十年代,自动文本分类以知识工程的方法为主,根据领域专家对给定文 本集合的分类经验,人工提取出一组逻辑规则,作为计算机自动文本分类的依据 l l ? l 。进入九十年代,基于统计的自动文本分类方法1 7 益受到重视,它在准确率 和稳定性方面具有明显的优势【1 8 】。基于统计方法的自动文本分类模型如图2 2 所示,系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征形式 化待分类的输入样本,然后输入到分类器进行类别判定,最终得到输入样本的类 别。 图2 - 2 基于统计方法的自动文本分类模型 在本文中所描述的电子邮件过滤系统中,则根据邮件的正文和附件文本内容 将邮件分为正常邮件和垃圾邮件。 2 2 2 常用的文本分类算法 在可学习的文本分类算法中,有诸如贝叶斯分类算法( n a l v eb a y e s i a n 9 中南大学硬七学位论文第二章文本分类模型研究 c l a s s i f i e r ) 、词集合算法( b a go fw o r d ) 、基于概念的文档分类算法、k 最近 邻接参照分类算法( k n e a r e s tn e i g h b o r ) t 1 9 及基于语义网络的概念推理网 分类算法等等。下面简单加以介绍: 1 基于概念的文档分类算法 2 0 1 设文本共分为n 类,d = ud t 。d t 是训练文本集,d | 是待分类的文本。该 方法是将待分类的文本与每个类别的文本重心相比较,选最大相似程度类别即为 所求。 设文本共分为n 类,第c 类向量表示为c = ( a 。,a 2 ,a 。) ,待分类文档d = ( q ,国:,彩。) ,它们的相似度为: 砌q 芦卜南;q q q - 1 s i m ( d ,c ) 最大时的文档类别即为d 所属文档类别。 2 贝叶斯分类方法【2 2 2 1 贝叶斯分类方法以闽值大小来对文本数据进行划分。利用: c = a r g ( m a ) 【| 半4 - 芝l = lp , ( x , d ) l o g l 厕i p a x c ) ) ( 2 _ z ) 其中x ,指c 类文档第i 个特征,p ,( 一c ) 是从c 类文本中得到特征词x ,的概 率,p ,( 一d ) 是从文本d 中得到特征词t 的概率,n 指d 中词的个数,m 是系统 词典的大小。若所得阈值大于预先设定的值,则认为文本d 属于c 类别,否则不 是。 3 k 最近邻接分类算法1 2 3 】 k 最近邻接分类算法的算法思想是:如果一个文本( 向量) 在特征空h j 中的k 个最近邻文本( 向量) 中的大多数属于某一个类别,则该文本( 向量) 也属于这个类 别。 该算法通过对与所查文档d 最近邻接的k 个文档所属类别的概率分布判断 该文档所属类别。文档d 属于c 类文档的概率为: s i m ( d ,西) p ( c id 1 ) p 。霞i = 蚕1 磊丽 2 3 s i m ( d ,d 1 ) 表示文档d 与码的相似度。刃为与d 最近邻接的k 个文档之一, 它可属于同一类别文档,也可属于不同类别文档。 4 基于语义网络 2 4 1 的概念推理网1 2 5 】分类方法 概念推理网是由6 0 年代q u i n l a n 的语义网络演化而来的一种新的文本分类 方法,它模拟人脑的推理思维模式,将文档分类、模式匹配转化为一个文档匹配的 1 0 中南大学硕十学位论文 第二章文本分类模型研究 推理过程。利用概念推理网进行分类描述为:给定判断集s = ,j u 2 , - - 为每 个缈s 建立一个概念推理网。 概念推理网利用信息增益( i n f o r m a t i o ng a i n ) 来度量核心词,即当某个词的 类别隶属度大于某一个预定阈值时即认为它是核心词。 核心词评价函数为: 删嘞折( d = p ( 叼;p l ,) l o g 兰:篆字+ p ( - ) 莩p ( 奶旷) i o g ! 急宁( 2 4 ) f 为一个词,p ( f ) 为词f 出现的概率,f 指词f 不出现,p ( 帆) 是第i 类 出现的概率,p ( lf ) 是词f 出现时1 l ,。出现的概率。i n f g a i n 定义为类别隶 属度,当i n f g a i n 大于某一预先给定的阀值时,即认为该词为核心词。 概念推理网中采用了a g r a w a l ( 1 9 9 4 ) 等给出的数据挖掘技术。设词f 和,共 同出现在某类别的文档中,定义它们在文档皿中出现的总数为c o ,“,它们在 中出现的概率分别为 q ) 和加q ( 妒) ,此时词f 和在类别, j d kp e a ( f ,奶、文档 见中的语义关联度为h 0 ,咖乜。 硼。而研誊历雨 q 5 ) c o n , 0 蟛。毒研 ( 2 - 6 ) 鲫0 的值越大,在类别移中词f 和的语义关联度越高。同理,词f 一和f j 在类别、文档皿中的支持度为: s 咖笔紫 倍, s u p 0 s u p , o 。孬茏丽 ,j ” ( 2 - 8 ) 如果s u p 0 小于预定的阈值,则渊0 不论多大也不认为词只和e 存在语义 关联。根据推理网络中的各种关系( i s a 、m e m b e r 、p a r t 、h y p e r n y 皿等) 给网络中 的节点赋予不同的隶属度和权值m 。设核心节点概念为e ( i = 1 ,2 ,k ) ,与 其对应的相邻节点为a a ,以,此时文档与类别的关联为: 荟南x ( i n f g a i n “善 。吒) i i“, ( 2 9 ) 中南大学硕士学位论文第二章文本分类模型研究 取m a x ( 善赤。( 1 n f l 3 a i n x 善1 以。吼) ) 的类别t l j q 即为文档类别。 口i 5 向量空间法 向量空间法的起源可追溯到r o c c h i o 于1 9 7 1 年提出的相关反馈法。它的基 本思想是用词袋法表示文本,将每个词条作为特征空间坐标系的一维,将文本看 作特征空间的一个向量,用两个向量之间的夹角来衡量两个文本之间的相似度。 设文档集为a = q ,集合a 中元素的个数为s :特征项集t = 托 ,集合t 中 元素的个数为m ;定义特征项t 在文档中权重形。为 = 吮i d l l i s ,1 j m ( 2 - 1 0 ) i d f , = l o g ( i d i d f ( w ) ) 其中吮为特征项在文档a 。中出现的频率,称为项频:i d f , 称为逆文本频数。 其中w 代表此单词,i d i 代表训练集中文本总数,d f ( w ) 代表出现了w 的文档 数。根据这种启发式机制,这类算法又叫做t f i d f 法i 瑚。在此基础上构建文档 的向量空间模型,以 ,t :,t 。为坐标轴,将文档a ,表示为m 维向量( , 彬:,) , 则两个文档a 、a 之间的( 内容) 相关程度常常用它们之间的相似度s i m ( a , , a ) 来度量。我们可以借助于向量之间的内积来计算: s i m ( a , ,a ,) = x ( 2 1 1 ) 或者用向量夹角余弦来表示: h,而厅 咖( = c o s ( o ) 2 荟既善孵。1 善嘿( 2 - 1 2 ) 其中l i s ,1 j m 。 在该模型中,文本的一切特性由它的特征向量来表示,文档之间的比较,实 际上转变为特征向量的比较。 当代分类文本口,与文档类向量x 的相似度大于规定的阀值时,即将a 划分为 为文档类x 。 2 2 3 文本分类算法评价指标 文本分类算法评估的标志主要是分类的准确程度。分类准确程度的参照物是 通过算法判断后对文本的分类结果与人工分类结果越相近,分类的准确程度就越 高( 这黾假设人工分类完全i f 确并且排除个人思维差异的因素) ,这里隐含了评估 1 2 中南大学硕e 学位论文第二章文本分类模型研究 又本分突糸统晌两个循杯:准确翠和查全翠。 准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学 公式表示为: 准删p r e c i s i o n ) = 蒙 1 3 ) 查全率是人工分类结果应有的文本数与分类系统分类的正确文本数的比率, 其数学公式表示为: 查蝌r e c a l1 ) = 笔群1 4 ) 准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可 偏废,因此,存在一种新的评估指标,f i 测试值伫q ,其数学公式如下: 咧试值一篙蒸摹鑫警 协,国 2 2 4 几种文本分类算法特点评述 基于概念的文本分类将待分类的文本同各个类别文本重心比较,具有最大似 然性的即认为属于该类别。该类算法响应速度较快且计算简便,由于利用了概率 密度作为权重,与单纯的词类比较相比具有较高的精度。贝叶斯分类和k 一最近邻 接分类算法都是基于vsm ( 向量空问模型) ,根据计算文本向量问的距离决定其 归属。由于这些算法未能考虑到向量模型中各特征向量问相互影响关系,分类精 度不是很理想。而基于语义网络的概念推理网利用关键概念和其他概念问的相互 关系,模拟人的分类过程,实现文本分类。传统的基于vsm 的分类算法利用欧氏 距离、余弦距离和内积等进行相似性检验,概念推理网则考虑到了向量空间中无 用特征对距离计算产生的干扰及核心概念词和其相关联词之日j 的内在联系,该种 利用核心概念的算法较距离计算有着较高的精度唧。 2 3 向量空间法研究 vsm 方法被认为是文本检索的优秀模型,不过在查全率与查准率方面却不 见得比其它方法有绝对显著的优势。用模式识别的建模准则去考察vsm 方法所 使用的tf idf 的权值估算时1 2 s l ,就发现缺乏一种明晰的理论依据。 t f i b f 法的指导思想建立在这样一条基本假设之上:在一个文本中出现次 数很多的单词,在另一个同类文本中出现次数也会很多,反之亦然所以如果将特 征空日j 坐标系取t f 词频作为测度,就可以体现同类文本的特点。另外还要考虑单 中南大学硕七学位论文 第二章文本分类模型研究 词区别不同类别的能力。t f - i d f 法认为一个单词出现的文本频数越小,它区别不 同类别的能力就越大,所以引入了逆文本频度i d f 的概念,以t f 和i d f 的乘积作 为特征空间坐标系的取值测度。 问题在于,一个文本中对分类有用的单词只占- d , 部分,而大部分单词与我 们要判别的类无关,属于“噪音单词”。结果两个文本之间的夹角在很大程度上 是由这些噪音单词的词频差异,而非有用单词的词频差异决定这些噪音单词完 全可能淹没有用信息,从而导致以t f 为坐标系测度的分类方法精度较低一种解 决办法是对各单词加权,权重大小取决于单词有用的程度,有用单词乘的权重高, 无用单词乘的权重低。由于每个文本向量的长度都是归一化了的,所以加权的结 果实际上是使向量在特征空问中向有用单词所代表的那些维旋转了一个角度旋 转后,无用单词词频的差异对向量夹角的影响被减小,而有用单词词频的差异对 向量夹角的影响被加强,也就是说噪音被抑制,有用信号被加强。 t f - i d f 法中的i d f 函数在本质上就是一种试图抑制噪音的加权然而,i d f 函数简单地认为文本频数少的单词就重要,文本频数多的单词就无用,这显然是 太武断了i d f 的简单结构使它不可能很好地反映单词的有用程度从而导致向 量空间法的分类精度不高。 2 3 1 权重函数的改进 为了提高向量空间法的分类精度,人们对向量空问法进行了不断的改进四l 。 从上面的分析可知,向量空问法的分类精度不高主要是由于文档特征提取时的 t f i d f 函数不能很好的反映文档的特征。本文考虑到文本特征选择中的各种评 估函数是从信息论中延伸出来的,用于给单个单词打分,很好地反映了单词与各 类别之间的相关程度。所以尝试用评估函数来代替t f i d f 函数口0 1 。 采用的评估函数包括: 1 文档频数d f 它是最简单的评估函数,其值为训练集合中此单词发生的文本数。d f 评估函 数的理论假

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论