




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 文本是互联网上的主要信息载体,文本自动分类技术能够有效地将文本信息 组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有 力的支持。 文本分类的关键技术主要包括向量空间模型、特征项赋权、特征选取、分类 器构建等,本文对这些技术作了详细介绍和深入分析。在特征赋权方面,本文在 向量空间模型基础上,分析了t f i d f 权重算法的不足,提出了结合t f i d f 与类 间分布信息的改进权重算法。实验结果表明改进的权重算法对分类精度有所提高。 本文对几种常用的特征选取算法进行了研究比较,分析了互信息算法进行特征选 取精度不高的可能原因,改进了互信息算法。实验结果表明改进的互信息算法提 高了分类精度。本文考察了几种常用的分类算法,并且通过实验测试了它们的性 能。结合分类算法r d c c l l i o 的特点和基于层次结构的分类理论,本文在实验中实 现了基于r d c c h i o 的层次分类方法。 关键词:文本分类向量空间模型特征权重特征选取层次分类 摘要 a b s t r a c t i 色x ti st h em a l nl b 肌a t i o nc 帅e ro ni m e m e t 。i e x ta u t o c a t e g o r i z a t i o ns y s c a no r g a n i z ea n dm a i l a g et h et e x ti n f b m a t i o na v a i l a b i y l o c a t i n g 血ei n f b 兀1 1 a _ a c c u r a t e l ya 1 1 dr a p i d l y ,s u p p o r t i n gt h ei n f b n a t i o ne x t r a c t i n ge 航c t i v e l y t h ep 印盯r c s e a r c h e si nd e t a i 】i n t 0t 1 1 et e c h n o l o g yo ft e x tc l a s s i 矗c a t i o nb a s 刮 v e c t o rs p a c em o d e l t b m lw e i g h t i n 舀t e h ns e l e c t i o na 1 1 dc l a s s i f i e rc o n s t r u c t i o n , k e y so ft e x tc l a s s i 丘c a t i o ns y s t e m ,a r ei n t r o d u c e da n da n a l y z e di nt h ep a p e r t h ep d i s c u s s e st h et r a d “i o n a la l g o r i t h mo ft e 玎i lw e i g h t i n g :t f i d f ,t h ei n t r o d u c t i o r i n t e r - c l a s sf 如t o ri nt e mw e i g h t i n gi s p r e s e n t e d i nf e a t u r es e l e c t i o n ,t h ep i n d i c a t e st h er e a s o nn l a tm u t u a li n f 0 h n a t i o n ( m i ) s h o w sl o w p r e c i s i o ni nc l a s s f i c g a n dp r o p o s e s 血ei m p r o v e da l g o r i t h i n e x p e r i m e n t a lr e s u l t ss h o wt h a tm ei m p r o a l g o r i 廿l m so u t p e r f o 咖e dt h e 廿a d i t i o n a lm e t h o d si nc l a s s m c a t i o np l e c i s i o n i n e x p e r i m e m ,f o u rd i f f e r e n tc l a s s i f i e r s a r ec o n s i d e r e da n dt h em u l t i i h i e r a r c h y c l a s s i 矗c a t i o nb a s e do nr o c c l l i oj sd e r f d 肋e d k e y w o r d : t c x tc 砒e g o r i z a t i o nv c c t o rs p a c em o d e lt e m w e 培h t i n g f e a t u r es e l e c t i o n h i e r a r c l l yc l a s s i f i c a t i o n 独创性( 或创新性) 声明 y8 5 8 8 9 l 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学 或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 苤五华日期兰丝:圣z 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论 文在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名:蔓:塑璺 导师签名:堡聿华 日期丝! ( ! 兰:2 日期兰2 兰:主:g 第一章绪论 第一章绪论 1 1 课题的研究背景 随着信息技术与互联网的迅速发展,信息增长速度惊人。海量、异构和动态, 是信息资源增长与发展的三个特点。虽然互联网上的信息载体呈多样化趋势,但 仍以文本为主,文字是互联网上信息的主要来源,尤其是科技期刊的电子化和数 字图书馆的发展极大地丰富了网络的知识资源。目前,全球上网的科技期刊已达 1 万余种。国内上网科技期刊也达于余种,仅万方数据资源系统就集纳了近千种 科技期刊全文内容。如何让互联网和数字图书馆真正为用户服务,帮助用户收集 和选择其所感兴趣的内容,使用户能够快速了解最新的信息发展动向,减少用户 用于处理资料的时间,是信息处理的重要课题。 文本分类作为信息处理的重要研究方向,无疑是处理文本信息的有效途径。 通过文本分类系统,信息可以得到有效的组织管理,这样就有利于快速准确的定 位信息,具体体现为信息查询时间、组织和过滤时间、阅读时间的减少,从而使 用户快速地获取信息成为可能。文本分类最初是应信息检索( i f 0 髓甜o n r c t r i e v a l ,简称i r ) 系统的要求出现的【”,通过分类对文本集进行有序组织,把相 似的、相关的文本组织在一起。文本分类作为知识的组织工具,为信息检索提供 了更高效的搜索策略和更准确的查询结果。其中,高效性来自于用户可以首先确 定查询的可能类别,以减小需进一步匹配的文本数量。有效性在于相似的文本很 可能与相同的查询相关。这样,检索的查全率和准确率都得到了提高。意大利科 学家f a z i os e b a s t i a n i 认为文本分类技术可以被看作是所有基于内容的文本信息 管理的基础【2 1 ,由此可以看出文本分类技术在信息处理领域的重要性。 传统的文本分类是基于知识工程的分类,即由专业人员手工进行分类,并加 以组织和整理,为人们提供一种相对有效的信息获取手段。但是,人工分类非常 费时,效率过低,而且存在分类结果一致性不高的问题。目前有很多大型网络信 息系统( 如啪0 01 ) 已经建立起了巨大的网络信息资源库,但他们大多以人工方法 建立,这样做在准确性上相对有一些保障,但不足之处也很明显,那就是互联网 巨大的信息量造成人力消耗过大,分类效率低下。 网络文本信息的激增使得自动分类处理技术越发显示着其优越性,相对人工 分类,文本自动分类系统具有以下特点1 3 】: 1 、高效率、高速度。自动分类的效率将是人工分类的百倍甚至千倍,从而大 量的节约人力。 基于向量空间模型的文本分类技术研究 2 、较高的准确度。消除了人为错误产生的可能。 3 、良好的自适应性。可快速适应文本的更新及类别设置的变化,适应不同环 境及需求。 1 2 典型应用 近年来,文本自动分类技术在信息技术备方面的应用越来越广泛。在智能缓 存技术,数字图书馆技术,搜索引擎技术,互联网信息监控包括“垃圾”邮件的 过滤等领域里面,文本自动分类技术都扮演着非常重要的角色,有效地提高了信 息服务的质量。研究利用计算机进行文本分类已经成为一个有重要价值的研究课 题,并且有着很广泛的应用前景,如: 1 、邮件分类 这种应用主要是对用户收到的电子邮件进行分类,如:麻省理工学院为白宫 开发的邮件分类系统,能自动地确定每天发送给总统的大量的电子邮件所属的类 别,如外交、环保、家居等,以安排适当的人员对信件内容进行答复川。 2 、电子会议意见分类 电子会议是一种新兴的会议方式,所有与会者通过网络电脑系统举行会议, 与会者是匿名的,便于形成平等的气氛,以调动与会者的积极性,因此产生大量 的意见和建议,接下来再由分类系统对这些意见进行分类和组织,最后确定进一 步讨论的主题l l 】。 3 、在智能检索系统中的应用 实际使用过搜索引擎的人想必都有过这种体会:想查找的东西查不着,不相 关的东西倒是很多。构造更好的信息检索系统仍然是人们努力的目标。在搜索引 擎的构建过程中,可以利用文本分类技术来进行概念区别,改进相关度排序,也 可以对被检索的信息按照一定的分类体系进行自动分类。 4 、在网络信息过滤、萃取系统中的应用 用户每一天都会得到大量的网上信息,网络信息过滤系统必须根据用户所关 心的信息过滤网上信息,然后主动形成用户需要的信息。另外,网络信息萃取系 统根据某种需要,自动分析网页信息,萃取某一特定内容,进行分析。这两种系 统都将综合运用文本分类技术和摘要技术。 5 、在文本库的建立与重建中的应用 机构或个人都会面临建立文本库或重新归类大量文本的任务,这就需要根据 指定的一些文本和类别结构,自动地将所有的文本归于合适的类。若是将新的文 本加入合适的文本类别中也要采用文本分类技术。 第一章绪论 1 3 文本分类技术的研究进展 自动分类研究始于2 0 世纪5 0 年代,h p l u l l l l 【4 j 在这一领域进行了开创性研 究,他提出词频统计思想并主要用于自动分类。1 9 6 0 年,m a r o n 发表有关自动分 类的第一篇论文【5 1 。1 9 6 2 年,博科( h b o r k o ) 等人提出利用因子分析法进行文献的 自动分类。其后,k s p 鲫c k 、gs a l t o n 以及r m n d l l 眦等众多学者在这一领 域进行了卓有成效的研究工作。概括起来,他们主要从文本的词频统计分析、句 法分析和语义分析等三个层次上进行研究。其中,以基于词频统计分析的自动分 类试验较为成功。 文本自动分类主要经历了四个发展阶段:第一阶段( 1 9 5 8 1 9 6 4 ) 主要进行自动 分类的可行性研究;第二阶段( 1 9 6 5 1 9 7 4 ) 进行自动分类的实验研究:第三阶段 ( 1 9 7 5 1 9 9 8 ) 进入实用化阶段;第四阶段( 1 9 9 0 年至今) 因特网自动分类研究阶段。 文本自动分类在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用, 其中较为成功的系统有卡内基集团为路透社开发的c o n s t 兀l e 系统【6 j 等。 我国开展自动分类研究起步较晚。1 9 8 1 年,侯汉清教授对计算机在文献分类 工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、 计算机自动分类、计算机编制分类表等方面的概况。此后,我国陆续研制出一批 计算机辅助分类系统和自动分类系统。国内外的研究基本上是在英文文本分类研 究的基础上采取相应策略,结合中文文本的特定知识,然后应用于中文之上,继 而形成中文文本自动分类研究体系【_ ”。很多学者在基于知识和统计的两种方法上 对中文文本分类进行了大量的研究工作,主要有基于词典的自动分类系统和基于 专家系统的分类系统。 目前大量的统计方法和机器学习方法被应用于文本自动分类系统。文本分类 可以被看作是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法 能够取得很好的效果。文本自动分类中应用较早的机器学习方法是朴素贝叶斯 ( n a i v eb a y e s ,n b ) 方法【引。目前,几乎所有重要的机器学习算法在文本自动分类领 域都得到了应用,支持向量机( s u p p o r t 、t o rm a c l l i n c ,s v m ) 【9 1 ,最大熵算法 ( m a x i m 唧e r l 伽p y ) 1 1 0 1 ,神经网络( n e u r a ln e t s ) 和规则学习算法1 12 1 ,k 近邻算法 【1 3 1 ( kn e a r e s tn e i 曲b o r ,k n n ) 等。在这些分类算法中,大多数都是基于向量空 间模型的,其中使用范围最广的是k n n 算法。基于向量空间模型的算法作为一 种简单、有效的算法,在信息分类中引起广泛关注,并且取得了很好的成果。本 文主要针对基于向量空间模型的分类技术进行了研究与探讨。 4 基于向量空间模型的文本分类技术研究 1 4 1 基本概念 1 4 文本自动分类概述 文本分类( t e x tc a t e g 耐z a t i o n 或t e x tc l a s s i 6 c a t i o n ,缩写为t c ) 是指根据文档 的内容或属性,将大量的文本归至0 一个或多个类别的过程。这里所指的文本可以 是媒体新闻、科技报告、电子邮件、技术专利、网页、书籍或其中的部分。文 本分类问题关注的文本种类,最常见的是文本所涉及的主题或话题( 如体育、政治、 经济、艺术等) ,也可以是文本的文体风格( 如流派等) ,或文本与其他事物( 如垃圾 邮件等) 之间的联系( 相关或不相关) 。 文本自动分类【1 4 j 是在给定的分类体系下,根据文本的内容自动地确定文本关 联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文 本映射到已有的类别中,该映射可以是一映射,也可以是一对多的映射,因为 通常一篇文本可以同多个类别相关联。用数学关系表示如下: ,r :4 呻b其中,爿为待分类的文本集台,昱为分类体系中的类别集合 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结 出分类的规律性丽建立的判别公式和判别规则。然后在遇到新文本时,根据总结 出的判别规则,确定文本相关的类别。因此,文本自动分类是个有指导的学习 过程。它根据一个己经被标注的训练信息样本集合,找到信息属性和信息类别之 间的关系模型,然后利用这种学习得到的关系模型对新的信息样本进行类别判断。 文本分类的关键问题是如何构造一个分类函数或分类模型( 也称为分类器) ,并利 用此分类模型将未知文本映射到绘定的类别空间。 1 4 2 文本自动分类的两种类型 文本自动分类的方法分为两大类:基于规则的分类方法和基于统计的分类方 法。基于规则的分类方法多应用于某一具体领域,需要该领域的知识、规则库作 为支撑。但是,对知识、规则的制定、更新、维护以及自我学习等方面存在种种 问题,这些因素使其应用面比较窄。在基于统计的分类方法中,依据某种统计后 得到的客观规律,或者采用某种统计学中的定律来完成分类器的建立工作。这种 方法中的训练过程多为训练集上的某种统计和计算过程,得到某些可以代表文本 与类别之间关系的数据模型。在分类时分类器给出的通常为某种概率结果。比如 朴素贝叶斯模型,向量空间模型,k 近邻方法等。基于统计的分类方法理论基础 不是报强,在对逻辑依赖性较强的复杂文档进行分类,或者对于分类范畴比较模 第一章绪论 糊的类别进行分类时,效果往往不太理想。但由于系统实现简单,对太多数实际 文本分类速度较快,准确度在一定的条件约束下比较高,而且系统成本比较低, 因此被大多数文本分类系统所采用。 1 4 3 文本分类模式 在实际应用中,分类模式可以根据实际情况分为单类别问题,即属于或是不 属于问题;也可以分为多类别问题,即属于多种可能中的哪一种。当然,多类问 题最终还是可以看成多个单类别问题的组合来解决。 对于单类别分类和多类别分类l l ”,在不同的背景需求下,分类的具体任务也 各不相同。在单类别分类中,是多个文本对应一个类别的关系,分类未知文本时 通常会采取闽值的方法。在分类器的框架建立好之后,训练的过程就是根据训练 样本来调整阈值的过程。分类时根据阈值判断,满足条件则判为1 ,否则判为0 。 单类别分类相对简单。在多类别分类中,是多个文本与多个类别的对应关系,而 且通常一个文本只能属于一个类别。在多类别分类中,分类时通常会采用投票法。 即分类器会将文本d 放在所有的类别上完成一次分类过程,得到某种结果。这些 结果通常代表了文本d 属于某个类别的可能性,可以是文本d 属于某类别的概率、 或者是文本d 与某类别的相似程度等。然后再由分类器从中完成抉择。多文本分 类更为复杂,此时文本分类的任务是建立起适用于多类别的分类器。 1 4 4 文本分类过程 一般来讲,文本分类过程需要解决五方面问题【1 q : ( 1 ) 获取训练样本集 训练样本选择是否合适对文本分类器的性能有较大影响。训练样本集应该能 够广泛地代表分类系统所要处理的客观存在的各种文本信息类中的样本。一般地, 训练样本集应是公认的经人工分类的语料库。国外文本分类研究都使用共同的测 试样本库,这样就可以比较不同分类方法和系统的性能。 ( 2 ) 建立文本表示模型 即选用什么样的语言要素( 或者说文本特征) 和用怎样的数学形式组织这些语 言要素来表征文本信息,这是文本分类中的一个重要问题。 ( 3 ) 文本特征选择 语言是一个开放的系统。作为语言的一种书面物化或者电子化的文本信息也 是开放的。它的大小、结构、包含的语言元素和信息都是开放的:因此它的特征 也是无限制的。文本分类系统应该选择尽可能少而准确且与文本主题概念密切相 基于向量空间模型的文本分类技术研究 关的文本特征进行分类。选择什么样的文本特征由具体的度量准则确定。 ( 4 ) 选择分类方法 也就是用什么方法建立从文本特征到文本类别的映射关系,这是文本分类的 核心问题。 ( 5 ) 性能评估模型 即如何评估分类方法和系统的性能或者说分类结果。真正反映文本分类内在 特征的性能评估模型可以作为改进和完善分类系统的目标函数。在文本分类中, 至0 底使用什么评价参数取决于具体的分类问题。单类别分类问题和多类别分类问 题所使用的评估参数是不一样的。常用的评估参数有查全率和查准率,这是来源 于信息检索中两个术语。 因此,一个文本分类过程通常包括如下几个主要阶段: 文本预处理 文本表示 文本特征选择 文本分类器设计 文本分类的性能评估 j 训练过程 ; 分类过程 、 i 训练文本预处理卜 构 i 测试文本预处理i 分 i 造 i 一 类 i 特征提取 i 分 和 i 类输 l 训练文本再处理卜 器 出 图l _ 1 文本分类系统模型 文本分类的系统模型分为两部分,如图1 1 所示,一部分是训练过程,另一 部分是分类过程。训练部分所得到的结果供分类部分应用,而分类部分的结果反 馈给训练部分,改进训练方法。 训练的目的是训练分类器使其可用于分类,首先要建立特征集,基本流程为: 预处理一特征提取一特征集建立;之后则是训练分类器,基本流程为:预处理一 依据特征集取得文本的特征表示一训练分类器。分类则是分类器依据训练结果对 待分类文本进行分类并给出类别标识的过程,基本流程为:预处理待分类文本一 依据特征集取得文本的特征表示一分类器分类一给出分类结果。 第一章绪论 1 5 本文研究的内容与本文的组织 本文研究的内容集中在基于向量空间模型的、多类别的文本分类问题上,主 要以文本分类技术的研究为基础,对向量空间模型、特征项赋权、特征选取、分 类器构建等关键技术作了深入的分析与探讨,并提出了一些改进方法,通过实验 进行了验证。 文本分类技术主要采用向量空间模型进行文本的形式化表示,在向量空间模 型中,特征项对分类所起到的作用大小并不相同,因此,必须针对它们对分类所 起到的作用赋予不同的权重。本文在研究传统权重算法的基础上,对t f i d f 权 重算法进行了深入分析,针对t f i d f 只考虑词频因素和文档集因素的不足,提 出结合t f i d f 与类间分布信息的改进权重算法。 文本分类中的一个主要的问题是高维的向量空间,为了兼顾运算时间和分类 精度两个方面,在许多文本分类系统的实现中都引入了特征选取方法,以此达到 压缩向量空间维数的目的。本文对常用的特征选取算法进行了研究比较,考察了 先前的实验结果,并且分析了互信息算法进行特征选取精度不高的可能原因,认 为互信息为负值的特征在分类中具有很重要的作用,并在此基础上提出了改进的 互信息算法。 本文对常用的分类算法性能进行了分析和评价,根据r 0 c c h i o 算法的特点和 基于层次结构的分类理论,在实验中实现了基于r o c c h i o 的层次分类方法。 全文共分为六章: 第一章是引言部分,首先对本课题的目的和意义做了介绍,然后讨论了目前 国内外研究现状,介绍了文本分类的基本概念。最后,对本课题主要的研究内容 和本文的组织结构做了简要的介绍。 第二章首先介绍了用于文本表示的向量空间模型。然后讨论了特征项赋权算 法,并改进了t f m f 权重算法。 第三章主要研究了几种常用的文本特征选取算法。并改进了互信息算法。 第四章主要研究了四种分类算法,分析了基于层次结构的分类方法。 第五章介绍了本文所使用的r a i n b o w 分类系统,介绍了实验中所采用的数据 集和评价标准。在实验中,对各种分类算法进行了性能比较和评价,对前面提出 的改进算法进行了实验验证,最后给出了实验结果和分析。 第六章对全文进行了总结并阐述了今后的研究方向。 第二章特征项赋权 第二章特征项赋权 向量空间模型是最为常用的一种文本的表示方法,文本中出现的字、词等通 常被作为文本的特征项。本章主要讨论向量空间模型在文本分类中的应用,并且 对传统权重算法t f - l d f 进行了深入分析,在其基础上提出了改进的权重计算方 法。 2 1 向量空间模型分析 2 1 1 向量空间模型( v e c t o rs p a c e1 i l o d e l ,v s l l l ) 计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可以产 生对文章内容的模糊认识,而计算机并不能轻易地“读懂”文章,从根本上说, 它只认识o 和l ,所以必须将文本转换为计算机可以识别的格式。因此要将机器 学习技术运用于文本分类问题,首先需要将作为训练和分类对象的文档文本,转 化为机器学习算法易于处理的形式,建立相应的数学模型。具有代表性的文本表 示模型有:布尔模型( b 0 0 1 e a nm o d e l ) 【1 ”、向量空间模型、概率模型( p r o b a b i l i s t i c m o d e l 尸等。下面主要介绍向量空间模型。 向量空间模型是gs a l t o n 在1 9 7 5 年提出的【1 8 】,早期应用于信息检索领域, 后来在文本分类领域得到了广泛的运用。向量空间模型和机器学习算法在自动文 本分类领域中的紧密结合和成功运用,使得基于向量空间模型的文本表示方法成 为文本分类研究领域中文本表示的主流方法。 根据“贝叶斯假设”,假定组成文档的单词或词组在确定文档类别的作用上相 互独立,那么可以使用文档中出现的单词或词组的集合来代替文档。这样就是说, 一篇文档所属的类别仅与某些特定的单词或词组在该文档中出现的频率有关,而 与这些单词或词组在该文档中出现的位置或顺序无关。显然这将丢失大量关于文 章内容的信息,但是这种假设可以使文本的表示和处理形式化,并且可以在文本 分类中取得较好的效果。如上所述,如果将构成文本的各种语义单位( 如字、词、 词组) 统称为“词项”,将词项在文本中出现的频率称为“词频”,那么一份文档中 蕴涵的各个词项的词频信息足以用来对其进行正确的分类。 因此在向量空间模型中,用“词项”作为特征项可以构成向量来表示文档。 每个文档d 被看作是向量空间中的一点,表示为向量空间中的一个向量: 塑基于向量空间模型的文本分类技术研究 d = m j ,q 1 0 2 ,:) ,以,q ) ,以,) ) 。其中为第f 个特征项,q 为t 的权重, 般取为词频的函数。 选取什么作为构成文档向量的特征项呢,可以选择的有字、词或词组,根据 实验结果,普遍认为选取词作为特征项要优于字和词组。最初的向量表示完全是 o 、1 形式,即,如果文本中出现了该词,那么文本向量的该维为1 ,否则为o 。 这种方法无法体现这个词在文本中的作用程度,所以逐渐0 、l 被更精确的词频 代替,词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率 表示文本,相对词频为归化的词频,其计算方法主要运用t f - i d f 公式,目前 存在多种形式的t f i d f 公式,我们将在下一节详细介绍。 在向量空间模型中,两个文本d l 和d :之间的( 内容) 相关程度( d e 鲈e eo f r e l e v a n c e ) 可以用它们之间的相似度( s i m i l “t y ) 来度量,即肪”( 以,d 2 ) 。当文本被 表示为向量空间模型中的向量时,我们可以借助于向量之间的某种距离来表示文 本之间的相似度,通常用向量之间的内积或者用夹角余弦值来表示。 2 1 2 关于向量空间模型的讨论 向量空间模型的最大优点在于它在知识表示方法上的巨大优势。在该模型中, 文本内容被形式化为多维空间中的一个点,通过向量的形式给出,把对文本内容 的处理简化为向量空间中向量运算,使问题的复杂性大为降低。而权重的计算既 可以用规则的方法手工完成,又可以通过统计的办法自动完成,便于融合统计和 规则两种方法的优点。也正是因为把文本以向量的形式定义到实数域中,才使得 模式识别和其他领域中的各种成熟的计算方法得以应用,极大提高了自然语言文 本的可计算性和可操作性。所以说,文本的形式化表示方法一向量空间模型,是 基于文本处理的各种应用得以实现的基础和前提。 向量空间模型是一种不考虑特征项出现顺序的词袋( b a go f w j r d s ) 文本表示模 型,这种模型虽然带来了计算和操作上的方便,但是却损失了大量的文本结构信 息。而这些信息在自然语言中也是至关重要的( 如句中的词序信息等) 。另外,在 权重和相似度的计算中也傲了许多简化工作。一是对不同的语言单位构成的特征 项大都只考虑其统计信息并采用统一的权重计算方法,而这种计算只是经验公式 并没有很好的理论基础,所以计算出的权重未必能真实反映各项的重要性。二是 向量空间模型是建立在所有特征项两两正交这一假设基础上的,没有考虑特征项 之间的相关性。对于自然语言这种有着非常丰富语言现象的研究对象来说,这种 假设显然是过于严格的,不能很好地反映自然语言的特征。目前已经有许多改进 第二章特征项赋权 项权重计算的方法,但是效果并不明显,原因在于语义关系实际上是一个很复杂 的运算,采用简单的初等运算代替它,误差势必存在。 2 2 特征权重算法 在向量空间模型中,特征项对分类所起到的作用并不相同,因此,必须针对 它们对分类所起到不同的作用赋予不同的权重。赋权方式有布尔权重、t f i d f 权 重及基于熵概念的权重。应用最广泛的是t f i d f 权重,我们将对t f i d f 权重进 行详细分析。 1 、布尔权重 布尔权重( b o o l e a i lw e i g m n g ) 是最简单的一种赋权方法,如果特征项出现次数 为o ,则其权重为o ,如果特征项出现次数大于o ,则其权重为l 【挣】。 表达公式: ,= 1 0 下1 ) 或国,= o o f = o )( 2 1 ) 其中,为特征项,的权重,盯为特征项f 的出现次数。 2 、基于熵概念的权重 文本分类中特征选取的目的是为了降低向量空间的维数,特征选取采用的各 种评估函数是用来评价特征项中所包含信息量多少的,它们给特征项的评估值很 好地反映了各特征与各类别之间的相关程度。由于这些评估函数也是对特征项重 要性的某种刻画,因而这些评估函数计算出来的值常常被用作“特征项权重”参 加计算,即基于熵概念的权重( m p yw j i g h t i n g ) 【2 0 】。 3 、t f i d f 权重 在向量空间模型中,文本被形式化为n 维向量空间的一个向量,坐标系所采 用的测度( 即词权重) 主要应用s a l t o n 【2 l l 在1 9 8 8 年提出的t f i d f ,将t f 和i d f 参 数用于特征项权重计算,用它们来刻画特征项表达文本内容属性的能力。 t f ( t e n nf r e q 啪c y ) 是词频,或称特征项频率。不同类别的文档,在特征项的 出现频率上有很大差异,因此特征项频率信息是文本分类的重要参考之一,一般 t f 较大的特征项在该类文档中具有较高的权重。也就是说如果一个词在某类文档 中经常出现,那么说明这个词对该类文档具有代表性。t f 越大,表示这个词对文 档越重要,如“计算机”这个词在计算机类的文档中出现的频率显然要高于政治 类的文档。在最初的文本自动分类中,文档向量就是用t f 来构造的。 但是只有词频不足以表示一个词对文档的有用程度,文档中大量出现的禁用 里 基于向量空间模型的文本分类技术研究 词( 咖pw o r d s ) 会干扰特征权重的计算,比如对于分类帮助很小的代词、介词、连 词等高频词,它们在所有文档中出现的频率都比较高,对文档意义的贡献度却很 小。为了处理禁用词,有的系统采用了禁用词过滤办法。这样做需要依赖于一个 专家构造的禁用词词典。不过禁用词的界定本身就是一个主观性很强的判断,而 且词典在扩充和修改上都需要一定程度的人为干预,因此为了削减几乎存在于所 有文档中的高频词的影响,比较合理的办法是使用反比文档频率。 d f 是文档频率( d o c u m e mf r e q u e n c y ) ,就是文档集合中出现某个特征项的文 档数目:i d f 是反比文档频率( i n v e r s e d o c 岫e m f r e q u 矗c y ) ,i d f 越大,此特征项 在文档中的的分布越集中,说明它在区分该文档内容属性方面的能力越强。反文 档频率i d f ( i n v e r s ed o c m e n tf r e q u e n c y ) 是特征项在文档集分布情况的量化。i d f 应用时经常采用对数形式,其计算方法为: ,、 脚( f 。) = l o g ( 叱+ 工 ( 2 2 ) 、,f 其中,三的取值通过实验来确定。为文档集中的总文档数,胛为出现特征 项f ,的文档数。 i d f 算法的核心思想是,在大多数文档中都出现的特征项不如只在小部分文 档中出现的特征项重要。也就是如果个词在一篇文档中出现,但同时它也出现 在很多文档中,则降低了这个词的重要性,如“科学”在社会科学类与自然科学 类的文档中都出现,对区别两类文档的帮助就不大。i d f 算法能够弱化一些在大 多数文档中都出现的高频特征项的重要度,同时增强一些在小部分文档中出现的 低频特征项的重要度。 特征权重计算难一的准则就是耍最大限度的区分不同文档。因此特征项频率 t f 与反比文档频率i d f 通常是联合使用的,也就是t f - i d f 权重。 目前存在多种印一仍f 公式,如下所示: t f 4 i d f :f r o ,d ) = 矿( r ,们l o g ( 嘎+ 三) ( 2 - 3 ) 缈( ,c ) = 矿( f ,c ) x l o g ( 一十工) ( 2 4 ) 其中,彤( f ,牙) 为词f 在文本舀中的权重,丽矿q ,孑) 为词f 在文本厅中的词频; ( f ,e ) 为词,在类别0 上的权重,而矿( ,e ) 为词f 在类别e 上的词频;为训练 文本的总数,啊为训练文本集中出现f 的文本数。 考虑到文本长度的不同对权值的影响,还应该对特征项权值公式做归一化处 理,将各特征项权值规范到【o ,1 】之间。因此,对上面两式进行归一化: 第二章特征项赋权 形:t 罂墅塑丝坠垒彳 ( 2 5 ) 脚矿( ,厅) l o g ( 珥+ 上) j 2 矿:t 磐垒蜒丝磐 。妙( f ,e ) l o g ( + 工) j 2 其中,分母为归一化因子。式( 2 5 ) 与( 2 - 6 ) 是应用比较普遍的7 f 一f 公式。 另外,对于特征较为明显的文本类别,往往有少数项的出现频率数远远大于 其他项,根据上述计算公式计算出的权值会很高,如果个别项的权值很高,在分 类过程中往往会抑制其他项的作用,因此在计算各项权重时,应对统计出的词频 做适当的均衡处理,较为简单的均衡处理方法是对统计出的权值进行开平方。在 有些文献中,为了平衡t f 对权重的影响,提出用t f 的第n 次根来代替t f l 2 2 】。 2 3t f i d f 权重算法分析 文本中对分类有用的单词只占一小部分,而大部分单词与我们要判别的类无 关,属于“噪音单词”田j ,例如前面提到的禁用词等,除了禁用词,还有一些高 频词虽然不属于被过滤的禁用词,但对分类贡献也不大,应该赋予较低权值。在 向量空间模型中,文本向量通过彼此间的夹角来反映两个文本的差异大小,进而 判断它们是否同类。而因为许多噪音单词的存在,两个文本之间的夹角在很大程 度上是由这些噪音单词的词频差异而非有用单词的词频差异决定。这些噪音完全 可能淹没有用信息,从而导致分类精度极低。一种抑制噪音单词的方法是特征选 择,特征选择是对特征集中的所有特征进行分别评估,选取评估分值最佳的前n 个特征,删掉评估分值较低的特征。这在很大程度上降低了噪音单词的干扰,对 提高分类精度是非常有效的。但特征选择对选出来的特征同等对待,没有再做区 分,与根据特征有用程度加权的方法比起来,特征选择就显得比较粗糙了。 在t f i d f 权重算法中,用t f 与i d f 相乘本质上就是一种试图抑制噪音的加 权,加权的结果是使向量在特征空间中向有用单词所代表的那些维旋转了一个角 度,使噪音被抑制,有用单词被加强。 在t f i d f 权重算法中主要考虑了三个因素:词频t f ,反比文档频率i d f 和 用于对各分量进行标准化的归一化因子。根据前面的分析,一个特征在某类文档 中经常出现,说明这个特征对该类文档具有代表性,那么它对分类的作用是比较 大的,t f 较大的特征项在该类文档中具有较高的权重,这考虑的是词频因素:而 i d f 的想法是在较少文档中出现的词比在大部分文档中出现的词更重要,考虑的 是词在文档集上出现的频率因素。但是,i d f 函数结构过于简单,认为文本频数 基于向量空间模型的文本分类技术研究 少的单词重要,文本频数多的单词无用,这使它不可能很好地反映单词的有用程 度。 由此可以看出,t f i d f 权重算法中i d f 的计算是将文档集作为整体来考虑的, 并没有考虑到特征项在类间的分布情况。如果词分布在所有类别中,i d f 对于分 类就不起作用了。i d f 是一个文档集因素,它的值是同等的,不依赖于文档集中 的类别安排。如果某一特征项在某个类别大量出现,而在其它类别出现很少,这 样的特征项的分类能力显然是很强的。但这在t f - i d f 算法中是无法体现的。 另一方面,对于相近主题的分类,比如常见的专业科技文献分类,许多特征 项在相近主题的文档中都会出现,按照i d f 算法,这些特征项的i d f 值是相同的, 但实际它们在各类别文档上的分布是有差异的,对于分类的贡献是不同的。对于 这种情况,传统的t f - i d f 算法也不能很好地处理。 下丽的简单例子可以来说明t f i d f 算法的优缺点。假设有三个类别:c l 、 c 2 和c 3 ,每类别三篇文档,考察三个特征项在各类别及文档中的分布情况。表 2 1 是特征项在文档中的出现频率。 表2 1 特征项在文档中的出现频率 类别 c 1c 2c 3 筋弋 l23l23123 t l 456llllll t 2 222222222 乜 354444222 表2 2 是用t f i d f 算法计算的特征项权值,采用式( 2 6 ) 计算。其中按经验 取o 0 l 。t f 是特征项在相应类别上的出现频率,i l i 是在类别中出现该特征项的文 档数。 从表2 1 中可以看出:t 1 在各类中出现的频率差别很大,分类能力应该比较强, 因此权值比较高,通过t f i d f 算法可以体现出这点;但t 3 在c l 和c 2 上频率 相近,区分能力不强,根据t f i d f 算法,b 在c l 和c 2 上得到的权值都过高, 这是不合理的;而t 2 在各篇文档中的频率都相同,对分类基本没有信息贡献,因 此其分类能力应该最弱。但从表2 2 的结果来看,t 2 的权值却并不是最低。这是 因为根据t f i d f 算法的定义,特征项的权重由t f 和i d f 决定。当文档集中包含 特征项t l ,t 2 和t 3 的文档数相同时这些特征项的j d f 相同,特征项的权重由其 t f 唯一确定,几乎没有分类能力的特征项被赋予了较高的权值,所以导致表2 2 得到了一个不合理的结果。由此可见,在没有考虑到特征项在类问分布的比例情 第二章特征项赋权 况时,单一使用t f i d f 算法会导致很大误差。 表2 2 特征项权重 类别 c 1 c 2 c 3 搿缸 t fn it f i d ft fn it f i d ft fn it f i d f t l1 53o 7 4 533o 2 1 83 3 o 3 3 3 t 2630 2 9 8 63o 4 3 6 630 6 6 7 一 t a 1 230 5 9 61 23o 8 7 2 6 3 o 6 6 7 2 4 改进的权重算法 在v c 删l e 咖甜e e 【2 5 】等人的研究中,提出了词分布概念,在词权重计算中 采用词分布来提高分类精度。词分布因素被总结成如下四类: l 、类内因素;i 曲阶c l a s s f a c t o r 2 、类间因素:i r l t e r _ c l a s sf a c t o r 3 、文档集因素;o v e r a l ld o c u m e n t sf a c t o r 4 、归一化因素:n o m a l i z a t i o nf a c t o r 将词分布因素和t f i d f 权重算法所考虑的因素相对照。在t f i d f 权重算法 中,词频t f 和反比文档频率i d f 是利用类内和整个文档集上的词分布信息进行 特征项权重计算,针对的是类内因素和文档集因素,其不足之处是过于倚重词频 和忽略了各类别之间的不平衡。因而除了这两个因素,类间因素即i i 她r - c l a s s 信 息也被期望得到利用。类间因素的基本思想是只在很少类别上发生的低分布的词, 应该比高分布的词具有更高的权重。一个有效的分类特征项应该既能体现所属类 别的内容,又能将该类别同其它类别相区分。 根据上述分析,本文在t f i d f 权重算法的基础上提出了改进方法,结合 t f i d f 与类间分布信息对特征项加权。 对于两个同样出现频率的特征,在类问分布的越不均衡的单词越重要。通常, 方差表示随机变量与它的数学期望间偏离程度的量,其算术平方根为标准差。样 本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越 大,样本数据的波动就越大矗e 们用归一化的类间标准差i s c d ( i n t e r - c l a s ss t a i l d a r d d e v i a t i o n ) 来描述特征在不同类别上的分布。 特征项的类间分布信息用下面的公式来表示: 1 6 基于向量空间模型的文本分类技术研究 :一 亿, 钟沪订 。8 ) 叭梯p 矿磋渊端一 沼9 ) 表2 3 特征项的类间分布 、类间分布 特征 i c s d i j 、 t l 0 2 6 9 b 0 t 3 o 0 9 4 根据t f i d f i c s d 的计算公式( 2 1 0 ) ,可以得到改进特征项权重计算结果如 表2 4 。从表2 _ 3 和表2 4 的结果来看,t l 在各类别上的频率分布差别很大,因此 类间分布参数值较高,权值得到相对加强;t 2 在各类的频率分布都相同,对分类 第二章特征项赋权 没有贡献,因此类间分布参数值为0 ,权值为o ;t 3 在其中两个类别的t f 相近, 类间分布参数值较低,因此权值被相对削弱。这都体现了改进算法考虑类间分布 的基本思想。利用特征项的类间分布信息能够弥补t f i d f 权重算法忽视类间分 布信息的不足。 表2 ,4 结合类间分布的特征项权重 类别 特征 c 1c 2 c 3 t l o 1 8 30 0 4 90 0 9 0 t 20 00 t 3 0 0 5 6o 0 8 l0 0 6 3 上面所用例子的数据较简单,改进权重算法t f i d f i c s d 仍然需要通过文本 分类的效果来进行检验。在第五章我们通过实验对t f i d f i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学以致用 走近大国工匠和能工巧匠说课稿中职基础课-职业道德与法治-高教版(2023)-(政治(道法))-59
- 2025年护理学基础题库及答案202
- 2025-2026学年苏教版二年级上册第四单元“认识三位数”过关试卷及答案
- 2025年护理高级考试网上题库及答案
- ECMO课件教学课件
- eatbox课件教学课件
- 1.2.1 细胞-细胞各部分功能 说课稿-2023-2024学年冀少版生物七年级上册
- 浙教版(2023)小学信息技术六年级上册第15课《人机对话的实现》教学设计及反思
- 2025年初级护师出院护理题库及答案
- 2025年护理人文的题库及答案
- 2025年国网陕西省电力有限公司高校毕业生提前批招聘行程安排笔试参考题库附带答案详解
- 体育运动的安全防范课件
- 泰国安全防卫培训课件
- 锅炉工艺规程培训课件
- 企业销售业务标准作业手册
- 石材购销合同范本简单
- 中国南方航空数字化和双中台方案
- 数据结构(Java语言描述)(第2版)课件全套 张静 单元1-8 数据结构与算法 - 哈希表
- 2025年北京市专业技术人员公需科目培训答案
- 2025至2030乙烯丙烯酸(EAA)行业发展趋势分析与未来投资战略咨询研究报告
- 韩语专业教育与职场应用能力培养融合研究
评论
0/150
提交评论