




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)文本分类中特征选择方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文题目: 专业: 硕士生: 指导教师: 文本分类中特征选择方法的研究 计算机应用技术 宋丽平 ( 签名) 寡盈墨 张小艳( 签名) 豸:! :麦垒 摘要 文本分类是大规模文本处理的基本功能,也是提高其他文本处理功能和质量的有效 手段。通过文本分类,人们可以按类别进行文本存储、检索和进一步处理。因此,迅速 有效地对文本进行分类已成为一项重要的研究课题。在文本分类中,特征空间的维数高 达几万,过大的特征空间会导致样本统计特性的评估变得困难,从而降低分类器的泛化 能力,因此从原始特征集中选取最具有代表性的特征是十分必要的。有效的特征选择可 以提高分类任务的效率和分类性能。 本文在分析典型文本分类系统的核心技术、系统结构的基础上,给出了一种基于语 义概念的分析方法。语义概念分析方法可以看作是一种扩展的向量空间模型方法,其特 征提取算法是通过结合h o w n e t 对词所表示的概念,将词空间映射到概念空间,通过多 义词排歧和同义词合并,达到降维的目的,并尽量达到词与词之间的正交性,将文本的 关键词用更小的语义空间进行表示,使得在新生成的语义空间中的相关文本更为接近。 另外,在传统t f i d f 权重计算算法的基础上,综合考虑特征词的位置、同现频率的语 义因子和特征支持度、类别强度的语义概念,增强了特征对文本内容的表现和区分能力, 并将综合了t f i d f 与语义因子和语义概念的权重改进算法应用到分类系统中。 本文设计并实现了一个中文文本分类系统,通过实验对改进的特征选择和权重计算 算法与传统统计算法进行了比较分析,实验结果表明改进的特征选择算法和权重计算算 法对分类性能都有一定的提高,具有较高的精确率和召回率。 关键词:文本分类;语义概念;特征选择;权重计算;向量空间模型 研究类型:应用研究 s u b j e c t :as t u d yo nt h em e t h o do ff e a t ur es e l e c t i o ni nt e x t c a t e g o r i z a t i o n s p e c i a l t y:c o m p u t e ra p p l c a t i o nt e c h n o l o g y n a m e :s o n gl i p i n g i n s t r u c t o r :z h a n gx i a o y a n a b s t r a c t ( s i g n a t u r e ) ( s i g n a t u r e ) a st h ef u n d a m e n t a lf u n c t i o ni np r o c e s s i n gl a r g em o u n to ft e x td a t a , t e x tc a t e g o r i z a t i o ni s a l s oak i n do fe f f e c t i v ew a yt oi m p r o v et h ef u n c t i o na n dq u a l i t yo fo t h e rt e x tp r o c e s s i n g f u r t h e r m o r e ,i tc a nb eu s e da sc a t e g o r yt e x ts t o r a g e ,r e t r i e v a la n df u r t h e rp r o c e s s i n gt h r o u g h t e x tc a t e g o r i z a t i o n s ot h a th a sa l r e a d yb e c o m ea sa ni m p o r t a n tt a s ko fc a r r y i n go u tt h et e x t c a t e g o r i z a t i o nr a p i d l ya n de f f e c t u a l l y i nt e x tc a t e g o r i z a t i o n , t h ed i m e n s i o no f f e a t u r es p a c ei s a sl a r g ea st e n so ft h o u s a n d s o v e rl a r g ef e a t u r es p a c ec o u l dc a u s et h ed i f f i c u l t yo fe v a l u a t i n g t h es t a t i s t i c a lp r o p e r t i e so ft h es a m p l e s t h e r e b y ,t h a tw o u l dr e d u c et h eg e n e r a l i z a t i o na b i l i t y o fc a t e g o r i z a t i o nm a c h i n e s oi t se x t r e m e l yi m p o r t a n tt oc h o o s et h em o s tr e p r e s e n t a t i v e f e a t u r ei nt h eo r i g i n a lf e a t u r es e t e f f e c t i v ef e a t u r es e l e c t i o nw i l la d v a n c et h ee f f i c i e n c ya n d p e r f o r m a n c eo fc a t e g o r i z a t i o n i nt h i sp a p e r , ak i n do fa n a l y s i sm e t h o dw h i c hb a s eo ns e m a n t i cc o n c e p tw a si n t r o d u c e d t h r o u g ha n a l y z i n gc o r et e c h n o l o g ya n dt h es y s t e m s t r u c t u r eo fc l a s s i cs y s t e mo ft e x t c a t e g o r i z a t i o n n l ec o n c e p to fs e m a n t i ca n a l y s i sc a n b er e g a r d e da sa na p p r o a c ho fe x p a n s i o n o ft h ev e c t o rs p a c em o d e l t h ef e a t u r ee x t r a c t i o na l g o r i t h mo ft h a ti sc o m ef r o mt h ec o n c e p t o fh o w n e tt ot h ew o r d s t h ew o r d ss p a c ew i l lm a pt ot h ec o n c e p ts p a c e d i m e n s i o nw i l lb e r e d u c t e db yr e j i e c t i n gt h ep o l y s e m o u sw o r d sa n dc o m b i n i n g t h et h e s a u r u s t oa p p r o a c h i n gt o t h eo r t h o g o n a l i t yb e t w e e nw o r d sa sm u c ha sp o s s i b l e t h et e x to ft h ew o r d sw i t has m a l l e r s e m a n t i cs p a c et h a tm a k e st h en e wg e n e r a t i o no fs e m a n t i cs p a c ei nt h et e x tm o r ec l o s e l y r e l a t e d i na d d i t i o n ,b a s e do nt h et r a d i t i o n a lt f - i d fw e i g h t i n ga l g o r i t h m ,c o n s i d e r i n gt h e s e m a n t i cf a c t o r so ft h ep o s i t i o na n dt h ef r e q u e n c yo ft h ew o r d si na s e n t e n c et o g e t h e ra n dt h e s e m a n t i cc o n c e p to ff e a t u r es u p p o r t sa n dc a t e g o r ys t r e n g t h ,o ft h a t e n h a n c e dt h e c h a r a c t e r i s t i c so ft h et e x tt od i s t i n g u i s hb e t w e e nt h ep e r f o r m a n c ea n dc a p a c i t y a n da p p l i e d i m p r o v e da l g o r i t h mw e i g h t so fc o m b i n a t i o no ft f i d fa n dt h es e m a n t i cf a c t o r sa n ds e m a n t i c c o n c e p ti n t ot h ec a t e g o r i z a t i o ns y s t e m t h i sp a p e rd e s i g n e da n da c h i e v e dac h i n e s et e x tc m e g o r i z m i o ns y s t e m w ec o m p a r e d i m p r o v e df e a t u r es e l e c t i o na n dw e i g h t i n ga r i t h m e t i ca l g o r i t h mw i t ht r a d i t i o n a lm e t h o d o l o g y v i ae x p e r i m e n t s t h er e s u l t ss h o w e du st h i s f e a t u r es e l e c t i o na n dw e i g h t i n ga r i t h m e t i c i m p r o v e dt h ec a t e g o r i z a t i o nf u n c t i o ns i g n i f i c a n t l y a n da l s o ,t h a t h a dt h eh i g hl e v e lo f a c c u r a c ya n dr e c a l lr a t e k e y w o r d s :t e x tc a t e g o r i z a t i o n s e m a n t i cc o n c e p tf e a t u r es e l e c t i o n w e i g h t i n ga r i t h m e t i c v e c t o rs p a c em o d e l t h e s i s :a p p l i c a t i o nr e s e a r c h 西要料技大举 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含 其他入或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位论文作者签名:柳日期:歹吁多弓 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 靴论文作者繇牺彳 指导教师签名:狄。1 辛乏 呷年多月弓日 1 绪论 1 绪论 1 1 研究背景 随着i n t e m e t 的大规模普及和企业信息化程度的提高,文本信息迅速膨胀,人们面 对丰富的信息资源的同时,也面对着信息灾难。一方面,人们希望获得越来越多的信息; 另一方面,在这信息的汪洋之中,人们获取所需要的内容越来越困难。如何有效地组织 和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技 术领域面临的一大挑战。 作为处理和组织大量文本数据的一种关键技术,文本分类可以在较大程度上解决信 息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。因此,文本分类成为 一项具有较大实用价值的技术“而受到广泛的关注,并得到了空前的发展和应用。 文本分类是将自然文本文件根据内容自动分为预先定义的一个或者几个类别的过 程【1 捌。它是一种有指导的学习,根据一个已经被标注的训练文档集合,找到文档特征和 文档类别之间的关系模型,然后利用这种学习到的关系模型对未被标注的文档进行类别 判断。 在中文文本分类中,文本集经过分词后变成词集,然后经过去掉停用词粗降维得到 特征集。但是特征集仍然是个高维的特征空间,对于所有的分类算法来说维数都太大。 因此,我们面临寻求一种有效的特征抽取方法,以降低特征空间的维数,提高分类的效 率和精度。特征选择的目的是除去特征集中不能较好表示有效信息的特征,以提高分类 准确度和减少计算复杂度。 在文本分类中,一般来说,在把文本表示为向量形式时,训练文本集中的特征项可 能多达数万个。通常认为,这些特征中的任何一个都对实现正确的分类有着它的贡献。 但是,在这些大量的特征中肯定还包含着许多彼此相关的特征,这些相关的特征是冗余 的,是可以去除的。过大的特征空间会导致样本统计特性的评估变得更加困难,从而降 低分类器的泛化能力,出现“过学习 的现象。而且这种高维向量的处理具有极高的计 算复杂度,尤其是会产生所谓的“维数灾难 问题。因此,如何保留那些对分类起着重 要贡献的特征,去除冗余的特征,以减少特征总数,即如何进行维数约简,已成为一个 日益重要的研究领域。 1 2 研究意义 文本分类作为信息过滤、信息检索、文本数据库、数字化图书馆和邮件分类等领域 的技术基础,有着广泛的应用前景【3 j 。 西安科技大学硕士学位论文 ( 1 ) 信息过滤 网络的发展与普及,大大方便了我们获取信息。但信息量过大给人们对信息的处理 带来了很大困难,无法快速地得到所需的信息,同时还会带来一些反面的信息。信息过 滤技术可以用来解决这些问题,信息过滤的本质是一个分类问题,既可以用来将用户反 感的信息滤掉,也可以用来将用户感兴趣的信息过滤出来,主动地推送给用户,方便了 用户快速准确地获得信息。 ( 2 ) 信息检索 把大量的文本信息按主题层次归类组织可以极大地简化对信息的检索。如果按照类 别对文档进行检索或对检索结果进行一次文档分类,都可以提高检索的查准率。目前很 多搜索引擎站点都使用了文档层次化分类组织。只是目前主要以人工分类为主。 ( 3 ) 文本数据库 随着研究的深入,文本数据库的功能已经不再局限于存储、组织和查询文档信息, 而是要提供多层次的服务,如文本挖掘等。文本分类技术不仅对文本数据库如何存储、 组织文档具有重要的意义,而且也是文本挖掘的重要内容。 ( 4 ) 数字化图书馆 图书馆的数字化管理是大势所趋,图书期刊全文数字化的比重正日益增大。对图书 进行归类时,图书管理员不可能对各个学科都非常了解,使用自动文本分类技术,可以 帮助图书管理员正确地对图书资料进行归类。 ( 5 ) 邮件分类 电子邮件作为最广泛和成功的服务已经成为人们日常生活中不可缺少的组成部分。 但是对垃圾邮件进行“围剿”也是刻不容缓的任务。目前邮件分类可以看作通常的文本 分类问题,它可以分为两种模式:其一是两类模式,即按照垃圾与非垃圾来分类:另一 种是多类模式,比如工作、会议、垃圾等。 文本分类是一个很广阔的研究领域,分类过程中包括各种关键技术:文本的表示、 文本的预处理、特征提取、权重计算、分类算法等等。其中特征提取在文本分类中起着 重要作用。训练集的巨大和向量空间的高维是文本分类的两大特点,高维特征集对于机 器学习未必全是重要的和有益的,而且还会加剧机器学习的负担。在不影响分类准确度 的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取。 特征提取可以看作是从测量空间到特征空间的一种映射或变换。特征提取可以降低特征 空间的维数,去掉噪声和不明显的特征,从而达到降低计算复杂度和提高分类准确率的 目的,可以说研究特征提取对分类器的构造有着极其重要的意义。 1 3 国内外研究现状 文本分类的研究历史可以追溯到2 0 世纪5 0 年代,美国i b m 公司的h p l u h n 提出 2 1 绪论 了词频统计思想,在这一领域进行了开创性的研究【4 】。5 0 年代后,文本分类主要经历了 四个发展阶段【5 】:第一阶段( 1 9 5 8 1 9 6 4 ) ,研究文本自动分类的可能性;第二阶段 ( 1 9 6 5 1 9 7 4 ) ,进入自动分类的试验性阶段;第三阶段( 1 9 7 5 1 9 8 9 ) ,自动分类的实用性 阶段;第四阶段( 1 9 9 0 至今) ,因特网自动分类的研究阶段。 长期以来,文本分类都是自然语言处理的一个重要应用领域。但直到八十年代末, 在文本分类方面占主导地位的一直是基于知识工程的分类方法,即采用人工方式来构建 分类器【6 】,需要专业人员手工编写分类规则来指导分类。著名的国际网站y a h o o 雇用了 一百多名领域专家,即使满负荷的工作,也不能及时地对每天像潮水般涌现在互联网上 的新网页进行阅读、标注和分类【j 7 1 。这一时期最著名的系统是为路透社( r e u t e r s ) 开发的 c o n s t r u e 系统、c h u r e h 9 5 系纠8 】【9 】。九十年代以后,随着电子文本的大量出现,基于机 器学习的自动文本分类系统开始兴起,效果明显超过知识工程方法【9 】,成为信息系统学 科最重要的研究领域之一。目前,自动文本分类技术己经成为机器学习技术和信息检索 技术的交汇点和结合点,成为所有基于内容的自动文本管理技术的重要基础。研究了一 些相当成功的分类系统,建立了o h s u m e d ,r e u t e r s 等开放的分类语料库。 国内文本分类的研究起步相对较晚,开始于8 0 年代初,经历了可行性分析、辅助 分类系统和自动分类系统三个阶段。1 9 8 1 年,侯汉清首先对计算机在文献分类工作中的 应用作了探讨。到目前,国内有包括清华大学、中国科学院、复旦大学、上海交通大学、 东北大学等多家单位从事该领域的研究,已陆续研制出了一批计算机辅助分类系统和自 动分类系统,较好的是由中科院开发的智多星中文文本分类器【i u 。 由于许多分类算法的性能受到不相关或冗余特征的负面影响,并且分类样本数目庞 大、特征维数高使得文本分类的发展对大规模数据处理的研究提出了迫切的要求,迫切 需要特征选择算法对高维数据进行降维,而高维数据的特征选择也对已有的特征选择算 法提出了严峻的挑战。由于上述原因,特征选择成为文本分类领域重要的研究方向,引 起越来越多的文本分类领域学者的兴趣。国内外的各大研究机构如c m u ,s t a n f o r d , w 酤h i n g t o n ,南京大学,哈尔滨工业大学,北京工业大学等都开展了相关研究。 现行的特征选择包括词特征选择、字特征选择和概念特征选择等,其中,先行的实 际分类系统主要以选择词特征为主,有的在特定领域加入一些人工规则等。但是,由于 词语本身存在同义、多义以及对短语和上下文的依赖等现象,因此,单纯基于词形的技 术中,把意义可能密切相关的词孤立提取,忽略了词语的语言学特征和相互关系,因此 导致这种特征提取存在较大的局限性。例如,传统的向量空间模型最基本的假设是各个 分量之间正交,而实际上在真实文本中,作为分量的词特征往往有很大的相关性。 为了避免词特征选择中出现的种种问题,我们利用语义词典中的信息,抽取概念来 构成文本向量,由于概念空间比词空间小而且各分量之间相对独立,因此,概念特征比 词特征更适合用来表示文本内容。研究表明,通过概念统计和语义层次分析的方法,可 3 西安科技大学硕士学位论文 以获得更理想的向量空间模型。中文文本分类中,选取概念作为分类特征的系统相对较 少,基本处于研究阶段。 1 4 本文研究内容 结合项目需要,本文主要进行文本分类中特征选择方法的研究,内容分为五章。主 要介绍了文本分类相关技术、语义特征提取方法、基于语义的权重计算方法等,结构安 排如下: 第一章,绪论。主要介绍了课题的研究背景、研究意义、国内外研究现状,概述本 论文的研究内容以及结构安排。 第二章,文本分类相关技术。由于基于语义的文本分类是文本分类的一种特殊情况, 其中用到的很多关键技术和传统的文本分类方法相类似或相同,所以本章首先介绍文本 分类的定义和特点、流程、常见技术。着重介绍了文本分类的基础知识,如:文本预处 理、特征提取方法、权重计算方法、分类算法和分类器性能评估方法。不管对于传统的 分类问题,还是对于基于语义的文本分类问题,这些方面都是比较基础和重要的,所以 本章对其做了较为全面的介绍。 第三章,基于知网的语义概念特征提取。本章给出论文的核心算法,详细介绍了基 于知网的语义特征提取方法,以及该特征提取方法在分类算法中的应用效果。该方法是 利用知网实现对文档语义的理解,将词空间转化到概念空间,获取文档的语义集合,再 通过文档的语义集合进行概念消歧和概念聚类,从而降低了文档的维度,又没有丢失文 档的语义。该方法实现了多义词消歧、同义词合并,最终有效的改善了分类的效果。本 章对语义特征提取算法与传统的统计特征提取算法进行了比较,实验结果表明语义特征 提取算法对分类性能有一定提高。 第四章,基于语义的文本表示。对经典的权重算法进行分析,虽然它考虑到了词频 和文本频率两个因素,但是公式本身显得有些过于简单,同时忽略了词的语义信息。因 此改进权重算法,综合考虑位置、词同现两类类语义因子和概念层次、类别强度两种语 义概念,对传统t f i d f 算法进行改进和加权。实验采用s v m 分类器,与标准算法相比, 基于语义的权重方法具有较好的性能指标。 第五章,总结和展望。本章总结了通过实验得出的结论,并叙述了本文提出算法的 不足,对将来的工作进行了展望。 4 2 文本分类相关技术 2 1 定义和特点 2 1 1 文本分类的定义 2 文本分类相关技术 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,t c ) 是根据给定文本的内容,将 其判别为实现确定的若干个文本类别中的某一类或某几类的过程。文本分类的形式化一 般定义为【l ,1 1 1 ,对于给定的文本集合肪c = d l ,d 2 ,d 历 ,其中西表示第f 篇文档,d o c 由m 篇文档组成;预先定义的文档类别集合c a t = c l ,c 2 ,c l c l ,c a t 总共有i c l 个类别。 假定在文本与类别之间存在一个未知的映射函数: :d o c c a t 一 乃钾,f a l s e ) ( 2 1 ) 文本分类就是要找到一个函数: 多:d o cxc a t 一 疗材p ,f a l s e ( 2 2 ) 尽量逼近未知的目标函数矽。在文本分类中,函数多称为一个分类器( c l a s s i f i e r ) ,或者 是分类模型( m o d e l ) 。如果多( 西,c j ) = t r u e ,表示文档讧属于类别c j ,并且西为c j 的正例: 乒( 4 ,c ) = f a l s e ,表示文档西不属于类别o ,并且西为c j 的反例。实际上,文本分类器 由一系列两类分类器组成。 矽c 缸:d o c _ 乃甜p ,f a l s e ( 2 3 ) d o c _ 矽c 砒( d o c ) 分类器参的任务是判别给定的文本是否属于类别c a t ,所以,涉及到多少个文本类别, 就对应到多少个两类分类器。 2 1 2 文本分类任务的特点 文本分类就是将大量文本划分为一个或一组类别,使得各个类别代表不同的概念主 题。这实际上是一个模式分类任务,所以很多模式分类的算法可以应用到文本分类中。 但是,文本分类是和文档的语义紧密相关,所以与普通的模式分类任务相比有许多独特 之处【1 2 1 。 ( 1 ) 高维特征空间 在文档特征提取的时候,有大量的候选特征。如果使用词语作为文档特征,即使一 个1 0 0 0 篇左右的训练文档,一般也会产生上万的候选特征。如果使用这些特征来构造 文档向量,那么向量空间的维数非常高。 ( 2 ) 特征语义相关 5 西安科技大学硕士学位论文 考虑一种避免“高维灾难 的解决办法是,假设特征之间是相互独立的,即一个特 征出现与否与其他的特征并无关系。但是,一般地,文本分类中很多特征包含一些相互 依赖的关系,例如:“中共、“中央两个词共同出现的概率较大,存在相互依赖关系。 ( 3 ) 特征存在多义和同义现象 文本分类中一般使用词、短语等作为表征文档语义的文档特征。但是,这些特征往 往无法清晰地表达一种含义。一个特征可能有多种含义,即多义现象,如:“教授这 个特征既可以表示一种职称的含义,也可以表示一种传授知识的含义。同时,许多相同 的含义可以用不同的特征来描述,即同义现象,例如:“计算机和“电脑 这两个特 征都表示相同的含义。 ( 4 ) 特征分布稀疏 用特征词来表示文档的时候,往往特征维数非常高,而文档所出现的特征词只占总 特征词的小部分。特别是对于一篇比较短的文档来说,特征空间中,仅仅出现少量的特 征词,因此,多数特征词的出现频率都为零,导致了文档向量中大多数的特征的值都是 0 ,特征的分布非常稀疏。 ( 5 ) 基本线性可分 文本分类中,大部分类别之间是基本线性可分的。所以一些复杂的、在其他模式分 类任务中应用很成功的方法,在文本分类中未必会取得很好的效果。 2 2 文本分类的流程 要能够实现文本的自动分类,必须要有完整的文本分类系统和一整套的数据处理流 程。一般来说,一个完整的文本分类系统通常包括如下几个主要阶段:文本预处理、特 征提取、权重计算及文本表示、训练分类器、分类器的测试以及分类器性能评价。 ( 1 ) 文本预处理:对文档集合进行格式分析并提取出重要内容,包括中文分词、剔 除停用词等操作。目前对于英文的预处理技术相对比较成熟,对于中文来说,分词是最 具有挑战性的难题。目前处理方法有基于词典的方法、基于自然语言处理的方法和基于 统计的方法。 ( 2 ) 特征提取:从文本集合得到的特征数量很大,用众多的特征来表示文本不仅不 能提高分类效率反而会导致“维数灾难 。因此,必须利用一定的特征提取方法,从特 征集合中抽取若干最有利于文本分类的特征项,并且按照一定的描述模型对文本进行特 征表示。 ( 3 ) 文本表示:将文本看成是出现在文本中的关键词的集合,这些关键词就是特征 项。为了能让计算机处理文本信息,通常将这些文档集采用一定的模型来表示。 ( 4 ) 训练分类器:选择文档集合中的若干文档构成训练集,利用一定的算法对该训 练集合进行统计或者学习,确定分类器的各个参数或者是阈值,最终构造一个分类器。 6 2 文本分类相关技术 选用一个高性能的、适合语义处理的分类器,集成分类系统。 ( 5 ) 分类器的测试:用分类器对文档集合的测试集进行分类,得到分类结果。测试 分为封闭测试和开放测试。 ( 6 ) 分类器性能的评价:采用一定的评价指标,对分类结果进行评价。根据评测分 析结果对相应技术进行改进,最终形成高效的文本分类系统。 文本分类系统流程如图2 1 所示: 训练,测试文本 l 预处理匝堕 匝 :二二:二耍:= :二: l 基丁语言学基丁相关性基于评估函数i i 的特征选择的特征提取的特征提取l 小 t f 基于语义的特征提取 分类算法 之乡 系统集成 之多 系统评测 图2 1 文本分类系统流程 2 3 文本预处理 文本预处理是进行文本自动分类的第一个步骤,预处理的好坏直接影响着分类结 果。不同的语料库( c o r p u s ,也称为文档集) 的存储格式不尽相同,特别有些语料库从互 联网上直接抓取下来,内容复杂,格式不规范并且编码格式多样。如果将这样的文档直 接进行分类,这些问题会严重影响分类系统后续的工作以及最终的分类效果。因此,必 须经过一定的处理,去除语料库中的噪音信息,规范化其内容,使得文档符合分类模型 7 西安科技大学硕士学位论文 的输入要求。 文本预处理操作,目的是从语料库中规范地提取主要内容,剔除与分类无关的信息 特别是噪音。这些操作一般包括去除停用词和稀有词、中文分词等处理步骤。 2 3 1 中文分词 中文分词是中文信息处理所特有的步骤。与字相比,词具有更多的语义信息,中文 信息处理中词平台以上的技术都要以“词 为基础,但是中文不像英文那样可以通过天 然的切分标志一空格分开,而是一连串连续的汉字,词与词之间没有明显的分隔界限, 无切分标志。因此,自动识别词的边界,将汉字串切分为正确的词串的中文分词问题无 疑是实现中文信息处理的各项任务的首要问题。 目前的中文分词方法大致可以分为如下几类: ( 1 ) 基于机械匹配的中文分词。即是通过对已有词典的机械匹配来得到分词结果。 所谓机械匹配,是指与已有词典里的词进行一一匹配,若在词典中找到某个字符串,则 匹配成功,匹配不到的词常以单字的形式输出。按照扫描方向的不同,机械匹配分词方 法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配【1 3 1 。使用较为广泛的是最大匹配法( m a x i m u mm a t c h i n g ,m m ) , 该方法依据一个分词词表和一个基本的切分评估原则,即“长词优先原则,来进行分 词。这种评估原则在大多数情况下是合理的,但也会引发一些切分错误。 影响其精度的因素有:机器词典中词目的选择和词条的数量、机器可读词典与待切 分文本中词汇的匹配关系、切分歧义、未登录词、分词方法。词典对分词精度造成的影 响远远大于分词方法本身产生的歧义切分错误【l4 1 。 ( 2 ) 基于统计语言模型的分词方法。该方法利用机器学习手段从语料库中直接获取 分词所需要的某些使用知识,因此就产生了基于统计语言模型( s t a t i s t i c a ll a n g u a g e m o d e l s ) 的分词算法。该类算法的主要思想是:词是稳定的汉字组合,在上下文中汉字 与汉字相邻共现的概率能够较好地反映成词的可信度,因此对语料库中相邻出现的汉字 的组合频度进行统计,计算他们的统计信息并作为分词的依据【l5 1 。基于统计语言模型的 分词方法具有良好的切分歧义处理能力和识别新词的能力,目前受到了越来越多的研究 人员重视,发展较快。 ( 3 ) 基于人工智能技术的分词方法。应用人工智能中的神经网络和专家系统来进行 中文自动分词,以实现智能化的中文自动分词是近年来研究的一个热点。该类算法的分 词过程是对人脑思维方式的模拟,试图用数学模型来逼近人们对语言认识的过程。 目前,国内有多家单位进行了中文分词方面的研究,其中包括清华大学、北京大学、 中科院计算所、微软研究院、东北大学和哈工大等多家研究机构。他们在这方面的研究 取得了一定的成果,并开发出了一些较为成熟的中文分词系统。 8 2 文本分类相关技术 经过比较,本文实验的中文分词处理部分,采用了分词效果比较好的中科院计算所 开源项目“汉语词法分析系统i c t c l a s 系统( 下载地址为: h t t p :w w w n l p o r g c n p r o j e c t p h p ? p r o j _ i d = 6 ) 。 2 3 2 去除停用词 停用词指的是语言中的功能词,中文一般称其为虚词。中文的功能词包括“你”、 “我”、“他”、“的 、“呢”、“啊”等等。这些词本身没有太多的意义,而且往往频繁出 现在每一篇文档中,因此对文档之间的区分度不大,不具有分类贡献,在实验中我们通 常都滤掉这些词。停用词处理一方面可以对特征项进行粗降维,以提高文本分类算法的 效率和速度,节省计算资源;另一方面,可以准确地表示文本。因为由于停用词的存在, 分散了特征的权重分布,降低了与文本内容相关的词的权重,使得特征项的集合不能准 确地反映文本的本质。 另外,文档集中的一些出现频率很低的稀有词也可以考虑滤去,因为这些词可能是 因为拼写错误偶然出现的【1 6 】。 停用词的选取对分类的词集和分类的性能都有影响,所以选择停用词应该遵循以下 原则: ( 1 ) 去除停用词后分类性能没有下降; ( 2 ) 去除停用词后能够降低特征项的维数。 2 4 特征提取 在文本处理过程中,将文本集合中的每个文本实行分词处理后,通常是统计出每个 文本出现的词以及相应的词频,然后将每个文本出现的词合并成一个词空间,所以词空 间中出现的不同词相当多。表示一篇文本的时候,无论文本用向量空间模型还是概率统 计模型来表示,文本的特征的维度都和词空间的维度一样。而每个文本中出现的词只占 词空间中很少一部分,文本特征表示非常稀疏。使分类算法的时间复杂度和空间复杂度 增加,而且对文本特征表示的不准确性严重影响了文本分类性能。因此,需要对文本特 征进行筛选,选出最能代表文本类别的特征,这个过程就是特征选择。 随着文本分类研究的深入,特征选择方法也有了较大发展。下面介绍一些特征选择 算法发展上重要的研究成果【1 7 - 2 0 。 2 4 1 基于评估函数的特征提取方法 这类型算法是在特征独立的假设基础上,通过构造评估函数,对特征集合中的每个 特征进行独立评估,并对每个特征打分。然后将所有特征按分值大小排序,提取预定数 目的最优特征作为提取结果的特征子集。显然,对于这类型算法,决定特征提取效果的 9 西安科技大学硕士学位论文 主要因素是评估函数的质量。基于评估函数的特征提取方法的一般步骤是: 从训练文本集中取得所有的特征项,构成文本特征集合凡 对集合中的每一项用下面将要介绍的特征评估函数进行打分,然后按照分值由 高到低排序,得到有序集合局: 假设需要选取个分类需要的特征项,则从几集合中选取前个特征项,构成 最终的分类特征项凡,只将用于训练分类器和分类测试。 常用的评估函数有以下几种:在下述公式中,为对应于单词的特征,d 为训练 集合,p ( w ) 为单词形出现的概率,旷表示单词形并不出现,e ( c ,) 为第f 类词的出现 概率,p ( w l c ,) 为单词在第f 类中出现的概率,e ( c ,l 形) 为单词w 出现时属于第f 类的 条件概率,卯( 聊为单词形在文档集中出现的概率。 ( 1 ) 特征频度( t e r mf r e q u e n c y ,t f ) 特征频度盯例指训练集中单词缈出现的次数。这是最简单的特征选择方法。直 观上,特征在文本集中出现次数越多,对文本分类的贡献越大。由于原始特征集中绝大 部分是低频特征,因此,设定t f 阈值对过滤低频特征非常有效,可以获得很大的降维 度。就高频特征而言,特征的统计分布决定了文本分类的准确率。即当该高频特征均匀 地分布在所有文本中时,对分类的作用将是有限的。因此,t f 主要用在文本标引时直 接删除某些低频特型2 1 _ 2 4 1 。 ( 2 ) 文档频率( d o c u m e n tf r e q u e n c y ,d f ) d f ( f ) - - i d l i f w i n d ,d ed ) | ( 2 4 ) 特征项的文档频率是指在训练语料中出现该特征项的文档数。其理论假设为稀有词 条或者对分类作用不大,或者是噪声,可以被删除。即d f 值低于某个阈值的特征项是 低频词,它们不含或含有较少的类别信息。将这样的特征项从原始特征空间中移除,能 够降低特征空间的维数,提高分类的精度。d f 方法形式简单,由于其相对于训练语料 规模具有线性的计算复杂度,它能够很容易被用于大规模语料统计。但其缺点也很明显, 低频词可能包含更多有用的信息,而高频词可能包含较少的信息。用t f 和d f 的组合 进行特征选择可以得到更好的降维效果。 ( 3 ) 信息增益( i n f o r m a t i o ng a i n ,i g ) i n f g a i n 阶f 唧) 莩p ( c , i 帆等川矿) 军删c i 矿) l o g 等( 2 5 ) i g 通过统计某个特征项在一篇文档中出现或不出现的次数来预测文档的类别。信 息增益是信息论中的一个重要概念,它表示了某一个特征项的存在与否对类别预测的影 响,定义为考虑某一特征项在文本中出现前后的信息熵之差。某个特征项的信息增益值 越大,贡献越大,对分类也越重要。信息增益方法的不足之处在于它考虑了特征未发生 的情况,对判断文本类别贡献不大,而且引入不必要的干扰,特别是在类分布和特征值 1 0 2 文本分类相关技术 分布高度不平衡的情况下,绝大多数类都是负类,绝大多数特征都不出现。此时的函数 值由不出现的特征决定,因此,信息增益的效果就会大大降低。 ( 4 ) 互信息( m u t u a li n f o r m a t i o n ,m i ) m u t u a l l n f o r ( f ) - e p ( c i ) l o g 罨舁 ( 2 6 ) 特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关 联统计模型的标准。当特征的出现只依赖于某一类型时,特征与该类型的互信息很大; 当特征与类型相互独立时,互信息为0 ;当特征很少在该类型文本中出现时,它们之间 的互信息为负数,即负相关。频度小的特征对互信息的影响大。互信息与期望交叉熵的 不同在于没有考虑特征出现的频率,这样导致互信息评估函数不选择高频的有用词而有 可能选择稀有词作为文本的最佳特征【2 5 1 。 ( 5 ) z 2 统计量 以引c f ) = 巡盟箐嚣嚣揣塑逝 ( 2 7 ) z 2 统计方法【2 6 】度量词条与文档类别之间的相关程度,并假设词条与类别之间符合 具有一阶自由度的z 2 分布。词条对于某个类别的z 2 统计量越高,表明它与该类之间的 相关性越大,所携带的类别信息也就越多。z 2 统计也是用于表征两个变量间的相关性, 但它比互信息更强,因为它同时考虑了特征存在与不存在时的情况。 ( 6 ) 期望交叉熵( e x p e c t e dc r o s se n t r o p y ) c r o s s e n t r y t x f ( ,) :p ( w ) ep ( c f w ) l o g 丽p ( c i w ) ( 2 8 ) 期望交叉熵与信息增益类似,也是一种基于概率的方法,但是不同于信息增益对特 征项的计算,期望交叉熵只计算出现在文本中的特征项。期望交叉熵与信息增益唯一不 同就是没有考虑单词未发生的情况。 ( 7 ) 文本证据权( t h ew e i g h te v i d e n c ef o rt e x t ) w e i g h t o f e v i d t x t ( f ) = p ( ) i p ( c f ) l l o g ,p 【( 。c f 八il w x ,1 【- 。p fi ( c i j ) i ( 2 9 ) “文本证据权是一种构造比较新颖的评估函数,它衡量一般类的概率和给定特征 类的条件概率之间的差别,这样在文本处理中,就不需要计算单词的所有可能值,而仅 考虑单词在文本中出现的情况【”1 。 2 4 2 考虑相关性的特征提取方法 基于评估函数的特征提取方法是建立在特征独立的假设基础上,但在实际中这个假 设是很难成立的,因此需要考虑特征相关条件下的文本特征提取方法。 西安科技大学硕士学位论文 ( 1 ) 基于马可夫条件集的特征空间后向搜索 j p e a r l 提出马可夫条件集的概刽2 引,对特征空间进行后向搜索,删除那些当已知其 他特征时,其所含类信息最少的无关特征。与此相对,m s i n g h 实现了一种前向特征选 择算法【2 9 】。初始集合y 为空,以“信息增益 作为评估函数,每次循环都将使p ( c i y ) 和 e ( c i y u ) 间的期望相对熵最大的特征加入。前向选择开始并没有特征,只是每次加 入特征后试图使新的分布和原分布相差最远,但这不能保证一定是向正确的方向前进最 大。相比之下,后向搜索可能更加优越,但困难的是马可夫条件集的寻找和建立。 ( 2 ) 基于s v m 的特征提取 j o a c h i m s 等人将支持向量机应用于文本分类和特征提取研究中【3 0 1 ,他们认为支持向 量机对于特征相关性和稀疏性不敏感,并且处理高维问题具有其他机器学习方法不可比 拟的优势,不必利用评估函数进行特征选择,线性支持向量机就可以达到很好的分类效 果。传统评估函数的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六一创意聚会活动方案
- 六一寻宝活动策划方案
- 六一戏曲活动方案
- 六一机关活动方案
- 六一活动拉花活动方案
- 六一活动活动策划方案
- 六一相亲活动方案
- 六一积分活动方案
- 六一美食节活动方案
- 六一食堂活动方案
- 农村排灌用电安全管理
- 重庆开放大学《工具书与文献检索》形考测验1-4答案
- 结节性红斑的护理措施
- 江苏省苏州市四市2022-2023学年八年级下学期期末语文试题
- 幼儿园病媒生物防制培训方案
- “影子教育”之全球扩张教育公平、质量、发展中的利弊谈
- (word版)2024年成人高考语文试题及答案
- MOOC Spark编程基础-厦门大学 中国大学慕课答案
- 大易通用能力测评题库
- 联邦学习技术在人工智能中的应用与发展前景
- 地块控制性详细规划说明书
评论
0/150
提交评论