




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)中文文本分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着计算机软硬件技术的快速发展,电子化文本数据急剧增加。如何有效利用这些 电子化文本数据,已成为人们的研究热点之一。基于人工智能技术的自动文本分类是有 效利用电子化文本数据的基础。 本文首先给出了类别核心词的概念,把在文本的标题、摘要和关键词部分出现的特 征词称为类别核心词,类别核心词能更好地表示文本的类别特征。然后,基于类别核心 词这一概念,从提高文本分类的性能出发,对文本分类技术主要进行了两个方面的研究。 一方面,对朴素贝叶斯分类方法进行了改进,给出了一种基于类别核心词的朴素贝 叶斯分类方法。从贝叶斯公式直观来看,文本的类别与特征词的词频有很大关系,词频 越大,说明该词越具有代表性,但实际情况并非如此,有些低频特征词可能更能代表文 本的类别特征。由于朴素贝叶斯分类是一种基于概率的分类方法,所以,这些低频特征 词的概率值可能会近似等于零,这时,小概率事件就发生了。小概率事件发生的情况越 多,对文本分类的结果影响也就越大。为了尽量避免这种情况,我们将类别核心词融入 到概率计算中,这样,那些属于类别核心词的低频特征词的词频就会得到提高,从而在 一定程度上避免了小概率事件的发生。实验结果表明,该方法能有效提高分类准确率。 另一方面,实现了基于概念的文本分类。目前常用的文本分类方法主要是基于特征 词进行分类,这不能有效解决同义词和多义词问题,从而影响分类准确率。将文本从特 征词空间映射到概念空问,进而在概念空间进行文本分类,可以很好地解决这个问题。 本文给出了一种基于类别核心词的概念映射算法,首先对文本中出现的类别核心词进行 概念映射,然后再对非类别核心词进行概念映射,最后在概念空间上进行文本分类。实 验结果表明,与基于特征词的文本分类相比,基于概念的文本分类能有效提高文本分类 的准确率。 关键词文本分类;类别核心词;朴素贝叶斯;概念映射;知网 a b s t r a c t a b s t r a c t e - f o r mt e x td a t ai si n c r e a s i n gr a p i d l ya l o n gw i t ht h ef a s td e v e l o p m e n to fc o m p u t e r s o f t w a r ea n dh a r d w a r e a sar e s u l t ,i th a sb e c o m eo n eo ft h ef o c u s e so fi n f o r m a t i o n t e c h n i q u e so nh o w t ou t i l i z et h i sr i c hd a t ar e s o u r c e a u t o m a t i ct e x tc a t e g o r i z a t i o n ,w h i c hi s b a s e do na r t i f i c i a li n t e l l i g e n c et e c h n o l o g y ,i st h eb a s eo fh o wt oe f f e c t i v e l yu t i l i z ee - f o r mt e x t d a t a w ef i r s tp r e s e n tan e wc o n c e p to fc o r ew o r d si nt h i sp a p e r ac o r ew o r dc a nb et h e r e p r e s e n t a t i v ec h a r a c t e r i s t i ca p p e a r e di nt h et i t l e ,a b s t r a c to rk e y w o r d ss e c t i o no fat e x t a c o r ew o r dc a nb e t t e rr e p r e s e n tt h ec h a r a c t e r i s t i co fat e x tt h a no t h e rk e y w o r d s f r o mt h e p e r s p e c t i v eo fi m p r o v i n gt h ep e r f o r m a n c eo ft e x tc a t e g o r i z a t i o nm e t h o d s ,w em a k et w o r e s e a r c h e so nt e x tc a t e g o r i z a t i o nt e c h n i q u e s ,w h i c ha r eb a s e do nt h ec o n c e p to fc o r ew o r d s f i r s t l y ,w ei m p r o v en a i v eb a y e st e x tc a t e g o r i z a t i o n ,a n dp r e s e n tam e t h o do fn a i v e b a y e sb a s e do nc o r ew o r d s f r o mt h ef o r m u l ao fb a y e s i a n ,t h ec l a s so fat e x ti sr e l a t e dt o f r e q u e n c yo fk e y w o r d ,t h ek e y w o r d sw h i c ha p p e a rm o r ef r e q u e n t l yw o u l db er e p r e s e n t a t i v e w o r d so ft h i st e x t b u ti nf a c t ,t h i si sn o ta l w a y st r u e s o m ek e y w o r d sw i t hl o w e ra p p e a r a n c e 行e q u e n c yc o u l db e s tr e p r e s e n tt h ec l a s so ft h i st e x t b e c a u s en a i v eb a y e si sam e t h o db a s e d o np r o b a b i l i t y ,t h ep r o b a b i l i t yo fk e y w o r d sw i t hl o w e ra p p e a r a n c e 行e q u e n c yw i l lb en e a r l y z e r o a tt h i st i m e ,s m a l lp r o b a b i l i t ye v e n tw i l lh a p p e n t h em o r et h es m a l lp r o b a b i l i t ye v e n t s h a p p e n ,t h em o r et h ei m p a c tt ot e x tc a t e g o r i z a t i o nr e s u l t s t oa v o i dt h i ss c e n a r i o ,w ea d dc o r e w o r d si n t ot h ec o m p u t a t i o no fp r o b a b i l i t y a sar e s u l t ,t h ec o r ew o r d sw i t hl o w e ra p p e a r a n c e f r e q u e n c yw i l lg e ti m p r o v e d ,a n dt h e s m a l lp r o b a b i l i t ye v e n tw i l l g e tr e d u c e d t h e e x p e r i m e n t a lr e s u l t ss h o wt h a t ,t h i sm e t h o d - n a i v eb a y e sb a s e do nc o r ew o r d s c a ni m p r o v e t h ep r e c i s i o no ft e x tc a t e g o r i z a t i o ne f f e c t i v e l y s e c o n d l y ,w ei m p l e m e n tat e x tc a t e g o r i z a t i o nm e t h o db a s e do nc o n c e p t t h ec o m m o n m e t h o d so ft e x tc a t e g o r i z a t i o na r em a i n l yk e y w o r d so r i e n t e d ,w h i c hc a nn o td e a lw i t h s y n o n y m sa n dp o l y s e m e ss c e n a r i o ,s ot h ec a t e g o r i z a t i o np r e c i s i o nw i l lb ed e g r a d e d w ec a n a b s t r a c t s o l v et h i si s s u eb ym a p p i n gk e y w o r d ss p a c et o c o n c e p t ss p a c e ,a n dt h e nm a k et e x t c a t e g o r i z a t i o ni nc o n c e p ts p a c e i nt h i sp a p e r ,w ep r e s e n tan e wc o n c e p tm a p p i n ga l g o r i t h m b a s e do nc o r ew o r d s w em a k ec o n c e p tm a p p i n go nc o r ew o r df i r s t ,t h e nc o n c e p tm a p p i n g t h eo t h e rn o n ec o r ew o r d s ,f i n a l l yc a t e g o r i z i n gt e x t si n c o n c e p ts p a c e t h ee x p e r i m e n t a l r e s u l t sp r o v et h a tt h ec o n c e p to r i e n t e dc a t e g o r i z a t i o nc a l li n c r e a s ec a t e g o r i z a t i o np r e c i s i o n m o r ee f f e c t i v e l yt h a nt r a d i t i o n a lc a t e g o r i z a t i o nm e t h o d s k e y w o r d s t e x tc a t e g o r i z a t i o n ;c o r ew o r d s ;n a i v eb a y e sm e t h o d ;c o n c e p tm a p p i n g ; h o w n e t 河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了致谢。 作者签名:垄筮盔 一日期:受l 年月 z z 同 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 l 、保密口,在年月日解密后适用本授权声明。 2 、不保密留。 ( 请在以上相应方格内打“”) 作者签名: 导师签名: 日期:盔年二月业日 日期:2 2 年五月业日 第1 章绪论 1 1 研究背景及意义 第1 章绪论 随着计算机软、硬件技术的快速发展,人们面临着快速扩张的数据海洋,如何有效 利用这一丰富数据海洋的宝藏为人民服务,已成为广大信息技术工作者所关注的焦点之 一。为了快速、准确、全面地从海量数据中找出用户所需要的全部信息,人们开始进行 相关的探讨,从2 0 世纪8 0 年代开始,数据挖掘及文本挖掘技术应这一需求逐步发展起 来。文本挖掘( t e x tm i n i n g ) 1 1 】是一个从非结构化文本信息中获取用户感兴趣的或有用 的模式的过程,文本挖掘涵盖多种技术,包括信息抽取、信息检索、自然语言处理等。 文本分类1 2 】是文本挖掘的一个重要分支,其任务是对未知类别的文本进行自动处理,根 据文本的内容判定它们属于预定义类别集合中的哪一个或哪几个类别。 自动文本分类最初是应信息检索系统的要求出现的,建立自动文本分类的目的是对 文本集进行有序组织,把相似的或相关的文本组织在一起,文本自动分类为信息检索提 供了更高效的搜索策略和更准确的查询结果。同时,文本自动分类是自然语言处理的一 个十分重要的研究方向,在大规模信息处理方面是一项基本而重要的功能,是重要的应 用技术之一。通过文本自动分类系统,能够很好地帮助用户整理、获取信息,在提高检 索速度和准确率方面显得意义重大,具有很重要的研究价值。 传统的人工分类既耗费大量的人力,又效率低下,丰富的资源无法得到有效地利用。 于是,开发能代替人工手段进行快速、准确分类的文本分类系统,研究相应的文本分类 技术就显得十分迫切。因此,文本自动分类技术及其相关技术的研究已成为一项重要的 研究课题,并得到了长足发展。文本分类技术的研究目标是实现文本分类的自动化,以 达到降低分类代价、改善分类性能( 提高分类精度) 的目的。 1 2 研究现状 1 2 1 国外研究现状 国外对于文本分类的研究开展较早,到目前为止,文本自动分类在国外大致经历了 1 河北大学_ t 学硕十学位论文 四个发展阶段:第一阶段( 1 9 5 8 1 9 6 4 ) :进行文本自动分类的可行性研究;第二阶段 ( 1 9 6 5 】9 7 4 ) :进行文本自动分类的试验研究;第三阶段( 1 9 7 5 1 9 9 8 ) :文本自动分类 的实用性阶段;第四阶段( 1 9 9 0 至今) :因特网文本自动分类研究阶段。国外主要的研 究单位有c m u 、斯坦福等,他们在理论研究上都达到了较高的水平。 文本分类的诞生可追溯到1 9 6 1 年m a r o n 在概率文本分类方面的开创性工作,从那 时起,文本分类技术便逐渐应用到信息检索、文本组织、文本过滤等方面【3 】。目前,文 本分类已被广泛应用于电子邮件分类、电子会议、数字图书馆、搜索引擎、信息检索等 领域。1 9 7 0 年,s a l t o n 等人提出了向量空间模型( v e c t o rs p a c em o d e l ,v s m ) ,至今该 模型一直是文本分类处理的一种典型模型。到2 0 世纪8 0 年代末,在文本分类领域占主 导地位的一直是基于工程的分类方法,其中最著名的是卡内基集团为路透社开发的 c o n s t r u e 系统【4 】,虽然该方法取得了较好的分类效果,然而该方法具有分类规则指 定困难、推广性差的缺点,很难大规模推广应用。2 0 世纪9 0 年代以来,随着信息技术 的迅猛发展,文本自动分类的研究进入了基于机器学习的研究阶段,基于机器学习的文 本分类成为文本分类的主流技术,如朴素贝叶斯方法、决策树方法、神经网络方法等1 5 8 j , 研究开发出了一些相当成功的分类系统,建立了o h s u m e d 、r e u t e r s 等开放的分类语 料库。但是,文本分类研究仍然缺乏一个大规模的、真实的、权威的语料库,缺乏一种 客观的评价机制,来对不同的方法和系统做出客观的比较。2 0 世纪9 0 年代以后,著名 的文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 与主题检测和跟踪会议( t o p i c d e t e c t i o na n dt r a c k i n g ,t d t ) 都把文本分类作为重要的评测内容,通过提供规范的大 规模语料来对文本分类系统的性能进行客观、公正的评测,这在很大程度上促进了文本 分类研究的发展。 现有的文本分类技术主要有三种类型:基于统计的方法、基于连结的方法和基于规 则的方法。基于统计的方法是一种非确定性的定量推理方法,是基于概率的,因此其必 然会掩盖小概率事件的发生,该方法的优势在于它的全部知识是通过对大规模语料库分 析得到的,对语料处理提供了比较客观的数据依据和可靠的质量保证,常用的基于统计 的方法有朴素贝叶斯9 1 0 1 1 1 、k 近邻【1 2 】、类中心向量【。3 1 4 1 、回归模型【15 1 、支持向量机【1 6 】、 最大熵模型1 1 7 】等。基于连结的方法,即人工神经网络方法【1 8 】,是设计用来模拟人脑神经 网络的,并期望其能像人脑一样地学习,从而产生智慧,这种方法适用于学习一个复杂 第1 章绪论 的非线性映射,但是使用它学习所形成的知识结构是人所难以理解的。基于规则的方法 是一种确定性的演绎推理方法,它可以根据上下文对确定性事件进行定性描述,基于规 则的方法有决策树【1 9 】、关联规则2 0 l 等。 现有的文本分类方法不再仅限于词、短语或n g r a m ,词性、标点符号等词法特征【2 1 】 也被引入到了文本分类中。随着研究的进一步深入,人们发现词法特征携带的信息已经 越来越无法满足文本分类技术的要求,所以,基于文本的语法特征得到一些应用【2 2 】,但 是这些特征的自动获取还是一个有待解决的问题。 1 2 2 国内研究现状 国内对文本自动分类的研究起步较晚,始于2 0 世纪8 0 年代。由于中英文之间的差 异,因此不能照搬国外的研究成果,有必要研究并开发实用性的中文文本自动分类系统。 清华大学、中国科学院计算技术研究所、上海交通大学、哈尔滨工业大学、复旦大学、 东北大学等高校和科研机构分别进行了不同方面的研究。1 9 8 1 年,北京大学的侯汉清教 授对计算机在文本分类工作中的应用做了探讨,此后,我国陆续研制出一批计算机辅助 分类系统和自动分类系统,例如,清华大学吴军研制的自动分类系统,山西大学刘正瑛 等人开发的金融自动分类系统,上海交通大学的王永成等研制的基于神经网络优化算法 的中文文本分类系统,南京大学的邹涛等人运用支持向量机设计了一个中文文本自动分 类系统c t d c s 2 3 1 。 目前的文本分类方法主要是用向量空间模型来表示文本,主要是基于特征词的精确 匹配,一般认为词与词之间是相互独立的,其中使用较多并且技术较成熟的是基于统计 学的分类技术和基于人工智能的自动分类技术。中国科学院计算技术研究所的李晓黎、 史忠植等人【2 4 】应用概念推理网进行文本分类,中国科学技术大学的范焱等人在k 一近邻、 贝叶斯和文本相似性研究的基础上提出了一个超文本协调分类器【2 5 j ,复旦大学周水庚等 人用n - g r a m 方法对中文文本进行分类尝试【2 6 】,复旦大学的黄萱菁等人提出了独立于语 种的文本分类【2 7 】,厦门大学的苏伟峰等提出了一种基于概念的文本分类模型等。 1 2 3 当前研究重点 在信息化带来信息共享的同时,中文文本分类技术也面临着新的挑战。近年来,文 本分类的研究重点主要集中在以下几个方面: 1 如何使用一种分类器对不同语言的文本进行分类,即多语种文本的分类。 1 河北大学工学硕士学位论文 2 如何在噪声环境下进行文本分类,如垃圾邮件的处理等。 3 在大规模中文文本分类中,如何在不降低分类精度的情况下,降低特征空问的 维数和分类算法的时间复杂度。 4 层次化文本的分类研究。当文本集特别庞大,并且文本的类别之间存在着层次 关系时,按照层次结构对文本集进行分类更能体现文本之间的语义关系。 5 研究一些新的分类方法和技术。 6 w e b 文本的分类研究。对纯文本的分类,要依靠文本的内容和段落信息,而对 w e b 文本的分类还可以充分利用网页中的字体、颜色、超链接等结构信息。 7 如何利用文本的语义信息进行分类。 8 如何建立一个标准的分类语料库。 近年来,自动文本分类技术取得了很大发展,出现了一些比较成功的分类系统。但 是,自动文本分类技术在分类的精度和效率方面仍然不能满足人们的现实要求,这就是 我们对这一课题继续研究的原因。 1 3 本文的主要研究工作 本文对中文文本自动分类所涉及的各种技术进行了全面论述,通过对中文文本集进 行分词和词性标注、特征选取和类别核心词的选取与处理后,设计并实现了基于类别核 心词的朴素贝叶斯分类和基于概念的文本分类系统,主要研究内容如下: 1 提取类别核心词对类别核心词进行处理,计算每类文本中类别核心词的权重。 2 根据类别核心词的权重,将类别核心词融入到分类过程中,实现了基于类别核 心词的朴素贝叶斯分类方法,并将该方法与朴素贝叶斯分类方法进行了比较。 3 用类别核心词和知网对特征词进行概念映射,给出了一种基于类别核心词和知 网的概念映射算法,该方法可以快速、有效地对特征词进行概念映射。 4 实现了基于概念的中文文本分类,并分别在朴素贝叶斯和k 近邻分类方法上进 行了比较。 1 4 本文的组织 本文共分五章,文章结构及各章主要内容组织如下: - 4 第1 章绪论 第1 章介绍文本分类的研究背景、研究意义,分析了国内外研究现状和研究重点, 并给出了本文的主要研究工作。 第2 章详细介绍了中文文本分类的相关理论和技术。对文本分类的概念、分词与词 性标注、特征选取、文本表示、分类方法和分类评测标准进行了详细论述。 第3 章对文本集中类别核心词的定义、类别核心词的选取和处理、如何将类别核心 词应用到朴素贝叶斯分类方法进行了讨论,实现了基于类别核心词的朴素贝叶斯分类方 法,并进行了实验验证。 第4 章提出了一种基于类别核心词和知网的概念映射算法,给出了基于概念的文本 分类方法的基本步骤,最后通过实验验证了其有效性。 第5 章对本文工作进行了总结,同时对以后的研究工作进行了展望。 河北大学_ 下学硕十学位论文 第2 章中文文本分类的相关理论和技术 本章主要介绍了文本分类的一些相关理论和技术。按照文本分类的过程,对文本分 类的概念、文本分词、词性标注、特征选取、文本表示、文本分类和分类算法的评估进 行了总结和归纳。 2 1 文本分类的基本概念 简单地说,文本分类系统的任务是1 2 9 j3 0 】:在给定的分类体系下,根据文本的内容自 动地确定与文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标 明类别的文本映射到已有的类别中,该映射可以是一对一的映射,也可以是一对多的映 射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下: 彳一b其中,彳为待分类的文本集合,b 为分类体系中的类别集合。 文本分类的映射规则是系统根据已经掌握的每类文本的数据信息,总结出分类的规 律性而建立的判别公式或判别规则。然后在遇到新文本时,根据总结出的判别公式或判 别规则,确定与文本相关的类别。系统使用的学习方法不同,判别公式或判别规则也会 有所不同,在已经确定的映射规则上,对遇到的新文本,通过计算和判断,最终确定与 文本相关的类别。 文本分类可以分为两种类型,单类别分类( s i n g l e 1 a b e l ) 和多类别分类( m u l t i 1 a b e l ) 。 在单类别分类中,多个文本对应一个类别,分类器的功能可以用函数厂来表示( j d c 一 o ,1 ,其中l 表示文本d 属于类别c ,0 则相反) ,这时,文本分类的任务就是建 立一个分类器,让该分类器尽量模拟逼近函数 分类未知文本时通常采取阈值的方法, 根据闽值来判断文本的类别,满足条件则判为l ,否则为0 。在多类别分类中,多个文 本对应多个类别,首先,分类器将文本d 放在所有的类别上完成一次分类过程,这样得 到该文本属于某个类别的概率,或该文本与某个类别的相似程度,然后,再由分类器进 行选择。多文本分类比较复杂,它的任务是建立起适应于多类别的分类器。 在使用文本分类器时,有两种不同的方式可以选择:以文本为中心的分类 ( d o c u m e n t p i v o t e d t e x tc a t e g o r i z a t i o n ,d p c ) 和以类别为中心的分类( c a t e g o r y p i v o t e d 6 第2 章中文文本分类的相关理论和技术 t e x tc a t e g o r i z a t i o n ,c p c ) 。给定篇文本,通过遍历所有类别来找最适合它归属的类就 是d p c ,而假设给定某个类别,在给定文本集中找出所有属于该类的文本,就是c p c 。 一个典型的中文文本分类系统可以用图2 1 表示,它包括以下几个部分:训练文本 的预处理、特征选取、形式化表示文本和自动分类等。训练文本预处理包括去除文本的 格式标记、停用词、虚词、非法字符等项和文本分词等工作;特征选取是根据选用的文 本特征描述方法,提取文本的特征项,把它表示成计算机能够处理的形式;然后,选择 文本分类算法,构造文本分类器,对文本的分类结果进行评估,通过对训练文本进行反 复训练,在达到较好的满意度后,分类器才能对新文本进行分类;待分类文本在进入分 类器进行分类之前,首先要将其表示成计算机可处理的形式,然后送到文本分类器进行 分类,最终输出文本的类别。 2 2 文本预处理 图2 1 中文文本分类系统 文本预处理是进行文本分类的第一个步骤。一般情况下,需要分类系统处理的文本, 是不能直接交给分类模型进行分类的,为了保证文本分类任务能够快速有效地执行,必 须进行文本预处理,其主要功能是指将文本转化成适合文本分类系统处理的中间形式并 河北大学工学硕士学位论文 滤除与任务不相关的冗余特征。文本预处理操作,一般包括去除文本中的格式标记、过 滤非法字符、字母大小写转换、去除停用词和稀有词、词干化等处理步骤,中文文本分 类还包括中文分词、词性标注处理。 2 2 1 去除格式标记 在实际的分类系统中,有很大一部分文本是以网页形式存在的,网页文件的存储格 式是超文本标记语言( h y p e rt e x tm a r k u pl a n g u a g e ,h t m l ) ,而在h t m l 文件中,存 在大量表示格式信息的标记( t a g ) 。文本分类是基于对文本内容信息的统计分析,文 本中的格式标记是一些无用的信息,所以,在做分类处理前,一般需要去除格式标记。 另外,目前国际上公开发布的语料库大多数是以标准通用语言( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ,s g m l ) 和扩展标识语言( e x t e n s i b l em a r k u pl a n g u a g e ,x m l ) 表示 文本,这些文本中的格式标记去除主要是指去除语料库中的一些格式,提取文本的部分 内容,最后转换为文本分类系统需要处理的格式和内容。 2 2 2 过滤非法字符和字母大小写转换 非法字符是指在文本分类系统中不需要使用的字符,如数字、连字符和标点等,我 们一般不希望在文本的特征词中包含这些字符,因此需要在预处理阶段将它们滤除。一 般来说,英文字母的大小写对英文语义的表示没有影响,为了处理方便,可以考虑在预 处理阶段将英文字母全部转换为大写( 或小写) 形式。 2 2 3 去除停用词、稀有词和词干化 停用词是指一些在文本集中出现频率很高,但对文本分类任务没有贡献或贡献很小 的词,文本中的副词、代词、介词、冠词和连词等没有实际语义的虚词,都属于停用词 范畴。一般情况下,停用词携带的信息量很少,去除后可以提高分类器的效率,而且对 分类器的性能不会有什么影响。 在文本集中还存在一些出现频率很低的词,这些词称为稀有词,它们可能是由于拼 写错误而形成的,计算机一般很难处理,所以需要将这些词去除。 词干化处理是英文文本处理所特有的操作,就是去除英文单词中的前缀、后缀,只 保留它的词干部分。英文单词一般由前缀、词根和后缀等部分组成,具体到句子中,单 词还有性、数、格以及时态引起的词形变化,实际上,一个单词的不同词形,可以认为 第2 章中文文本分类的相关理论利技术 表示的是同一个意思,例如c o o k 、c o o k e r 、c o o k i n g ,经过词干化处理后,可以提取出代 表这几个单词的词干:c o o k 。经过这样的处理,可以在很大程度上减少文本中的特征词 个数。词干化处理通常采用基于自动机的规则方法,即将词形变化的规律总结成规则, 然后通过自动机的方法对词形进行转换,转换的过程中可以使用或不使用词典。目前使 用最广泛的词干化处理算法是m a r t i np o r t e r 提出的p o r t e rs t e m m e r 算法【3 l l 。 2 2 4 中文分词和词性标注 2 2 4 1 中文分词 中文分词处理是中文信息处理所特有的文本预处理步骤。同英文文本的词与词之间 有天然的分隔不一样,中文的词与词之间没有天然的分隔。自动识别词的边界,将汉字 串切分为正确词串的汉语分词问题是中文信息处理的首要任务。 分词就是将连续的字串或序列按照一定的规范重新组合成词序列的过程。汉语分词 就是要把汉语的字序列切分成有意义的词,以便机器理解。由于汉语本身的复杂性,使 得汉语的分词要比其他西文语言复杂的多,主要体现在以下几个方面: 1 分词规范问题。在汉语分词中最重大的困难就是词的概念不清,由于没有现成的 标准,再加上汉语本身的复杂性,使得词的界定非常困难。同时,在不同的应用领域, 由于应用需求的不同,需要达到的分词效果也有很大区别。 2 歧义切分问题。所谓歧义是指对一个句子( 或一个字串) ,若仅根据句子中字的 字面意思理解,可以有多种理解方式,如“机器翻译程序”,既可以理解为“机器”、“翻 译”、“程序”,又可以理解为“机器”、“翻译程序,或“机器翻译”、“程序”。汉语中 含有许多歧义切分字段,典型的歧义有交集型歧义( 约占全部歧义的8 5 以上) 和组合 型歧义。只有向分词系统提供语法和语义知识才可能作出正确的分词决策。 3 未登录词识别。未登录词是指未包括在分词词表中但必须切分出来的词,包括各 类专有名词( 人名、地名、机构名等) 和某些术语、缩略词、新词等。未登录词的识别 对于各种汉语处理系统不仅有直接的使用意义,而且可以起到基础性的作用。因为各种 汉语处理系统都需要使用词频等信息,所以,如果在自动分词过程中对未登录词识别不 对,统计到的信息就会有很大误差。 4 分词与理解的先后。由于计算机无法像人在阅读汉语文章时那样边理解边分词, 只能是先分词后理解;同时,计算机对文本进行分词的前提是识别出词并获得词的各项 9 河北大学工学硕+ 学位论文 信息。这样就会产生逻辑问题:分词要以理解为基础,而理解则必须先分词。因此,不 可能有百分之百正确的分词方法。 以上是中文分词所要解决的几个关键性问题。现有的中文分词方法f 3 2 】有以下几类: 1 基于字符串匹配的分词方法,也称为机械式分词方法。它是按照一定的算法,将 待切分汉字串与“机器词典”中的词条进行匹配,若在词典中找到该字符串,则匹配成 功( 切分一次) 。根据扫描字符串的方向不同,串匹配方法可以分为正向匹配和逆向匹 配;根据每次匹配时优先考虑长词还是优先考虑短词,可分为最大( 最长) 匹配和最小 ( 最短) 匹配;根据匹配不成功时重新切分的策略,可分为增字词切分和减字词切分。 2 基于统计的分词方法。先切分出与词表匹配的所有可能的词,这种切分方法称为 “全切分”,然后运用统计语言模型和决策算法决定最优的切分结果。这种方法的优点 是可以发现所有的切分歧义,但是解决歧义的方法在很大程度上取决于统计语言模型的 精度和决策算法。同时,该方法需要大量的标注语料,并且分词速度也因搜索空间的增 大而有所减缓。 3 基于规则和统计相结合的分词方法。首先运用最大匹配方法对汉字串进行初步切 分;然后对切分的边界处进行歧义探测,从而发现歧义;最后运用统计和规则结合的方 法来判别正确的切分,运用不同的规则解决人名、地名、机构名识别,和运用词法结构 规则来生成复合词和衍生词。 2 2 4 2 中文词性标注 汉语词性标注是中文信息处理的重要内容,广泛应用于机器学习、自动摘要、文本 分类、文本校对、语音识别等方面。词性标注的任务是在具体的语言环境中正确地标注 一个词的确切词性。如果词性标注错误,就会影响后面的句法分析和语义分析,甚至会 导致错误的自然语言。因此,词性标注对汉语语料库标注、机器翻译和大规模文本的信 息处理等都有十分重要的意义3 4 1 。 1 在机器翻译中,我们不但需要知道词义,还需要知道词的用法,能根据不同的语 言环境选择最恰当的词义。词性标注就是标注词的用法的最有效手段之一。 2 词性标注有助于词的义项分合的确定或发现新义项。词类划分以词的同一性为基 础,分析词性( 也就是充分考虑词的用法) 可以从一个新的角度去分析词义,这样可以 弥补单纯的词义分析的不足。 第2 章中文文本分类的相关理论和技术 3 词性标注有助于准确的释义。释义是与词的词性相关的,具有不同词性的词应采 取与其对应的释义方法,一般情况下用来释义的词应基本上与被释义的词的词性相同, 准确的释义离不开准确的词性分析。 目前,词性标注主要有以下几方面的困难: 1 个别词用法特殊,难以归类,但数量极少。如:摄氏、据说、阿门、贵姓。 2 个别词在使用时的句法成分不好确定,因而不好归类。如:继续前进( “继续” 可以是动词,也可以是介词) 。 3 部分词的用法不清楚,主要是文言词和专f - j m 语。如:狐媚、错谬、渐染、暗转 等。该问题可以通过大规模语料库的建立来解决。 4 部分词同一性的确定有困难。词的同一性涉及到分类的单位,如果不同,那么 肯定应作为两个单位分别考虑,将它们处理成兼类词或不同词类的同音词;如果同一, 那么是一个单位,可以处理成兼类词也可以不处理成兼类词。 词性是一个词最重要的语法特征,如果一个词的词性不确定,那么汉语句法分析就 无法进行,如果一个词的词性选择错了,则会导致句法分析的严重错误甚至失败。早在 2 0 世纪6 0 年代,国外学者就开始研究英语文本的自动词类标注问题,建立了一些自动 词性标注系统。目前为止,自动词性标注研究方法分为以下几种: 1 基于规则的方法:该方法首先获取能表达一定语言上下文关系及相关语境的规则 库,规则知识库是以规则处理为基础的,它的构造需要考虑两个基本问题,即规则对语 言现象的覆盖率和规则处理的正确率。一般而言,对一条规则,这两种性能往往显示反 比关系,因此,一个好的规则库的获取是比较困难的,它必须综合考虑两方面的因素, 并且合理安排不同规则的分布,使规则处理的整体效果达到最佳。该方法的缺点是,费 时费力,具有很大的主观性,很难保证规则的一致性,而且处理歧义长句、生词、不规 范句子的能力非常弱,词性标注的j 下确率不高。 2 基于统计的方法:2 0 世纪7 0 年代未到8 0 年代初,随着经验主义方法在计算语 言学研究中的不断流行,基于统计的词类排歧方法开始得到应用。基于统计的方法是用 马尔可夫语言模型,即n 元语法( n - g r a m ) 模型。基于统计的词性标注的研究主要包括 两个方面:( 1 ) 概率参数的获取。主要有两种方法:一是监督方式,利用已标注过的语 料库作为训练语料,从中统计出相关的参数值;二是非监督方式,利用未标注的语料库 河北大学工学硕十学位论文 来进行训练,这种情况与已标注的语料库不同,每个词的词性是未知的,使用的模型一 般为隐马尔可夫模型。( 2 ) 对文本进行自动标注。一是基于词的标注方法,给句中的每 一个词选择一个最合适的标记,该方法被称作极大似然标注( m a x i m u ml i k e l i h o o d t a g g i n g ) ;二是基于句子的标注方法,为每个句子选取一个最可能的标记串,该方法称 为v i t e r b i 标记。该方法处理生词的效果较好。 3 统计和规则相结合的方法:基于统计的标注方法可以抑制小概率事件的发生,但 是,它也会受到长距离搭配上下文的限制,而这一缺点可以用规则的方法进行弥补,所 以就有了统计和规则相结合的词性标注方法。该方法的优点是:比纯统计方法的效率高, 这是因为对于那些简明的语言规律,如果用统计方法,其表达是隐含在统计数字里的, 既不方便,效率又低,相反,规则的方法效率比较高;比纯规则的方法处理能力强,鲁 棒性提高,弥补了规则的不足。 2 。3 特征选取 特征选择是文本分类中的一个重要环节。在将文本表示成特征向量时,原始特征空 间由文本中的所有词条组成。无论采取何种文本表示形式,一个中等规模的文本分类问 题所对应的原始特征空间通常都高达几万维,甚至更高维。如果直接在这样一个高维特 征空间上进行分类器的训练和分类,不仅会使文本自动分类的计算量过大,而且在训练 文本容量一定的前提下,过多的特征会使文本特征的估计变得非常困难,从而降低分类 器的推广能力。要避免这种情况的发生,训练文本个数必须随着特征维数的增长而增长, 从而造成人们所说的“维数灾难”( c o u r s eo f d i m e n s i o n a l i t y ) 。 因此,在分类器对训练文本进行训练之前,并且在不影响分类准确率的前提下,通 过对原始特征空间进行降维处理【3 引,可以使特征空间的维数压缩到与训练文本个数相适 应的情况。 近年来,在中文文本自动分类中使用较多的特征选取方法包括文本频率( d o c u m e n t f r e q u e n c y ,d f ) 、互信息( m u t u a li n f o r m a t i o n ,m i ) 、信息增益( i n f o r m a t i o ng a i n ,i g ) 和z 2 统计( c h i ) 等。下面分别对这几种特征选取方法【3 5 3 6 1 进行简单介绍。 第2 章中文文本分类的相关理论和技术 ! 。 m= i i i _i ! 鼍! 皇! ! 皇兰鼍皇! 曼暑皇曼皇! 鼍曼! ! 曼! ! 曼! 曼曼 2 3 1 文本频率 特征词的文本频率是指在训练文本集中出现该特征词的文本数。用文本频率进行特 征选取基于以下基本假设:文本频率的值低于某个阈值的特征词是低频词,它不含或含 有较少的类别信息。将这些低频词从原始特征空间中移除,不但可以降低特征空问的维 数,而且还有可能提高分类的精度。 文本频率法是最简单的特征选取技术,它具有相对训练语料规模的线性计算复杂 度,常用于大规模语料统计中。但是,在信息抽取研究中通常认为文本频率值低的词条 拥有的信息量高于文本频率值高的词条,所以,不应该将文本频率值低的词条完全移除, 否则会降低分类器的准确率。一般来说,并不直接将文本频率用于特征选取,而是把它 作为评判其它评估函数的基准。 2 3 2 互信息 互信息广泛应用于统计语言模型,它可以度量特征词和类别的共现关系。特征词对 于类别的互信息越大,它们之问的共现概率也就越大,将互信息低于特定阈值的特征词 从原始特征空间中移除,保留高于阈值的特征词。特征词m ,对于文本类别研的互信息的 计算公式如下: m i ( w , c j ) = l o g i 等j q 1 ) 其中,p c w i 勺,= 而溉为特征词w 在g 类中出现的概率,p l 为该类 的训练文本数,n ( w ,西) 为特征词w 在文本西中的权重,即特征词w 在文本讲中的词频, i 为总的特征词数,尸( ,) 为特征词w 在所有训练文本中的概率。 互信息将特征词w 在c ,类文本中的出现概率和它在整个文本集中出现的概率的比值 作为该特征词对( 类的分类贡献。该方法的缺点是,它没有考虑特征词出现的概率,容 易受特征词的边缘概率的影响,对于有相等条件概率的一些词,稀有词比常用词的分值 还要高。因此,对于频率相差很大的词,分值是不具备可比性的。 2 3 3 信息增益 信息增益是机器学习领域常用的衡量特征词重要程度的指标,它通过特征词在文本 河北大学工学硕士学何论文 中出现与不出现的情况来推算该特征词携带的信息量。 若尸( g ) 表示类别9 出现的概率,尸( w ) 表示特征词w 出现的概率,p ( c j fw ) 表示特征 词w 在属于类别c j 的文本中出现的概率,p ( c jl 丽) 表示特征词w 在不属于类别g 的文本 中出现的概率,m 为文本的类别数,那么特征词w 的信息增益可以用下面的公式计算: 佑( w ) = 一飙沙眺m 们私巳i 川l o g 酬 蚴 + 户( 刃:i 尸( oi 诼) l o g p j 劝 一 由于文本分类经常是多类的,所以,我们需要知道对于所有类别,w 的总体信息增 益值,常见的算法是将词条w 对应于各个类别的信息增益求和,公式如下所示: 佑( w ) = :。g ( w ,巳) ( 2 3 ) 信息增益的不足之处在于,它考虑了特征不出现的情况,虽然某个特征不出现也可 能对判断文本的类别有贡献,但实验证明,这种贡献往往小于考虑特征不出现情况所带 来的干扰。 2 3 4z 2 统计 z2 统计量是一种常见的统计量,它可以检验特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 影视海报设计考试题及答案
- 营口期末考试题目及答案
- 英语六下考试题目及答案
- 2025年医疗体检中心连锁化运营品牌建设与推广策略报告
- 2025年地坪漆行业投资合作协议范本
- 2025小学临时教师聘用合同书
- 2025年电大电算化会计形成性考核册参考答案
- 2025年医疗器械质量管理规范培训试题及答案
- 中国邮政2025红河哈尼族彝族自治州秋招寄递物流运营类岗位高频笔试题库含答案
- 临夏回族自治州烟草公司2025秋招综合管理类岗位面试模拟题及答案
- 中国古代数学家求数列和的方法课件-高二上学期数学人教A版选择性
- 二氧化碳驱油机理及其在石油工业的应用
- 铁塔拆除施工方案
- DB3714-T 0010-2022 园林绿化养护管理规范
- 儿童用药安全科普知识
- 跨国企业战略协同-深度研究
- 光伏发电设备检修维护(技师)职业技能鉴定备考试题库(含答案)
- 沥青路面基础知识
- 支气管镜和CT定位
- 机电安装冬季施工方案
- 2025届广东省深圳市南山区南山中英文学校三年级数学第一学期期末统考试题含解析
评论
0/150
提交评论