（计算机应用技术专业论文）中文文本数据分类研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-20 格式：PDF 页数：49 大小：1.13MB 积分：10.8 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

坶帅托人学颂l ：学位论义中文义牟= 数据分类研究摘要随着信息技术的不断发展，特别是i n t e r n e t 应用的普及，网上信息成指数级增长，如何自动处理这些海量的信息，有效的保留大的文本集合成为了目前重要的研究课题。对文本进行有效管理方法之一就是将它们进行系统的分类，即文本数据分类。文本数据分类是一项重要的智能信息处理技术，是文本检索技术的基础，在新闻机构分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。文本数据分类在传统的情报检索、网站索引体系结构的建立和w e b 信息检索等方面也占有重要地位。文本数据分类以文本挖掘技术为基础与核心，是近年来数据挖掘和网络挖掘领域当中的一个研究热点。本论文介绍了中文文本数据分类的信息处理基础、向量空间模型，探讨了自动分词技术，详细分析多种文本特征选择算法和贝叶斯文本数据分类模型，本论文通过大量实验深入研究了多种文本特征选择算法：互信息m i ( m u t u a l i n f o r m a t i o n ) ，信息增益( i n f o r m a t i o ng a i n ) ，x 2 估计，文本证据权，并对互信息进行了改进。鉴于朴素贝叶斯的分类效果不佳，本论文又提出将机器学习中的b o o s t i n g 思想结合到朴素贝叶斯的分类模型中，对朴素贝叶斯模型进行提升，实验证明，改进的互信息和给合了b o o s t i n g 思想的朴素贝叶斯分类模型均产生良好的分类效果一分准率、分全率及f 1 值。戈踺词：文本数据分类，特征选择，向量空间模型，自动分词，朴素贝叶斯海帅范人学砸i ：学位论文中文文本数据分类埘究 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n di m p r o v e m e n to fi n t e r n e t a p p l i c a t i o n ，i n f o r m a t i o n o ni n t e r n e t e x p o n e n t i a l l yi n c r e a s e d ，i t w a sa n i m p o r t a n t r e s e a r c hs u b j e c tt od e a lw i t hl a r g en u m b e r so fi n f o r m a t i o na n dt os t o r eb i gt e x ts e t a u t o m a t i c a l l y o n eo f e f f e c t i v em e t h o dt om a n a g e m e n tt e x t si st oc l a s s i f yt h e m ，a l s o c a l l e dt e x tc i a s s i 矗c a t i o n a u t o m a t i ct e x t sc l a s s i f i c a t i o ni sa n i n t e l l i g e n tt e c h n o l o g y o fi n f o r m a t i o n p r o c e s s i n g ，a n dt h ef o u n d a t i o no f t e x tr e t r i e v a l ，w h i c ha p p l i e dt on e w sc a t e g o r i z a t i o n ， e l e c t r o n i cc o n f e r e n c e , e - m a i lc a t e g o r i z a t i o na n di n f o r m a t i o nf i l t e r i n ge r e a u t o m a t i c t e x t sc l a s s i f i c a t i o n p l a y s a n i m p o r t a n t r o l ei nt r a d i t i o n a l i n t e l l i g e n c er e t r i e v a l ， f o u n d a t i o no fw e bi n d e xa r c h i t e c t u r e ，w e bi n f o r m a t i o nr e t r i e v a l ，a n ds oo n b a s e do n w e b m i n i n gt e c h n o l o g y ，a u t o m a t i ct e x tc l a s s i f i c a t i o nh a sb e c o m eah o tr e s e a r c ha r e a i nt h ef i e l do f d a t a m i n i n g a n dn e t m i n i n g t h i st h e s i si n t r o d u c e dt h et e c h n i c a lf o u n d a t i o no fc h i n e s et e x t s c l a s s i f i c a t i o n ， v e c t o rs p a c em o d e l ，a n dd i s c u s s e dc h i n e s ew o r ds e g m e n t a t i o n ，a n a l y z e dm a n yt e x t f e a t u r es e l e c t i o n a l g o r i t h m s a n d b a y e sc a t e g o r i z a t i o n m o d e l w i t hal o to f e x p e r i m e n t s ，t h et h e s i sd e e p l yr e s e a r c h e da n de v a l u a t e dm a n yt e x t sf e a t u r es c l c c t i o n a l g o r i t h ms u c h a sm u t u a li n f o r m a t i o n ，i n f o r m a t i o n g a i n ，c h i s q u a r ee v a l u a t i o n ， w e i i g h t o fe v i d e n c ef o rt e x t t h et h e s i sa l s od i da n i m p r o v e m e n to nm u t u a l i n f o r m a t i o n b e c a u s eo fi n e f f e c t i v e n e s so f n a f v eb a y e sm o d e lf o rt e x tc l a s s i f i c a t i o n t h i st h e s i sp r o p o s e di n t e g r a t i n gb o o s t i n gt h e o r yo fm a c h i n el e a r n i n gi nc l a s s i f i c a t i o n p r o c e s s ，b o o s tn a i v eb a y c sc a t e g o r i z a t i o nm o d e lt h r o u g hm a n yt i m e st r a i n i n g 。 i m p r o v e db ye x p e r i m e n t s ，m u t u a li n f o r m a t i o n a n dn a i v eb a y e si n t e g r a t e dw i t h b o o s t i n gb r i n gv e r yg o o dp r e c i s i o n ，r e c a l l ，a n df 1s c o r e k e y w o r d s ：t e x t c a t e g o r i z a t i o n ，f e a t u r es e l e c t i o n ，v e c t o rs p a c em o d e l ，a u t o m a t i c w o r d s e g m e n t a t i o n ，n a f v eb a y e s 海j f i j 范人学_ ! 亚ll ：学位沧文中文立本数摧分类研究 1 序言 1 1 文本数据分类的背景和意义在现实生活中，可获取的大部分信息是存储在文本数据库中的，由来自各种数据源( 如新闻文章、研究论文、书籍、数字图书馆、电子邮件消息和w e b 页而) 的大量文本组成。由于电子形式的信息量的飞速增长，如电子出版物，电子邮件， c d r o m 和w e b ( 它也以被视为一个巨大的、互连的动态文本数据库) 等，文本数据库得到迅速的发展。大量的文本中只有很少的一部分于某一个个体和用户相关，不清楚文档主的内容的情况下很难形成有效的查询，所以传统的信息检索技术不适应日益增加的大量文本数据处理的需要，用户需要更加有效地方法完成不同文档的分类比较，对文档重要性和相关性进行排列，找出多文档的模式和趋势 ”“”3 。所以，文本数据挖掘成为数据挖掘中一个日益流行且重要的研究课题。文本挖掘是数据挖掘与信息检索两门学科的交叉边缘学科，近年来已经成为一门相对独立的研究学科，并取得了长足的发展。众多的研究及应用表明，文本挖掘与传统的数据挖掘有很大的区别。传统数据挖掘所处理的数据是结构化的，其特征数目通常不超过几百个，而文本挖掘处理的文本数据是半结构化( s e m s t r u c t u r ed a t a ) 的，它既不是完全无结构的也不是完全结构化的，例如，一个文本可能包含结构字段，如标题、作者、出版日期、长度、分类，等等，也可能包含大量非结构化的文本成分，如摘要和内容，文本数据转换为特征矢量后的特征数目将达到几万甚至几十万。传统数据挖掘及信息检索的技术根本不可能处理如此超大规模的数据，必须研究新情况下文本挖掘技术，目前，已有大量有关、结构化数据的建模和实现方面的研究。在文本挖掘领域中，文本数据分类是一项重要的文本挖掘技术，它利用计算机技术，自动地将大量的文本归到一个或几个文本类别中去，它区别于人工分类主要优点是耗时少、成本低、更新速度快。本论文的主要工作就是研究这项技术。 1 2 典型应用研究利用计算机进行文本数据分类已经成为一个有重要价值的研究课题并且有着很广泛的应用前景，如：海师范人学烦l ：学位论文中文立奉数据分类1 i j f 究 1 2 1邮件分类这种应用主要对用户收到的电子邮件进行分类，如：麻省理工学院为白宫开发的邮件分类系统，能自动地确定每天发送给总统的大量的电子邮件所属的类别，如外交、环保、家居等，以安排适当的人员对信件内容进行答复“”。 1 2 2电子会议意见分类电子会议是一种新兴的会议方式，所有与会者通过网络电脑系统举行会议，与会者是匿名的，便于形成平等的气氛，以调动与会者的积极性，因此产生大量的意见和建议，接下来再由分类系统对这些意见进行分类和组织，最后确定进一步讨论的主题“”。 1 2 3 在全文检索系统中的应用传统的信息检索系统大多是基于自由关键词和布尔模型的，这种系统的检索结果并不十分理想，因此必须发展基于中文信息处理和现代汉语研究基础的具备汉语语言理解能力的全文检索系统。这种系统除了涵盖传统检索技术及其改进技术外，还应用了中文文本数据分类技术以及中文自动摘要技术等最新的自然语言理解研究的成果。 1 2 4 在网络信息过滤、萃取系统中的应用用户每一天都会得到大量的网上信息，网络信息过滤系统必须根据用户己经关心过的信息过滤网上信息，然后主动形成用户需要的信息。另外，网络信息萃墩系统根据某种需要，自动分析网页信息，萃取某一特定内容，进行分析。这两种系统都将综合运用文本数据分类技术和摘要技术。 1 2 5 在文本库的建立与重建中的应用机构或个人都会面临建立文本库或重新归类大量文本的任务，这就需要根据指定的一些文本和类别结构，自动地将所有的文本归于合适的类。若是将新的文本加入台适的文本类别中也必须采用文本数据分类技术。 1 3 国内外分类技术研究进展街帅批人学顶b 学位论文中立义奉数捌分类究国外文本数据分类研究始于2 0 世纪5 0 年代术，h p l u h n 在这一领域进行了开创性的研究，他首先将词频统计的思想用于文本数据分类中。1 9 6 0 年 m e m a r o n 、j l k u h n s 在j o u r n a lo fa s m 上发表了有关文本数据分类的第一篇论文“o nr e l e v a n c e ，p r o b a b i l i s t i ci n d e x i n ga n di n f o r m a t i o nr e t r i e v a l ”。 1 9 6 2 年博科( t 1 g o r k o ) 等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域迸行了卓有成效的研究。国外的文本数据分类研究大体上可以分为三个阶段：第一阶段( 1 9 5 8 年一1 9 6 4 年) 主要进行文本数据分类可行性方面的研究；笫二阶段( 1 9 6 5 年1 9 7 4 年) ，文本数据分类的实验研究：第三阶段( 1 9 7 5 年一至今) ，文本数据分类的实用化阶段m 嘞国外当前流行的文本数据分类方法有k 近邻法( k n n ) 、决策树、朴素贝叶斯、贝叶斯网络、支持向量机( s v m ) 等方法。这些方法在英文以及欧洲语种文本数据分类上有广泛的研究。国外很多研究人员对英文文本数据分类领域的各个问题都有相当深入的研究。国内文本数据分类研究起步较晚，始于2 0 世纪8 0 年代初期。1 9 8 1 年侯汉清对计算机在文献分类工作中的应用作了探讨，并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。3 。我国文本数据分类的研究大体上经历了可行性探讨一辅助分类自动分类系统的发展阶段。关于中文文本数据分类的研究相对较少，国内外的研究基本上是在英文文本数据分类研究的基础上采取相应策略，结合中文文本的特定知识，然后应用于中文之上，继而形成中文文本数掘分类研究体系5 1 1 4 论文结构第一章是序言。第二章介绍了文本数据分类的研究基础，重点讨论了中文信息处理和现代汉语研究。第三章阐述了向量空问模型( v s m ) ，给出了v s m 的基本概念：文本、项、项的权重、向量空间模型，讨论了文本帽似度的计算。第四章研究了自动分词技术，着重分析了几种机械分词方法：正向最大匹配、 l r 向最小匹配、逆向最大匹配、逆向最小匹配，并分析了机械分词的缺陷：歧义 i 匈：! _ f j 范人学硕l 学位论文中文义奉数据分类研究切分问题、未登录词识别问题。针对未登录词的识别问题，引入了n - g r a m 分词方法，并对该种算法的基本思想作了探讨。第五章主要讨论了文本中禁用词的剔除，文本项的权重的计算方法，给出了多种文本特征选择算法：文本频数、互信息、x 2 估计、信息增益、文本证据权、优势率，并逐一分析了每种特征选择的计算过程及其优缺点，在此基础上提出了对互信息的改进，并在论文的第七章通过实验证明了这种改进的互信息表现出了良好的分类效果一分准率、分全率及f 1 值。第六章重点研究了朴素贝叶斯文本数据分类模型，在该章中首先给出了统计学中贝叶斯的基本观点。然后给出了在文本数据分类中的朴素贝叶斯模型，鉴于朴素贝叶斯的分类效果不佳，本论文提出将机器学习中的b o o s t i n g 思想结合到朴素贝时斯的分类模型中，分析了b o o s t i n g 算法的基本思想，并给出了算法的实现过程，在第七章中，作者通过实验证明了这种结合b o o s t i n g 的贝叶斯模型表现出了良好的分类效果一分准率、分全率及f 1 值。第七章是实验与分析，分别在平衡样本、非平衡样本的情况下进行了特征选择的对比实验、朴素贝叶斯分类和结合b o o s t i n g 的朴素贝叶斯分类实验。第八章是总结与展望，主要总结了理论研究过程中所做的工作。在阐述论文的特点及意义的同时，客观地评价了研究的不足与缺陷，并分析引起这些的原因。在总结自身研究的基础上，结合国内外的目前成果，对这一研究的发展方向提出了自己的一些见解，并确定了本课题还有待于进一步探索的方面。 4 海帅 _ | ：人学硕l 学位论文中立文奉数据分类究 2 中文信息处理和现代汉语研究中文信息处理和现代汉语研究是中文文本数据分类研究的基础，在某种意义卜来看，中文文本数据分类是中文信息处理的一种浓缩”1 。中文信息处理，就是利用计算机对汉语信息( 包括书面语和口语) 进行自动处理。例如，将文章或书输入计算机，统计某些需要的信息；自动分类和搜索、过滤、摘要：外文与汉语的对译：字词典自动查询、辅助编辑：自动校对：书面语和口语的互相转换：聋哑、盲人用的计算机等各种与汉语处理相关的计算机应用。中文信息的自动处理的意义重大，首先是节省时间，更重要的是，它是人们应对信息社会的必需手段。现代社会，信息量巨大，任何个人和组织都需要比较全面地掌握自己所需要的信息，并希望对这些信息按照需要作进一步的处理。因此，获取、处理和运用信息的手段至关重要。中文信息自动处理每提高一步，给我国的科学技术、文化教育、经济建设、国家安全等方面所带来的效益，都是无法估量的。但是，到目前为止，中文信息处理基本上还停留在“字处理”阶段，现阶段信息产品都没有超越“字处理”的范畴。计算机对于汉语的认知是一字一字地进行的。应当相信，中文信息处理，只有进入到语言处理阶段，才能真正实现自动化。近年来，我国的科研机构在国家的几个科学攻关计划中对计算机自然语言理解方面的进行了大量的研究。这些研究基本e 都是在语料( 主要是词) 的统计概率的基础上进行的。到目前为止，国内的研究大体可以分为三个流派。第一个流派是以传统计算语言学为基本理论，从词素分析入手，进而研究词一短语( 词组) 一语段一句子。概括地说，传统计算语言学的各种理论和方法，都以语料统计为基础。国家社会科学院“九五”重大项目“信息处理用现代汉语词汇研究”就是这一领域的典型代表。第二个流派是概念层次网络理论( i n c ) 。传统研究方法( 词一短语一句一句群一篇章) 是基于西方语言而建立的，其总体构架与汉语实际不相适应，因此，黄曾阳先生提出了概念层次网络理论。h n c 理论在规模较小的知识库的支持下已绎取得可喜成果。但其准确性最终要在更大的知识库支持下，在大规模真实语料海师范人学硕l 学位论文中文文隼数摧分类w 究叫才能得到信度较高的验证。第三个流派是基于内涵模型论的语义分析。该理论由陆汝占教授提出，出发点是考虑到对中文信息处理的研究单纯走语法的路已经难以有突破性的结果，要深入到语义层面。根据这一理论设计，句义分析的流程为：语句一切分一标注一句法分析一句法权一同构的语义树一逻辑公式一模型解释。虽然中文信息处理的研究己经取得了巨大的成果，但是，必须承认中文信息处理的研究还不能满足人们日益增多的信息获取的需要，现代汉语的研究还相对滞后。这主要是现代汉语本身的难度带来的。主要体现如下：汉语缺乏狭义的形态。西方语言的形态，对于计算机来说就是标记：汉语没有这种标记，就需要深入研究词的规律，形式化，然后标记。不能将西方计算语言学的成果简单地运用到汉语领域，必需有汉语的计算语言学。这一领域最基本的技术就是汉语分词技术，也是中文信息处理的首要工作，国内外的研究相当活跃。语法灵活。汉语句子中各个成分之间的关系确定主要靠词序、“意合”、虚词，这三方面很难全面把握，并把它形式化。语义灵活。典型地，由一词多义、同音词、近义词等等，以及词的变化、同一意思的不同句法表达等句法结构变化等词、句、段、篇上的灵活结构使计算机很难理解整个旬段篇。要消除这些难点，克服中文信息处理的瓶颈，必须将汉语言学和计算机科学紧密结合起来，在二者以及二者之间必须付出更多的研究，以使计算机能够像人脑那样工作，真正实现计算机处理中文信息的自动智能处理。中文文本数据分类是中文信息处理领域的一个重要分支，中文信息处理和现代汉语研究的基础性成果是中文文本数据分类研究的基石，中文文本数据分类是既是前者的一项应用，更是前者理论研究的某种浓缩。中文文本数据分类的研究和应用能够充分体现基础性研究工作的水准。 6 ! ：查唑丝叁堂! ! i 兰丝壁墨_ 蔓鉴尘墼堡竺茎! ! 塑 3 向量空间模型信息检索的概念被提出届，出现了许多丛于文本( d o c u m e n t ) 和查询( q u e r y ) 之间的文本训鳞：梭，具有代表性的有布尔模型”( b o o l e a nm o d e l ) 、向量空问模型。“( v e c t o rs p a c em o d e l ，简称v s m ) 、概率模型”1 ( p r o b a b i l i s t i cm o d e ) 等。这些模型从不州的角度出发，使用不同的方法处理特征加权、类别学习和相似计算等问题。上述几种模型巾，向量空间模型是最简便有效的文本表示模型之一。向量空间模型是s a l t o n 等人于6 0 年代术首先提出的，_ j 1 ：在著名的s m a r t ( s y s t e mf o r t h em a n i p u l a t i o ra n dr e t r i e v a lo f t e x t ) 系统得到成功的应用，在此以后，该模型及其相关技术，包括项的选择、加权策略，以及采用相关反馈进行优化查询等在文本数撕分类、“动索引、信息检索等许多领域得到广泛的应用。特别是随着网上信息的迅速膨胀，还被广泛地应用到搜索引擎、个人信息代理、网上新闻发们等信慰、检索锁域新圳羽畸，并且取榭了较好的效果。 3 。1 关于v s m 的基本概念 3 。1 1文本( d o c u m e n t ) 泛指一般的文本或者文本中的片段( 段落、句群或句子) ，一般指一篇文章。尽管文本可以是多媒体刈象，但是在文本的讨论t 只认为是文本对象1 “。 3 1 2项( t e r m ) 文本的内容特征常j 用它所含有的基本语言单位( 字、词、词组或短语等) 来表示，这些攮本的语。私_ l 位被统称为文本的项，岬文本可以用项集( t e r ml i s t ) 表示为d ( 彤，形) ，j 中峨是项，l 量”“。 3 1 3项的权重( t e r mw e i g h t ) 对于含有个项的文奉d ( 彬，彬，) ，项暇常被赋予。定的权重，表示它们在文本j 9 【| l 的需要稃度，即d = d ( 彤，w i ；，w ；彬，w ，) ，简记为 d = d ( w ，p - 二) ，返叫我们魄项峨的权重为”j 1 k 1 。 7 海j | j i j j _ | ：人学顺l 学位论义中文义牟数据分类研究 3 1 4向量空间模型( v s a ) 给定一文本d = d ( 彤，w l ；，w 2 ；，) ，由于在文本中既可以重复出现又应该又先后次序的关系，分析起来仍有一定的难度。为了简化分析，可以暂时不考虑在文本中的先后顺序并要求磁互异。这时可以把嵋，看成一个n 维的坐标系，而，w 2 ，w 为相应的坐标值，因而d = d ( ，w 2 ，) 被看成是n 维空间中的一个向量。我们称d = d ( ，w 2 ，) 为文本d 的向量表示“。 3 1 5 相似度( s i m ii a r i t y ) 两个文本d l 和d 2 之间的内容相关程度( d e g r e e o fr e l e v a n c e ) 常常用它们之问的相似度s i r e ( d l ，d 2 ) 来度量。当文本被表示为向量空间模型时，我们可以借助于向量之间的某种距离来表示文本间的相似度，常用向量之间的内积进行计算或者用夹角余弦来表示 s i r e ( u , ，d 2 ) = c o s 0 = 如图2 1 所示。。 = 1 唇磙历 ( 2 1 ) ( 2 2 ) 性 h 。脯 | | 砬 d跏海帅越大学硕- 二学位论文中文文本数据分类1 0 究图2 1 文本的向量空间模型( v s m ) 及文本间的相似度s i m ( d 。，d 2 ) 3 2 关于v s m 的讨论向量空间模型的最大优点在于它在知识表示方法上的巨大优势。在该模型中，文本内容被形式化为多维空间中的一个点，通过向量的形式给出，把对文本内容的处理简化为向量空间中向量运算，使问题的复杂性大为降低。而权重的计算既可以用规则的方法手工完成，又可以通过统计的办法自动完成，便于融合统计和规则两种方法的优点。也正是因为把文本以向量的形式定义到实数域中，才使得模式识别和其他领域中的各种成熟的计算方法得以应用，极大提高了自然语南。文本的可计算性和可操作性。所以说，文本的形式化表示方法一向量空间模型是基于文本处理的各种应用得以实现的基础和前提。向量空间模型是一种不考虑项出现顺序的词袋( b a go fw o r d s ) 文本表示模型，这种模型虽然带来了计算和操作上的方便，但是却损失了大量的文本结构信息。而这些信息在自然语言中是至关重要的( 如句子中词序信息等) 。另外，在权霞和相似度的计算中也做了许多简化工作：一、对不同的语言单位构成的项大都只考虑其统计信息并采用统一的权重计算方法，丽这种计算只是经验公式并没有很好的理论基础，所以计算出的权重未必能真实反映各项的重要性。二、向量空间模型是建立在所有项两两正交这一假设基础之上的，没有考虑项问的相关性。对于自然语言这种有着非常丰富语言现象的研究对象来说，这种仳没冠然是过于严格的，不能很好地反映自然语言的特征。目前已经有许多改进 9 海帅范a 学砸l ：学位论文中立文本数掘分类_ l ) 究项权重汁算的方法，但是效果并不明显，原因在于语义关系实际上是一个徽复杂的运算，采用筠零的初等运算代蘩它，误差势必缮在。目前，自然语言理解领域的夥项试验寝明，程以自然语言为研究对象的知识处理彝知识获取嗣题中，熟识表示始终是箕处理鹣主要簸臻。絮斑确定秘露羚瑷何文本内容影射到项时大量有效信息的损失是自然语言处理领域今后需要关注和解决的游题之一。 l o 海帅范入学硕士学位论文中文文本数据分类研究 4 自动分词早期的中文文本数据分类研究主要是以字作为特征单元的，显然，单字所包含的语义信息是比较少的，而且，其表达语义的能力也是十分有限的，所以采用字作为文本特征的分类系统的性能提高是有限的。吴军，1 9 9 5 研究了基于二元同现汉字串的文本数据分类技术。试验结果表明基于二元同现汉字串的分类方法的分准率高于基于单字的分类方法。词所代表的语义信息比单字和二元同现汉字要大得多，因为个词基本可以表达一个完整的语义，那么，很容易想到采用词作为特征表示将会对改进分类性能有所帮助。为了使用词作为文本特征，进行了大量的中文分词研究，现代汉语的自动分词研究是自然语言处理中较为成功的一个领域。随着汉语自动分词技术的日益成熟，以单词作为文本特征单元的中文文本数据分类已经成为研究主流。丁均彦的研究表明，基于单词的分类方法优于基于单字和基于二元同现汉字串的分类方法。词作为最小的能独立运行的有意义的语言单位，在中文信息处理过程中有着非常重要的地位。因而汉语处理的首要问题就是自动分词问题。它是一切工作的基础，分词不当，必将对后续的处理工作产生严重的影响。而且汉语自动分词又是目前中文信息处理的难点问题1 。 4 1 机械分词机械分词方法指的就是依据词典，按一定的策略将汉字串与词典中的词逐一一匹配：如果匹配成功，就加以切分。按照扫描方向可以分为正向匹配和逆向匹配：按照不同长度词的优先情况，可以分为最大匹配和最小匹配。最大匹配优先切分比变较长的词，而最小匹配优先切分长度就短的词。相互结合，构成了4 种常见的机械分词方法，即正向最大匹配、正向最小匹配、逆向最大匹配和逆向最小匹醢：。 4 1 1 正向最大匹配正向最大匹配是从汉字串首端开始抽取，用m a x l e n 表示最大词长，按照从如到右的顺序，首先从汉字串中取长度为m a x l e n 的子串，查词典。若词典中存在这个词，则切分出这一子串，后移m a x l e n 个汉字后继续切分，否则，子串长度减一，再弓词典匹配。若k 度为2 的予牢还不能在词典中奄到，则取当前汉字 i f l 0 l | j 范人学颂l 二学位论文中义义奉数姑分类研究为词，指针后移一个汉字继续匹配。 4 1 2正向最小匹配 f 向最小匹配是从汉字串首端开始抽取，用m a x l e n 表示最大词长，按照从左到右的顺序，首先从汉字串中取出长度为2 的子串查词典。若词典中存在这个词，则切分出该子串，指针后移2 个汉字，否则，子串长度逐次加一继续匹配。若一直到长度为m a x l e n 的子串仍无法匹配，则切分出当前汉字。 4 1 3逆向最大匹配逆向最大匹配是从汉字串尾端开始抽取，用m a x l e n 表示最大词长，按照从右到左的顺序，首先从汉字串中取长度为m a x l e n 的子串，查词典。若词典中存在这个词，则切分出这一子串，前移m a x l e n 个汉字后继续切分，否则，子串长度减一，再与词典匹配。若长度为2 的子串还不能在词典中查到，则取当前汉字为词，指针前移一个汉字继续匹配。 4 1 4 逆向最小匹配逆向最小匹配是从汉字串尾端开始抽取，用m a x l e n 表示最大词长，按照从右到左的顺序，首先从汉字串中取出长度为2 的子串查词典。若词典中存在这个词，则切分出该子串，指针前移2 个汉字，否则，子串长度逐次加一继续匹配。若一直到长度为m a x l e n 的子串仍无法匹配，则切分出当前汉字。指针前移一个汉字继续匹配。表4 1 列举了一个机械分词的例子，切分句子“后天我们去北京”设最大词长m a x l e n 为4 。分词方法分词过程与分词结果后天我们后天我后天我们去北我们去我们讵向最大匹配去北京去北去北京正向最小匹配后天我们去北去北京们去北京去北京北京天我们去我们去们去逆向最大匹配去后天我们天我们我们后天 j 缸帅范人学颂l 学位论文中文义奉数据分类研究逆向最小匹配北京们去去我们后天l l 表4 1 机械分词示例 4 1 5机械分词的缺陷及解决办法机械分词方法简单，易于实现。但是由于分词是一个复杂的智能过程，仅用机械方法分词，不可避免地存在着严重的缺陷，无法解决分词阶段的三大问题：一词多义问题、歧义切分问题和未登陆词识别问题，影响了分词的准确率。 ( 1 ) 、一词多义问题事实上，自然语言有着极为丰富的语言现象。例如词汇之间的关系，就有同义关系、近义关系、从属关系、关联关系等等。在使用短语等复合词时关系就更加复杂了。另外词汇的歧义和多义也很普遍，例如“他高兴地走了”( 副词“地” 应是禁用词) ，“地很不平”( 名词“地”不应作为禁用词) ，因此，不同的词义当作不同的项来看待会更合理。 ( 2 ) 、歧义切分问题歧义切分字段是指同一串汉字，按照不同的方法可以切分成不同的结果。具体地，又可以进一步分为交集歧义字段和多义组合歧义字段。统计结果表明，在汉语文本中，歧义现象的出现概率约为1 1 1 0 其中约有9 0 是交集型歧义字段，剩下的1 0 是多义组合歧义字段。所谓交集歧义字段，是指字段a j b ，它既可切分为a j b ，又可以切分为a j b ，其中j 称为交集字串。表4 2 列出几个交集歧义的例子。原始字串正向匹配逆向匹配歧义宇段交集字串需求和规格说明需求和规格需求和规格需求和求说明说明不安定因素不安定因素不安定因素不安定安一只白天鹅一只白天鹅一只白天鹅白天鹅天表4 2 交集歧义示例所谓多义组合歧义字段，是指字段a b ，其中不仅a b 成词，a ，b 还可以分别独立成词。例如：字串“她将来上海”中的“将来”即为多义组合歧义字段。而髯种机械匹配方法都将错误地切分为“她：i 冬来上海”。歧义切分相当复杂的，海师范大学碗l 学位论文中文文本数_ 姑分类日究最简单的歧义字段仅牵涉到两个词，复杂的将牵涉到多个词，例如字串“结合成分子时”就牵涉到多个双字词和单字词，既有交集歧义字段，又有多义组合歧义字段，给歧义处理造成了很大的困难。解决这些问题的常有办法主要是对文本进行概念语义标注，以便把同义的或棚似的项合并为相应的概念类。显然，通过概念标注并利用概念信息作为文本的项比单纯的词汇信息更能反映文本的内容。但是这样做的同时势必加大了文本处理的复杂程度。此外，还可以在文本预处理时进行词性标注，从词汇特征集中滤去那些对特征区别贡献极小的大部分虚词和功能词。 ( 3 ) 未登录词识别问题机械分词主要依据词典，因此建立一部好的分词词舆对文本自动分词是至关重要的，。但是词典中的词再多，它也不可能是完备的，因为自然语言是一个发展很快的开放系统，总会有新词不断产生。因此在对中文文本的切分过程中，很可能碰到词典中没有的词( 称未登录词) ，如人名、地名、机构名、事件名、某个领域的专业术语、新的惯用语、缩写语和口头习语等。很难建立包含所有词汇的完备词典。如何识别未登录词对于提高分词准确度有着非常重要的意义。目前，歧义切分问题和未登录识别问题仍然是影响分词准确率的主要因素，这也是学者们证在努力解决的问题。以下介绍n - g r a m 分词方法来解决识别未登陆词的问题 4 2n g r a m 分词针对基于词典分词的分类系统存在的弊端，人们提出了一种基于n - g r a m 信息的文本特征提取技术“州“1 ，使文本数据分类系统摆脱了对复杂分词处理程序和庞大的词库的依赖，实现了中文文本数据分类的领域无关性和时间无关性。 n - g r a m 信息的概念是信息论创始人c e s h a n n o n 在研究信源编码时提出来的“，常被用来表示信源输出的连续n 个字符所组成的字符串，s h a n n o n 曾用它来研究英文文本中字符或字符串的统计特性，即信息熵，随后，n - g r a m 信息被广泛应用于文本压缩、字符识别与纠错等领域，是一种直接面向代码的技术。采用n - g r a m 信息作为文本特征具有以下特点：无需任何词典支持；对输入文本所需的先验知识少；无需进行分词处理。但是，n g r a m 信息获取技术的领域无关性和时间无关性的实现是有代价的，n - g r a m 信息的提取对系统资源的要求比较高，冈为在进行n - g r a m 信息抽取时，会产生非常大的数据冗余，占用很大的内存卒 d 海| | l j 范人学硕l 学位论义中义义率数据分类研究州，相比基于词典分词获取文本特征的方法，其实现效率比较低，获取n - g r a m 信息将花费较长的时问，这降低了分类系统的性能，本论文采用的仍然是机械分训方法。海师范人学硕l 学位论文中文义奉数捌分类j i j f 究 5 文本特征项特征项的研究对于文本数据分类具有非常重要的意义，因为特征项是影响分类系统性能的最主要的因素。目前，对于特征项的研究主要集中在如下的问题：文本特征选择问题，面对庞大的原始文本特征集，如何在其中选择对类别最具代表性的特征项。本论文将对上述关于特征项的研究问题进行详细讨论。 5 1剔除禁用词在中文中的“的”，“把”，“了”等，常常把一些真正有分类作用的实词淹没掉。解决这个问题的方法是把这些词组织成一个禁用词表，把禁用词表中的词从特征集中滤掉。 5 2 项的权重给每个项赋上权重时，应使文本中越重要的项权重越大。第一种方法是由专家或者用户根据自己的经验与所掌握的领域知识人为的赋上权值。这种办法随意性很大，而且效率也很低，很难适用于大规模真实文本的处理。另一种办法是运用统计的方法，也就是用文本的统计信息( 如词频、词之问的同现频率等) 来计算项的权重。还有一种权重计算公式是t f i d f 公式“2 3 ： w = 娠f 瓠 ( 5 1 ) t f , 女( t e r mf r e q u e n c y ) 表示项f 女在文本d ，中的文本内频数，f 识( i n v e r s e d o c u m e n t f r e q u e n c y ) 表示项气的反比文本频数，它有多种计算方法，较为常用的公式为： f 碍= l o g ( 二二- + o 0 1 )( 5 2 ) ” 表示全部训i 练集的文本数，表示训练文本中出现f 。的文本频数。根据香农信息学理论，如果项在所有文本中出现的频率越高，那么它所包含的信息熵就越少：如果项的出现较为集中，只在少量文本中有较高的出现频率，那么它就会拥有较高的信息熵。上述公式就是基于这个思想的一种实现。权重的计算只能视具体情况而定，至今仍没有普遍使用的“最优公式”。另外。前面的讨论中项的权值一般为正，其实权值也可以取负值，用来描述某用户海帅越凡一学坝l 。学位沦业巾空_ 史小数删分类 j f 究厌弃某特征。7 f 一1 d t 、公式是“种经验公式，并没有t 翳实的理论基础。但是，多年盼实验表嘲，：述公。瓮蓬艾本蹙理中髂一拿有效工其。事实上，这一公式不仅在信息检索中锝到了一女功应用，它对于其他文本处理领域，如信息分发、信息过滤和交本数獭分类也彳l 很好的储鉴意义，本沦文实现的文衣数榴分类泡是以它作为文本表示模型鼬实现冉勺。 5 3 特征项选择算法运避舅动分词对文本遗亍处理后籍褥鞫藤始文本特链集，魏巢麓这一特征蘩采用向羹空洲模型来表d j 待学习文本，特征向量会达到数万维的大小。实际上，对于一般的学习赣法，这种特征集的维数太赢，无法送行学习。所隘。脊必要避步t 文本特征集进行精选，选取对文本类别最具代表性的文本特征。褥研究表明“，在经过特征厩缩后的特钲空间中进行文本数据分类不但不会降低分类系统的分类性能，蕊黯会有助子提高分类的糖度。统计学、模式t i 别垌l 机器学习中都有许多进行特征选择的方法，但是面对超菇维毂黢媲文本特娃象嘲变终巧；再适援，銎兹，在牙于文本特蘸递嚣选撵靖，豢采用特铽独立性假砹求饷化特征选择的过程，达到计算时间和计算质量之间的折中。+ 救瓣骰法跫采弼袋嵇评佶黼数对每个文木特薤独立迸孬贸分，然螽整蒋惩按分值商低排列，通过泼骨特征闽值的办法选择预定数f f 的最佳特征作为文本特征了集。目前，谯文本数 l l ；分类中得到应厢的特锺选择评估函数主要有如卜| 几种： 5 3 1文本撅数d f 文档频_ ! ：是指包含装特征的文本数嗣，它的汁算方法如f ：如果用，j ( 彤，d ，) 表承特征彬是不是在文小d 1 = f 1 出现，则它有= 元德 lw d ，( 彤，d 户 o 彬d 设为所有炎羽训练文本的总数，娜d f 的值为：掰( 缪) = ，孵“，) d f 标弹l ：是特瓤选镡标准；| 1 最麓荦的。个，跨搏橱对麓尊的分类、”5 ，似d f 忉、玳仪作为辅助标准使j h ，川 1 i 要标准。 ( 5 3 ) ( 5 。4 ；缱适瘟娩摸较大海师范大学硕士学位论文中文文本数姑分类w f 究 5 3 2互信息m i ( m u t u a ii n f o r m a t i o n ) 在统计学中，互信息用于表征两个变量的相关性，常被用来作为文本特征相关的统计模型及其相关应用的标准。文本特征矿与类别c ，的互信息m i ( w ，c ，) 定义如下： m i ( ，c j ) - 1 0 9 等等 ( 5 5 ) 其中，沪嵩黧慨e ， p ( w i c j ) 为w 在q 中出现的概率，为该类的训练文本数， n ( w ，d ，) 为词w 在d ，中的词频，l v l 为该类总词数，y s = 1 f 4 - 。蚓i - 1 - r x s ，d ，) 为浚类所有词的词频和。而p ( ) 表示特征出现的概率，同上面的计算公式相同，只是计算词在所有训l 练文本中的比重，其中，h 为训i 练集文本数， i v i 为训练集总词数，窆! ，i 。o l ( 形，d ，) 为训练集所有词的词频和。公式如下：一横鍪 c s - ，互信息的缺点是特征分值受临界特征的概率影响较大，从公式可以看出，当特征的p ( 矿i c ；) 值相等时，稀有词比普通词的分值要高：因此，频率相差太大的文本特征分值不具有可比性。从上面介绍的互信息方法的特征评价公式，可以看出，互信息方法的直观意义是：对于每个词，以它在每个类别中的出现占它在整个文本集中的出现的比率作为它对每个类别分类依据的贡献。从经验上来说，这当然是合理的。但这种方法是基于各个类别中的文本量大致相等的假设的，或者说，这种方法忽略了类别中文本量的多少对词条在每个类别中出现的比率的影响。设想一种极端情况，类别g 有1 0 0 个样本，而类别c ，只有1 个样本。这时，即使某个词w 与类别e 的海帅范人学硕i ：学位论文中文文本数士【：i 分娄j i

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）中文文本数据分类研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）中文文本数据分类研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档