




已阅读5页,还剩67页未读, 继续免费阅读
(系统工程专业论文)基于人工智能技术Naive+Bayes文本自动分类系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着信息时代的来临,特别是因特网对人们生活的全面介入,大量以文本格式存储 的信息出现在i n t e r n e t 、数字图书馆及公司的i n t r a n e t 上,如何从这些海量信息中快速、 准确而全面地获取所需要的信息成为信息处理领域的研究热点。基于人工智能技术的文 本自动分类成为研究解决这个问题的重要支撑技术之一。本文的目标就是在文本分类的 背景下,从理论、算法改进和实现三个层次来讨论文本自动分类技术。 本文首先全面分析了当前文本自动分类领域关键技术和算法,同时阐述了典型文本 自动分类系统的核心技术和系统结构,并对文本分类的应用范畴作了总结。 从统计学角度来看,传统的统计学文本分类算法尽管强大,但是它们总是基于很强 的假设条件才成立,而实际应用中这些假设条件大多数情况f 是不成立的,因此,它们 所得到的结果尽管精确但却难以与实际应用较好地联系起来,亦即高精度的结果却导致 丢失了很多文本固有的结构信息。本文深入研究了基于统计学的最为简单却强大的朴素 贝叶斯( n a i v eb a y e s ) 分类算法,从统计学角度研究了其应用前提一n a = i v e 3 a y e s 假设, 即所有文本特征向量元素服从独立同分布。实际上,文本上下文之间存在必然的语义关 联,也就是说文本特征向量元素之间不可能绝对服从独立同分布。因此,严格意义上讲, 这一假设在实际文本中并不成立。 针对朴素贝叶斯文本分类算法上述先天性不足,本文将模糊系统和神经网络引入文 本信息处理,通过摒除模糊系统和神经网络各自的缺点,结合各自的优点模糊系统 的基于知识先验规则性质( 同有监督分类结合紧密) 和神经网络较强的学习能力( 增强分 类算法的鲁棒性和泛化能力) 来修正朴素贝叶斯分类算法,实现了基于人工智能技 术的贝叶斯文本分类系统,并对其修正前后的分类性能作了比较分析。实验结果表明修 正算法不仅大大提高了朴素贝叶斯分类系统的分类准确度,而且还改善了训练集分类准 确率分布的平滑性,从而得到了更接近人脑知识分类处理的分类结果。 关键词:文本分类;朴素贝叶斯;模糊系统:神经网络;人工智能 三奎三些查兰三耋堡圭耋堡丝圣 a b s t r a c t t r e m e n d o u si n f o r m a n t i o na p p e a r si ni n t e r u e t ,d i g i t a ll i b r a r ya n di n t r a n e to f c o m p a n y a s t e x tf o r m a tw i t ht h ec o m i n go fi n f o r m a n t i o nt i m e s ,e s p e c i a l l yw i t ht h ei n f l u e n c et op e o p l e s l i f eo fi n t e r n e t h o wt oo b t a i nt h en e e d e di n f o r m a t i o nq u i c k l ya n d a c c u r a t e l yb e c o m e s a s t u d y h o t s p o ti nt h ef i e l do fi n f o r m a t i o np r o c e s s i n g t h et e c h n i q u eo f t e x tc l a s s i f i c a t i o nb a s e do n a r t i f i c i a li n t e l l i g e n c e ( a i ) s e e m sa so n eo f a p p r o a c h e st os o l v es u c hp r o b l e m s t h i st h e s i sa i m s t od i s c u s st h et e x tc l a s s i f i c a t i o nf r o mt h ep o i n to fv i e w - o fc l a s s i f i c a t i o nt h e o r y ,a l g o r i t h m s m o d i f i c a t i o na n dr e a l i z a t i o n a tf i r s t ,t h et r a d i t i o n a ls o l u t i o n st os o m ek e yt e c h n i c a lp r o b l e m si nt h ef i e l do ft e x t c a t e g o r i z a t i o na r es t u d i e d ,a l s oc o r et e c h n i q u e sa n ds y s t e ma r c h i t e c t u r eo f t h et y p i c a lt e x t c a t e g o r i z a t i o ns y s t e m sa r ed i s c u s s e d ,a n dt h e nt h ea p p l i c a t i o n s o ft e x tc a t e g o r i z a t i o na r e s u m m a r i z e di nt h i sp a p e r f r o mt h ep o i n to fv i e wo fs t a t i s t i c s ,t h et r a d i t i o n a ls t a t i s t i c a lt e x tc l a s s i f i c a t i o nm e t h o d s a r e p o w e r f u l ,b u tt h e y a r eo f t e nb a s e do n a s s u n a p t i o n st h a td on o th o l df o r t h er e a lw o r l dd a t a a n dt h er e s u l t sc a nb eh a r dt oi n t e r p r e t t h e yc o m e u pw i m a h i 曲p r e c i s i o n w h i c h m a y n o tb e n e c e s s a r y i n a n y c a s eb u tc a nc o s tal o t f u r t h e r m o r et h e r ei sn e e df o rf u n d a m e n t a l m a t h e m a t i c a lk n o w l e d g et ou s et h e s ea p p r o a c h e s ,a n dt h e nn a f v eb a y e sc l a s s i f i e rw h i c h i sa s i m p l eb u tp o w e r f u lt y p eo f c l a s s i f i e r sb a s e do ns t a t i s t i c si ss t u d i e dp r o f o u n d l y i nf a c t ,t h e r e a r ei n e v i t a b l es e m a n t i ca s s o c i a t i o ni nt h ec o n t e x t t h a ti st os a y , t h ei n d i v i d u a lw o r d si ne a c h d o c u m e n td o n th o l dt h ec o n d i t i o nt h a t t h e y a r e i n d e p e n d e n ta n di d e n t i c a l l y d i s t r i b u t e d t h e r e f o r e ,t h es t r o n gc o n d i t i o n a li n d e p e n d e n c ea n dd i s t r i b u t i o na s s u m p t i o nu n d e r l y i n gn a i v e b a y e sc l a s s i f i e rc a ns o m e t i m e sn o to n l yl e a dt op o o rc l a s s i f i c a t i o np e r f o r m a n c eb u td o n o t h o l df o rt h er e a lt e x tf e a t u r ev e c t o l a i m i n g a tt h es h o r t c o m i n g su n d e r l y i n gi nt h en a i v eb a y e sa l g o r i t h m ,f u z z ys y s t e ma n d n e u r a ln e t w o r ka r ei n t r o d u c e dt ot e x ti n f o r m a t i o np r o c e s s i n gt o i m p r o v en a i v eb a y e s c l a s s i f i c a t i o np e r f o r m a n c eb yg e r i n gr i do fi t sd i s a d v a n t a g e sa n dc o m b i n i n gi t sa d v a n t a g e s s e p a r a t e l y t h a tt h ep r i o rk n o w l e d g e ( r u l e - b a s e d ) c a n b eu s e di nf u s s ys y s t e mw h i c hi ss i m i l a r w i t hs u p e r v i s e dt e x tc a t e g o r i z a t i o na n dt h es t u d yc a p a b i l i t yo fn e u r a ln e t w o r kw h i c hc a l l b u i l d u p t h ea d a p t i o nt om o d i f i e de n v i r o n m e n ta r es t u d i e dp a r t i c u l a r l yt oa m e n dn a i v eb a y e s a l g o r i t h m a n dt h e n an a i v eb a y e sc l a s s i f i e rb a s e do na ii sr e a l i z e d 1 1 1 ee x p e r i m e n t a lr e s u l t s d e m o n s t r a t et h a tt h ea m e n d e da l g o r i t h mn o to n l yr a i s e sc l a s s i f i c a t i o na c c u r a c yg r e a t l y , b u t a m e l i o r a t e st h es m o o t h n e s so fa c c u r a c yd i s t r i b u t i o nf o re a c hc a t e g o r y s ot h a t g e t t h e c l a s s i t i c a t i o nr e s u l t ss i m i l a rw i t ha r t i f i c i a lm e t h o d s k e y w o r d s :t e x tc a t e g o r i z a t i o n ;n a i v eb a y e s ;f u z z ys y s t e m ;n e u r a ln e t w o r k ;a i i i 第一章绪论 第一章绪论 1 1 国内外相关研究概述 随着信息技术的发展,特别是i n t e m e t 应用的普及,人们已经从信息缺乏的时代过 渡到了信息极大丰富的时代,以文本格式存储的海量信息出现在i n t e r n e t 、数字图书馆 及公司的i n t r a n e t 上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重 要目标,而基于人工智能技术的文本自动分类系统能够在给定的分类模型下,根据文本 的内容自动对文本分门别类,从而将这些海量的、多种类型、不同语种、来源复杂的信 息资源及时收集、有效整合,更好地帮助人们组织及挖掘文本信息,因此得到目益广泛 的关注,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结 合,有效地提高了信息服务的质量,成为信息处理领域最重要的研究方向之一。 1 1 1 文本自动分类在国内外的发展 国外对文本自动分类的研究始于2 0 世纪5 0 年代末,h r l u h n 首先将词频统计思想 用于自动分类,在该领域进行了开创性研究。1 9 6 0 年,m a r o n 在j o u m a lo f a s m 上发表 了有关自动分类的第一篇论文o nr e l e v a n c e ,p r o b a b i l i s t i ci n d e x i n ga n di n f o r m a t i o n r e t r i e v a l ) ) ,其后许多学者在这一领域进行了卓有成效的研究。 从2 0 世纪6 0 年代直到2 0 世纪8 0 年代末,这期间最有效的文本分类系统一直是由 专家人工构建的基于知识工程技术的分类系统。其典型应用就是卡内基集团委托路透社 开发的c o n s t r u e 系统,它主要是由专业人员编写一些分类规则来指导分类,在r e u t e r s 的部分语料库上它的效果非常好,平均准确率和召回率大约都可以达到9 0 ,但是在其 他应用领域采用c o n s t r u e 系统将会消耗大量的人力和物力。这种自动分类器构造方法的 缺点是知识获取瓶颈的存在,它必须要为领域专家获取的知识和知识工程师的表示之间 架起桥梁,二者缺一不可,如果这种分类器被转到完全不同的领域,工作必须重新开始。 9 0 年代初期,基于机器学习( m a c h i n el e a r n i n g ) 的分类技术开始取代基于知识工程的方 法成为文本分类的主流技术。这种方法通过归纳文本集的特征自动创建一个分类器,这 些文档集合事先被领域专家人工地分类到类集c = ( c 1c :,c 。) 的各个类c ,中,分类器 可作为一个规则决定文档d ,是否属于类c ,。如果类集c 被更新,或者系统要应用到其他 不同的领域,只需要重新构造一个人工分类集合,通过机器学习,自动的构造一个分类 器。显然这种分类方法不再需要知识工程师和领域专家的介入,节约了大量的专家人力 资源,同时加快了分类系统的建立速度。 近年来,研究者们结合机器学习方法和人工智能技术进行了大胆的探讨,提出了多 种分类模型和分类算法,如基于向量空间模型的r o c c h i o 分类器【3 2 】及其一系列的改进算 法,k 近邻算法( k n n ) 2 m 4 j ,最大熵( m a x i m u me n 仃o p y ) 1 3 ”,朴素贝叶斯( n a y v e b a y e s ) 【1 3 - 2 0 1 ,神经网络( n e u r a ln e t w o r k ) 1 2 8 。3 0 3 4 ,35 1 ,支持向量机f s u p p o r tv e c t o r m a c h i n e ) 2 5 - 2 7 1 等等。这些方法在英文以及欧洲语种文本自动分类上有广泛的研究,均取 得了不错的效果。国外很多研究人员对英文文本分类领域的各个问题都有相当深入的研 究,对几种流行的方法进行了大量的对比研究。很多研究表明,k n n 和s v m 是英文文 本分类中最好的方法。还有一些研究人员研究表明结合不同的分类器能够提高分类精 度。 目前,国外的自动分类系统已经从最初的可行性研究经历了实践研究进入了实用化 阶段。并在邮件分类,电子会议,信息过滤等方面取得了较为广泛的应用。 1 9 9 4 年,a & t 实验室的d a v i dd l e w i s 等人对基于非确定性的自动分类技术作了研 究。两年后,该实验室将自动分类技术应用于了电子邮件领域。1 9 9 7 年,德国d o r t m u n d 大学计算机系的t o r t e nj o a c h i m s 等人研究了基于向量空间模型的自动分类系统。同年, 美国s t a n f o r d 大学计算机系的d a p h n ek o l l e r 等人提出了基于很少语料词汇的层次自动 分类方法。1 9 9 8 年,美国c a m e g i em e l l o n 大学计算机系的y i m i n gy a n g 等人将决策树等 聚类算法应用于在线自动分类。1 9 9 9 年,美国j u s tr e s e a r c h 公司的a n d r e wm c c a l l u m 等人运用信息熵理论、b a y e s 理论等实现了多类号的自动分类。随后,美国m a s s a c h u s e t t s 大学计算机系专门针对文本库开发了自动分类系统,美国i b m 和o r a c l e 公司为推广电 子商务而研制了基于文本内容的电子邮件自动分类系统,m i c r o s o f t 公司也为其浏览器开 发了基于内容属性分类的插件。 国内研究起步较晚,1 9 8 1 年候汉清先生首先对自动分类在文献中的应用作了探讨, 从计算机管理分类、计算机分类检索、计算机自动分类、机编分类等四个方面介绍了国 外的发展概况。之后,中国科学院、清华大学、复旦大学、南京大学、山西大学、东北 大学以及新加坡、香港和台湾的一些大学的著名学者在该领域做出了一些研究成果,研 制出一批基于词典法和基于专家系统的自动分类系统。由于中文与英文存在较大的差 异,不能照搬国外的研究成果,中文文本分类的研究基本上在英文文本分类的研究策略 上,结合中文文本的特点,继而形成了中文文本自动分类研究体系。 1 1 2 中文文本分类的发展与现状 继候汉清先生介绍了国外将自动分类技术应用到图书管理中之后,1 9 8 4 年,广州中 山图书馆的莫少强设计完成了计算机辅助图书分类系统,该系统需要在人工主题分析后 再由系统完成查表、自动归类及附表的调用。1 9 8 6 年,上海交通大学计算中心的朱兰娟 第一章绪论 在导师王永成的指导下开发了一个中文科技文献( 计算机类) 的实验性自动分类系统, 该系统用文献标题建立类主题词表,将全部类主题词组成一部有限自动机,用其扫描文 献标题,检索类主题词累计其类归属度,最后根据b a y e s 最小损失原则确定分类。1 9 9 5 年,上海交大与空军政治学院以及上海第二医院的有关专家教授一起,合作开发了一个 有关肿瘤学专业文献的自动分类系统,自动抽取文献标题关键词组成部件词典,再利用 专家编制的自动分类关键词分类归属表,自动赋予主题词对应的分类归属号,选择 权值最大的类主题词所对应的分类号作为首选分类号,然后在首选分类号之后加上仿 分、复分号,从而形成最终分类号。1 9 9 4 年,东北大学图书馆的李欣设计了由关系知识 库和同义词典组成知识库,采用正向推理的基于专家系统的科技图书分类系统。1 9 9 5 年,叶新明通过对现有中文自动分词算法的分析,提出了适于中文文献的自动分词算法, 该算法通过建立机读词表,以中图法作为分类标准,对中文文献实现了自动分类, 在财政金融类文献上的测试准确率达到7 9 。南京大学队档案文献自动分类进行了研究, 从简洁、实用、易于实现的角度出发,提出了多因素加权分类法,采用了聚类加权、判 别归类以及责任者认证定类等多种手段,在实际的档案计算机管理系统中获得了令人满 意的效果。1 9 9 7 年,山西大学的刘开瑛教授和郑家恒教授研究探讨了金融档案的自动分 类,提出了一种三维加权算法,该算法基于金融档案分类表分类体系,考虑了类别 词的出现频度、出现位置及其三种综合因素进行文本类别的判定,并辅之以规则库中的 经验知识加以控制和调整,最后给出文本的合适类别号。 1 2 文本分类概述 在过去十几年中,由于以电子形式出现的文档不断增加,以及由此产生的希望通过 多种和灵活方式访问它们的需求,使得那些基于内容的文本管理任务在信息系统领域取 得越来越突出的地位。文本分类( 或称主题定位,t e x tc a t e g o r i z a t i o n ) 就是种文本管 理的任务,它把一段自然语言文本标记为一个预先定义好的语义类别。文本分类是机器 学习和信息检索之间的交叉学科,并且与文本信息提取和文本挖掘这些领域相通,文本 挖掘的概念越来越广泛地应用在分析大数据量的文本,发现其中有用的模式,提取其中 有用的信息上面。文本分类可以算作文本挖掘的一个应用实例。 1 2 1 文本分类的定义 文本分类是指根据文档的内容或属性将大量的文档归到一个或多个类别中的过程。 在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应文本 分类中的自动归类( s u p e r v i s e dc a t e g o r i z a t i o n ,有监督文本分类) ,后者对应文本分类 中的自动聚类( u n s u p e r v i s e dc a t e g o r i z a t i o n ,无监督文本分类) 。 自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征( 或一 定的分类标准、分类参数) 进行比较,然后将对象归为特征最接近的一类( 或最符合标 准参数的一一类) ,并赋予相应的分类号。自动聚类是从待分类对象中提出特征,然后将 提出的全部特征进行比较,再根据一定的原则或需要( 如类别数目的规定,或同类对象 的相似或接近程度) ,将具有相同或相近特征的对象定义为一类,并设法使各类中包含 的对象大致相等。 自动聚类和自动归类的主要区别是自动聚类不需要事先定义好分类体系,而自动归 类则需要确定好类别体系( 例如图卜1 所示的类别体系) ,并且要为每个类别提供一批 预先分好的对象作为训练文集,分类系统先通过训练集学习分类知识,在实际分类时, 再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的文本 分类是指文本的自动归类。 图卜1 文本分类体系示例 f i g 1 1t h ee x a m p l e f o rs t r u c t u r eo f t e x tc a t e g o r y 1 2 2 文本分类方法 文本分类的方法分为人工方法和自动方法。人工方法费时费力,并且难以保证一致 性和准确性,其准确率一般在4 0 左右,并且不能排除人工凭空想象的因素。自动方法 也就是自学习分类方法,即用计算机系统代替人工对文献等对象进行分类,根据分类知 识的获取方法不同,可以将文本自动分类系统分为两种类型:基于知识工程的分类系统 4 第一章绪论 和基于机器学习的分类系统。 基于知识工程的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从 专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结 论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则, 因此其开发费用是相当昂贵的。 基于数据的机器学习方法,是从观测样本出发寻找规律( 即利用一些做好标识的训 练数据自动地构造分类器) ,利用这些先验规律对未来样本进行预测。现有机器学习的 重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论, 现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中 所表现出来的良好性能,而为大部分文本自动分类系统所采用。基于统计的自动分类系 统,它忽略文本的语言学结构,将文本作为特征项集合来看,利用加权特征项构成向量 进行文本表示,利用词频信息对文本特征进行加权。它实现起来比较简单,并且分类准 确度也高,能够满足一般应用的要求。 1 2 3 文本分类的应用 文本分类技术的应用极为广泛,本文仅就其较为重要的几个方面做一简单介绍。如 基于主控词典的文档检索、邮件或文档过滤、词性标注、词的二义性消除以及w e b 网 页的层次分类,文献自动标引等。 1 垃圾邮件过滤( s p a mo r n o ts p a m ) 在邮件分类过程中,分类类别为 s p a r e ,n o ts p a m l ,属于典型的二分类问题,即对 一封新邮件,系统自动判定其是否为垃圾邮件,然后针对是否为垃圾邮件而分别作相列 应的处理。例如麻省理工学院( m i t ) 为白宫开发的邮件分类系统就承担了白宫几乎所 有的信件分拣与处理工作。 2 按照栏目进行层次分类 分类技术在新闻出版、网站建设和数字化图书馆领域的应用最为广泛,根据不同的 栏目或目录体系,而将新文档归到对应的类别中。例如,分类类别可以为f 政治,经济, 军事,体育,财经,显然,这属于多分类问题。如数字化图书馆对于i n t e m e t 网上的 各领域新成果相关文档进行搜集整理,然后分门别类存档:y a h o o 网站栏目建设的多层 次栏目分类体系等都是多类问题的很好应用。 3 词性标注 在文本信息处理领域所涉及到的词性标注也同样运用了分类技术中多分类问题,其 分类类别为 动词,形容词,名词,介词,) 所有词性的集合,然后系统判别文本中的 某个词的词性,并作标记。 4 词义排歧 人类语言艺术可谓是色彩斑斓,其中多义词扮演了不可或缺的角色。但是多义词给 人们带来语义多变表达灵活方便的同时,也在准确理解文本信息方面给人们带来的一定 的困难,很容易误解曲解文本中一些多义词出现的重要语句,造成信息把握的“失真”。 针对此,语义分类系统可以根据上下文情景准确的给出多义词在本篇文章中的含义,排 除掉其它几种语义,从而帮助人们更好地把握文章确切内容。分类类别为 词义1 ,词义 2 ,词义3 , ,即多义词所有可能的词义集合,也属于多分类问题。 5 信息检索系统( i r s ) 中的应用 在海量文本检索系统中,如果能有效地对文本进行分类,则可以大大提高系统的整 体性能和检索效果。检索结果的文档列表通常较庞大,给用户逐个浏览寻找相关的结果 带来了极大的不便,而若在用户接口和检索器之间接入文本分类器,有它对检索结果自 动的进行联机分类,便可以方便用户快速找到与查询请求相关的文档,起到快速便捷的 效果。如北大天网搜索引擎就很好利用了自动分类技术。 6 文献自动标引 标引是指用一个或若干个词来表示文献内容特征的过程。早在1 9 5 6 年,美国的 h r l u h n 就开始了文献自动标引的实验;6 0 年代初,美国的gs a l t o n 教授在自动标引 方面取得了令世界瞩目的成就;从1 9 8 0 年以后我国在中文自动分词方面取得初步进展, 中文文献自动标引方面的研究不断深入。用于标引的关键词和词组属于一个专业词典, 如果把该词典的条目看成不同的类别,标引的过程就是一个文本分类的过程,这种文献 自动标引功能在数字化图书馆中非常重要。l 4 l 1 3 文本分类的研究背景和意义 文本分类最初是应信息检索( i n f o r m a t i o n r e t r i e v a l ,简称i r ) 系统的要求而出现的。 它提供了文本良好的组织和结构,大大简化了在庞大文本信息库中存取文本的操作,为 信息检索提供了更高效的搜索策略和更准确的查询结果。 文本自动分类研究是文本挖掘领域的一个重要分支,是数据挖掘领域中对复杂类型 数据的挖掘技术。因而,文本挖掘成为数据挖掘与信息检索两门学科交叉边缘学科,近 年来已经成为- - i 相对独立的研究学科,取得了长足的发展。但是,文本挖掘又与传统 的数据挖掘有很大的区别。传统的数据挖掘所处理的数据是结构化的,其特征数目通常 不超过几百个,而文本挖掘所处理的文本数据根本无结构可言,特征数目也相当庞大, 传统数据挖掘与信息检索的技术根本不可能处理这种超大规模的数据,必须研究新情况 下的文本自动分类技术。 随着i n t e m e t 援米翡发震帮w e b 应溺的普及,文本分类对予信怠处理簸意义变褥更 加重要。互联网上的在线文本信息急剧增加,手工分类和处理这些信息不仅耗费大量的 人力物力,在速度和精度方丽也己经远远不能满足用户的要求。文本自动分类及其相关 技术麴应焉可以嫠蘩蔫户有效浚集霸逸撵其所感兴趣熬文奉信惠,笼萁是蘩韵用户在嚣 益增多的海赞信息中发现新的概念并自动分析它们之间的关系,真正做到信息处理的自 动化。另外,文本自动分类在防火墙投术中也有广泛的应用,将快速精细的分类技术与 魏过滤技零有瓤遣结合,熬有效懿跨壹不继康信惑戆 受久,嚣时瞧壤少i n t e r n e t 露上有 害信息的流动。 现在文本分类是几乎所有基于内容的文本管理学科的基石,怒处理和组织大规模文 本痿惑鳆关键技术,在文本瓷秘懿分类和管理中卡分漾要,并广泛瘦弱予文本处蘧霹信 息检索的各个领域,可以诞研究文本分类有着广泛的商业前景和应用价值。 1 4 论文的组织结构 本文主豢磅究了模壤秘经网络奁n a i v eb a y e s 羹动分类系统中瓣瑟起到懿葵法糖促 作用。全文内容共包含六个部分,具体安排如下: 第一章介绍了文本分类国内外研究发展概况,介绍了文本分类的概念和应用前景, 壤播积总结罗葵磷究鸷景秘意义。 第二章豳顾了文本分类领域几个关键问题的常用锯决方法和关键技术。 第三章将模糊神经网络技术引入自勘分类领域,并介绍这方面的研究现状,阐述了 模糊学和神经网络在分类颁域中的关键技术。 第西章谨镪箍述了基予入工智能技术的n a i v e b a y e s 文本自动分类系统静设计。 第五章实现了所设计的文本自动分类系统,对系统的实验数据和结论作了深入分 析。 最螽慧缭全文内容,莠疆望未来文本分类颁蠛瓣礤究方向。 1 5 本章小结 在系统分缨文本分类研究之前,本辈对文本分类的国内外稿关研究历史与现状进行 了篱单夯绍,港重叙述了中文文本分类鹃发震蕴状;给出了文本爨动分类韵方法1 葶弱学科 范畴,并据此描述了文本挖掘领域关于文本自动分类的定义和方法:针对当前文本分类 的应用领域对文本自动分类在邮件过滤、层次分类、词性标注、词义排歧、信恩检索系 统帮文献叠韵标弓l 中的疲翔作了筵擎接述;深入探讨了文本耋动分炎在售息楚蘧技术中 研究背景和意义;最后总结了课题主要研究内容和组织结构。 7 第二章文本分类关键技术 文本分类所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等在本 章作了一定的研究和综述。训练方法和分类算法是分类系统的核心部分,目前存在多种 训练算法和分类算法,例如r o c c h h i o 方法、支持向量机算法、神经网络方法、最大平 均熵方法、k 最近邻方法和贝叶斯方法等,本章都对其进行了简单阐述,着重介绍其原 理和优缺点。 2 1 文本分类过程 对于一般的模式识别系统,主要由四个部分组成:数据获取,预处理,特征提取和 分类决策日4 1 。而对于文本分类这样特定的模式识别系统,初始的数据是所给定的电子文 档,数据获取的过程可以省略掉。预处理的目的是去除噪声,加强有用的信息,并且为 后面的特征提取做准备。为了有效实现分类识别,就要对原始数据进行变换,得到最能 反映分类本质的特征,这就是特征提取的过程。一般把特征提取后得到的分类识别赖以 进行的空间叫做特征空间,在文本分类中,特征空间大多是采用文档中的关键诃来表示。 分类决策就是在特征空间中用统计的方法把被识别的对象归为某一类别,基本做法就是 在样本训练集基础上确定某个判决规则,使按这种判决规则对被识别对象进行分类所造 成的错误识别率最小或引起的损失最小。这样的文本分类过程如图2 1 所示。 测 图2 1 文本分类过程 f i 9 2 1t h ep r o c e s so f t e x tc a t e g o r i z a t i o n 2 1 1 文本信息的预处理 在对文档进行特征提取之前,需要首先进行文本信息的预处理,对英文而言需进行 提取词于( s t e m m i n g ) 处理,中文的情况则不同,因为中文词与词之间没有固有的蒯隔符 ( 空格) ,需要进行分词处理。文本信息的预处理主要包含分词处理( 提取词下) 、剔除 符号标记、去除停用词和词频统计。 1 中文分词处理 中文同西方字母语言的重要区别在于中文是基于词,而西方语言是基于字( w o r d ) , 因此中文的分析和切词是否准确成为判断文本特征提取的重要标准。在中文信息处理领 域,对中文自动分词研究得已经比较多,提出了一些分词方法,如最大匹配法、逐词遍 历匹配法、最小匹配法等。 中文分词算法采用最长匹配算法,即从文本的第一个字读起,若字典中不能匹配由 这个字再加下一个字构成的新词,则输出该字;否则,在这个新词的基础上再加下一个 字,看字典中是否有与之匹配的词条,直到字典中没有与之匹配的词条时候,即得到所 要正确切分的词条,依次循环往复直到文本结束。 2 剔除符号、标记( t a g s ) 等 对于中文分类系统而言,一些符号对于正确分类没有贡献,这些符号包括格式符( 如 h t m l 格式符等) 、数学符号、英文字符( 如英文摘要) 等。系统采用建立符号字典的方 法通过程序流程来过滤这些字符。建立起符号字典后,通过程序流程控制将中文文本中 所有包含上述符号的词语过滤掉,从而起到了增强文本特征词语的中文纯度作用。 3 停用词( s t o p - w o r d s ) 去除 对于分类系统而言,停用词( s t o p w o r d s ) 也就是通常人们所说的无实意词语( 虚词, 如“的”、“了”等) 和中性词( 如“我”、“你”、“我们”等) ,对于区分文本类别没有 很大的贡献,在提取文本特征时将其过滤后,才能保证所提取出来的词语最能代表该篇 文本的特征,也就能保证该篇文本的类别区分能力最强。 但是,目前在国内关于中文文本停用词表的建立还没有统一的标准,一些研究也仅 仅足根据分类的对象不同而有针对性的建立停用词表,标准的可以推广应用的停用词表 还有待于进一步的研究。 4 词频统计 每一个经过上述处理后的词语基本上为最能代表该篇文本特征的属性,分类器就要 根据这些属性进行学习。词频统计是最能体现文本所属类别的部分,特征词在该类文本 出现的次数越多,则越能代表该类的特征,即其类别权重值越大,反之,权重值越小。 2 1 2 向量空间模型 从文本所蕴涵信息的角度来看,一个文本可以由特征项的频率及其相互之间的顺序 呈垂三些奎兰三耋堡圭兰篁丝兰 来完整表达。要表示文本特征项之间的顺序信息,就必然要使用有向的指针结构,整个 文本就变成了个复杂的图,i p , i i 树或者网;与之相反的是表示文本中特征项的频率信 息,仅仅使用一个向量就足够了。信息检索和文本聚类分类处理要求定义种距离函 数,以表示文本之间的相似程度。如果使用复杂的图结构表示文本的话,则很难定义 种合理的距离函数,因为存在这样的问题:怎样的两棵树才能说很相似? 又是什么样的 两个网才能说是距离比较小呢? 而使用向量来表示文本,则不会遇到这种困难,数学中 有很多种定义距离的方式可以使用,比如欧式距离、相关系数等。正因为存在以上的困 难,所以不得不舍弃不好利用的顺序信息,只使用特征项的频率向量来表示文本。 g s a l t o n 提出的向量空间模型v s m ( v e c t o rs p a c e m o d e l ) 【删即使用向量来表示文本, 它的核心概念可以描述如下: ( 1 ) 项:文本的内容被看作主要由一些特征项来表达,这些特征项可以是字、词、旬等 语言单位。根据实验结果,普遍认为选取词作为特征项要优于字和词组【。即文本 可以表示为d o c u m e n t = d ( t l ,t 2 ,f 。) ,其中,f 。表示各个特征项。换句话说,由这些 项构成了一个向量空间,每个项表示一个维度。 ( 2 ) 项的频率:在一个文本中,每个特征项都被赋予一个权重矿,以表示这个特征项在 该文本中的重要程度。权重都是以特征项的频率为基础进行计算,采用的比较普遍 的是t f i d f 公式: 矽( 厅) :丝;:些! :! ! ! ! 些! 竺兰! ;! ! ! 寻 ( 2 1 ) 埘【矿( 口) l o g ( n 一十0 0 1 ) r 其中, w ( t ,孑) 一为词t 在文本孑中的权重 t f q ,厅1 一词 在文本孑中的词频 一为训练文本的总数 强一为训练文本集中出现f 的文本数,分母为归一化因子。 ( 3 ) 向量空间模型( v s m ) :在舍弃了各个特征项之间的顺序信息之后,一个文本就表 示成一个向量,也就是特征项空间中的一个点;而一个文本集就表示成一个矩阵, 也就是特征项空问中的一些点的集合。 ( 4 ) 相似性度量( s i m i l a r i t y ) :相似度函数s i m i l a r ( d i ,d 2 ) 表示两个文本之间的相似程度, 在向量空间模型下,可以用相应向量的内积或夹角余弦来表示。 1 0 篓三薹塞童坌童叁璧苎奎 2 1 3 空间降维 基于统计的文本分类的一个关键问题就是特征空间高维度问题,也就是说每一篇文 本的特征向量都是高维的,通常都有几千到上万维。而标准的分类技术是无法处理这样 高维特征集的,因为要花费大量的时间来进行运算而且计算结果往往超出现代计算机内 存而导致结果的不确定性。因此,需要对原始的特征集进行压缩,也就是通常模式识别 领域所讲的降维问题。大多数的降维问题可以归为以下两个类别中的其中任一个:特征 选择或特征重构。 1 特征选择( f e a t u r es e l e c t i o n ) 特征选择是指在文本预处理的基础上,为了提高文本内容的类别区分能力和减少计 算复杂度而删掉文本中不能贡献或贡献很少类别信息的词条。 选取特征项有以下几个原则,一是应当选取那些包含语义信息较多,对文本的表示 能力较强的语言单位作为特征项;二是文本在这些特征项上的分布应当有比较明显的统 计规律性;三是这种选取过程本身应当比较容易实现,其时间和空间开销都不应当太大。 与字相比较而言,词汇能够比较完整地表达语义信息。然而,并不是所有词都适合 作为特征项, z i p f , 1 9 4 9 表明,高频词和低频词对文本的表示作用均小于中频词。因为 高频词在所有文章中都有相近的较高频率;低频词在文本中出现次数少,不适合采用统 计方法来处理;而中等频度的词和文本表达的主题比较相关,表示能力最强。 常用的特征选择方法有文本频率法( d f ) 、信息增益( i n f o r m a t i o ng a i n ) 、互信息 ( m u t u a li n f o r m a t i o n ) 、开方拟合检验( c h i ,x 2 - t e s t ) 、术语强度( t s ,t e r ms t r e n g t h ) 。 根据不同的特征选择算法,同一篇文本会得到不同的特征表示,选择最优的特征选择算 法尤为重要。向量空间模型表达效果的优劣直接依赖于特征项的选取,以及权重的计算。 根据目前研究的成果,上述几种特征选择算法的优劣如下:c h i ,i g d f t s m i 【3 6 l 2 特征重构( r e p a r a m e t e r i s a t i o n ) 特征重构是指对文本初始特征进行合成或转换,以构造更能体现类别信息的新特 征。最常用的方法是l s i ( l a t e m s e m a n t i c i n d e x i n g ) 隅,6 3 】。 2 1 4 特征匹配和分类 文本转化为向量形式并经特征提取后,便可以进行文本分类了,也称特征匹配。机 器学习领域常用的分类算法有:r o c c h i o 方法、简单向量距离分类法、贝叶斯方法、k 最近邻法、决策树法、支持向量机等分类法。这些方法在3 2 节中详细讲述。 2 2 文本分类算法 2 2 1r o c c h h i o 方法 r o c c h h i o 方法的思路是按照正例和反例为组的形式处理每一个特征词。假设对每 一篇文档进行特征提取后保留了m 个单词,首先求出每个单词在此文档出现的个数, 以向量j = ( x ,z :,m ) 表示。定义向量矿含有m 个分量,初值缈。置0 ,表示特征集 的权值。如果训练集含有疗个文档,正例训练集含有n 个文档,那么对于矿中的每一个 分量带入下式: 彬:口t 畔+ t 墨益一,* 受益( 2 - 2 )彬= 口4 彬o + 。兰二二l 一,4 兰竖篁) n c甩一n c 其中,彬表示每个单词的权重,嘭。表示上一次计算所得到的第i 个分量。x 。表示 第i 个单词在第- ,个文档中出现的个数,j c 表示文档是正例。甜控制了上一1 饮计算所 得到的矿对本次计算所产生的影响,和y 分别控制了正例训练集和反例训练集对结果 的影响。 由此,得出特征项集的权值。由下式计算原始文档的特征向量与目标向量的相似 度: ,( x ) = 彬+ x , ( 2 3 ) i = l 定义一个阈值,凡是f ( x ) 大于阈值的判为正例,反之则判为反例。 2 2 2 简单向量距离分类法 该方法的思路十分简单,根据算术平均为每类文本集生成一个代表该类的中心向量 的距离( 相似度) ,最后判定文本属于文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年杭州市上城区望江街道社区卫生服务中心招聘编外1人模拟试卷及一套参考答案详解
- 2025劳动合同范本简约版
- 2025年宜昌市消防救援支队政府专职消防员招聘48人考前自测高频考点模拟试题参考答案详解
- 2025内蒙古能源集团有限公司法律合规与企业管理部副经理岗位招聘1人考前自测高频考点模拟试题及参考答案详解一套
- 2025年湖南益阳市交通投资运营集团有限公司招聘(第一批)模拟试卷及答案详解1套
- 2025贵州黔西南州望谟县消防救援大队招聘政府专职消防文员1人模拟试卷及答案详解(必刷)
- 2025昆明市嵩明县人民医院招聘编外太平间专职管理人员(1人)考前自测高频考点模拟试题及答案详解(名师系列)
- 2025北京大兴国际机场临空经济区(廊坊)幼儿园招聘合同制教师3名模拟试卷附答案详解(突破训练)
- 2025呼伦贝尔牙克石市第三批招聘16名城镇公益性岗位劳动保障协理员考前自测高频考点模拟试题及1套参考答案详解
- 安全教育培训公示课件
- 2025国际留学合作协议书范本(合同文本)
- 2025建设银行秋招笔试真题及答案
- 班主任考试题库及答案
- 纺织面料设计师岗位操作技能考核试卷及答案
- 【数学】角的平分线 课件++2025-2026学年人教版(2024)八年级数学上册
- 大模型概念、技术与应用实践 课件 第6章 智能体
- T∕CAME 27-2021 医院物流传输系统设计与施工规范
- 杜预《春秋左传集解序》翻译
- 毕业论文——Bezier和B-样条曲线的算法研究
- 《20211国标给排水专业图集资料》04S531-3 湿陷性黄土地区给水排水检漏井
- 余热锅炉系统联动试车方案.doc
评论
0/150
提交评论