(计算机应用技术专业论文)基于模糊认知图的分步文本层次分类研究.pdf_第1页
(计算机应用技术专业论文)基于模糊认知图的分步文本层次分类研究.pdf_第2页
(计算机应用技术专业论文)基于模糊认知图的分步文本层次分类研究.pdf_第3页
(计算机应用技术专业论文)基于模糊认知图的分步文本层次分类研究.pdf_第4页
(计算机应用技术专业论文)基于模糊认知图的分步文本层次分类研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)基于模糊认知图的分步文本层次分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智 能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究 中很有应用价值的一个新方向,对各个行业领域的决策具有极大的指导作用。 文本分类是数据挖掘领域中重要分支之一,其任务是对未知类别的文本进行 自动处理,判断它们所属的预定义类别集合中的类别。随着网络的飞速发展和各 种电子文本数量的迅速增长,有效的信息检索和过滤等变得越来越困难和重要。 文本分类便是一个有效的解决办法,它已成为一项很有实用价值的技术。 目前,已经有很多机器学习算法在文本分类领域中得到应用,并取得了一定 的成果,比较普遍典型的是类中心向量法。但是这些算法大部分都是基于统计计 算的,缺乏反馈体系机制,忽略了文本整体的有机性和文本之间的联系性。同时, 这些算法几乎都是在单层次上做一次终结式分类,没有考虑到文本类别的逐层分 类。 为此,本文在对模糊认知图的概念、特性以及它的知识表示和推理机制进行 初步研究的基础上,根据模糊认知图中各节点相互关联和文本整体有机性结合起 来,通过充分考虑特征项之间、特征项与类别之间、类别与类别之间的因果关系 和相互影响,提出一种基于模糊认知图的文本分类推理算法,采用迭代推理体现 反馈机制,它特别适用于训练和测试文本数量不多的情况以及交叉学科、新兴学 科。 同时,在常规中文文本的单层次分类基础上,本文提出了基于大类小类( 父 类子类) 的文本类层次树的概念。而在每一层上,采用类中心向量法和基于模糊 认知图分类推理算法组合的分步补充的分类方法,从而构造出分步文本层次分类 模型和算法( 即s h t c ) ,并对此进行了实验验证。结果表明,该方法可以有效 提高文本分类的精度和效能。 关键词:文本分类,特征项,模糊认知图,分步文本层次分类 a b s t r a c t a b s t r a c t d a t am i n i n gi sc u r r e n tp o p u l a r 仃i m di i lw o r l dc o m p u t e rs c i e n c ef i e l d ,w h i c h 锄e 玛e sd a ta _ b a s e ,a r t i f i c i a li n t e l l i g c e ,m a c h i n e1 e a n l i n g ,s t a t i s t i c ,i i l t e l l i g e l l tc o m - p u t a t i o na n dc o 盟i t i v es c i e n c ea 1 1 ds oo n i ti san o v e i6 e l dw h i c hc a l lb e 印p l i e di n m 狮yo t h e r6 e l d si nd a t a b a s es t u d y a n dv e r ) ,h e l p 如lo fm a l ( i n gd e c i s i o ni ne c o n o m i c 慨h n o l o g y t c x tc l a s s i f i c a t i o ni sa i li m p o r t a n tb r 锄c hi nd a t am i n i n g 矗l e d ,w h i c hi sr e s p o n s i b l ef o ra u t o m a t i c a l l yd e a l i n gw i t h l o s ec l a s s u i i k n o w nt e x t sa 1 1 dj u d 百n gw h i c h p r e d e f i n e dc l a s ss e t st h e yr c s i d ei n w i t hm o r ea n dm o r ct e x t sp u ti n t oe l e c t r o n i c a l f i o m ,。i ti sb e c o m i n gm o r e 觚dm o r ed i m c u l ta 1 1 di m p o r t 锄tf o re 虢c t i v ei n f o 肌a t i o n r e t r i e v a la n df i l t 鲥n g t c x tc l a s s i f i c a t i o ni sj u s tt h ee 衔c i e n ts o l u t i o n 锄db e c o m i n ga v a l 眦山l ep m c t i c a lt e c h n 0 1 0 9 y a tp r e s e n t ,m e r ea r eal a r g en u m b e ro fm a c h i n el e 锄i n ga l g o f i t i l i n sh a sb e e na p p l i e di nt e x tc l a s s 洒c a t i o n 磊e l d ,a n da c h i e v i n gs u c c e s s c l a s sc 黝t i a 1v e c t o rm e t h o di s p o p u l a ra i l dt y p i c a lm e t h o d b u tm a j o r i t yo ft h e ma r eb a s e do ns t a t i s t i cc o m p u t a t i o n , l a c kf - e e d b a c ks y s t e mm e c h a j l i s m ,锄di 印o r em a tm ew h o l et e x ti s 蚰。唱a 1 1 i ce n t i t y m e a f l w h i l e ,a l m o s ta l lo fm e s ea l g o r i t h m sa r eb u i l to ns i n 西et l i e r a r c h i c a lp l a t f o m , w i t h o u tc o n s i d 嘶n gt h eh i e 咖c h i e so ft e x tc a t e g o t h u s ,m i sp 印e rf i r s ts t u d i e sm ec o n c e p t s ,f e a t u r e s ,k n o w l e d g er e p r e s e n t a t i o n 锄dr e a s o n i n gm e c h a n i s mo ff l l z z yc o 鲥t i v em a p s a n dt 1 1 e i la c c o r d i n gt ot h ef e a t u r eo fi m l e rr e l a t i o n s k p sa i l dt h em u t u a le 腩c t s 锄o n gn o d e s ,嬲w e l la sm ew h 0 1 e o 唱a i l i ce n t i t y ,a i l d 血l l yc o n s i d 嘶n gt h ec a s u a lr e l a t i o n s h i pa n dm u t u a le 行e c t 锄o n g t e m l sa n dc a t e g o r i e s ,p r o p o s e sat e x tc l a s s m c a t i o nm e m o db a s e do nr e a s o n i n gi no 卜 d e rt oc l a s s i 匆t h o s et e x t s ,w h i c hu s e si t e r a t e dr c a s o n i n gm e c h a n i s m ,e s p e c i a l l yf o r t h e c r o s s s u b j e c t sa i l dn e ws u b j e c t sw h i c hl a c k so fl a u r g ee 1 1 0 u g ht e x t sf o r n i n ga i l d t e s t i n g m e a n w h i l e ,b a s e do nr e g u l a rs i n 哲eh i e r a i c h i c a lc l a s s if i c a t i o np a t t e n lo fc h i n e s e t e x t s ,t h i sp 印e rp r o p o s e st h ec o n c 印to ft e x tc a t e 9 0 拶h i e r a r c h i c a l 仃e e ,w h i c hi sb a s e d o nt l l es c a l eo fc a t e g o r i e s o ne a c hh i e r a r c h y ,u s em ec l a s s m c a t i o nm e t h o d ,w h i c h i i a b s t r a c t c o m b i n e sc l a s sc e n t r a lv e c t o rm e t h o d 锄dr e a s o i l i n ga l g o r i m mb a s o do nf u z z yc o g i l i t i v em a p s ,i no r d e rt oc o n s t 九j c ts t 印h i e r a r c l l i c a lc l a s s i 6 c a t i o np a t t 锄,叭dp r o p o s e s r c l a t e da 1 9 0 i 诎吼( n 锄e l y s t 印h i e r a r c h i c a lt e x tc l a s s i f i c a t i o n ) n ee x p 耐m e n tr e s u l tr e p r e s e n t st h a ti tc a ni m p r 0 v et h ep r e c i s i o na r l dp e r f o m l a n c eo ft e x tc l a s s i f i c a t i o n e 衢c i e n t l y k e yw o r d s :t e x tc l a s s i f i c a t i o n ,t e 肌,f u z z yc o 舒i t i v em a p s ,s t 印h i e r a r c h i c a l t e x tc l a s s i f i c a t i o n i 独创性声明 本人声明所牛交的论文是我个人在导师指导卜进行的研究1 :作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得苤鲞! 至基盘堂或其它教育机构的学位或证1 5 而使用过的 材料。与我一同i i 作的同志对本 l j l :究所做的任何贡献均已侄论文中作了明确的说明并表示 了谢意。 签名: 学位论文版权使用授权书 本人完全了解大沣师范人学有关保留、使川学仲论文的规定,即:学校有权将学位论 文的全部或部分内容编入有关数据库进行检索,并采j j 影印、缩印或扫描等复制手段保存、 汇编以供查阅和借阅。同意学校向国家有关部fj 或机构送交论文的复印什平磁盘。 ( 保密的论文在解密后应遵守此规定) 签名: 基于模糊认知图的分步文本层次分类研究 第一章绪论 1 1 课题研究背景与意义 随着信息技术与互联网的迅速发展,信息增长速度惊人。海量、异构和动态, 是信息资源增长与发展的三个特点。虽然互联网上的信息载体呈多样化趋势,但 仍以文本为主,文字是互联网上信息的主要来源,尤其是科技期刊的电子化和数 字图书馆的发展极大地丰富了网络的知识资源。如何让互联网和数字图书馆真正 有效为用户服务,帮助用户快速收集和选择其所感兴趣的内容,使用户能够及时 快速了解最新的信息发展动向,减少用户用于处理资料的时间,是信息处理的重 要课题。 文本分类作为信息处理的重要研究方向,无疑是处理文本信息的有效途径。 通过文本分类系统,信息可以得到有效的组织管理,这样就有利于快速准确的定 位信息,具体体现为信息查询时间、组织和过滤时间、阅读时间的减少,从而使 用户快速地获取信息成为可能。文本分类最初是应信息检索( i n f o n l l a t i o nr e 砸e v a l ,简称i r ) 系统的要求出现的【1 1 ,通过分类对文本集进行有序组织,把相 似的、相关的文本组织在一起。文本分类作为知识的组织工具,为信息检索提供 了更高效的搜索策略和更准确的查询结果。其中,高效性来自于用户可以首先确 定查询的可能类别,以减小需进一步匹配的文本数量。有效性在于相似的文本很 可能与相同的查询相关。这样,检索的查准率和查全率都得到了提高。意大利科 学家f b 撕z i os b e a s t i n a i 认为文本分类技术可以被看作是所有基于内容的文本信 息管理的基础【2 】,由此可以看出文本分类技术在信息处理领域的重要性。 传统的文本分类是基于专业人员手工进行分类,并加以组织和整理,为人们 提供一种相对有效的信息获取手段。但是,人工分类非常费时,效率过低的问题。 网络文本信息的激增使得自动分类处理技术越发显示着其优越性,相对人工 分类,文本自动分类系统具有以下特点: l 、效率、速度高。文本自动分类的实现使传统人工分类在速度方面相形见 绌,远远难以企及,而且在提高工作效率的同时也将人力节省出来。 2 、自适应性较强。文本自动分类系统可根据待分类文本情况,自我学习更 第一章绪论 新分类策略,以适应不同的需求。 近年来,文本自动分类技术在信息技术各方面的应用越来越广泛。在智能缓 存技术、数字图书馆技术、搜索引擎技术、互联网信息监控( 包括“垃圾”邮件 的过滤) 等领域里面,文本自动分类技术都扮演着非常重要的角色,有效地提高 了信息服务的质量,研究利用计算机进行文本分类已经成为一个有重要价值的研 究课题,并且有着很广泛的应用前景,如: l 、在智能检索系统中的应用 使用过搜索引擎的人想必都有过这种体会:想查找的东西查不着,不相关的 东西倒是很多。构造更好的信息检索系统仍然是人们努力的目标。在搜索引擎的 构建过程中,可以利用文本分类技术来进行概念区别,改进相关度排序,也可以 对被检索的信息按照一定的分类体系进行自动分类。 2 、在网络信息过滤、萃取系统中的应用 用户每一天都会得到大量的网上信息,网络信息过滤系统必须根据用户所关 心的信息过滤网上信息,然后主动形成用户需要的信息。另外,网络信息萃取系 统根据某种需要,自动分析网页信息,萃取某一特定内容并进行分析。这两种系 统都将综合运用文本分类技术和摘要技术。 3 、邮件分类 这种应用主要是对用户收到的电子邮件进行分类,如:麻省理工学院为白宫 开发的邮件分类系统,能自动地确定每天发送给总统的大量的电子邮件所属的类 别,如外交、环保、家居等,以安排适当的人员对信件内容进行答复。 4 、电子会议意见分类 电子会议是一种新兴的会议方式。所有与会者通过网络电脑系统举行会议, 与会者是匿名的,便于形成平等的气氛,以调动与会者的积极性,因此产生大量 的意见和建议,接下来再由分类系统对这些意见进行分类和组织,最后确定进一 步讨论的主题。 5 、在文本库的建立与重建中的应用 机构或个人都会面临建立文本库或重新归类大量文本的任务,这就需要根据 指定的一些文本和类别结构,自动地将所有的文本归于合适的类。若是将新的文 本加入合适的文本类别中也要采用文本分类技术。 基于模糊认知图的分步文本层次分类研究 1 2 国内外研究现状简介 自动分类研究始于2 0 世纪5 0 年代,美国i b m 公司的h p h 1 1 l i l 【3 】在这一领 域就“文献信息自动化处理进行了开创性研究,他提出词频统计思想并主要用 于自动分类。1 9 6 0 年,m a r o n 发表有关自动分类的第一篇论文【4 1 。1 9 6 2 年,博 科( h b o k r o ) 等人提出利用因子分析法进行文献的自动分类。其后,k s p a r c h 5 】、 gs a l t o n 【6 】以及r m n e e d h 锄等众多学者在这一领域进行了卓有成效的研究工 作。概括起来,他们主要从文本的词频统计分析、句法分析和语义分析等三个层 次上进行研究。其中,以基于词频统计分析的自动分类试验较为成功。 文本自动分类主要经历了四个发展阶段: 第一阶段( 1 9 5 8 1 9 6 4 ) 主要进行自动分类的可行性研究; 第二阶段( 1 9 6 5 1 9 7 4 ) 进行自动分类的实验研究; 第三阶段( 1 9 7 5 1 9 9 8 ) 进入实用化阶段: 第四阶段( 1 9 9 0 至今) 因特网自动分类研究阶段。 文本自动分类在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应 用,其中较为成功的系统有卡内基集团为路透社开发的c o i l s t n j c t 系统【7 】等。 我国开展自动分类研究起步较晚。1 9 8 1 年,侯汉清教授对计算机在文献分 类工作中的应用作了探讨【3 】,并介绍了国外在计算机管理分类表、计算机分类检 索、计算机自动分类、计算机编制分类表等方面的概况。此后,我国陆续研制出 一批计算机辅助分类系统和自动分类系统。国内外的研究基本上是在英文文本分 类研究的基础上采取相应策略,结合中文文本的特定知识,然后应用于中文之上, 继而形成中文文本自动分类研究体系。很多学者在基于知识和统计的两种方法上 对中文文本分类进行了大量的研究工作,主要有基于词典的自动分类系统和基于 专家系统的分类系统。 目前大量的统计方法和机器学习方法被应用于文本自动分类系统。文本分类 可以被看作是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法 能够取得很好的效果。文本自动分类中应用较早的机器学习方法是朴素贝叶斯 ( n a v eb a y e s ,n b ) 方法【8 1 。目前,几乎所有重要的机器学习算法在文本自动 分类领域都得到了应用,支持向量机( s u p p o nv e c t o rm a c l l i n e ,s v m ) 【9 】,最大 第一章绪论 熵算法( m a x i m l l i 】e r n r o p y ) 【10 1 ,神经网络( n e 删n e t s ) 【l l 】和规则学习算法【1 2 】, k 近邻算法( kn e a r e s tn e i g h b o r ,州) 等。 1 3 课题研究目的与研究内容 1 3 1 课题研究目的 本文研究目的是在对模糊认知图的概念、特性及其知识表示和推理机制进行 初步研究的基础上,将它引入文本分类领域,从而提出与之前不同的基于推理的 文本分类方法,并在常规中文文本的单层次分类基础上,对层次结构的分类方法 进行研究,采用分步骤方式,构造良好的层次型分类算法;通过层次型分类提高 文本分类的精度和性能。 1 3 2 课题研究内容 在现有的文本分类方法与研究成果的基础上,本论文主要进行以下几个方面 的研究工作: 1 ) 就目前而言,模糊认知图理论是较为年轻的理论,但其功能非常强大, 在很多领域有广泛的应用,所以本文在对模糊认知图理论研究的基础上,将其应 用到文本分类领域进行研究,采用迭代推理机制,充分考虑特征项之间、特征项 与类别之间、类别与类别之间等的因果关系和相互影响,对文本进行分类,提出 基于模糊认知图的文本推理方法。 2 ) 在原有的单层次分类基础上,根据层次分类特点,结合模糊认知图推理 特征,考虑到不同的层次对分类方法有不同的要求,对现有的层次分类算法进行 改进,将模糊认知图应用到层次分类中,将分类方法按照其分类特点分别放置于 不同的层次,对文本进行分步分层次分类。 4 基于模糊认知图的分步文本层次分类研究 1 4 本文主要内容 本文的主要内容安排如下: 第一章绪论。阐述课题研究背景与意义,对文本分类技术的国内外研究情况 进行简单综述性介绍,然后提出本文的研究目的,即将模糊认知图引入文本分类 领域,从而提出与之前不同的基于推理的文本分类方法。然后在常规中文文本的 单层次分类基础上,对层次结构的分类方法进行研究;最后概述本文的研究内容, 即提出基于模糊认知图的文本推理方法。将模糊认知图应用到层次分类中,将分 类方法按照其分类特点分别放置于不同的层次,对文本进行分步分层次分类。 第二章介绍了文本分类相关技术。主要包括文本分类的概念、文本分类过程 和文本分类相关技术三部分内容。形式化地描述了文本分类的定义,介绍三种分 类方法,即基于统计的方法、基于连接的方法和基于规则的方法以及两种分类模 式,即单类别分类和多类别分类。对文本分类过程的5 个阶段进行了简单的分析, 并且对目前广泛使用的几种文本分类技术进行讨论。 第三章首先以知识工程表示观为着眼点,讨论了因果知识的模糊认知图表 示,并对模糊认知图的结构、形式化描述、推理机制、推理过程及模糊认知图的 建立进行了分析和讨论,指出模糊认知图的知识表示是通过概念节点及概念节点 问的相互作用结构直观地表示出来,推理是通过前向节点对后向节点状态的递推 作用实现,系统的动态行为是通过节点状态与节点的相互作用影响联系起来,而 系统的模糊认知图的建立主要依靠人工建立和学习建立两种方法。 第四章是在第三章的理论基础上将模糊认知图应用到文本分类领域,提出基 于模糊认知图的文本分类推理算法,根据文本特征构造相应的文本分类模糊认知 图,利用模糊认知图的推理机制,通过特征项之间的迭代推理得到分类结果。 第五章介绍了文本层次分类技术和目前国内外研究情况,考虑文本层次分类 的要求和分类算法的特点,结合类中心向量法和基于模糊认知图的文本分类方 法,提出基于模糊认知图的分步文本层次分类算法。该算法不仅能够提高分类精 度,而且可以对交叉学科内容的文本进行分类,从而提高整体分类性能。 第六章是根据第五章提出的算法进行实验,并对结果进行分析。 第七章总结本文的研究内容,并指出研究的不足和进一步研究方向。 第二章文本分类相关研究 第二章文本分类相关研究 2 1 文本分类概念 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc 1 2 l s s i f i c a t i o n ,缩写为t c ) 是指根据 文本的内容或属性,将大量的文本归到一个或多个类别的过程。这里所指的文本 可以是媒体新闻、科技报告、电子邮件、技术专利、网页、书籍或其中的一部分。 文本分类问题关注的文本种类,最常见的是文本所涉及的领域或主题( 如体育、 政治、经济、艺术等) ,也可以是文本的文体风格( 如流派等) ,或文本与其他事 物( 如垃圾邮件等) 之间的联系( 相关或不相关) 。 文本自动分类是在给定的分类体系下,根据文本的内容自动地确定文本关 联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文 本映射到已有的类别中,该映射可以是一对一映射,也可以是一对多的映射,因 为通常一篇文本可以同多个类别相关联。用数学关系表示如下: f :aj b 其中,a 为待分类的文本集合,b 为分类体系中的类别集合。 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结 出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结 出的判别规则,确定文本相关的类别。因此,文本自动分类是一个有指导的学习 过程。它根据一个已经被标注的训练信息样本集合,找到信息属性和信息类别之 间的关系模型,然后利用这种学习得到的关系模型对新的信息样本进行类别判 断。 文本分类的关键问题是如何构造一个分类函数或分类模型( 也称为分类器) , 并利用此分类模型将未知文本映射到给定的类别空间。 6 基于模糊认知图的分步文本层次分类研究 2 2 文本分类类型和模式 2 2 - 1 文本分类类型 文本分类是一个活跃的科研领域,它经历了几个不同的发展阶段。直到八十 年代末,在文本分类方面占主导地位的一直是基于知识工程的分类方法,即由专 业人员手工编写分类规则来指导分类。九十年代以来,基于机器学习的方法逐渐 成熟,取代了基于知识工程的分类方法,成为文本分类的主流技术。如今,文本 分类技术取得了很大的进展,提出了多种特征提取方法( 如互信息、信息增益等) 和分类方法( 如支持向量机等) 。 从文本分类的特征来看,不再只局限于词、短语或n 研锄。词性、标点等 词法特征也被引入到了文本分类中【”】,而且随着研究的进一步深入,词法特征携 带的信息也已经越来越无法满足文本分类技术的需求,所以基于文本语法层次的 一些特征开始得到应用,但是这些特征的自动获取是仍待解决的问题。 从文本分类的方法上来看,大体上可以分为三种,即基于统计的方法、基于 连接的方法和基于规则的方法【1 4 】。 在基于统计的分类方法中,一般依据某种统计后得到的客观规律,或者采用 某种统计学中的定律来完成分类器的建立工作。该种方法中的训练过程多为训练 集上的某种统计和计算过程,得到某些可以代表文本与类别之间关系的数据。在 分类时分类器给出的通常为某种概率结果,其本质上是一种非确定性的定量推理 方法,定量是基于概率的,因此必然会掩盖小概率事件的发生。这种方法是一种 经验主义的方法,其优势在于它的全部知识是通过对大规模语料库分析得到的, 可以取得很好的一致性和较高的覆盖率,对语言处理提供了比较客观的数据依据 和可靠的质量保证。常用的基于统计的方法有朴素贝叶斯、k 近邻算法、类中心 向量、支持向量机等。 基于统计的分类方法理论基础不是很强,在对逻辑依赖性较强的复杂文本或 者对于分类范畴比较模糊的类别进行分类时,尤其是对新兴学科和交叉学科等训 练样本较少的领域,效果往往不太理想。 基于连接的方法即人工神经网络,是靠模拟人脑的神经网络,使其像大脑一 第二章文本分类相关研究 样的运作和学习。这种方法具有信息分布存放、运算全局并行、容错性等特点, 适用于学习一个复杂的非线形映射。 基于规则的方法首先需要根据上下文建立起可用于分类的规则,该规则包括 了文本的表示方法、类别的表示方法、文本与类别的映射方式等等,之后通过训 练过程来完成规则的完善和调整,训练后则可以使用该规则来决定文本的类别, 完成分类。基于规则的方法本质上是一种确定性的演绎推理方法,根据上下文对 确定性事件进行定性描述,能充分利用现有的语言学成果。其理论基础强、合理 性高,而且分类的规则易于被人们所理解,同时也易于改写成其他形式。使用该 方法的前提是有大量的知识,但这些知识是人类专家总结出来的,因此在不确定 性事件的描述、规则之间的相容性方面还存在着一些限制和缺陷。基于规则的方 法的实用性比较差,这是因为现实中的数据集比较庞大,在这种情况下,训练时 规则的建立调整过程效率会很低,从而使得应用规则完成分类的效率也很低,此 时基于规则的分类方法往往显得力不从心。但是对于有些统计方法无法解决的问 题,基于规则的方法却很容易解决,决策树、关联规则等都是属于基于规则的分 类方法。 目前已经开始了对文本分类技术的新应用和探索,特别是关于文本层次分类 方面的研究。层次分类是在给定一个基于父类和子类的树状类别层次结构中,将 文本划分到层次结构中任意非根节点所对应的类别。这种方法要求预先存在、或 者由用户人工构建一个类别层次结构,然后利用现有的分类技术分别进行父类和 子类的划分,逐层分类。 2 2 2 文本分类模式 在实际应用中,分类模式可以根据实际情况分为单类别问题,即属于或是不 属于某一类;也可以分为多类别问题,即属于多种可能中的哪一类。不过,多类 问题最终还是可以看成多个单类别问题的组合来解决。 对于单类别分类和多类别分类l i6 l 在不同的背景需求下,分类的具体任务也各 不相同。在单类别分类中,是多个文本对应一个类别的关系,通常采用阈值的方 法。在分类器的框架建立好之后,训练的过程就是根据训练样本来调整阈值的过 基于模糊认知图的分步文本层次分类研究 程。分类时根据阈值进行判断,满足条件则判为1 ,否则判为0 。 在多类别分类中,是多个文本与多个类别的对应关系,而且通常个文本只 能属于一个类别。在多类别分类中,分类时通常会采用投票法,即分类器会将文 本d 放在所有的类别上完成一次分类过程,得到某种结果。这些结果通常代表了 文本d 属于某个类别的可能性,可以是文本d 属于某类别的概率,或者是文本d 与某类别的相似程度等,然后再由分类器最终确定文本所属类别。与单类别分类 相比,多文本分类更为复杂,此时文本分类的任务是在适用于多类别分类的分类 器上进行的。 2 3 文本分类过程 一般来讲,文本分类过程需要解决5 个方面的问题【1 7 】: ( 1 ) 获取训练样本集 训练样本选择是否合适对文本分类器的性能有较大影响。训练样本集应该能 够广泛地代表分类系统所要处理的客观存在的各种文本信息样本。一般地,训练 样本集应是公认的经人工分类的语料库。目前,国外文本分类研究方面有公开、 标准的测试样本库,基于这样的测试样本库就可以比较不同分类方法和系统的性 能。 ( 2 ) 建立文本表示模型 文本分类中的一个重要问题,即选用什么样的语言要素( 或者说文本特征) 和用什么样的数学形式来组织这些语言要素来表示文本信息。 ( 3 ) 文本特征选择 语言是一个开放的系统。作为语言的一种书面化或者电子化的文本信息也是 开放的,它的大小、结构、包含的语言元素和信息都是开放的。因此它的特征也 是无限制的。文本分类系统应该选择尽可能少而且准确,同时与文本主题概念密 切相关的文本特征进行分类。选择什么样的文本特征由具体的度量准则确定。 ( 4 ) 选择分类方法 这是文本分类的核心问题,即用什么方法建立从文本特征到文本类别的映射 关系。 9 第二章文本分类相关研究 ( 5 ) 进行性能评估 对分类方法、系统的性能或者分类结果进行评估,通常采用一些性能评价参 数来评价分类器性能。常用的性能评价参数有查准敬查全率和f l 值,其中f l 值是对查准率和查全率的综合考虑。 因此,一个文本分类过程通常包括如下几个主要阶段: 文本预处理 文本表示 文本特征选择 文本分类器设计 文本分类的性能评估 文本分类模型如图2 1 所示。模型主要包括三部分:一部分是训练过程,经 训练后得到文本分类器;另一部分是测试过程,利用测试文本进行分类,通过性 能评价,反馈给训练过程和分类器,调整参数,修正分类器;最后是利用训练和 测试得到的分类器对待分类文本进行分类。 训练过程 图2 1 文本分类模型 l o 慕于模糊认知图的分步文本层次分类研究 2 4 文本分类相关技术 2 4 1 文本预处理 由于中文的词与词之间没有天然的分隔,因此为了提取中文的词作为特征 项,必须进行分词处理,中文分词处理就成了中文信息处理所特有的文本预处理 步骤。目前的中文分词方法可以总结为两大类:一类是基于机械匹配的分词方法, 即通过对已有词典机械匹配得到分词结果。所谓机械匹配,是指与己有词典里的 词进行一一匹配。若匹配,则将词输出到结果;否则,将词以单字的形式输出。 另一类是基于概率统计的分词方法,不需要任何词典就可以得到分词结果,其主 要原理是基于概率统计的办法得到最终的分词结果。 中文分词技术面临的两个最大问题是切分歧义和未定义词的识别问题。前者 属于自然语言理解的问题,根据上下文环境,在不同切分结果中选择最优解;后 者要解决词典中未收录词( 如人名、地名、机构名等) 的识别。虽然可以在机械 匹配的基础上通过规则的方法来求解上述两个问题,然而规则方法很难穷尽真实 文本的各种现象。目前比较主流的方法是通过对文本的概率统计来解决。 2 4 2 文本表示 要使计算机能够真正地处理文本,必须将文本表示成计算机可以识别理解的 形式。目前文本表示模型主要有g e r a r ds a l t o n 等人在1 9 8 9 年提出的向量空间模 型( v e c t o rs p a c em o d e l ,v s m ) 【1 8 】,d 岫a i s 和f 啪a s 等人在1 9 9 0 年提出的潜 在语义索引( l a t e n ts e m a n t i ci n d e x ,l s i ) 模型,以及b e l k i n 和c r o 俞在1 9 9 2 年 提出的概率模型。这些模型从不同角度出发,使用不同方法处理特征加权、类别 学习和相似度计算问题。 向量空间模型是最简便、有效的文本表示模型。因此,在信息处理中,文本 的表示主要采用向量空间模型。该模型及其相关技术,包括特征项的选择、加权 策略以及采用相关反馈进行优化查询等在文本分类、自动索引等诸多领域得到了 第二章文本分类相关研究 广泛的应用,并取得了较好的效梨1 9 】。特别是随着网络的迅速发展,还被广泛地 应用到搜索引擎、个人信息代理、网上新闻发布等信息检索领域的应用中,并且 取得了较好的效果。下面给出向量空间模型的相关概念。 文本( d o c u m e n t ) :指一般的文献,通常指一篇文章。本文用d 表示篇文 本。 , 特征项( t e 咖) :文本的内容常常用它所含有的基本语言单位( 字、词、词 组或短语) 来表示。这些基本的语言单位被统称为文本的特征项,即文本可以用 特征项集表示为d ( t l ,t 2 ,t n ) ,其中t n 是特征项。 权重( w 萌g h t ) :对于含有n 个特征项的文本d ( t i ,t 2 ,t n ) ,常用权重 w k 表示特征项t n 在文本d 中的重要程度。 向量空间模型( v s m ) :忽略t n 在文本d 中的先后顺序并要求t n 互异,将文 本d 简化为以特征项的权重为分量的向量表示:d ( w l ,w 2 ,w 3 ,w n ) 。 相似度( s i m i l 撕t y ) :对两个文本d l 和d 2 之间的内容相关度的度量称为文本 的相似度s 砌( d ,西) 。对于文本d l ( w l l ,w 1 2 ,w i n ) 和文本d 2 ( w 2 l ,w 2 2 , w 2 。) ,我们可以借助向量之间的某种距离来表示它们之间的相似度。 常用向量之间的内积进行计算,其公式为: 或者用向量之间夹角的余弦值进行计算,其公式为: w 1 ,w 2 , & 珑( d l ,d 2 ) = ( 2 2 ) 有不少学者在研究关于文本相似度的计算问题。有人从信息论中的编码理论 得到启发,提出使用汉明距离来计算文本的相似度,以得到一种更加快速有效的 计算文本相似度的方法【2 0 1 。 向量空间模型采用简洁的特征向量来表示文本。在进行特征提取时,不使用 大量的句法语法信息,也无需对文本进行复杂的自然语言处理和语义处理,有效 地解决了非结构化文本数据的处理问题,大大提高了文本处理的速度和效率,把 1 2 、,2,l h 。一 = 、 2 dd ,f l m所 基于模糊认知图的分步文本层次分类研究 对文本的操作转变为对特征向量的操作。 为了将文本的特征项提取出来,需要对文本内容进行分词处理。对于英语、 法语等西方语言,分词问题显得非常简单;而对于汉语、阿拉伯语在内的各种东 方语言却显得十分困难。于是一种称为n 元( n 酉锄) 模型的独立于语言的文 本表示模型同样被广泛应用于文本分类领域。因为该模型不需要考虑组成文本的 语义单位是字、词还是词组,而是将整个文本看成是由不同字符组成的字符串, 因而可以方便地表示汉语等各种东方语言文本。用n 蓼锄模型表示文本通常包 括如下几个步骤:取字符串、生成索引向量、选择或提取特征、确定特征权向量、 进行规范化处理等。n 酉锄模型中索引向量的生成、特征的提取、特征权向量 的确定以及特征向量的规范化等处理,与向量空间模型中的情况类似,只不过此 时的特征不再是词根,而是字符串。但n 蓼锄模型存在着数据噪声大、特征生 成复杂、计算量大、易于过学习或过训练等缺点,通常认为其表示能力不如向量 空间模型。 2 4 3 权重计算 在用向量空间模型来表示文本的时候,每一特征都用其对文本的贡献来表 示,即该特征在文本中的权重。特征项的权重综合反映了该特征项唯一标识文本 内容的能力和文本之间的区分能力,一般在o 到l 之间取值。只有权重计算准确, 才能将文本较好地表示出来,并在此基础上获得良好的分类效果。 目前通用的权重计算方法有布尔权重、特征频度、词频与倒文本频度( t f i d f ) 、熵掣2 1 1 。越复杂的权重计算方法对文本的表示精度越高,但计算复杂度 也随之上升。这几种常用的权重计算方法如下: 1 布尔权重 布尔权重是一种最简单的权重计算方法。若文本出现,其权重就是1 ,否则 为o 。 2 特征频度 特征频度是另一种简单的权重计算方法,它用特征项在文本中出现的次数作 为它的权重。 第二章文本分类相关研究 3 t f i d f 权重 上述两种方法都没有考虑特征在整个语料中的分布情况,只是利用了特征在 单个文本的信息。为此,有一种典型的权重计算方法是t f i d f 权重,它使特征 在文本中的权重正比于特征在文本中出现的次数,而反比于语料中包含该特征的 文本的数目,特征项t i 对文本d i 的权重计算其公式为: 嘞= 鲲娥 ( 2 3 ) 其中,鲲是特征频率( t e n i lf 嘲u e i l c y ,t f ) ,指的是特征项t i 在文本d j 中出 现的次数,娥是逆文本频率( i i l v e r s ed o c 啪e n tf r e q u e i l c y ,i d f ) ,指的是出现特 征项t i 的文本个数的倒数。磁由下式确定: 比f ,;= l o g ( + 三) ( 2 4 ) 其中,n 表示全部训练集的文本数,m 表示训练文本中出现特征项t i 的次数,l 的取值通过实验确定,通常取l = o 0 1 。 由式( 2 3 ) 和式( 2 4 ) 可得到: 心,= 毵l o g ( + 三) ( 2 5 ) 妒o q 、 ,一。 由于上述公式计算出的权重,往往有少数项的值远远大于其它项。权值过高 的个别项在分类过程中往往会抑制其它项的作用。因此在计算权重时,应对统计 出的词频做适当的均衡处理。经过词频均衡处理的权重计算公式如下: 2 ( 缈g ( 枷 ( 2 6 ) 虽然多年的实验表明,上述公式是文本处理中的一个有效工具。但t f i d f 公式是人们长期实践得到的一种经验公式,并没有坚实的理论基础,缺乏实际的 物理意义。 4 熵权重 熵权重是在信息理论的基础上提出来的。它是最复杂的权重计算方法,也经 证明是最有效的方法。在熵权重计算方法中,个特征的权重由下式给出: 1 4 基于模糊认知图的分步文奉层次分类研究 嘞= ,。g c 乃+ ,q c ,+ ,。g 专善 鲁z 。甙鲁, , c 2 7 ) 其中,石表示特征项t i 在文本d j 中出现的频数,n 是语料中所有文本的数目,m 是特征项在所有文本中出现的总的次数,- 。g 专姜 鲁- 。g c 鲁, 是特征项t ;的 平均熵。当该特征在所有的文本为均匀分布时,这个值为1 ;若特征项只在一篇 文本中出现,则其值为0 。 2 4 4 特征选择 由于构成文本的词的数量非常大,导致表示文本的向量的维数也非常高,因 此对特征子集进行提取是十分必要的。特征选择是指去除不能很好地表示文本信 息的特征,这样可以从两个方面提高系统性能:一是提高分类效率。通过特征选 择,可以大大减少原始文本特征集合中的特征数目,减少运算量,从而提高系统 的运行速度;二是提高系统精度。通过适当的特征选择,去除与信息表示无关的 特征不但不会降低系统的准确性,反而会提高系统的精度【2 2 1 。特征项的选择对向 量空间模型的表达效果紧密相关。字、词、短语或者更高层次的语言单位都可作 为特征项。特征项也可以是相应词语或者短语的语义概念类。选择特征项时应遵 循以下原则: 1 尽量选择包含语义信息较多,对文本的表示能力较强的语言单位; 2 特征项的分布应当有比较明显的统计规律性; 3 实现的时间和空间丌销不能太大。 汉语中最基本的语言单位是汉字,以它作为特征项对文本语义的表述能力相 对较差。因此对于中文来讲,由于它不像英文那样有天然的分隔,所以,不好的 分词会导致系统性能的下降。由于基于自然语言理解的文本理解技术尚未达到实 用程度,所以现在人们大都采用抽取若干关键词来描述一个文本信息,即用一个 从文本中抽取的关键词集合在定程度上来代表文本的语义,然后进行分类【2 3 j 。 选用文本中的关键词作为特征项也存在很多问题:首先关键词的数量非常庞 大,而且文本中还存在一些没有实在意义但使用频率很高的虚词和功能词:其次 1 5 第二章文本分类相关研究 汉语中存在大量的同义词、近义词,将它们作为不同的特征显然会使得两篇类似 的文本距离相差过大。概念通常是指代表一类同义词或近义词的条目,它合并了 同义词和近义词,使得特征项的选择尽可能地集中,贴近语义。但是概念本身的 判断和处理相对复杂,汉语中存在同义关系、近义关系、从属关系、关联关系等 各种关系。如何很好地划分概念特征项,确定概念类都是关键性问题,而这些处 理势必加大了文本处理的复杂度。 n 目锄模型使文本分类系统摆脱了对复杂分词处理程序和庞大词库的依 赖,并且更关注上下文信息。采用n 孕锄作为中文文本特征项具有以下优点: 无须任何词典支持,无须进行分词处理;对输入文本所需要的先验知识较少;关 注更多上下文信息。但n 掣锄获取技术中的领域无关性和时间无关性的实现是 有代价的,n 舀锄的提取对系统资源的要求较高。因为在进行提取时,会产生 巨大的数据冗余,占用大量的内存空间,实现效率较低,获取n 一孕啦l 将花费较 长的时间,降低了分类系统的性能。 目前,人们已经研究出了多种特征选择方法,如文本频率( d o c u m e mf r e q u e i l c y ,d f ) 、信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论