(计算机应用技术专业论文)基于贝叶斯模型的文档分类及相关技术研究.pdf_第1页
(计算机应用技术专业论文)基于贝叶斯模型的文档分类及相关技术研究.pdf_第2页
(计算机应用技术专业论文)基于贝叶斯模型的文档分类及相关技术研究.pdf_第3页
(计算机应用技术专业论文)基于贝叶斯模型的文档分类及相关技术研究.pdf_第4页
(计算机应用技术专业论文)基于贝叶斯模型的文档分类及相关技术研究.pdf_第5页
已阅读5页,还剩110页未读 继续免费阅读

(计算机应用技术专业论文)基于贝叶斯模型的文档分类及相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着i n t e r a c t 的迅猛发展和电子文档信息的不断丰富,文档自动分类日益成为 信息检索和自然语言处理领域的研究热点。基于贝叶斯模型的文档分类具有简单、 直观、性能稳定的优点,但面对复杂的文档分类问题,仍然存在许多急待解决的 问题。本文将针对贝叶斯文档分类的几个关键问题进行深入研究和探索,具体内 容和创新成果概括如下: ( 1 ) 对以朴素贝叶斯模型、半朴素贝叶斯模型、树形增强朴素贝叶斯模型为代 表的广义朴素贝叶斯模型在网络结构、分类原理、学习方法等方面的异同进行理 论分析,证明通过有效的贝叶斯结构改进,可以提高模型的文档分类性能。这为 进一步提升贝叶斯模型提供了理论依据。 伪提出一种基于关联特征扩展的特征选择算法。特征选择对文档分类的性能 影响很大,即便是同样的分类器在不同的特征集上的性能也会有很大的差异。论 文通过对现有特征选择算法的分析,总结出现有特征选择算法的三个问题:特征 空间不完备;特征集中信息冗余明显;特征选择的效率不高。针对这些问题,论 文提出先利用关联特征对原始特征集进行扩展,再利用改进的相关性分析测度和 启发式规则进行冗余检测和特征选择的方法。由于算法避免了对所有特征对之间 的相关性分析,因此具有o f l o g n ) 的算法时间复杂度,同时通过冗余分析和排除, 增加了特征集的信息量。 ( 3 ) 提出一种贝叶斯潜在语义模型。与传统贝叶斯模型相比,该模型最大的特 点在于不仅考虑了词条在文档中的统计特征,而且对每个词条在不同上下文中的 语义进行了辨析。通过将概念特征引入到贝叶斯模型中,建立起传统特征与概念, 概念与类别之间的映射关系,借助这种映射关系可以更好的利用词频和词义进行 文档分类。对模型训练时面临的数据缺失和效率问题,论文采用了改进的e m 算 法和特征优化、概念选择等预处理,提高了潜在语义模型的分类精度和学习效率。 提出一种新的半监督语义分类模型。模型以语义支持向量机和贝叶斯潜在 语义模型为基础,利用大量无标记样本和协同训练算法c o m o d e l s ,对模型在少量 标记样本集中的性能加以改进。与传统协同算法c o t r a i n i n g 不同,算法c o m o d e l s 不对文档集有任何依赖和限制,而是利用不同模型间的固有差异,反复对无标记 样本进行分类和样本集扩充,并借此逐步提高协同模型对无标记样本的分类精度。 通过在文档集r e u t e r s 2 1 5 7 8 和2 0 n g 上的实验,证明该模型在少量标记样本集中 同样可以取得较好的泛化性能。 ( 5 ) 提出一种语言独立的贝叶斯集成分类模型。现有文档分类模型一般只针对 重庆大学博士学位论文 特定语言的文档,缺乏对多种语言的适应能力。本文提出将n g r a m 与贝叶斯模型 相结合的思想,使得模型独立于文档语言成为可能。在此基础上,我们进一步利 用不同阶次n g r a m 增强贝叶斯模型的结构差异性和对不同语言文档的适应性,提 出一种新的集成框架和自适应集成方法,根据模型对不同文档性能是否具有显著 最优性,灵活选择c l u s t e r i n ga n ds e l e c t i o n 或d e m p s t e r - s h a f e r 集成方法,以提高贝 叶斯集成模型在不同文档集中的性能稳定性。 关键词:文档分类,语义,n g r a m ,相关性分析,半监督学习,协同训练 英文摘要 a b s t r a c t w i t ht h er a p i dg r o w t ho fi n t e m e ta n di n c r e a s eo fe l e c t r o n i ct e x t , a u t o m a t i ct e x t c l a s s i f i c a t i o n ( a t e ) h a sb e e nt h eh o t t e s tr e s e a r c hi s s u e si ni n f o r m a t i o nr e t r i e v a la n d n a t u r a ll a n g u a g ep r o c e s s i n g a l t h o u g ht e x tc l a s s i f i c a t i o nw i t hb a y e s i a nc l a s s i f i e ri s s i m p l e r ,i n t u i t i o n i s t i ca n ds t a b l ei np e r f o r m a n c e ,t h e ys t i l lf a c ew i t hs o m es i g n i f i c a n t p r o b l e m si ns o m ec o m p l e xt e x tc l a s s i f i c a t i o nt a s k s t h i sp a p e rm a i n l ya i m st os t u d yt h e p r o b l e m so fa t cw i t hm o d i f i e db a y e s i a nc l a s s i f i e r , t h em a i nr e s u l t sa r ed e s c r i e da s f o l l o w si nd e t a i l ( 1 ) b ye x p l a i n i n gt h el i m i t a t i o no fb a y e s i a nc l a s s i f i e ro nt e x tc l a s s i f i c a t i o n ,t h e p a p e ri n t r o d u c e ds o m et y p i c a lg e n e r a l i z e dn a i v eb a y e s i a nc l a s s i f i e r s :n a i v eb a y e s i a n c l a s s i f i e r , s e m i n a i v eb a y e s i a nc l a s s i f i e r , t r e ea u g m e n t e dn a i v eb a y e s i a n w i t ht h e t h e o r e t i c a la n de x p e r i m e n t a la n a l y s i sf o re a c hc l a s s i f i e r sl e a r n i n ga n dc l a s s i f i c a t i o n m e t h o d ,i tp r o v i d e se v i d e n c ef o rf u r t h e ri n v e s t i g a f i o na n di m p r o v e m e n to ft h en a i v e b a y e s i a nc l a s s i f i e r ( 2 ) a n e w f e a t u r e ss e l e c t i o na l g o r i t h mw i t ha s s o c i a t i v ef e a t u r e se x t e n s i o n f e a t u r e s s e l e c t i o n ( f s ) c a ng r e a t l ya f f e c tt h ep e r f o r m a n c eo ft e x tc l a s s i f i c a t i o n ,o n d i f f e r e n t f e a t u r es e t , e v e nt h es a m ec l a s s i f i e r sc a l lb eq u i t ed i v e r s ei nc l a s s i f i c a t i o np e r f o r m a n c e t h i sp a p e ra n a l y s ma n dp r e s e n tt h r e em a i np r o b l e m sw i t ht h ee x i s t i n gf e a t u r es e l e c t i o n a l g o r i t h m s :i m p e r f e c t i o no ft h ef e a t u r es p a c e ;r e d u n d a n c ya m o n gf e a t u r es e t ;l o w e f f i c i e n c yo ff sa l g o r i t h m f o rs o l v i n g t h e s e p r o b l e m s ,an e wf e a t u r e s e l e c t i o n a l g o r i t h mb a s e do nc o r r e l a t i o na n a l y s i sw a sp r o p o s e d ,w h i c hf i r s te x t e n d e dt h eo r i g i n a l f e a t u r es e tw i t ha s s o c i a t i v ef e a t u r e s ,a n dt h e nam o d f l i e dc o r r e l a t i o nm e a s u r ea n d h e u r i s t i cf o r m u l a ew e r ee m p l o y e df o rr e d u n d a n c ye l i m i n a t i o na n df e a t u r es e l e c t i o n a s t h ei l e wf sa l g o r i t h ma v o i dp a i r w i s ec o r r e l a t i o na n a l y s i s ,w h i c hr e s u l t si nat i m e c o m p l e x i t yo fd ( l o g n ) ,a l s o ,t h ei n f o r m a t i o ng a i ni nt h es e l e c t e df e a t u r es e tw a s i n c r e a s e db yr e d u n d a n c ye l i m i n a t i o ni nt h ea l g o r i t h m ( 3 ) t e x tc l a s s i f i c a t i o nw i t hb a y e s i a n l a t e n ts e m a n t i cm o d e l 0 3 t s i ) d i f f e r e n tf r o m p r e v i o u sb a y e s i a nm o d e l s ,w ep r o p o s ea ne n h a n c e m e n to ft h ec l a s s i c a ld o c u m e n t r e p r e s e n t a t i o nt h r o u g hc o n c e p t se x t r a c t e df r o mo n t o l o g y w i t hc o n c e p t si n c l u d e di nt h e b a y e s i a nm o d e l ,m a p p i n gb e t w e e nc o n c e p t sa n dw o r d s ,c o n c e p t sa n dc l a s s e sa i ;e c o n s t r u c t e d a sar e s u l t , w ec 孤c a p t u r et h ei n t e n d e dw o r ds e l l a n db o o s tt h e c l a s s i f i e mw i t h i nt h ec o n t e x to fd o c u m e n t s f a c e dw i mp r o b l e mo fd a t am i s s i n ga n d 重庆大学博士学位论文 l o we f f i c i e n c yi nt h el e a r n i n gp r o c e s s ,w ee m p l o ya ne ma l g o r i t h mw i t hp a r a m e t e r i n i t i a l i z a t i o na n ds o m ep r e p r o c e s s i n gs u c ha sf e a t u r e so p t i m i z a t i o n ,c o n c e p ts e l e c t i o n , w h i c hp r o v e dt ob ee f f e c t i v ei ni m p r o v i n gt h ec l a s s i f i c a t i o np e r f o r m a n c ea n dl e a r n i n g e f f i c i e n c y ( 4 ) an o v e ls e m i s u p e r v i s e ds e m a n t i c c l a s s i f i c a t i o nm o d e l as e m i s u p e r v i s e d l e a r n i n ga l g o r i t h mc o m o d e l sw a sp r o p o s e di nt h i sp a p e r , w h i c ha d o p tt w os e m a n t i c c l a s s i f i c a t i o nm o d e l s :s e m a n t i cs v ma n db a y e s i a nl a t e n ts e m a n t i cm o d e l ( b l s m ) i n t h el e a r n i n gp r o c e s s b yu s i n gs t a t i s t i c a lt e c h n i q u e s ,e a c hc l a s s i f i e rc a ns e l e c ts o m e u n l a b e l e dd a t at ol a b e lf o ra n o t h e rc l a s s i f i e r , t h ep r o c e s sw a sr e p e a t e du n t i lt h e c l a s s i f i c a t i o na c c u r a c yw a si m p r o v e ds h a r p l y u n l i k ep r i o ra l g o r i t h m c o - t r a i n i n g , c o m o d e l sb u i l d si t s e l fo nt w oi n d e p e n d e n tc l a s s i f i e r sw h i l en o to nt w oi n d e p e n d e n t f e a t u r ev i e w s ,s oi tc a nb em o r ew i d e l yu s e d e x p e r i m e n t a lr e s u l t sw i t hr e u t e r s 一2 1 5 7 8 a n d2 0 n gs h o w st h a tt h i sm e t h o dc a ng e n e r a l i z ew e l le v e nw i t h o u ts u f f i c i e n tt r a i n i n g d a t a ( 5 ) l a n g u a g ei n d e p e n d e n tt e x tc l a s s i f i c a t i o nw i t hb a y e s i a n e n s e m b l em o d e l s m a n yc u r r e n tc l a s s i f i e r sa r ed e s i g n e df o rs p e c i f i cl a n g u a g e ,s u c ha sc h i n e s e ,e n g l i s h , j a p a n e s e ,e t c i nt h i sp a p e r , w ea t t e m p tt ob u i l dl a n g u a g ei n d e p e n d e n tc l a s s i f i c a t i o n m o d e l st h a td on o tr e q u i r es i g n i f i c a n th u m a ni n t e r v e n t i o n o u rs o l u t i o ni sb a s e do n c o m b i n a t i o no fn - g r a ml a n g u a g em o d e la n db a y e s i a nm o d e l w i t hw o r d ss e q u e n c ea n d l o c a ld e p e n d e n c i e si n c o r p o r a t e di n t ob a y e s i a nm o d e l ,i tp r o v i d e sf l e x i b i l i t yf o r d i f f e r e n t l a n g u a g e t h i sa p p r o a c hc a n w o r ke v e nb e t t e rw i t h i ne n s e m b l ef r a m e w o r ka n dan o v e l s e l f - a d a p t i n gc o m b i n a t i o nm e t h o d ,w h i c hc a ns e l e c tc l u s t e r i n ga n ds e l e c t i o na p p r o a c h o rd e m p s t e r - s h a f e ra p p r o a c hf l e x i b l ya c c o r d i n gt ot h ep e r f o r m a n c eo fc l a s s i f i e r st o e a c hd o c u m e n t e x p e r i m e n t a lr e s u l t ss h o wt h a ti tc a l la c h i e v es t a b l ep e r f o r m a n c eo n d i f f e r e n tc o r p u s k e y w o r d s :t e x tc l a s s i f i c a t i o n ,s e m a n t i c , n - g r a m ,c o r r e l a t i o na n a l y s i s , s e m i s u p e r v i s e dl e a r n i n g ,c o - t r a i n i n g i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重瘥盍堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:南平 签字日期: 伽7 年f 月i7 日 学位论文版权使用授权书 本学位论文作者完全了解重废太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重废太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( 。 ( 请只在上述一个括号内打“”) 学位论文作者签名:老f 签字日期:谚印年f 月t 7 日 导师签名; 参灸七 l 签字日期:沙叼年f 月7 日 1 绪论 1 绪论 1 1 研究背景 随着信息技术的快速发展和i n t e m e t 的普及,电子信息资源急剧增长,到目前 为止,互联网上的静态页面已经超过了1 0 0 亿,同时每天还在以数十万的速度增 长。此外,大量的图书馆、出版社和信息中心等也纷纷建立庞大的文档数据库, 以提供目录、全文和摘要等信息检索服务。文档信息的快速增长使得企业、政府 和科研机构在信息处理和检索中面临前所未有的挑战,如何有效地组织和管理这 些资源,并快速、准确地找到用户所需信息成为当前信息技术领域面临的一大问 题。目前这些工作绝大部分是由人工完成的,例如,美国国家医学图书馆拥有数 以百计的专业人员对图书馆购进的各种医学图书杂志进行编目和分类;而著名网 站y a h o o 雇佣的一百多名各个领域的专家,每天需要对互联网上更新的网页进行 阅读、标注和分类。显然,仅仅依靠人工对文档进行分类和管理已经远远不能满 足社会发展的需要,研究与开发自动、快速、准确的文档分类系统,以实现对大 规模文档信息的智能分析、组织和管理就显得尤为重要。 文档分类( t e x tc l a s s i f i c a t i o n ) 是指根据给定文档的内容,将其判别为事先确定的 若干个文档类别中的某一类或某几类的过程。这里所指的文档可以是新闻、科技 报告、电子邮件、技术专利、网页、书籍等多种信息资源,文档分类中的类别也 非常广泛,可以是文档所涉及的主题或话题( 如体育、政治、经济、艺术等1 ,也可 以是文档的文体风格( 如流派等) ,或文档与其他事物( 如垃圾邮件) 之间的联系( 相关 或不相关1 等。 文档分类技术自出现以来就得到了广泛的应用,目前已经在文档过滤、文档检 索、语义辨析、文档组织、文档流派划分、自动摘要等方面取得了巨大的成功。 ( 1 ) 文档过滤 文档过滤ft e x tf i l t e r i n g ) 是指根据用户的需要,对产生或到来的文档信息进行 动态地分类、筛选,保留相关信息、屏蔽无关信息的活动。文档过滤的主要作用 就是将用户不感兴趣的无关信息屏蔽掉,使用户根本感觉不到其存在,从而大大 减轻用户的负担。文档过滤属于典型的单标记文档分类问题,将文档分为“相关” 和“无关”两类。因此,它既可以用来将用户反感的信息滤掉,如电子邮件过滤系统; 也可以用来将用户感兴趣的信息过滤出来,主动地推送给用户,如智能推荐系统。 ( 2 ) 文档检索 文档检索就是根据用户的显示要求从大规模文档集中提取并返回用户所需信 息的过程。最常见的应用就是基于互联网的搜索引擎,它首先将w e b 文档层次化 重庆大学博士学位论文 分类组织,然后根据用户的查询条件自动找出与其相似度最大的文档。如y a h o o , g o o s e 均是如此。 ( 3 1 词义辨析 词义辨析( w o r ds e n s ed i s a m b i g u a t i o n ,简记为w s d1 指根据多义词所处的上下 文确定该词此时具体含义的活动。如果我们将词义看作类别,将文档看作上下文, 则w s d 就是一个文档分类问题。例如,单词! b a n k 至少有两个不同的含义:“银 行”或“河岸”,语句“l a s tw e e kib o r r o w e ds o m em o n e yf r o mt h eb a n k ”中 b a n k 的含 义究竟是“银行”还是“河岸”,就可以通过词义辨析来确定。词义辨析是自然语言处 理中最重要的一个问题,其它相关问题也可以借助文档分类技术加以解决。 ( 4 ) 文档组织 对信息进行有效的加工和整理可以使人们更好地掌握信息。如图书馆利用图书 分类法管理所收藏的图书资料,y a h o o 利用人工分类的方法标记其分类条目。通过 对文档的组织和条理化,可以为以后的文档使用和查找提供方便,提高使用效率。 从文档组织和管理的效率来讲,自动分类技术无疑更能节省人力和时间,而且管 理的资源也更丰富。如g o o g l e 采用自动文档分类技术后,其收藏的网站数量就远 远多于y a h 0 0 。 佟) 文档流派划分 文档流派主要指文档的风格,而不是文档的内容。一个流派就是一些语言和文 字风格相似的文档集。文档的流派和文档的主题是正交的,相同主题的文档可以 有不同的流派,相同流派的文档可以描述的是不同的主题。文档流派划分和普通 的文档分类没有本质上的区别,只不过前者是按照文档的风格进行分类,后者是 按照文档的主题进行分类。 俩) 自动摘要 自动摘要是指利用计算机自动地从原始文献中提取文摘的活动。文摘是准确全 面地反映某篇文档中心内容的简洁连贯的短文,通过阅读短小精确的文摘,用户 可以更轻松、快速地了解原文,而无须去通读全文,从而节约了宝贵的时间和精 力。 1 2 研究现状 文档分类是一个复杂的过程,包括文档预处理、文档表示、特征选择、分类模 型设计、性能评估等主要步骤,其中核心是分类模型的设计,它对文档分类性能 的影响最大,其次是特征选择。从近年来的研究来看,文档特征已经不再仅仅限 于词、短语或n g r a m ,词性、标点符号等词法特征也被引入到文档分类中,甚至 一些基于文档语法层次的特征也开始逐渐应用。 2 1 绪论 从文档分类方法来看,很多分类性能较好的模型不断被提出,如支持向量机 ( s v m ) 、朴素贝叶斯模型( n a i v eb a y e s ) 、k 近邻分类器( k n n ) 、决策树( d e c i s i o n t r e e ) ,最大熵模型等。其中,s v m 显示出更好的总体性能,其它几种分类器的性 能基本相当,但要注意的是,文档分类的效果一般和文档集直接相关,如有的文 档集包含大量噪音,有的存在缺失数据,有的分布稀疏,有的特征之间相关性较 强。因此,普遍认为没有一种适合所有数据的最佳模型。 一直以来,贝叶斯方法以其坚实的概率论基础和直观的图形表示,在模式识别 与模式分类领域被广泛应用与研究,并在图像处理、决策支持、实时监控、医疗 诊断中取得了巨大的成功,在文档分类领域也有突出的表现,如l u d o v i c l l l 在半结 构化文档分类中,使用改进的贝叶斯模型取得了优于s v m 的分类性能。与其它方 法相比,贝叶斯方法更加简单、直观的优点,可以方便的将先验知识和后验数据 有机结合,避免只使用先验信息可能带来的主观偏见和只使用样本数据带来的噪 声影响,同时它可以将定性判断与定量分析相结合,更加灵活方便。因此,很多 研究者都对贝叶斯分类方法进行了深入的研究。 如在贝叶斯的学习、推理研究中,c h o w 和l i u 2 l 早在1 9 6 8 年就给出了对树形 贝叶斯模型的学习算法;c o o p e r 和h e r s k o v i t s 3 1 提出一种基于评价函数和爬山搜索 策略的k 2 算法;r e m c o l 4 l 贝0 在k 2 算法的基础上,使用m d l 代替评价函数,提出 一种新的k 3 算法;f r i e d m a n l 5 1 在s t r u c t u r a le m 算法中结合了贝叶斯参数学习和结 构学习,将e m 算法用于模型参数优化,结构搜索算法用于模型选择。 在贝叶斯应用方面,目前涉及的领域包括计算机视觉、自然语言处理、机器人 导航、医疗等。如用于疼痛诊断的p a t h f i n d e r a n t e l l i p a t i l 系统1 6 1 1 7 1 ;用于孕妇和胎儿 护理的m i c r o s o f tp r e g n a n c ya n dc h i l dc a r e 系统【8 】;通用电器公司的发电机监控专 家系统【9 】以及美国航天局用于深度空间探索和知识获取的a u t o c l a s s 项目 1 0 i 等。 在文档处理中,海量的信息资源更为贝叶斯方法提供了一个广阔的应用平台。 目前,贝叶斯方法己经被成功的应用于文档检索1 1 1 , 1 2 1 、文档信息提取【1 3 】和文档分 类【1 4 1 5 】中。但是文档中动辄上万的特征也对贝叶斯方法的执行效率构成了极大影 响,因此,早期的文档应用中,研究大多集中于结构更简单的朴素贝叶斯模型, 如基于二值特征向量的多元伯努利朴素贝叶斯模型【1 6 ,1 7 ,1 8 】和基于词频特征的多项 式朴素贝叶斯模型【1 9 皿2 1 】等。为突破朴素贝叶斯模型的条件独立性限制,1 9 9 7 年 f d e d m a n i z 2 1 提出一种树形增强的朴素贝叶斯模型,改进了贝叶斯模型在文档分类 中的性能;k o n o n e n k o l e 3 1 贝l j 通过相关特征聚合的方法,提出一种半朴素贝叶斯模型, 用于缓解独立性假设的负面影响;m i e c 巧s 1 8 一“j 对树形增强贝叶斯模型进一步改 进,提出一种新的贝叶斯多网模型;d a p i i i l e 瞄】针对层次型文档分类需求,提出一 种多层结构的贝叶斯模型;r a i n a l 2 6 1 将贝叶斯模型与判决式模型相结合,提出一种 3 重庆大学博士学位论文 基于极大似然和极大条件似然进行参数学习的方法;k i a l | 2 7 贝l j 针对动态文档集, 提出一种可在线更新的贝叶斯增量模型。 国内对文档分类的研究起步相对较晚,研究中所使用的方法也比较单一,主要 是基于向量空间模型的文档相似性比较。但随着近年来研究的不断深入,一些新 的研究动向也不断出现:如李荣陆幽】提出使用最大熵模型对中文文档进行分类的 方法;史忠植等【2 卅提出使用概念推理网对文档分类进行研究;陈治平等在传统 向量空间模型的基础上提出将文档逻辑划分为n 个独立文档段,以更精确定义特 征向量和相似度,提高分类性能的方法。解冲锋等【3 1 1 提出一种基于序列的文档自 动分类算法,利用文档中两个层次的语义相关性实现对关键词的动态加权,从而 生成一个待分类文档的特征序列。在贝叶斯文档分类方面,比较有创新性的内容 包括:樊兴华等【3 2 】提出的一种高性能两类中文文档分类方法;史忠植等p 3 】针对在 线文档分类提出的贝叶斯增量学习模型;宫秀军等【3 4 1 提出的基于最大最小熵的贝 叶斯主动学习方法和基于不确定抽样与最小分类损失相结合的贝叶斯主动学习方 法等。 尽管国内外在贝叶斯方法研究以及文档分类方面已经取得了一定的进展,也出 现了比较成功的系统,但实际应用中仍然存在很多待解决的问题:如噪声环境中 的性能优化问题、海量文档集的快速分类问题、不同文档语言的适应性问题等, 尤其在完善文档特征,利用更抽象的词法、句法以及上下文增强贝叶斯模型方面, 仍然有大量的工作要做。 1 3 论文主要工作 本论文的研究,得到了教育部博士点基金( 项目编号:2 0 0 3 0 6 1 1 0 1 6 ) 的资助。 本文旨在对贝叶斯模型在文档分类中的应用进行深入研究,并针对其面临的一 些关键问题提出有效的解决或改进方法,以提高贝叶斯模型在文档分类中的性能 和可扩展性。现将本文所做的主要工作概括如下: ( 1 ) 贝叶斯分类模型研究 虽然可用的贝叶斯模型很多,但由于文档的高维特征限制,目前文档分类中研 究大多集中于多种广义朴素贝叶斯模型。本文通过对不同贝叶斯模型结构特点、 学习方法和分类原理的总结分析,找出影响模型性能的重要因素,为进一步改进 贝叶斯文档分类性能提供理论依据。论文同时基于文档集r e u t e r s 对不同模型的分 类效率、分类性能进行了实验分析,证明上述分析的正确性以及模型在文档应用 的可行性。 ( 文档特征选择算法研究与改进 特征选择是文档分类中一个重要的预处理环节,迄今为止,已经有多种基于 4 1 绪论 w r a p p e r 和f i l t e r 的特征选择算法被提出。但现有算法普遍存在以下几个问题:特 征空间不完备,只是针对文档中的单一词条或n g r a m ;缺乏有效的冗余检测 和排除方法;特征选择的效率不高。针对这些问题,本文采用相关性分析方法, 提出一种基于关联特征扩展的特征选择算法,一方面,它利用关联特征丰富了原 特征集的构成,缓解了朴素贝叶斯模型中的条件独立假设影响;同时通过冗余检 测和特征选择过程,提高了所选特征集的信息量,在执行效率上也有了一定的提 高。 ( 3 ) 利用语义增强贝叶斯模型的文档分类性能 传统的贝叶斯模型大多采用词频作为文档特征,忽略了语义对文档分类的影 响,导致其在不同上下文中的性能差异很大。为此,本文在基于词频特征的基础 上,将概念特征作为隐藏变量引入到贝叶斯模型中,提出一种贝叶斯潜在语义模 型,该模型利用w o r d n e t 将传统特征映射到概念空间,并借助特征与概念,概念 与类别之间的映射关系对文档进行分类。由于隐藏变量的出现,数据集变得不再 完整,为此,我们采用e m 算法对贝叶斯模型进行学习,并通过特征优化、概念 选择和基于相似度的参数初始化等方法,提高模型的分类精度和效率。 基于协同训练的半监督语义模型研究 标记样本不足在文档分类中十分常见。本文我们基于协同训练的思想,提出 了一种新的半监督语义模型,模型由半监督学习算法c o - m o d e l s 和两个内置的语义 分类模型( 贝叶斯潜在语义模型和语义支持向量机) 构成。通过对无标记样本集的不 断分类和更新,产生足够的训练样本。但与c o t r a i n i n g 不同,算法c o m o d e l s 不 对特征集是否具有多重独立视图进行限制,因此,可以适用于任何文档的分类。 模型实现时重点解决了三个问题:一是改进现有的语义支持向量机模型,用以提 高s v m 对复杂语义环境的适应能力和对贝叶斯潜在语义模型的协同能力;二是提 出一种基于置信区间比较的采样方法,以选出对训练模型最可信的样本子集,提 高训练集的质量;三是通过对模型在不同等价类中的置信区间比较,提出一种新 的性能评价方法,并以此为基础对模型判决进行集成。 ( 5 ) 语言无关的贝叶斯集成分类模型研究 传统的分类模型大多只针对特定语言,而且需要进行分词预处理。本文我们 将分类器集成框架应用于贝叶斯模型,提出一种语言无关的贝叶斯集成分类模型, 模型中每个分类器均由n g r a m 与朴素贝叶斯模型结合而成,利用不同阶次 n g r a m 模型提供的局部条件概率限制,生成差异性的分量模型。以此为基础,我 们将其应用于分类器集成框架,提出一种新的集成模式和自适应集成方法,利用 模型在不同文档集上的性能差异,实现分类器选择法与分类器融合法的有机结合。 通过在中文文档集和英文文档集上的实验,证明其确实能满足不同语言的文档分 5 重庆大学博士学位论文 类需求。 1 4 论文组织结构 论文共分为八章,第一章为绪论,第八章为结束语,第二章到第七章为本文主 要研究内容,其中: 第二章:文档分类相关技术。系统阐述了文档分类的相关概念、文档表示方法、 特征选择策略、分类方法,以及常用的标准文档集和性能评价标准等。 第三章:贝叶斯分类模型。对已有的贝叶斯模型,尤其是文档分类中常用的几 种广义朴素贝叶斯模型进行理论分析,提出论文研究的改进思路。最后,通过文 档集r e u t e r s 对上述模型的分类效率和性能进行实验验证。 第四章:文档特征选择算法研究与改进。在对特征选择算法进行系统分析的基 础上,重点介绍了两种f i l t e r 特征选择方法:r e l i e f 和f o c u s ,并针对其特征空间不 完备和计算复杂度较高的缺点,提出一种基于关联特征扩展的特征选择算法。通 过实验证明其在减少特征冗余的同时,能显著提高所选特征集的信息量,对运行 效率也有一定改善。 第五章:贝叶斯潜在语义模型。基于语义与文档类别的相关性分析,提出将概 念特征作为隐藏变量引入到贝叶斯模型中的方法,通过适当的概念映射与词义消 歧技术,识别特征词在不同上下文中的概念差异,以此提高贝叶斯模型的文档分 类性能。 第六章:一种新的半监督语义分类模型。针对贝叶斯潜在语义模型在标记样本 不足时的性能下降问题,提出一种新的半监督语义分类模型。模型由三部分构成: 语义支持向量机、贝叶斯潜在语义模型和采用协同思想的半监督学习算法 c o m o d e l s 。论文分别对其中的s v m 语义增强方法、样本主动选择和判决集成方 法等关键技术进行了详细的分析。 第七章:语言无关的贝叶斯集成分类模型。论文以提高贝叶斯模型的可扩展性 为目标,提出将n g r a m 语占模型与朴素贝叶斯模型相结合的方法,实现了分类模 型的语言无关性。在此基础上,利用多分类器集成框架,将各互异的分量模型通 过自适应集成方法融合在一起,以提高分类模型在不同文档集中的性能稳定性。 6 2 文档分类相关技术 2 文档分类相关技术 2 1 文档分类 2 1 1 问题描述 文档分类就是根据文档的内容自动确定与文档相关的一个或一组类别的过程。 从数学角度来看,文档分类是一个映射的过程,它将未标明类别的文档映射到已 知的类别集中,该映射可以是一一映射,也可以是一对多的映射,用数学方法可 表示如下: ,:a c( 2 1 ) 其中,a 为待分类的文档集,c 为可能的类别集。文档分类实际上是模式分类 中的一种特殊应用,因此很多模式分类算法均可应用到文档分类中。但是,由于 文档分类是模式分类和自然语言处理的一个交叉学科,因此相比其它的模式分类 应用又有许多不同。 ( 1 1 高维特征空间 在文档特征提取时,有大量的候选特征。如果使用词作为文档特征,即使一个 1 0 0 0 篇左右的训练文档集,一般也会产生上万的候选特征。 但) 特征语法相关 虽然假定特征之问相互独立可以避免“高维灾难”的问题,但理论研究和实验均 表明,一个好的文档分类器应该能将特征之间的关系考虑进去,否则会导致大量 信息的丢失。 ( 3 ) 多义词和同义词现象 不管是词、短语还是n - g r a m 作为文档特征,均无法清晰地表达其在具体文档 中的语义,这就是多义词现象。如教授”可以作为名词,表示一种职称,也可以 作为动词,表示传授知识的概念。而文档中也有一些相同的概念可以用不同的特 征来描述,即同义词现象,如计算机”和“电脑”这两个词就表示相同的概念。 ( 4 ) 特征稀疏 文档特征空间的维数通常很高,而能够作为文档特征的往往是那些在语料库出 现频度适中的词。对于一篇不是很长的文档来说,特征空间中多数特征词的出现 频率都为0 ,导致了文档向量中多数特征的值也为0 ,特征的分布非常稀疏。 2 1 2 多类别文档分类 根据文档中的可能类别数,我们可以将文档分类分为两类别和多类别文档分类 两种。其中,两类别文档分类最为简单,它只包含两个类c 和石,即正类和反类, 文档要么属于类c ,要么不属于类c 。理论上,对任意类集为c l ,c 。的多类别分类 7 重庆大学博士学位论文 问题均可转化成k 个类别为托,石的两类别分类,但前提条件是所有类别之间相互 独立。对贝叶斯分类模型,两类别和多类别文档分类在处理方法上是完全相同的, 因此无须对此专门研究。而支持向量机是针对两类别问题而提出的,因此对k 一类 文档分类问题,必须采取一定的解决方法1 3 5 】。 ( 1 1 一对多方法 对于k 类问题,该方法需要构造k 个不同的分类器,在构造分类器f 时,系统 将属于类别c ;的样本标记为正类,不属于类别c ;的样本标记为负类。测试时,每 个分类器分别给出对文档工的决策函数值,并选取函数值最大的类别为测试样本类 别。这种方法实现简单,分类速度快,但是训练比较复杂。 ( 2 ) 一对一方法 该方法也是基于两类别分类过程。具体做法是:分别选取2 个不同的类别构成 一个分类器,这样共有k ( k 一1 ) 2 个不同的分类器。在构造类别c 和c ;的分类器时, 从样本集中选取类别为c ;和c ,的样本作为训练子集,并将属于类别c ;的样本标记 为正,将属于类别c ;的样本标记为负。测试时,利用k ( k 一1 ) 2 个分类器进行分类, 并累计各类别的得分,选择得分最高者对应的类别为测试样本的类别。该方法中 分类器的数目更多,但每个分类问题的规模却小了很多,因此要学习的问题也更 简单。 除上述通过对两类别分类方法扩展外,也有研究者提出一次性求解多类别分类 问题的方法,其基本思想类似于一对一的方法,需要构造七个两类别分类器,但不 同的是一次性求解方法是由1 个优化问题同时求解k 个分类器【3 6 】。如有向无环图 方法f 3 7 1 ,误差校正输出码法1 3 8 i e c o c ( e r r o r - c o r r e c t i n go u t p u tc o d i n g ) 等。 2 2 文档聚类 文档聚类是指根据文档的特征差异将其划分为不同聚类的过程,其目的是要使 同一聚类中文档间的距离尽可能小,而不同聚类中文档间的距离尽可能的大。与 文档分类相比,文档聚类中的样本没有类别标记,需要由聚类算法自动确定。 传统聚类方法在处理高维和海量文档时的效率不很理想,原因是传统的聚类方 法对样本空间的搜索具有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论