(计算机应用技术专业论文)基于意群的文本分类方法研究.pdf_第1页
(计算机应用技术专业论文)基于意群的文本分类方法研究.pdf_第2页
(计算机应用技术专业论文)基于意群的文本分类方法研究.pdf_第3页
(计算机应用技术专业论文)基于意群的文本分类方法研究.pdf_第4页
(计算机应用技术专业论文)基于意群的文本分类方法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于意群的文本分类方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 中图分类号 t p 3 9 l 学科分类号 5 2 0 2 0 2 0 论文编号 1 0 0 1 0 2 0 11 0 7 1 8 密级公开 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名许人升学号 2 0 0 8 0 0 0 7 1 8 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源自选项目研究方向文本分类 论文题目基于意群的文本分类方法研究 关键词 意群,文本分类,支持向量机,朴素贝叶斯 论文答辩日期 2 0 11 0 5 2 6论文类型 基础研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师易军凯教授北京化工大学信息安全 评阅人l张杰副教授北京化工大学嵌入式系统 评阅人2山岚副教授北京化工大学网络信息检索 评阅人3 评阅人4 评阅人5 徽员蝴赵英教授北京化工大学计算机网络 答辩委员1山岚副教授北京化工大学网络信息检索 答辩委员2聂伟副教授北京化工大学通信、信号处理 答辩委员3彭四伟副教授 北京化工大学 编译、并行计算 答辩委员4张杰副教授北京化工大学嵌入式系统 答辩委员5 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询 三学科分类号在中华人民共和国国家标准( g b 厂r1 3 ”5 9 ) 学科分类与代吗中查 代码和年份及学号的后四位组成 。 。 一 摘要 基于意群的文本分类方法研究 摘要 文本分类是信息检索与数据挖掘领域的研究热点与核心技术,在网页 分类、新闻出版的栏目分类、个性化新闻、垃圾邮件过滤、s n s 用户分类、 微博用户分类等方面有着非常重要的应用,因此对其进行深入的研究具有 非常重要的实用价值。 本文首先介绍了文本分类技术在国内外的一些研究现状和研究成果; 接着探讨了文本分类的相关技术,主要包括文本分类中一些常用的特征选 择方法和进行文本分类时使用的一些常用分类算法,对其中每一种算法均 进行了深入的研究论证,阐述其中每种方法适用的情况和不适用的情况, 同时分析了各种方法的优缺点;然后陈述了意群的概念及其相关方法,论 证了通过意群概念及其方法去构建类别词库的可行性,推导出通过类别词 库去构建相应的文本分类器,包括基于意群的s v m 文本分类器和基于意 群的朴素贝叶斯文本分类器,从而可以使用这些分类器对待测文本进行分 类;最后是对所提出的方法按详细步骤进行实验,研究结果表明,基于意 群的s v m 文本分类方法在性能上比普通s v m 方法要好,但是基于意群的 b a y e s 方法在性能上并没有朴素b a y e s 方法好。因此对于基于意群的文本分 类方法,若能选用合适的分类算法,则在准确率和召回率上,就能达到比 较好的效果。 北京化工大学硕士学位论文 本文在研究了文本分类的一些通用算法的基础上,提出了基于意群的 文本分类方法,而且严格论证了该方法的可行性,这在文本分类领域具有 一定的推动作用。 关键词:意群,文本分类,特征选择,支持向量机,朴素贝叶斯 t h es t u d yo f t e x tc a t e g o r i z a t i o nm e t h o d s b a s e do ns e n s eg r o u p a b s t r a c t t e x tc l a s s i f i c a t i o ni sah o tr e s e a r c ht o p i ca n dc o r et e c h n o l o g yi nt h ef i e l d o fi n f o m a t i o nr e t r i e v a la n dd a t am i n i n ga tp r e s e n t i th a sav e 巧i m p o r t a n t a p p l i c a t i o no nt 1 1 ew e i bp a g ec l a s s i f i c a t i o n ,t o p i cc l a s s i f i c a t i o no fp i e s sa n d p u b l i c a t i o n ,p e r s o n a l i z e dn e w s ,s p 锄f i l t e r i n g ,u s e r s c a t e g o r i z a t i o no ns n s , a n du s e rc l a s s i f i c a t i o no nm i c r o - b l o g g i n ga n ds oo n t h e r e f o r e ,i th a sav e r y i m p o r t a n tp r a c t i c a lv a l u e t od oad 印t hr e s e a r c hi nt e x tc l a s s i f i c a t i o n f i r s to fa 1 1 ,i nt h i s p a p e r t h ec u i t e n t l ys t u d y s t a t u so fm et e x t c l a s s i f i c a t i o nt e c h n 0 1 0 9 ya th o m ea n da b r o a di si n t r o c i u c e d a n dt 1 1 e nt h e r e l e v a n tt e x tc l a s s i f i c a t i o nt e c l l l l i q u e s ,w h i c hm a i n l yi n c l u d es o m ec o m m o n l y a l g o r i t h m so ft e x t c l a s s i f i c a t i o na n ds o m ep o p u l a rm e t h o d so ff e a t u r e s e l e c t i o n , i sd i s c u s s e d e a c ho ft l l e a l g o r i t h m s i sc o n d u c t e di nd e t a i l m e a n 、h i l e ,e a c hm e m o di nt h es i t u a t i o nw h e r ei t i s a p p l i c a b l ea n dn o t 印p l i c a b l ei se x p l o r e d b e s i d e s ,t h ea d v a n t a g e sa 1 1 dd i s a d v a l l t a g e so fe a c h m e t h o da l s oa r el i s t e do u t s e c o n d l y ,t h i sp 印e re 1 2 l b o r a t e st h ec o n g r o u pa n di t sr e l a t e dm e t h o d sa n dd e d u c e st h ef e a s i b i l i t ) ,o f c a t e g o 巧v o ca b u l a 巧b yt h es e n s eg r o u pa n d i t sr e l a t e dm e t h o d s e ) 【p l o r e sh o w t oe s t a b l i s hm ec l a s s i f i e ro ft e x tc a t e g o r i z a t i o nb y i i l 北京化_ 亡大学硕士学位论文 v o c a 【b u l a r y ,w h i c hi n c l u d i n gt h et e x tc l a s s i f i e ro fs v m b a s e do ns e n s eg r o u p a n dt h et e x tc l a s s i f i e ro fn a i v eb a y e sb a s e do ns e n s eg r o u p s o ,t h et e x t d o c u m e n t sa r ec l a s s i f i e db yt h et e x tc l a s s i f i e r f i n a l l y w et e s tt h em e t h o d s w h i c ha r ep r o p o s e dp r e v i o u s l yb ye x p e r i m e n t t h er e s u l t ss h o w e dt h a tt h et e x t c l a s s i f i e ro fs v mb a s e do ns e n s eg r o u pi sb e t t e rt h a nn o m a ls v mn o to n l yi n t h es p e e do ft e x tc a t e g o r i z a t i o nb u ta l s oi nt h ea c c u r a c ya n dt h er e c a l l ,b u tt h e o n eo fn a i v eb a y e sb a s e do ns e n s e 伊o u pi sw o r s et h a nn a v eb a y e si n p e r f o m a n c e t h e r e f o r e ,w h e nt h et e x td o c u m e n ti sn e e d e dt oc l a s s i 瓢i f t h e c l a s s i f i c a t i o na l g o r i m mc a nb ea p p r o p r i a t ec h o s e n ,t h et e x tc l a s s i f i c a t i o n b a s e do ns e n s eg r 0 1 巾w i l la c h i e v eag o o dr e s u l ti np e r f o m a n c e b a s e do ns o m ei n - d 印t hs m d yo fc o m m o nt e x tc l a s s i 丘c a t i o na l g o r i t l u n , t h en e wm e t h o do ft e x tc a t e g o r i z a t i o ni sp r o p o s e db yt h i sp a p e r a tt h es 锄e t i m e ,i ti ss t r i c u yd e d u c e di nd e t a i l ,w h i c hw i l lp l a yap r o m o t i n gr o l ei nt h e f i e l do ft e x tc a t e g o r i z a t i o n k e yw o r d s :s e n s eg r o u p ,t e x tc l a s s i f i c a t i o n ,f e a t u r es e l e c t i o n ,s v m ,n a i v e b a y e s 目录 目录 第一章绪论1 1 1 研究背景及意义l 1 2 文本分类的研究现状1 1 2 1 国外研究现状1 1 2 2 国内研究现状2 1 3 论文的章节安排3 第二章文本分类技术5 2 1 文本分类概述5 2 2 文本文档的表示6 2 3 文本的特征选择6 2 3 1 文档频率7 2 3 2 信息增益7 2 3 3 互信息8 2 3 4 z 2 统计量9 2 3 5 期望交叉熵1 0 2 3 6 文本证据权1 1 2 3 7 优势率1 l 2 4 文本的分类算法1 3 2 4 1 朴素贝叶斯方法1 3 2 4 2 决策树方法1 5 2 4 3k n n 方法16 2 4 4 人工神经网络法1 8 2 4 5 支持向量机方法2 1 第三章基于意群的文本分类方法研究2 5 3 1 意群与概念2 5 3 2 意群方法2 5 3 3 类别词库的建立2 6 v 北京化工大学硕士学位论文 3 4 基于意群的分类方法2 8 3 4 1 基于意群的s 方法2 8 3 4 2 基于意群的朴素贝叶斯方法3 8 第四章文本分类性能评估及实验结果分析4 1 4 1 文本分类的性能评估方法4 1 4 2 基于意群的文本分类实验4 l 4 2 1 基于意群的s 分类方法的实验4 2 4 2 2 基于意群的b a y e s 方法的实验4 3 4 3 实验结果分析4 5 第五章结论与展望4 7 5 1 论文主要成果一4 7 5 2 展望4 7 参考文献4 9 致谢一5 3 研究成果及发表的学术论文5 5 作者和导师简介5 7 v i c o n t e n t s c o n t e n t s c h a p t e r li n t r o d u c t :i o n l 1 1t h e b a c k g r o u n da n ds i g n i 丘c a n c eo f t h es t u d y l 1 2c u l l r e n ts t a t u so f t h es 砌y l 1 2 1c 1 m 翎ts t a t 吣a b r o a do f t h es t u d y 1 1 2 2c 1 m ? e 1 1 ts t a t u si i ld o m e s t i co f t h es t u d y 2 1 3t h e 酏n l c t i 】r eo f n l i sp a p e r 3 c h a p t e r 2t h et e c h n o l o g yo ft e x tc a t e g o r i z a t i o n 5 2 1 s u i l l l l l a r yo f t e x tc a t e g o r i z a t i o n 5 2 2r e p r e s e n t a t i o no ft e x td o c 啪e n t s 6 2 3f 宅a t i h | es e l e c t i o no f t e x t 一6 2 3 1d o e n tf r e q u e i l c y 一7 2 3 2h l f o h n a t i o ng a i n 7 2 3 3m u t u a li n f o 姗a t i o n 一8 2 3 4 z 2s t a t i s t i c s 9 2 3 5e x p e c t e dc r o s se n 仃d p y 1o 2 3 6t e x tw e i h to fe v i d e i l c c 1 1 2 3 7o d d s 瑚【t i o l1 2 4c l a s s i f i c a t i o n a l g o r i m mo f n l et e x t 1 3 2 4 1n a i v eb a v e s 一13 2 4 2d e c i s i o nt 诧e 15 2 4 3k 二n e a r e s tn e i 2 h b o r 16 2 4 4a n i f i c i a ln 唧a ln e t w o r k s 18 2 4 5s u p p o r t = c t o rm a c h i i l e 21 c h a p t e r3t h es t u d yo ft e x tc l a s s i 6 c a t i o nb a s e do ns e n s eg r o u p 2 5 3 1s e n s e 目o u pa n dc o n c 印t 2 5 3 2s 吼s e 粤o u pa l g o r i m m 2 5 3 3e s t a l b l i s ho f 也ec l a s sl 嘶c 0 n 2 6 v i i 北京化工大学硕士学位论文 3 4t e x tc l a s s i f i c a t i o nm e m o d sb a s e do ns e l l s eg r o u p 2 8 3 4 11 c x tc 1 a s s i f i c a t i o nb a s e do ns e i l s eg r o u pa i l ds v m 2 8 3 4 2t e x tc 1 a s s i 6 c a t i o nb a s e do ns e n s eg r o u pa 1 1 dn a i v eb a y e s 3 8 c h a p t e r 4a n a l y s i so fp e r f o r m a n c ee v a l u a t i o na n de x p e r i m e n t a lr e s u l t s41 4 1p e r f o n i l a l l c ee v a l u a t i o no f l e x tc 1 a s s i f i c a t i o n 41 4 2e x p 甜m e n t so f l e x tc l a s s i 矗c a t i o nb a s e do ns e i l s eg r o u p 4 1 4 2 1e x p 耐m e n t so f l e x tc l 嬲s i 丘c a t i o nb a s e do ns e i l s eg r o u pa n ds v m 4 2 4 2 2e x p 耐m e n t so f t e x tc 1 a s s i f i c a t i o nb a s e do ns e l l s eg r o u p 锄dn a i v eb a y e s 4 3 4 3a n a l y s i so f e x p e r i m e n t a lr e s u l t s 4 5 c h a p t e r5c o n c l u s i o na n de x p e c t a t i o n 4 7 5 1r e s u l t so f t h ep a p e r 一4 7 5 2e x p e c t a t i o n 4 7 r e f e r e n c ep a p e r sa n db o o k s 4 9 a c l m o w l e d g e m e n t s 一5 3 r e s e a r c hr e s u l t sa n dp a p e r sp u b l i s h e d 5 5 a u t l l o ra n dt e a c h e ri n t r o d u c t i o n 5 7 v i i i 第一章绪论 1 1 研究背景及意义 第一章绪论 随着网络和计算机相关技术的快速发展,社会的资讯和网络信息出现了爆炸式的 增长,网络上各方面的信息无所不有,理论上人们获取相关信息应该非常容易。然而, 由于铺天盖地的网络信息杂乱无序,人们从海量的数据中获取有用信息已变得非常困 难,这就出现了社会信息的极度丰富但有用数据却比较贫乏的现象。数据信息的快速 增长阻碍了人们充分有效利用信息资源,于是人们开始探索如何利用计算机自动去帮 助获取海量信息,对那些海量信息进行分类处理。一般情况下,网络上的大量信息基 本上都可以转化为文本文档数据,为了从网络上快速、准确以及全面的获取用户感兴 趣的数据信息,文本文档的自动分类技术研究随着网络的发展和技术的进步应运而 生。文本文档的自动分类技术在多个领域都有着广泛的应用,包括新闻出版的栏目分 类、网页分类、个性化新闻、垃圾邮件过滤、s n s 用户分类,微博用户分类等。尤其 是最近几年来,随着微博网站的迅速崛起,比如新浪微博、腾讯微博、搜狐微博等, 由于微博用户的猛然增加,为了规范微博用户的管理,为了让微博用户能够快速准确 的找到自己感兴趣的其他微博用户,文本自动分类就显得尤为重要。通过用户的分类 管理,不仅为用户提供了极其有效的相关信息,同时还给网站的建设与维护管理提供 了便利。 1 2 文本分类的研究现状 1 2 1 国外研究现状 国外在2 0 世纪中叶就开始对文本分类有了初步的研究,首先进行历史开创性研究 的是h p n l l l l l 【l 】,他提出了词频统计进行文本分类的思想,接着m a r o n 和k u l l l l 利用概 率模型进行了进一步的深入研究【2 】,同时在a c m 期刊杂志上发表了关于如何采用文本 关键词对文本进行自动分类的第一篇技术论述性文章o nr j e l e v a n c e ,p r o b a b i l i s t i c h l d e x i l l ga n di n f o 彻a t i o nr e t r i e v a l ”l 引。到了7 0 年代初,在如何用计算机去准确描述一 篇文本文档方面,s a l t o n 提出了向量空间模型【4 】。随后,许多学者如k s p a r k 、r m n e e d h 锄、m e l e s k 、k s j o n e s 等在文本自动分类领域进行了卓有成效的研究工作, 并将研究成果应用于现实生活中,这个时期在文本分类方面的应用主要在信息检索、 信息过滤、邮件分类等方面【5 】,同时开发出了c o n s 仃u e 系统。在2 0 世纪9 0 年代之前, 文本分类研究领域中一直占据主导地位的分类方法是基于知识工程的分类方法【6 】。到 北京化工大学硕士学位论文 了9 0 年代以后,机器学习的研究开始迅速发展起来,并逐步取代基于知识工程的分类 方法,从而成为文本分类研究领域的主流分类技术【7 】,这个时期主要将以下技术 基于非确定性的、基于向量空间模型的、基于很少语料词汇、基于支持向量机、基于 决策树等聚类算法,运用信息熵和贝叶斯等理论的方法应用于文本文档的自动分类当 中。同时也出现了一些自动分类系统,包括针对数据库的自动分类系统和基于文本内 容的针对电子邮件进行分类的自动分类系统等。进入2 l 世纪以后,随着网络的发展以 及信息量的增加,又出现了一些新技术应用于文本分类,比如:粗糙集方法、遗传算 法、神经网络分类方法、w e b 文本分类方法等,同时也出现了一些将以上两个或多个 不同的分类器组合起来进行文本分类的分类方法【8 1 0 1 。2 0 0 8 年,j a i l i l 【和k o c h l 】t 提出了 一种基于存在论的文本分类方法【l l 】,该方法的最大特点是不需要对样本数据集进行训 练即可对文本分类。目前的研究中,大都采用将多种分类算法结合起来,提取每种分 类算法的优点,然后组合构建分类器,而且在不同的领域采用不同的分类算法。比如 m o a y e dmj 、s a b e 珂ah 和k h 锄t e y m o o qa 等人利用蚁群算法对w e b 页面进行分类【1 2 】, y ik 和b e h e s h t ij 将隐马尔可夫模型应用到医学文本的自动分类中【1 3 】。到目前为止,上 述这些方法在国外英文文本分类诸如信息检索、邮件分类、电子会议、信息过滤、网 页分类、新闻分类等方面上都有着广泛的应用。 1 2 2 国内研究现状 在国内,对文本自动分类的研究从二十世纪8 0 年代初期才开始起步,研究过程从 开始的可行性探讨研究到后来的辅助分类研究,到最后才进入自动分类研究阶段【1 4 】, 经历了这三个阶段的研究以后,文本分类在国内才有了初步的应用。早期对中文文本 的分类研究主要是翻译英文的一些文献资料,挖掘出英文文本分类的一些相关技术, 然后将其应用到中文文本分类当中,大多以介绍文本分类在国外的一些研究成果为 主,出现了一批综述性的文章。1 9 8 1 年,侯汉清出版了第一部专著【1 5 1 ,介绍国外关于 计算机对文本自动分类的一些概况,在文本分类工作中的应用作了一些探讨。1 9 9 6 年, 吴军、王作英等在中文信息学报上发表了“汉语语料的自动分类”文章【l6 ,在中文 文本自动分类中引入了中文语料库的预处理方法。2 0 0 0 年,李晓黎、刘继敏等人在计 算机研究与发展上发表了“概念推理网及其在文本分类中的应用”文章【1 7 】,文中采用 语义网络概念推理结构对中文进行文本分类的研究。黄营著、吴立德等人在中文信 息学报上发表了“独立于语种的文本分类方法”文章【l 引,该文中提出了一个既基于机 器学习的又独立于语种的分类模型。随后,国内对文本分类的研究就开始多了起来, 也出现了大批研究成果,同时也出现了一批新兴的学科,包括自然语言处理、数据挖 掘、机器学习、统计学习、模式识别等【1 9 1 。研究过程中,先后推出了概念推理网【2 0 】、 2 第一章绪论 n 蹦l i l l 方法1 2 、组合决策树( s t u m p s ) 的方法【2 2 1 、信息粒度原理幽1 以及向量空问模型等 多种方法进行中文文本分类实验。 在国内,目前在文本分类领域主要的分类算法有贝叶斯分类算法、决策树分类方 法、k n n 算法、神经网络算法以及支持向量机方法等【2 4 】。以上这些方法在某些特定的 文本文档分类上都能达到一定的效果,但由于中文本身固有的一些特点( 比如需要分词 过滤才能被计算机理解、句子结构不规范、句子以意的组合为主等) ,对中文进行准确 的分类还是有一定难度的。尤其是现在网络信息量的迅速增加,网络新词的不断出现, 给文本分类的计算带来了极大的挑战。这对于从事中文文本分类的研究人员来说,若 要想找到一个最佳的分类方法进行文本分类,依然是一个很大的挑战和需要更多的研 究。 1 3 论文的章节安排 全文总共分为五个章节,具体安排如下: 第一章绪论 主要介绍本论文研究的背景与研究的意义,并且简要陈述了本课题在国内与国外 的一些研究发展现状和主要研究成果。 第二章文本分类技术 主要介绍在文本分类研究领域的核心相关技术,简要讨论了文本分类的概念、文 本文档的表示方法、文本分类的常用特征选择算法以及文本分类的常用分类算法等相 关技术。 第三章基于意群的文本分类方法研究 本章是本课题研究的核心内容。详细探讨了基于意群的文本分类研究方法,详细 陈述了意群及其概念、意群的方法、如何通过意群建立相应的类别词库以及如何采用 基于意群的文本分类方法进行文本分类,详细论证了利用意群概念及其方法来构建文 本分类的整个过程,包括如何通过特征提取来构建文本的意群类别词库、如何根据类 别词库构建相应的文本分类器等。 第四章文本分类的性能评估及实验结果分析 本章主要是对第三章所提出的方法进行实验分析,简要分析了进行文本分类的定 量评估方法,同时分析了实验得到的最终结果,根据结果进一步证明之前推理论证的 正确性,从而进一步证明本课题研究的可行性。 第五章结论与展望 本章是对本课题研究的一个总结,并对未来需要开展的工作做一下展望。 3 北京化工大学硕十学位论文 4 第二章文本分类技术 2 1 文本分类概述 第二章文本分类技术 所谓文本分类就是对于任意给定的一篇文本文档,经过某种对应法则的作用,将 该未知类别标签的文档映射到某个类别或者多个类别当中,即对某个未知标签的文本 文档打一个类别标签。用数学表示就是:对于任意给定的文档集合: d 面,畋,以)( 2 1 ) 在式( 2 1 ) 中,n 表示文档集合中的元素个数,即文档集中包含有n 篇文档;和预先定 义好的类别集合: c 蚂,c 2 ,q )( 2 2 ) 在式( 2 2 ) 中,m 表示类别集合中的元素个数,即文本分类总共有m 个主题性类别。通 过建立一种对应法则,使得对于d 中的任意元素都能在c 中找到与之相对应的像, 这是文本分类的理论基础所在。理论上,在集合d 和集合c 之间,总存在着一个理 想的映射矽: 矽:d c( 2 - 3 ) 使得任意一篇文本都能归入到某一类的类别标签中。因此,文本分类的过程最终可以 归结为寻找一种对应法则,使得式( 2 3 ) 成立。 由式( 2 - 3 ) 可知,对于任意一篇给定的文本文档d ,只要代入式( 2 3 ) 的对应法则, 即可求出该篇文档所属的类别g 。这就说明,在理论上,只要给定一篇文档,通过相 应对应法则,即可找出与之相对应的像,因此这个结果是可知的。所以可以通过事先 给定的文档以及它所对应的像,然后对它们进行有指导的统计学习,找出它们的对应 关系。在这一过程中,通过缩小实际映射和理想映射之间的误差,就能够找到一个比 较合理的映射。假设通过有指导的统计学习得出的实际映射矽: 缈:d _ c( 2 4 ) 其中,对于一篇文本文档d ,缈( d ) 就是它分类的结果。式( 2 3 ) 是文本与类别之间的理 论映射关系,式( 2 4 ) 是与式( 2 3 ) 相对应的文本与类别之间的实际映射关系。文本分类 的目的就是寻找一个实际映射缈与理想映射矽有着最小误差的对应法则,用数学描述 如下: 5 北京化工大学硕士学位论文 1 1 1 i n 厂( 矽( 4 ) 一驴( 4 ) ) f = i ( 2 5 ) 其中,厂为误差评估函数,如果式( 2 。5 ) 的值越小,说明找到的实际映射缈越优。文本 分类的目标就是求解式( 2 5 ) 的值。 2 2 文本文档的表示 对于任意给定的一篇文档,在人类看来,可以通过阅读去理解,然而计算机是没 法按照人类的思维去实现的。如何才能让计算机去识别一篇文本文档呢,只有对本文 文档进行量化处理,用一个数学模型( 即数学表达式) 来表示,才能让计算机准确描述 一篇文本文档。目前普遍采用的文本表示模型是由s a l t o n g 和w o n g a 等人提出的向 量空间模型【2 5 】。该模型是基于这么一个假设,即文本中词条出现的顺序和出现的位置 并不重要,而且各自对于文本所属的类别所贡献的量是互不相关的,即各个词条之间 相互独立,所以一般情况下就把文本文档看作是由一些无序词条组成的一个向量。在 该向量空间模型中,文本文档z 由一组正交词条组成的向量空间来表示,每篇文本文 档均可以对应到向量空间中的某一个特征向量: y ( 吐) = ( ( ,w 。) ,( :,w :) ,( ,) ) ( 2 。6 ) 在式( 2 6 ) 中,乞表示词条,权重表示文本词条岛对文本文档喀所属类别的贡献程 度。对于词条,计算机无需记录它的值,只需记录该词条的权重即可,因为对于计 算机可以识别的文本文档来说,只要权重按照某一固定的词条顺序排列即可。所以文 本盔可以简化为用特征项权重为分量值的一个向量( w 。,w :,) 来表示,即式( 2 - 6 ) 可以转化为: y ( 面) = ( m l ,w :,) ( 2 7 ) 此时,文本内容的描述就可以用向量空间中的向量来进行描述了,对文本内容的 任何信息匹配问题都可以转化为向量的匹配问题。由于向量空间模型提供了一个完整 的理论框架体系,且在项的权重评价和相似度的计算方面都没有一个严格的统一规 定,均可以使用不同的计算方法,这使得此模型有着广泛的适用性,因此,在多种系 统中得到了广泛的应用。 2 3 文本的特征选择 文本的特征选择是指从初始特征集合中选取一部分有效特征,从而组成一个新的 特征集合的过程,并且,经过特征选择之后的文本,其主要信息仍然不会丢失。由此 6 第二章文本分类技术 可见,经过特征选择之后得到的新的特征集合是初始特征集合的一个子集,且子集的 信息足以描述初始特征集合。如何从初始特征集合中选取最能表示文本内容和其所属 类别的文本新特征集合是文本特征选择的主要研究目标。 目前比较常用的文本特征选择方法包括:文档频率【2 6 1 、信息增益、互信息【2 7 1 、z 2 统计量、期望交叉熵、文本证据权【2 8 】、优势率等【2 9 3 0 1 。在这些方法中,其基本思想都 是通过计算每一个特征的某种统计度量值,然后再根据度量值的结果来进行特征的选 择。如果计算出来的度量值小于预先给定的阈值t ,则把那些特征过滤掉,剩下的特 征就认为是文本的有效特征【3 1 1 。只有准确的提取文本中的相应特征,才能提高文本分 类的准确率。 2 3 1 文档频率 文本频率d f ( d o c i 】m e n tf r e q u e i l c ”是所有特征选择方法中最简单的评估方法,其 主要思想是根据特征词在一个类别中出现的文档频数来统计计算,出现的文档数多的 特征词被选择为特征的可能性比较大。在进行统计计算时,主要对特征词所拥有的文 档频数进行排序,保留出现频率高的前若干个特征词组成所需的文本特征向量,用其 描述该篇文档。但在实际进行计算时,如果每个类别的文档总数不一样,则简单的统 计特征词的文档频数对于别的来别来说是不公平的,所以在计算文档频率时,应该将 类别的文档总数考虑进来,采用如下的计算公式: 跳加鬻 其中,嬲表示特征词f 在类别c 中所出现的文档频数,c 表示类别c 所拥有的文档总 数。在进行特征选择时,可以预先设定一个阈值,如果计算出来的文档频率大于这个 阈值,则保留该特征,否则删除该特征。该特征选择方法由于其统计计算简单,一般 常把它作为评判其他评估函数的基准。 2 3 2 信息增益 信息增益i g ( h 1 旬n 1 1 a t i o ng a i n ) 是指信息熵的有效减少量,根据它可以确定选择什 么样的特征词来对文本进行分类【3 2 1 。信息增益主要是通过计算某一特征在文本中出现 之前的信息熵与出现以后的信息熵之差的大小来衡量该特征的重要性。对于任何的特 征都含有一定的信息熵,如果信息熵比较大,则表明该特征对该类别来说具有很大的 信息含量,即该特征比较重要:反之,如果信息熵比较小,则表明该特征对该类别来 说其信息含量较低,即对分类的贡献较低。根据信息增益的定义,再进行文本的特征 7 北京化工大学硕士学位论文 选择时,需要分别计算特征在文本中出现时的信息熵和不出现该特征时的信息熵,然 后再将两者相减,其结果就是该特征的信息增益值。 对于任何特征,其在文本中出现时的信息熵就是文本初始状态所携带的信息熵, 即为: 日( o = 一尸( g ) l 0 9 2 以q ) ( 2 9 ) 而当文本中不出现该特征友时,该文本所携带的信息熵为: 日( c i d = p ( ) 日( c i ) + p ( f f ) 日( c i ) :一p ( ) 窆p ( gi ) l 。g :p ( ci ) 一p ( i ) 窆p ( qii ) l 。g :p ( qii ) 2 1 0 因此对于任意的特征丁,其对文本所贡献的信息量即信息增益就是将式( 2 9 ) 和式( 2 1 0 ) 相减,可以得到: 佑仃) = 日( c ) 一日( ci 丁) = 一p ( g ) l 0 9 2p ( g ) + p ( ) p ( gi ) l o g :p ( c 膏if f ) ( 2 - 1 1 ) + p ( ) p ( qi ) l 0 9 2p ( c :i ) 。 在式( 2 一l1 ) 中,尸( q ) 表示类别g 文档在语料中出现的概率,尸( ) 表示语料中包含特 征的文档出现的概率,p ( gi ) 表示文档包含特征且属于q 类别的概率,p ) 表 示语料中不包含特征的文档所占的比率,尸( gi ) 表示文档不包含特征且又属于 g 类别的条件概率。 在采用信息增益的方法进行文本的特征选择计算时,因为需要提取信息熵比较大 的特征,所以可以事先设定一个阈值,当信息熵超过这个阈值时,保留该特征,当信 息熵低于这个阈值时,舍弃该特征。设提取特征词的阈值为砌m 办d 肼,特征t 所含有 的信息熵为姬。对文本训练集中的每个特征幺计算信息增益值砸,从原始特征空间 中移除满足( 崛一刀l 朋办d 肠) ( 2 2 8 ) 则独立性假设可以采用下式来表示: 尸似ig ) = 尸( ie ) 枣p ( 乞lq ) 拳幸p ( 乙iq ) = 兀尸( 0lg )( 2 2 9 ) 所以,将式( 2 2 9 ) 代入式( 2 2 7 ) ,可得: 尸( g ) 木兀尸( 0ic :) 尸( gd ) = 根据全概率的计算公式,有: 尸( d ) ( 2 - 3 0 ) 尸( d ) = 尸( g ) 奉p ( dlq ) ( 2 3 1 ) f = l 由式( 2 3 1 ) 的计算可知,以d ) 对于任何一篇待测文本来说,其计算结果都是一样 的,所以只力可以当成一个普通常量来处理,又因为我们最终关心的计算结果并不是 尸( ql d ) 取多大的值,而是只gl d ) 在各个类别之间的排序关系,所以p ( 力对结果的 排序并没有任何的贡献。因此,我们可以舍弃p ( d ) 的计算,则朴素贝叶分类器的最 终计算公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论