(计算机软件与理论专业论文)中文网页褒贬倾向性分类研究.pdf_第1页
(计算机软件与理论专业论文)中文网页褒贬倾向性分类研究.pdf_第2页
(计算机软件与理论专业论文)中文网页褒贬倾向性分类研究.pdf_第3页
(计算机软件与理论专业论文)中文网页褒贬倾向性分类研究.pdf_第4页
(计算机软件与理论专业论文)中文网页褒贬倾向性分类研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)中文网页褒贬倾向性分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 文本自动分类是一种有效的信息处理方法,广泛应用于信息检索、信息过滤、 信息管理、数据组织等领域。随着计算机和网络通信技术的发展,i n t e m e t 迅速 成为海量的、动态的全球信息服务中心,如何在浩若烟海而又纷繁芜杂的w e b 文档中掌握最有效的信息成为信息处理技术遇到的新的挑战。w 曲文本自动分类 技术是目前w 曲数据挖掘的研究热点之一,它能够有效地组织和管理w 曲资源, 提高信息检索的效率。网页自动分类技术与主题搜索、个性化信息检索、信息过 滤、信息主动推送服务等技术相结合,可以有效地提高了信息服务的质量。 传统的w c b 文本分类是根据网页所涉及的主题来进行分类,如将网页分为 政治类、军事类、经济类等等,而根据网页中作者对所描述内容的看法、观点等 主观感情色彩进行分类的研究较少,我们称后者为情感分类。网页内容的褒贬性 就是明显反映作者观点、态度的感情色彩之一,网页褒贬倾向性分类是未来多角 度、立体性、个性化文本分类的研究内容之一。 本文探讨了网页褒贬色彩的客观性和褒贬倾向性分类的可行性,提出了名人 刚页褒贬感情色彩的综合评价方法。作者通过构建褒贬义词典和褒贬评价模板, 提取出网页文本中具有情感取向的褒义词、贬义词及语法结构等褒贬特征,结合 情感计算和层次分析法的相关理论,建立褒贬评价模型,实现对名人网页褒贬感 情色彩的综合度量。同时,针对褒贬倾向的局限性,文中还提出了一种领域褒贬 词媳的构建方法,并探讨了使用模板自动更新褒贬词典的可行性方案。 在上述研究的基础上,结合自动分类技术,本文进一步探讨了名人网页褒贬 倾向性分类的工作原理和实现方法,提出了l s i 和州相结合的褒贬分类模型。 根据网页的褒贬评价结果,提出了种新的文本相似度计算方法,并给出了有关 特征提取和分类过程的具体算法。最后,在名人网页数据集上,对上述理论进行 了实验验证,取得了较好的成效。 关键词:领域词典构建,褒贬特征提取,褒贬评价模型,褒贬倾向性分类,k n n a b s t r a c t a u t o m a t i ct e x i c a t e g o r j z a t i o n( a = r c ) i sak i n do fe f f e c t i v ej n f o r m a t i o n m a n a g e m e n t ,w h i c hi sb m a d l yu s i n gi n f i e l d s s u c ha s i n f o s e a r c h ,i n f o - f i l t e l i n f b m a n a g e m e n ta n dd a t a o r g a n i z i n g e t c w i t ht h e t e c h n o l o g yd e v e l o p m e n to f c o m p u t e r ,n e t w o i ka n dc o m m u n i c a t i o n ,1 1 1 t e m e tr a p i d l yb e c a m eag i g a n t i c ,d y n a m i c , g l o b a li n f 0 一s e i c ec e n t e lh o wt om a s t e rf u n h e re d l c c t i v ei n f o r m a t i o ni ns ov a s t , c o m p l i c a t e d w e bd o c u m e n t s ,w h i c hb e c 锄ean e wc h a l l e n g eo f i n f o r m a t i o n m a n a g e m e n tf i e l d w 曲d o c u m e n t sa u t o m a t i cc a t e g o r i z a t i o ni sae f f c c t i v ew a yt o o 唱a n i z ea n dm a n a g ei t e m e tr e s o u r c e ,w h i c hc a ni m p r o v ee f f i c 主e n c yo fi n f o n l l a t i o n s e a r c h ,s ot h a ti sar c s e a r c hh o t s p o to fw e bd a t am i n i n ga tp r e s e n t t h et e c h n i q u eo f a u t o m a t i cw 曲p a g e sc a t e g o r i z a t i o nc a nc o m b i n ew i t ht o p i cs e a r c h i n 舀i n d i v i d u a l i n f o s e a r c h ,i n f o f i l t e r , i n f 0 - d e l i v e r a u t o m a t i c a l l ys e r v i c e , w h i c hc a ni m p r o v e i n f o m l a t j o ns e r v i c eq u a l i t ya v a i l a b l y t r a d i t i o n a lw e bd o c i l m e n t sc a t e 舒) r i z a t i o nw e r eb a s e do nt o p i co fd o c u m e n t s ,f o r e x a m p l e ,c a t e g o r i z ew c b p a g e st op o l i t i c a l ,m a n i a l ,o re c o n o m i cc a t e g o r i e sa n ds oo n , w h e r c a sc a t e g o r i z a t i o n sb a s i n gs u b j e c t i v es e n s a t i o ns u c ha s a t t i t u d e ,v i e w p o j n to f w 曲p a g e s a u t h o ra r el e s s w ec a l lt h i sa s s o nm a n n e ri sa f f e c t i o n a lc a t e g o r i z a t i o n t h ea p p r a i s a lo fw e bc o n t e n ti sak i n do fs e n s a t i o nt h a tc a nr e f l e c te v i d e n t l v v i e w p o i n ta n da t t i t u d eo fa u t h o lw e b p a g e sa p p r a i s i v eo r i e n t a b l ec a t e g o r j z a t i o nj so n e o fr e s e a r c hc o n t e n t so fm u l t i a n g u l a lt r i d i m e n s i o n a l ,i n d i v i d u a lt e x t c a t e g o r i z a t i o n s y s t e m t h ep a p e rd i s c u s s e dt h eo b j e c t i v i t yo fa p p r a i s j v ei nw e b p a g e sa n df e a s i b i l i t yo f a p p r a i s i v eo r i e n t a l b l ec a t e g o f i z a t i o n ,a n dp o i n t e do u tak i n do fs y n t h e t i c a le v a l u a t i o n w a yt oa p p m i s i v ee m o t i o ni n s o m e c e l e b r i t i e s w 曲p a g e s b yt h em e a n o f c o n s t r u c t i n ga p p r a i s i v ed i c t i o n a r ya n de v a l u a b l et e m p l a t e ,w ec a ne x t r a c tt h o s e a p p r a i s i v ef e a t u r e ss u c ha sa p p r a i s i v ew o r d sa n dp h r a s ef r a m et h a ti n d j c a t ee m o t i o n t e n d e n c yo fa u t h o la n du s i n gc o e l a t i v et h e o r i e sa b o u ta f f e c t i v ec o m p u t i n g ( a c ) a n da n a l y t i ch i b e r a r c h yp r o c e s s ( a h p ) ,w eb u j l tam a t h e m a t i cm o d e lo fa p p r a i s i v e - n e v a l u a t j o n ,a n di m p l e m e n t e da p p r a i s i v em e a s u r ei ns o m ec e l e b r i t i e s w e b p a g e s ,a t t h es a m et i m e ,a i m i n g 时l o c a l i z a t i o no fa p p r a i s a l ,t h ep 印e rp o i n t e do u tam e t b o do f c o n s t f u c t i n gd o m a i na p p r a i s i v ed i c t i o n a r y a n dd i s c u s s e daf e a s i b l es c h e m eo f a u t o - u p d a t i n ga p p r a i s i v ed i c t i o n a r yb ye v a l u a b l et e m p l a t e b a s i n ga b o v er e s e a r c h ,c o m b i n i n gw i t ha t c ,t h ep a p e rd i s c u s s e dt h e t a s k p r i n c i p l ea n di m p l e m e n tm e t h o do fa p p r a i s i v eo r i e n t a b i ec a t e p r i z a t i o no nc e l e b r i t i e s w 曲p a g e si nf a r t h e r ,a n dp o i n t e do u taa p p r a i s i v ec a t c 9 0 r i z a t i o nm o d e lb yc o m b i n i n g l a t e n ts e m a n t i cl n d e x ( l s i ) a n dk - n e a r e s tn e i g h b o u r ( k n n ) u s i n gt h eo u t c o m eo f a p p r a i s v ee v a l u a t i o no nw c b p a g e s ,t h et h e s i sp u t0 u t an e wc a l c u l a t cm e t h o do f d o c u m e n t sc o m p a r a b i l i t y ,a n dd e s c r i b e dt h em a i np m c e s s e so ff c a t u r ee x t r a c t i n ga r i d c a t e g o r i z a t i o na l g o r i t h m si nd e t a i l s t h e n ,w ec a 玎i e do u tas e r i e so fe x p e r i m e n t si n d a t ac o l l e c to fc c l e b r i t i e s w 曲p a g c s ,a i l da c q u i r e dp r e f e m b l ee f f e c t s , k e y w o r d s :c o n s t 埘c t i n g 印p r a i s i v ed i c t i o n a r y ; a p p r a i s i v ef c a t u r ee x t r a c t i n g ( a f t ) ;印p r a i s i v ee v a l u a t i o nm o d e l ;a p p r a i s i v eo r i e n t a b l ec a t e g o r i z a t i o ;k n n i l i - - 郑重声明 y9 7 5 6 本人的学位论文是在导师指导下独立撰写并完成的,学位论文没有剽窃、抄 袭等违反学术道德、学术规范的侵权行为,否则,本人愿意承担由此产生的一切 法律责任和法律后果,特此郑重声明。 学位论文作者 熊锤互 加辟,月,一f 1 郑州人学硕。i 二学位论文 第一章绪论 近年来,随着计算机的普及和网络技术的不断完善,i n t e m e t 已经成为全球 最庞大最丰富最廉价的信息资源库,并迅速地渗透到社会经济的各个领域,孕育 了人类社会的一场新的信息革命。一方面,它为世界各地的人们提供了一个平等 高效、简洁易用的资源宝库,另一方面,用户对自己的特定需求信息却越来越难 以找到。因此,网上信息挖掘、个性化的网络信息服务等已经成为目前研究的热 点。 1 1 研究背景 自从1 9 9 1 年诞生以来,i n t e m e t 已经发展为拥有数亿用户和数百万站点、数 亿页面的巨大分布式信息空间,而且这个数字仍以每4 至6 个月翻一番的速度增加 【1 j 。i n t e m e t 上庞大的数据资源是人类发展进步的综合体现,具有巨大的潜在价值, 但是这种简单粗糙、杂乱五章的数据堆砌并没有太大的价值,数据的真正价值体 现在人的处理能力中。数据挖掘( d a t am i n i n g ) 【2 】1 3 】就是从大量的、不完全的、有 噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程,它是一种综合应用统计分析、数据库、智能语 言等来分析庞大数据资料的智能化技术。 w e b 挖掘【4 】1 5 】是对数据挖掘的一种新的发展和应用,它是从大量的w 曲文档 和w e b 活动中发现、抽取出感兴趣的、潜在的有用模式和隐含的、事先未知的、 潜在的信息。按照挖掘的对象和目的的不同将w e b 挖掘分为三种类型:w 曲内容 挖掘【6 】( w e bc o t c n tm i n j n g ) 、w 曲结构挖掘1 7 】【8 j ( w c bs t m c t u r em i n i n g ) 、w e b 使用记录挖掘洲10 】( w 曲u s a g em i n i n g ) 。在这几种w 曲挖掘任务中,w e b 文本挖 掘是日前最为活跃的一个研究领域。其中,w 曲文本自动分类技术逐渐受到研究 人员的重视。将互联网上纷繁芜杂的w 曲网页进行分门别类,就可以更好地组织 和规划w c b 资源,大大地提高网上信息检索的效率。随着各种网站及网页数量的 迅速增氏,w e b 文本分类技术的研究也越来越受到人们的关注。 w e b 文本分类就是将文本自动分类( a u t o m a t i c t e x tc a t e 2 0 r i z a t i o n ,a t c ) 技 术的处理对象从普通文本扩展到结构复杂的w e b 文本。冈此,a t c 技术是我们研 郑卅l 大学硕卜学位论文 究和实现w e b 文本自动分类的基础。所谓文本自动分类就是用计算机程序来确定 指定文本和预先定义好的类别之间的隶属关系【s e b a s t i a n i ,1 9 9 9 】。在w e b 出现之 前,人们已经对文本分类问题进行了大量的研究,形成各种比较成熟的文本自动 分类技术。目前,一些比较常用的文本分类算法已经被成功应用到网页分类中, 如贝叶斯分类算法 1 1 】【1 2 1 【1 3 】,k n n 分类算法【1 4 1 ,基于质心的分类算法【1 5 1 ,支持向 量机分类算法f 1 6 】f 1 7 】,决策树分类算法【1 8 】【1 9 】,神经网络分类算法【2 0 】等,它们在实 际应用中有各自的优点。 自动分类技术发展至今,已经有5 0 多年的历史了。目前来看,未来自动分类 技术的发展方向应该主要聚集于立体性、动态性、面向用户性三个方面1 2 1 j ,所 谓的立体性就是指从不同角度或不同侧面考察文本的特征,挖掘出不同偏重的信 息,而目前的自动分类系统大都是适应于某一个特定主题的分类体系的,多个分 类体系之问也不能转换;动态性是指分类方法可以随着信息的变化不断地更新变 化;面向用户性是指分类系统能够根据不同用户、不同场合下的分类需求做出个 性化的调整,以满足用户的不同需求。 1 2 研究内容 目前,国内在中文文本分类和中文网页分类领域也进行了大量的研究,但现 有的网页分类大多是根据文本所涉及的主题来进行分类,如将网页分为政治类、 军事类、经济类等等,或是在一种大类别下在进行较为详细的分类,如在计算机 相关的网页中划分出软件开发、硬件技术、互联网等等。而根据网页中作者对所 描述内容的看法、观点等主观感情色彩进行分类的研究很少,我们称之为情感态 度的分类方式,它是未来实现多角度、立体性文本分类的一个重要研究方面,具 有广泛的应用前景。网页内容的褒贬性就是明显反映作者观点、态度的感情色彩 之一。 名人一直是大众关注的焦点,名人相关的信息是网络炒作的主题之一。名人 的生平介绍、社会评价等均会不同程度地带有作者的情感态度倾向,即使是名人 相关的新闻报道也会传递了作者及其所代表的集团或派别的立场和观点【2 2 1 。而 传媒、普通民众,尤其是名人自己都需要及时了解这些正而或反面的报道和评论 信息。我们所做网页褒贬倾向性分类就是专门针对名人网页进行的。 郑州大学硕十学位论文 对名人网页进行褒贬倾向性分类,有助于人们快速及时地了解到该名人相关 的f 缸或反面的信息,为类似的情感分类提供了可以借鉴的范例,诸如产品质量 评价、新政策法规的民众反映、网民对某事件或电视、文艺作品的看法等等。 本文针对褒贬性分类的特殊性和领域局限性,提出了网页文本内容褒贬色彩 的分析和评价方法,探讨了褒贬倾向性分类的工作原理和具体的实现方法。我们 的工作具体包括以下几点: 资源构建 根据汉语语言的感情色彩,构建了一系列用于褒贬分析和评价的褒贬评价资 源,包括基本褒贬词典、领域褒贬词典以及结构化的评价模板。 褒贬特征识别 利用褒贬评价资源识别网页中褒贬特征信息,包括褒贬词语的标注和褒贬特 征的提取,并在此基础上提出了依赖模板的词典自动更新方法。 褒贬评价模型 结合情感计算和层次分析法的相关理论,建立褒贬评价的数学模型,从而实 现名人网页中褒贬情感态度的综合度量。 褒贬分类网页库的构建 建立统一的褒贬分类标准,在现有名人网页库的基础上,采用人工分类和机 器褒贬评价相结合的方法,建立褒贬分类专用的褒贬倾向性名人网页库。 l s i 和k n n 相结合的褒贬分类模型 结合文本自动分类技术,将上述研究结果应用到名人网页的褒贬倾向性分类 中,探讨了一种潜在语义索引和k n n 分类算法相结合的褒贬倾向性分类模 型,提出了一种新的文本相似度计算方法,对特征提取方法和分类算法进行 了具体的描述,并在名入网页集上对上述理论进行实验验证。 1 3 本文的主要工作及组织结构 本文介绍了文本自动分类技术和中文网页分类的主要方法和关键技术,重点 探讨了如何通过分析网页内容实现褒贬感情色彩的综合评定,介绍了名人网页褒 贬倾向性分类的工作原理和实现方法,全文共分七章。 第一章是绪沦部分。主要介绍了本课题研究的背景知识,课题研究的内容、 郑州大学硕。l 学位论文 意义以及文本的组织结构。 第二章是理论基础。主要介绍了文本自动分类技术的概念、应用领域、主要 任务、工作过程以及分类结果的评价方法。 第三章是介绍了中文网页的特点和自动分类中的几个关键问题,包括中文分 词、文本表示模型、特征选择方法以及分类算法等。 第四章是网页褒贬评价部分,重点介绍了褒贬资源的构建方法、褒贬特征信 息的识别方法、褒贬评价的数学模型,给出了部分网页褒贬评价的实验结果,指 明了进一步的改进方向。 第五章介绍了网页褒贬倾向性分类的主要原理和实现方法,提出了一种新的 文本相似度计算方法,对特征提取方法和分类算法进行了具体的描述,并在名人 网页集上对上述理论进行实验验证。 第六章是总结部分,总结本文的研究工作,对未来的工作方向作进一步展望。 郑州大学硕十学位论文 第二章文本自动分类 自动分类技术的研究始于2 0 世纪5 0 年代未,i b m 公司的h p l u h n 在这一领 域进行了开创性的研究。自动分类在国外大致经历了可行性研究( 1 9 5 8 1 9 6 4 ) 、 实验研究( 1 9 6 5 1 9 7 4 ) 到实用化( 1 9 7 5 至今) 三个阶段【2 3 】【2 4 】。我国的自动分类研 究始于8 0 年代初期,大体上经历了从可行性探讨辅助分类系统一自动分类系统 三个发展阶段【吲。8 0 年代中期开始,我国的一些大学、图书馆和文献工作单位 开展了档案、文献、图书的辅助或自动分类研究,并陆续研制出一批计算机辅助 分类系统和自动分类系统,这些系统主要集中在中文处理领域。 本章主要介绍了文本自动分类的有关概念、分类的实现方法和分类结果的评 价方法等。 2 1 文本自动分类的概念 自动分类技术是在手工分类技术的基础上发展起来的。文本自动分类 ( a u t o m a t i ct c x tc a t e g o r i z a t i o n ,a t c ) 【y h n ga n d “u ,1 9 9 9 】就是利用计算机对文 本集( 或其它实体或对象) 按照一定的分类体系或标准进行自动类别标记【2 6 l 。 按文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动 分类、基于信息过滤和用户兴趣的自动分类。目前国内对自动分类的研究多是基 于分类体系的系统【2 7 1 。基于信息过滤思想的自动分类法实际是一种不基于一个 严格的分类体系对文本进行分类的分类方法。文本数据不同于常见的关系数据, 它不是结构化的,因此文本数据库没有属性映射到值对这样的结构。 文本分类主要应用以下几个方面: ( 1 ) 文献自动标引 标引是指用一个或若干个词来表示文献内容特征的过程。用于标引的关键词 和词组属于一个专业词典,把该词典的条目看成不同的类别,标引的过程就是一 个文本分类的过程,这种文献自动标引功能在数字化图书馆中非常重要。 ( 2 ) 文本过滤 文本过滤通过排除掉不感兴趣的文本,提供有i 【 = | 的信息给用户。过滤的过程 r i j 以看成是个单一类别的文本分类,输入文本被分成两种:十h 芙的和不十 1 关的。 郑州大学硕:l 学位论文 邮件过滤就是文本过滤的一个典型应用。 ( 3 ) 词义排岐 词义排岐是遇到多义词时判断出适合于当前环境下的一种f 确意思。它把该 词出现的语言环境作为待分类的文本,词的几种词义作为类别,这在机器翻译中 很有用。 ( 4 ) 网页分类 w w w 是一个巨大、分布广泛的信息服务中心,它涉及新闻、广告、教育、 政府、电子商务、消费信息等诸多方面的内容,一个好的分类系统对于网络用户 来说是非常必要的。 2 2 文本自动分类的实现方法 2 2 1 分类任务描述 文本自动分类系统的任务是:在给定的分类体系下,根据文本的内容自动地 确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标 明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的 映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下: ,:4 一b 其中,4 为待分类的文本集合,口为分类体系中的类别集合 文本分类的映射规则是系统根据已经掌握的每类大量样本的数据信息,总结出 分类的规律性而建立的判别公式和判定规则,然后在遇到新文本时,根据前面得到 的判定规则,确定新文本相关的类别。 2 2 2 分类过程 对于一般的模式识别系统,主要有4 个部分组成:数据获取,预处理,特征 提取和分类决策。而对于文本分类这样特定的模式识别系统,初始的数据是所给 定的f _ 乜予文档,数据获取的过程通常是可以省略掉。预处理的目的是去除噪声, 加强有用得信息,并且为后面的特征提取做准备。为了有效地实现分类识刚,就 婴对原始数掘进行变换,得到最能反映类别本质的特征,这就是特征提取的过程。 郑州大学硕i 学位论文 一般把经过特征提取后得到的用于分类的空阳j 叫做特征空间,在文本分类中特征 空白j 大多是采用文本中的关键词来表示。分类决策就是在特征空间中t = | j 特定的方 法把被识别对象归为某一类别。基本做法是对预先确定大量的样本数据上训练, 得到一个判定规则,去判定一个新的未知文本,并反复实验,使得按照某种判定 规则对被识别文本进行分类所造成的错误识别率最小或引起的损失最小。这样的 文本分类过程如图2 1 所示。 2 2 3 分类算法 图2 1 文本自动分类一般过程 分类算法是指使用什么样的方法来获取分类判定规则,分类算法的好坏直接 影响分类结果的优劣,文本自动分类算法大致分为以下三类: ( 1 ) 词语匹配法。包括简单词语匹配法和基于同义词的词语匹配法两种。 简单词语匹配法就是根据文本和类名中共同出现的词语决定文本属于哪些类,该 算法简单、直观,分类效果很差。基于同义词的词语匹配法是对简单词语匹配法 的改进,它先定义一张同义词表,然后根据文本和类名以及类的描述中共同出现 的词决定文本属于哪些类。这种算法的分类规则很机械,对文本的上_ f 文不够敏 感,分类的准确度仍然很低。 ( 2 ) 基于知识工程的方法。这种分类方法需要知识工程师手工地编写大量 的推理规则,这些规则通常是面向具体领域的,当处理不同领域的分类问题时, 分类质量得不到保证,因此在实际的分类系统中较少使用。 ( 3 ) 统计学习法。该方法的基本思路是先搜集一些与待分类文本同处个 领域的文本作为训练集,并由专家进行人工分类,保证分类的准确性,然后分析 这些已经分好类的文本,从巾挖捌关键词和类之i 训的联系,最后冉利用这些学剑 郑州大学硕j j 学位沦文 的知识规则对未知类别的文本进行分类。因此,这种方法通常忽略文本的语言学 结构,而用关键词来表示文本,通过有指导的机器学习来训练分类器,最后利用 训练过的分类器来对待分类的文本进行分类。这种基于统计的经验学习法具有较 好的理论基础、简单的实现机制、以及较高的文本分类质量等优点。因而,目前 实用的分类系统基本上都是采用这种方法。 根据分类结果的不同,基于统计学习法的分类系统在整体上可以分两类:独 立二元分类( i n d e p e n d e n tb i n a r y ) 和m 元分类( m a r y ) 【黄箐萱a l l d 吴立德,1 9 9 8 】。 所谓独立二元分类,就是给定一篇文本,分类系统对于每一个类都独立地判定该 文本是否属于该类;m 元分类是给定一篇文本,系统计算该文本与所有预先定义 的类别的相似度,并按这篇文本和各个候选类的相似度排序,最后输出候选类列 表。 2 3 分类结果的性能评价方法 因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是 映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,即分类 算法的时问复杂度和空间复杂度;而评估映射准确程度的参照物是通过专家思考 判断后对文本的分类结果( 这里假设人工分类完全正确并且排除个人思维差异的 因素) ,与人工分类结果越相近,分类的准确程度就越高,这罩隐含了评估文本 分类系统的两个指标:准确率和查全率。 准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学 公式表示如下: 准确率c p ,e c 拈如n ,t 姜豢罢;:i 豢 公式c :- , 查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数 学公式表示如下: 查全率( ”m ) = 坌毒罢器公式( z z ) 、 应有文本数 准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不l 丁 偏腹,冈此,存在一种新的评估指标,其数学公式如下: 郑州大学硕l 学位论文 舢蝴= 篙裟 自动分类的目标是使分类的准确率和查全率都尽量高,f 1 测试值就是试图 在两者之问找到平衡点。另外,根据计算方式的不同,还存在两种结果表示方法: 宏观f 1 值( m a c r o f 1 ) 和微观f 1 值( m i c m f 1 ) 。 宏观f 1 值的计算方法是:计算每个类别f 1 值,然后计算它们的算术平均 值;微观f 1 值的计算方法是:先统计全部类别的准确率、查全率,然后计算f 1 值。其计算公式分别为: 胁。娟! 曼,。 m f - 1 。打f ,z 去善p t 三蓦r 酊c 阳一,1 立二二型兰生 去蓦p ,+ 去耋n ,n 何,”倒 公式( 2 4 ) 公式( 2 5 ) 郑州大学硕 学位论文 第三章中文网页分类中的关键问题 网页分类是使用机器学习的方法实现网页类别的自动标注。对于网页文本分 类的研究主要分两种思路,一是用表示纯文本的方式表示网页,二是组合文本分 类器的方法。g h a n ir 和f u m k r a n z 等人尝试用网页中的标记和元数据等信息进 行网页分类,正确率比使用网页局部文本具有不同程度的提高【2 8 】【2 9 】【3 0 】;h w a n i o 和c h o o n 等人用组合网页分类器的方法进行网页分类,其中。个分类器用网页 中的纯文本、标题和子标题文本表示网页,另一个分类器用指向该网页所有链接 周围的文本表示网页【3 l 】【3 2 】,国内范焱等人提出一种用朴素贝叶斯协调分类器综 台网页纯文本和其他结构信息的分类方法【3 3 】,试验结果证明组合后的分类器性 能都有一定程度的提高。 本章中,我们可以结合目前自动分类技术的研究成果,通过分析中文网页的 结构特征,介绍了网页自动分类中的几个关键技术问题,包括中文分词技术、网 页文本的表示方法、特征选择方法及分类算法等。 3 1 中文网页的特点 网页与一般的文本有很大的不同,网页所含信息主要体现在以下三个部分: 刚页正文( 包括标题正文) 、网页所含的超文本标记、网页间的超链接。如下图 3 1 所示。 图3 1 网页所含信息的构成 网页分类时首先要将超文本转化成普通文本,即网页过滤,过滤后的网页与 普通文本基本一样。通过对中文大量网页进行分析,在有关语言专家进行测试的 基础卜,可以认为: ( 1 ) 中文网页的内容是使用中文书写的,不像英文单词之问有自然的问隔, 中文网页需要分词处理,分测的效果能够显著地影响分类的效果。 郑州人学硕士学位论文 ( 2 ) 中文网页分类并不一定要建立在对网页内容真正理解的基础之上,某 种语言单位( 如字,词,短语,) 在网页中出现的频度,可以作为 分类的依据。人在猜测类别归属时,较少( 实际上也难以) 利用语义 和背景知识重构文本,同时常用词和短语的总数也在一个合理的、汁 算机能够处理的范围之内。因而,“词”或“短语”可以作为文本自动 分类的依据【3 4 】。 ( 3 )网页中还有大量的h 删l 标签和超链信息,它们对分类质量有一定的 影响,如包含在标题 标签内的内容通常要比出现在币文 标签中的内容重要得多,网页中的超链接通常会指向相关或 相同的主题。 ( 4 ) 网页通常包含有大量的“噪声”,如各类广告,设计人员的注释以及版 权声明等。这些“噪声”与分类无关,还可能降低分类的质量。因此, 在分类之前需要对网页进行必要的预处理。 因此,单纯提取w 曲页面中文本部分对网页进行分类是不够合理的,也是 不准确的。在研究中,我们根据不同标签中内容的重要程度,对常用的h t m l 标签赋予不同级别的权重,最后在提取相应标签中的特征词语时加入标签权熏的 考虑。 3 2 中文分词 在汉语中,词是最小的能够独立活动的有意义的语言成分【3 5 j 。在中文文本中, 词与词之间却没有明确的分隔标记,是连续的汉字串,因而汉语分词( 自动识别 词边界,将汉字串切分为f 确的词串) 是中文信息处理的首要问题。在文本建模 之前,首先要进行中文分词处理,将文本表示成为一系列特征项的形式。这罩的 特征项是基本的文本表示单位,特征项可以选择字、词或词组,实验结果表明, 选取词作为特征项要优于字和词组。因此,文本分类巾一般采用词作为特征项表 示文本。 目前,常用的分词算法一般分为以下三类: ( 1 ) 机械分词 机械分b 时旨的是依据词典,按照一定的策略将汉字串与词典t ,的渊逐匹 郑州人学碗l 学位论文 配,如果匹配成功,就加以切分。该方法简单,易于实现,但是对于歧义切分和 未髓陆词语不能很好解决。按照优先匹配的词长和扫描方向的不同,有f 向最大 匹配、正向最小匹配、逆向最大匹配和逆向最小匹配等四种分词方案。 ( 2 ) 基于理解的分词 基于理解的分词方法旨在分词的同时进行句法、语义分析,利用句法信息和 语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、 总控部分。在总控部分的协调下,分词子系统获得词、句子等句法和语义信息, 并对分词歧义进行判断,确定最终的分词结果。该方法模拟了人对句子的理解过 程,分词效果较好,但需要使用大量的语言知识和信息。 ( 3 ) 基于统计的分词 这种分词方法利用了一种基于统计学的n g r a m 技术,根据相邻词的共现频 率自动提取特征,使文本数据分类实现了分类的领域无关性和时间无关性。它无 需任何词典支持,对输入文本所需的先验知识少,但是,在n g n 进行信息提 取时,会产生非常大的数据冗余,时间代销大。 在本研究中,我们使用的分词技术是北京大学计算语言研究所研究开发的中 文分词标注系统( c h i n e s e t e x ts e g m e n t a t i o na n dp o st a g g i n g s y s t e m ) ,它能有效 地对汉语文字段进行切分,并对词语在当前语境中的词性进行标注。 3 3 网页文本表示方法 对于文本数据库这样的非结构化数据,通常采用的挖掘方法是首先进行结构 化处理,再在此基础上进行知识的挖掘。计算机并不具有人类的智能,人在阅读 文章后,根据自身的理解能力可以产生对文章内容的模糊认识,而计算机并不能 轻易“读懂”文章,从根本上说,它只认识0 和1 ,所以必须将文本转换为计算 机可以识别的格式,这就文本建模的过程。 3 3 1 文本特征表示原则 特征表示是为了将非结构化的文本表示为规范化的向嚣模型,以便计算机 的理解和处理。特征向量是指采用向量形式,确切的描述对象自身特征或对象之 mj 的联系。种好的文本表示模型需要遵循以下两点: 郑州大学顾十学位论文 【准则1 】舰范化准则:对特征向量进行必要的规范化处理,使其具有相同的长 度。设特征向量阮c 向,= t ,矿z ,m 1 1 s fs n ,对于娩c 细r 中的每个m 有 眠其、防。 【准则2 】相关性准则:相关性揭示了描述对象之间的相关程度,规范化特征向 量娩c f d r l 与另一+ 个规范化特征向量娩c 幻r 2 之间的相关性按如下公式计算: r e 2 ( 娩c 幻r 1 ,阮c 幻r 2 ) 。善矿2 。 3 3 2 文本特征表示模型 在对网页文本进行噪声消除、标签过滤、中文分词、停用词去除等预处理过 程之后,就可以开始构造文本在计算机内的表示模型。文本表示模型有多种,常 用的有布尔逻辑模型、概率模型和向量空间模型等。 ( 1 ) 布尔模型 布尔模型【3 6 l 就是采用布尔表达式对文本进行标识。布尔模型在传统的信息 检索中有广泛的应用,它通过与用户给出的检索式进行逻辑比较来检索文本,是 一种基于关键词的匹配。在标准的布尔模型中,文本采用如下的表达形式: 或= ( 彬,彬:,矸0 ) 其中,n 为特征项的个数,彬。为1 或o ,表示第k 个特征项是否在文本d 。中 出现。 用户根据关键词在文本中的布尔关系提交查询,搜索引擎根掘事先建立的倒 排索引表,确定查询结果。布尔模型的优点是简单、快速,易于掌握,缺点是,1 i 够精确,容易漏掉符合检索意图的文本,不能完全反映文本与关键词相关程度的 差异,结果4 i 易排序。 ( 2 ) 概率模型 概率模型1 3 7 】是考虑词与词之削的相关性,把文本集中的文本分为相关文本 和无关文本。以数学理论中的概率论为原理,通过赋予词某种概率值束表示这些 溯存相关文本和无关文本巾出现的概率,然后计算文本之间的十h 父概率,系统搦 郑州大学硕十学位论文 此概率做出决策。概率模型具有严格的数学理论依据,并采用相关反馈原理,使 得理论更加坚实。但是该模型表示文本需要消耗大量的机器资源,而且参数估计 难度较大。 ( 3 ) 向量空间模型 向量空间模型【3 8 】【3 9 】是由s a l t o n 等在6 0 年代提出来的,并在著名的s m a n 系 统中实现。 在向量空间模型中,每一个文本都被表示为一组规范化正交矢量所组成的空 间向量中的一个点,即形式化为n 维空间中的向量,形如: d ;= ( i ,嘭,) ,幔:,彬:) ,( 乙,讳么) ) ,其中乙为特征项词条,w 么为特征项的权重。 权重的取值范围是【o ,1 】,表示该词在文本中的重要程度,权重越大,表示该词反 映d 。的能力越好;权重越小,则该词反映d 。的能力就越差。这样,文本信息的 表示以及文本类别之间匹配问题就转化为空间向量的表示与匹配问题。 使用向量空间模型表示文本,可以提高文本的可计算性和可操作性;引进词 语权重的概念,将向量的值定义到实数域中,大大地提高了匹配效率,因此,向 量空间模型成为目前文本分类算法中普遍使用的一种方法。 3 2 3 特征项的权重计算方法 在上述几种特征表示模型中,向量空间模型( v s m ) 是目前文本分类中使 用较多、效果较好的一种文本特征表示方法。在v s m 中,选取的特征项是影响 分类结果好坏的重要因素,一个好的特征项集合应该具有以下两个性质: 完全性:特征项集合能够充分体现目标内容,即各词条在该类文本中出现 的频率足够高; 区分性:特征项集合能将该类文本与其他类文本区分丌柬,即词条在其他 类别文本中出现的频率足够低。 设文本集合d = d - ,d z ,眈 ,所有特征项集合丁= 丁t ,丁:,l ) ,这样每个 文本可以表示为向量的形式:功= 缈l ,:。,) ,其中;肌瞎 f ) ,表示。 特征项n 存文本肪中的权重。 郑州大学硕 :学位论文 特征项的权重就是特征项在文本中的作用,目前,有多种特征项的权重计算 方法,如t f ,i d f ,t f i d f 等。t f 单纯考虑词语在文本中出现的次数,即 p ,孑) = 矿p ,孑) ;刚d f 不仅了考虑了该词语在当前文本出现的次数,还考虑了 包含该词语的文本数目以及文本长度等综合因素,是在目前被广泛采用的一种计 算方法,其公式为: 缈1 攀坐! 塑些竺! :! 墅i ,卣妙p ,i ) l o g ( o o 坩 其中,缈( f ,孑) 为词语f 在文本孑中的权重,矿o ,孑) 为词语f 在文本孑中的词频, 为训练文本的总数,为训练文本集中出现f 的文本数,分母为归一化因予。 3 4 特征向量维数压缩 按照上述v s m 表示文本后,向量空间的维数往往十分庞大,这就使得分类 算法非常低效,而且并不是所有的词语对文本分类都有贡献。实际上,那些通用 的、各个类别都普遍存在的词汇对分类的贡献小,而在某特定类中出现比重大而 在其他类中出现比重小的词汇对文本分类的贡献大。为了删除噪声,减少冗余度, 尽可能提高分类的速度和精度,有必要对原有的特征向量空间进行维数压缩。特 征向量空间维数压缩的方法分为特征选择和特征抽取两种。 3 4 1 特征选择 特征选择主要用于排除与类别无关或关联性不大的特征。一般的做法是构造 个评估函数,对特征项集合中的每个特征项进行独立的评估,这样就可以得到 每个特征项的评估分值( 即权值) ,然后对所有的特征按照其权值人小进行排序, 最后选择预定数目的特征项作为特征结果。所以,选取合适的评估函数和预留多 少特征项成为特征选择的关键。通常,针对具体问题,需要采用反复的实验米验 证什么是最好的评估函数和特征项数目。目前,在文本分类中常用的特征评估函 数有文档频率( d o c u m e n tf i e q u e n c y ) 、互信息量( m u t u a l i n f o t m a t i o n ) 、信息埔 益( i n f o r m a t i o ng a i n ) 、矿估计( x 2 一t e s t ) 、期望交叉熵( e x p e c t e dc r o s se n t r o p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论