(计算机软件与理论专业论文)web文本分类中特征向量优化技术研究.pdf_第1页
(计算机软件与理论专业论文)web文本分类中特征向量优化技术研究.pdf_第2页
(计算机软件与理论专业论文)web文本分类中特征向量优化技术研究.pdf_第3页
(计算机软件与理论专业论文)web文本分类中特征向量优化技术研究.pdf_第4页
(计算机软件与理论专业论文)web文本分类中特征向量优化技术研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)web文本分类中特征向量优化技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范大学硕士学位论文 摘要 随着i n t e r a c t 的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理 这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技术领域面 临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解 决信息杂乱现象,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索 引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景。 要进行w e b 文本分类,首先要做的就是对w e b 文本数据进行数学描述,其中最常用的 模型就是向量空间模型和潜在语义索引模型等。在向量空间模型中,每一个不同的单词都 作为特征空间中的一维,每一个文本就是特征空间中的一个向量。潜在语义索引模型在最 初对文本的描述上也与之类似。但是,这种描述方法引发了一个非常严重的问题,那就是 高维稀疏,加之文本数据所特有的近义词多义词等等问题,使得文本分类具有相当高的 时间复杂度,而且这些问题也极大地干扰了分类算法的准确性,使得文本分类的性能急剧 下降。因此,迫切需要通过其它技术优化文本向量表示以帮助提高文本分类的性能。 文本向量的优化技术总的来说分为两类,首先是权重调整方法。权重调整方法是通过 综合考虑一个单词相对于一个文本、一个数据集或者一个类的重要性来调整其在不同文本 中的权重,使其值尽可能正确地反映一个单词与一个文本在语义上的关系。另一类优化技 术是降维,它指的是通过降低特征空间的维度优化文本的表示。主要包括特征选择和特征 抽取两种技术。 本文从向量优化技术入手,将研究点分为了两大块:特征选择及其权重计算方案,特 征抽取及其权重计算方案,所做的主要工作如下: 在特征选择的研究上,针对目前很少有关于冗余特征研究的现状,分析和论证了在特 征选择过程中消除冗余特征的重要性,提出了在特征选择过程中消除冗余特征的途径特 征之间的关联性分析。该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评 估的客观性等问题,形成了一种基于关联分析的特征选择算法,算法在保留类别相关特征 的同时识别并摒弃了冗余特征,取得了较好的约简效果;在针对特征选择的权重计算方面, 首先对传统的权重计算方案进行了分析,在指出其不足的基础上提出了改进方案:( 1 ) 对 特征的类别区分能力予以了着重加强,在传统的权重公式中扩展了一项单词的类区分能力: _ 0 一l o c a l ( t ,d ) + g l o b a t ( t ) + c l a s s d i s c ( t ) ( 2 ) 对w e b 文档信息特征进行分析,并且提出了 w e b 文档中主特征词、主特征域和主特征空间的概念。分析论证了在主特征空间上应当使 用文档频度d f ( d o c u m e n tf r e q u e n c y ) 信息而非传统意义上的i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) 信息进行权值计算,以更加精确地描述w e b 文本。 在特征抽取的研究上,提出了针对局部l s i 的权重计算方案。本文研究了典型的潜在语 义索引技术( l s i ) 在文本分类上的两种应用方式:全局l s i 和局部l s i 。全局l s i 完全无视训练 数据中已知的类信息,所以全局l s i 不但不会提高反而还会降低文本分类的性能。相比于全 山东师范大学硕十学位论文 局l s i ,局部l s i 不是在整个训练数据上执行l s i ,而是在每一个类的局部区域上分别执行奇 异值分解从而为每一个类都创建了一个局部语义空间,然后每一个新的文本都分别被映射 到每一个局部语义空问中进行分类。局部l s i 通过利用已知的类信息很好地抽取出了区分一 个类和其他类的语义结构,所以较之全局l s i 有了一定的进步;但是通过对局部l s i 的权重 计算方案的分析我们发现,其权重计算方法只是简单继承向量空间模型,虽然潜在语义索 引与向量空间模型在描述文本上有一定的相似性,但其基本思想有本质的不同:v s m 本质 上将词语看作空间的维度,将文档根据其所包含的词语看作是该空间中的一个点;l s i 中不 再将词语看作是单独的维度,潜在语义空间中的维度被认为是对应着各个“潜概念”,词语 向量被看作是它们在各个“潜概念”上的投影,文档向量是其所包含的词语向量之和。为 此本文提出了一种新的基于加权平滑的局部l s i 方法,这个方法通过在语义信息表达更清晰 的局部区域上执行奇异值分解从而抽取出了更具类区分力的局部语义结构。 分类技术作为数据挖掘技术的基础,是信息过滤的基础技术及核心技术。最后本文将 所提出的特征向量优化策略在信息过滤技术平台进行了应用层面的测试,取得了令人满意 的测试效果。 关键词:w e b 文本分类;向量优化;特征选择;特征抽取;权重调整 分类号:t p 3 9 1 山东师范大学硕士学位论文 r e s e a r c ho nf e a t u r ev e c t o ro p t i m i z a t i o nt e c h n i q u e si nw e bt e x t c l a s s i f i c a t i o n w i t ht h er a p i dd e v e l o p m e n ta n ds p r e a do fi n t e m e t , e l e c t r o n i ct e x ti n f o r m a t i o ng r e a t l y i n c r e a s e s i ti sag r e a tc h a l l e n g ef o ri n f o r m a t i o ns c i e n c ea n dt e c h n o l o g yt h a th o w p e o p l eo r g a n i z e a n d p r o c e s sl a r g ea m o u n to fd o c u m e n td a t a a n df i n dt h ei n t e r e s t i n gi n f o r m a t i o nf o ru s e r sq u i c k l y , e x a c t l ya n df u l l y a st h ek e yt e c h n o l o g yi no r g a n i z i n ga n dp r o c e s s i n gl a r g ea m o u n to fd o c u m e n t d a t a ,t e x tc l a s s i f i c a t i o nc a ns o l v et h ep r o b l e mo fi n f o r m a t i o nd i s o r d e rt oag r e a te x t e n t ,a n di s c o n v e n i e n tf o ru s e r st of i n dt h er e q u i r e di n f o r m a t i o nq u i c k l y m o r e o v e r t e x tc l a s s i f i c a t i o nh a sa b r o a da p p l i e df u t u r ea st h et e c h n i c a lb a s i so fi n f o r m a t i o nf i l t e r i n g ,i n f o r m a t i o nr e t r i e v a l ,s e a r c h e n g i n e ,t e x td a t a b a s e ,d i 百t a ll i b r a r ya n ds oo n i nw e bd o c u m e n tc l a s s i f i c a t i o na p p l i c a t i o n s ,t h ed o c u m e n ti s a l w a y sr e p r e s e n t e du s i n g v e c t o rs p a c em o d e lo rl a t e n ts e m a n t i ci n d e x i n gm o d e li nw h i c he a c hd o c u m e n ti sr e p r e s e n t e d a sav e c t o ra n de a c hu n i q u et e r mi so n ed i m e n s i o no ft h i sv e c t o r t h i sr e p r e s e n t a t i o ni sv e r y s i m p l e h o w e v e ri ta r i s e so n es e v e r ep r o b l e m :t h el l i g hd i m e n s i o n a l i t yo ft h ef e a t u r es p a c ea n d i n h e r e n td a t as p a r s i t y i na d d i t i o n , t h i sr e p r e s e n t a t i o na l s oc a n ts o l v et e x td a t a sp o l y s e m a n t p r o b l e m a l lt h e s ep r o b l e m si n t e r f e r ew i t hc l a s s i f i c a t i o nl e a r n i n gp r o c e s s e sg r e a t l ya n dm a k e t h e i rp e r f o r m a n c eb ed r a m a t i c a l l yd r o p p e d t h e r e f o r ei ti sh i g h l yd e s i r a b l et os o l v et h ep r o b l e m t h r o u g hf e a t u r ev e c t o ro p t i m i z a t i o nt e c h n i q u e s t h et e x tv e c t o ro p t i m i z i n gt e c h n i q u e sg e n e r a l l yf a l li n t ot w oc a t e g o r i e s :w e i g h ta d j u s t m e n t a n dd i m e n s i o n a l i t yr e d u c t i o n t h ew e i i g h ta d j u s t m e n tm e t h o da d j u s t saw o r d sw e i g h tt h r o u g l l c o n s i d e r i n gi t si m p o r t a n c et oat e x t ,ad a t as e to rac a t e g o r y w h i l et h ed i m e n s i o n a l i t yr e d u c t i o n o p t i m i z e st e x tr e p r e s e n t a t i o nb yr e d u c i n gt h ed i m e n s i o no ff e a t u r es p a c e , w h i c hi n c l u d e st w o c o m m o n l yu s e dt e c h n i q u e s :f e a t u r ee x t r a c t i o n a n df e a t u r es e l e c t i o n s oi nt h i s p a p e r , a n a l l a r o u n dr e s e a r c hi sd o n eo nw e i g h ta d j u s t m e n ta n dd i m e n s i o n a l i t yr e d u c t i o n t h i sp a p e rp r e s e n t sam e t h o dt h a tp u te m p h a s i so nt w om a i na s p e c t s :t h ef e a t u r es e l e c t i o n a n di t sw e i g h tc o m p u t i n gm e t h o d ;t h ef e a t u r ee x t r a c t i o na n di t sw e i g h tc o m p u t i n gm e t h o d t h e r e s e a r c hi sd o n ei nt h ep a p e ra sf o l l o w s : a st of e a t u r es e l e c t i o n ,c o n s i d e r i n gt h ei n s u f f i c i e n tr e s e a r c hi nf e a t u r er e d u n d a n c y ,w eh a v e p r o p o s e dan e wm e t h o d t oe l i m i n a t et h ef e a t u r er e d u n d a n c y - - t h er e l e v a n c ya n a l y s i so ft h e f e a t u r e sd u r i n gt h ep r o c e s so ff e a t u r es e l e c t i o no fw h i c hw eh a v ea n a l y z e da n da r g u e dt h e i m p o r t a n c ei nt h ef e a t u r es e l e c t i o n t a k i n gt h em e a s u r e m e n to fi n f o r m a t i o nt h e o r ya st h eb a s i c t o o l ,t h i sm e t h o dd e f i n e san e wf e a t u r es e l e c t i o na l g o r i t h ma f t e rc o n s i d e r i n gc o m p r e h e n s i v e l y s o m ep r o b l e m ss u c h 弱c o m p u t i n gc o s ta n dt h es u h j e c t i v i t yo ff e a t u r ea s s e s s m e n te t c 1 1 1 e i i i 山不帅范大学坝士字位论文 a l g o r i t h mh a sa b a n d o n e dt h er e d u n d a n tf e a t u r ea n ds i m u l t a n e o u s l ym a i n t e n a n c et h ec a t e g o r y c o r r e l a t e df e a t u r e s ,w h i c ha c h i e v e sg o o dr e s u l t s i nw e i g h ta d j u s t m e n ts t r a t e g y , w ea n a l y s ea n d i m p r o v e t h et r a d i t i o n a lf o r m u l at f + i d f :( 1 ) w eu s eg e n e r a l i z e di n f o r m a t i o nt h e o r ya st h et h e o r y b a s et oi n t r o d u c et h eq u a d r a t i ce n t r o p ym u t u a li n f o r m a t i o ni n t ot h ef o r m u l a ( 2 ) w es t u d yt h e f e a t u r eo fw e bd o c u m e n t si n f o r m a t i o na n dp r o p o s et h ec o n c e p t so fp r i m a r yf e a t u r ew o r d ,p r i m a r y f e a t u r ef i e l d ( p f na n dp r i m a r yf e a t u r es p a c e ( p f s ) t h e nan e wp f st e r mw e i g h t i n gs c h e m ei s p r o p o s e d ,w h i c ht a k e sd o c u m e n tf r e q u e n c y ( d di n t oa c c o u n ti ns t e a do ft h et r a d i t i o n a li d ff a c t o r f i n a l l y , ac o m b i n a t i o ns t r a t e g yo ft e r mw e i g h t i n g i sg i v e n a st of e a t u r ee x t r a c t i o n ,l a t e n ts e m a n t i ci n d e x i n g ( t s i ) i so n eo ft h em o s ti m p o r t a n t t e c h i q u e s i tc a nb ed i v i d e di n t ot w oc a t e g o r i z a t i o n s :g l o b a li s ia n dl o c a ll s l g l o b a ll s i d o e s n tc o n s i d e rt h ei n f o r m a t i o na b o u te a c hc l a s s ,w h e ni ti sa p p l i e dt ot e x tc l a s s i f i c a t i o n ,i t s f o u n d e dt h a tg l o b ml s ia l w a y sd r o p st h et e x tc l a s s i f i c a t i o np e r f o r m a n c eg r e a t l y c o m p a r e dt o g l o b a ll s i l o c a ll s ii sn o tc a r r i e do u ti nt h ee n t i r et r a i n i n gd a t ab u ti nl o c a ls e m a n t i cs p a c e l o c a ll s it a k e sg o o da d v a n t a g eo ft h ec l a s si n f o r m a t i o na n de x t r a c t sd i s t i n c ts e m a n t i cs t r u c t u r e b e t w e e nt h e m t h i sm e t h o dc a ni m p r o v et h et e x tc l a s s i f i c a t i o np e r f o r m a n c eb u tv e r yl i m i t e d l y ; m o r e o v e r w ef i n dt h a tl o c a ll s i sw e i g h ta d j u s t m e n tm e t h o ds i m p l yi n h e r i tv e 虻 t o rs p a c em o d e l a l t h o u g hb o t ho ft h e s em o d e l sh a v et h ec e r t a i ns i m i l a r i t yi nt h ed e s c r i p t i o no ft h et e x t t h eb a s i c i d e ai ss u b s t a n t i a l l yd i f f e r e n t :v s mg e n e r a ll o o k st e r m sa se s s e n t i a ld i m e n s i o n so ft h es p a c e l o c a ll s in ol o n g e rr e g a r d st h ew o r d sa st h ei n d e p e n d e n td i m e n s i o nb u tw a sc o n s i d e r e da se a c h c o r r e s p o n d e d l a t e n tc o n c e p t ”s oi nt h i sp a p e r , an e wl o c a ll s lw e i 【g h ta d j u s t m e n tm e t h o di s p r o p o s e dt oi m p r o v et e x tc l a s s i f i c a t i o np e r f o r m a n c eb yp e r f o r m i n gas e p a r a t es i n g l ev a l u e d e c o m p o s i t i o n ( s v d ) o nt h et r a n s f o r m e dl o c a lr e g i o no fe a c hc l a s s a st h eb a s i so fd a t am i n i n gt e c h n o l o g y , t e x tc a t e g o r i z a t i o ni st h ef o u n d a t i o na n dc o r eo f i n f o r m a t i o nf i l t e r i n g f i n a l l y , w ep u tt h ev e c t o ro p t i m i z i n gs t r a t e g i e si n t oa c t i o ni ni n f o r m a t i o n f i l t e r i n gp l a t f o r ma n dt h er e s u l t sa r eq u i t es a t i s f y i n g k e yw o r d s :w e bt e x tc a t e g o r i z a t i o n ;f e a t u r ev e c t o ro p t i m i z a t i o n ;f e a t u r es e l e c t i o n ;f e a t u r e e x t r a c t i o n ;w e i g h ta d j u s t m e n t c l a s s i f i c a t i o n :t p 3 9 1 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得( 注:如没有其他需要 特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:王卫聿全 导师签字: 学位论文版权使用授权书 咖膨 l 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权 兰争监可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:主卫:淦 导师签字: 签字日期:2 0 0 7 亏月2 ;日 魄钐 i 签字日期:2 0 0 夕年妇爿日 , 山东师范大学硕士学位论文 第一章绪论 本章首先详细地介绍了文本分类技术,并且在指出文本分类技术所面临的挑战的同时, 强调了引入向量优化技术的必要性;接着,本章介绍了向量优化技术的研究现状,指出了 向量优化技术尚待改进之处;最后,针对目前向量优化技术所存在的问题,提出了本文的 主要研究工作。 1 1 研究背景 随着i n t e m e t 及其相关技术的飞速发展,互联网上出现了海量的、异质的w e b 信息资源, 在这些庞大的信息资源中,蕴含着具有巨大潜在价值的知识。据l e s k ( 1 9 9 7 ) 的报告指出,从 1 9 9 5 到1 9 9 7 年,w e b 上的文本信息以每年1 0 倍递增,预计到1 9 9 8 年已经超过美国国会图书 馆,达至u 2 0 t b ,目前已经很难对总的信息量进行准确的估计。网络信息量虽然巨大,但是 对9 9 的用户来说9 9 的信息都是无用信息,所以要想在网络中通过相关链接来找到所需的 信息无异于大海捞针。 面对如此庞大而且急剧膨胀的信息海洋,如何有效地组织和管理这些信息,并快速、 准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。人 们迫切需要能够从w e b 上快速、有效地发现资源和知识的工具“1 。文档分类作为处理和组织 大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象,方便用户准确地定位所 需的信息。因此,自动文本分类已作为一项具有较大实用价值的关键技术,得到了广泛的 关注,取得了很大的进展。通过文本分类,人们可以按类别进行文本存储、检索和进一步 处理。而且,许多文本处理问题都可以归结为文本分类问题。例如:信息检索可以看成是 文本与q u e r y 是否相关的二分类问题;文本过滤也是一个二分类问题。 可见,文本分类的研究有着广阔的应用前景,可以创造巨大的经济和社会效益。 i i i 文本分类技术简介 i 文本分类的发展过程 作为机器学习的应用领域,文本分类的理论研究可以追朔到2 0 世纪6 0 年代初0 1 。它 的发展过程大致可以划分为三个阶段: 第一阶段是2 0 世纪8 0 年代前。在这一时期,模式识别和信息检索相继发展成为一门学 科。m a r o n 和k u h n s 提出概率标引( p r o b a b i l i s t i ci n d e x i n g ) 模型,并应用于信息检索 ( i n f o r m a t i o nr e t r i e v a l ,i r ) 中o “”:1 9 6 2 年,r o s e n b l a t t 设计了感知机( p e r e e p t r o n ) ,通过具有 阈值的神经元处理二分类问题”1 ;g e r a l ds a l t o n 提出了向量空间模型( v e c t o rs p a c em o d e l , v s m l 用于对文本进行描述”1 。这一阶段主要是集中在对分类理论的研究,应用方面则主要 是用于信息检索。 山东师范大学硕七学位论文 第二阶段是2 0 世纪8 0 年代。这一阶段主要是采用传统的知识工程( k n o w l e d g c e n g i n e e r i n g ) 技术,根据专家提供的知识形成规则,手工建立分类器。这实际上是专家系统。 h a y e s 等i 拘c o n s t r u e ”1 是典型的代表。在这一时期,信息检索技术逐渐成熟应用,为文本 分类提供了许多技术支持,最著名的i r 系统是s a l t o n 的s m a r t 0 1 。 手工建立分类器的特点有:一是依赖于专家:二是面向领域,一旦应用领域变化,需 要重新生成规则:三是分类器建设周期长,工作量大,分类质量难以保证。 第三阶段是2 0 世纪9 0 年代以后。互联网技术的发展,对文本分类提出了追切要求。在 这一时期,文本分类的主要特点是采用机器学习方法,自动建立分类器“l 。基于机器学习 的文本分类方法克服了以前手工建立分类器的缺点,使得文本分类具有了真正的实用价值。 主要特点有:一是分类知识来源于机器对训练集的自动学习,不再依赖于领域专家;二是 学习和分类过程不需要人工干预,分类效率和准确率得以提高。 目前所说的文本分类主要是指第三阶段的基于机器学习的文本分类。因此,文本分类 的研究严格来说只有十几年的历史。在开始时期,研究的重点是将机器学习、信息检索等 相关领域中的成果应用到文本分类中。随着研究的深入,文本分类问题被进一步细化,研 究人员对各个子问题进行深入研究,例如:分类方法、特征降维、性能评价、大小样本学 习、分类性能推广、语言知识利用等。试图在对文本内容更多理解的基础上,提高文本 分类的效果州嘲川1 。 2 文本分类的定义 文本分类的英文名称有许多种,前人的文献中有不同的写法,包括t e x tc a t e g o r i z a t i o n n 0 3 。“”,t e x tc l a s s i f i c a t i o n “”1 ”旧,t o p i cs p o t t i n g 1 ”等。现在,比较统一的说法是t e x t c a t e g o r i z a t i o n ( t c ) 。它是将用自然语言表示的文本,根据其内容,自动分类到预先设定的 类型集合中,使得一篇文本对应类型集合中的一( 几) 类。文本分类问题可以形式化地定义如 下【2 】: 给定问题: c 一 c l ,c 。) ;d p l d , ;彳一k d l 。,;- o ,q 其中,c - g ,) 为预先设定的类型集合,mt2 为类型数;d 一 d ,d , 为某一领 域的所有文本集合,为文本总数;a ;k j 用。为m x r 矩阵,元素n f - 0 册,表示文本弓 按照其内容是否属于类型c i 。假定在文本与类型之间存在一个未知的映射函数: f :d x c 一 o , 1 1 ( 1 1 ) 而且,文本集d 一似t d ,) 中一部分文本d = 似一d n ) ;n r ,已经被分好类,即矩 阵爿- 0 # l 。中的子矩阵爿一b 口l 。已经确定。文本分类就是要找一个函数: ,:d x c 一1 0 ,1 ) ( 1 2 ) 使其尽量逼近未知的真实函数。 , 山东师范大学硕士学位论文 在陀中,函数,7 称为一个分类器( c l a s s i f i e r ) a 其中d 一彬。d 。 ,竹sr 称为训练集, = b 口l 。为专家对训练集的分类结果。当m 2 时,为多分类问题,当m - - 2 时为单分类问 题。多分类问题都可以转化为多个单分类问题。 1 1 2 文本分类关键技术 目前,自动文本分类技术主要分为两个阶段来完成:第一阶段是文本的处理,把文本 表示成下一步进行分类计算所需要的向量形式;第二阶段是对这些代表文本的向量进行分 类,这是一个典型的模式识别问题,可以采用多种机器学习的方法处理这个问题。详细地 说,一个完整的文本分类过程一般包含以下几个步骤: 图1 - 1 文本分类结构图 1 建立数据集 这一步主要是收集文本,并进行预处理,包括处理乱码、非文本内容等;机器内码转 换;处理词- q :( s t e m m i n g ) 及停用词( s t o pw o r d s ) :删除无效文本;按类型集进行人工分类; 按一定比例随机划分训练集和测试集“”。 2 文本标引 + 确定特征单位,并按一定的描述模型对文本进行标引。它的作用是将文本的内容按照 一种计算机能够理解的格式用特征( f e a t u r e ,t e r m ) 描述出来,使机器能够对文本进行处理和 运算“”。 ,一 3 降维 用于文本标引的特征空间通常具有很大的维数,这会影响分类的效率,甚至超出机器 或算法的处理能力。因此,需要进行特征降维,生成一个更紧凑的特征空间“”。 4 权重计算 得到约简后的特征空间,接下来要做的就是按这个特征空间中的项,也就是保留的词 语,确定一个在其上的度量,计算每篇文本中的这些词在这个度量上的值,这也称作索引 ( i n d e x i n g ) 。实际上可以采用不同的度量方式,比如,特征在文本中的出现频率t f 等等。 5 机器学习 在训练集上进行机器学习,确定分类器的各个参数,建立分类器。机器学习的依据是 文本的内容,不能依据文本的其他元信息。在文本分类中,类型符号只是一些标记。1 。 6 测试 用分类器对测试集进行分类,得到机器分类的结果。测试有封闭测试和开放测试。封 闭测试时,测试集是训练集的一部分;开放测试时,测试集与训练集是服从同一分布、相 互独立的两个数据集。封闭测试不具有可比性,文本分类中主要采用开放测试。 7 评价 采用一定的评价指标,对机器分类的结果进行评价。不符合要求时需要返回到前面的 山东师范大学硕士学位论文 某一步骤,调整参数,重新再做“”1 。 目前对文本分类技术的研究中,主要的聚焦点在文本分类的第二个阶段,即对各种分 类算法的创新和改进上。但对于文本分类而言,第一个阶段仍然是一个基础的、不可忽视 的重要一环,文本向量表示得是否贴切、恰当将对分类的效果产生决定性的影响。因此, 本文将研究的重点放于文本分类的第一个阶段。 1 1 3 文本分类所面临的挑战 要进行文本分类,首先要做的就是对文本数据进行数学描述,其中最基本的模型就是 向量空间模型和潜在语义索引模型。向量空间模型( v e c t o rs p a c em o d e l ) 是应用最为广泛的 数学模型,这个模型最基本的思想就是用词袋法( b a go f w o r d s ) 表示文本,即将每一个不同 的词条都看成是特征空间中的独立一维,将每一个文本看成是特征空间中的一个向量。这 种模型引发了一个非常严重的问题,那就是高维稀疏。潜在语义索引模型在最初对文本的 描述上也存在与之类似的问题。因为在通常情况下,即使是一个中等规模的文本数据集也 具有几万个单词,这种维度对很多学习算法来说实在是太高了,事实上只有少数几种神经 网络的算法能处理这么高的维度。另一方面,每一个文本通常只包含所有单词中的极小部 分单词,这也就是说,一个文本向量在文本空间中绝大部分的维度上都是0 ,这使得文本空 闻异常稀疏,其稀疏程度通常高达9 5 9 9 。高维稀疏给文本分类造成了相当大的影响, 不仅使得文本分类具有相当高的时间复杂度,而且会极大地降低文本分类的性能“。 除了高维稀疏之外,文本数据还有近义词和多义词两个特有的语言现象。近义词现象 指的是可以用多种不同的方式来描述同一个主题或者内容。这是因为人们在不同的时间、 地点下,因为知识水平、周围环境、语言习惯、特定需求等因素往往会使用不同的文字来 表达相同的内容口2 1 。比如在网上检索足球游戏时,有的人使用“足球游戏”,而另一些人会 使用“世界杯”或者“f i f a 2 0 0 0 ”。据f u m a s 等的统计发现嗌1 ,两个人使用相同的词语来表 达同一件事件的概率不超过2 0 。这个数据充分说明了近义词现象的普遍性。然而近义词 的存在极大地降低了信息检索的性能( 召回率) ,因为在精确匹配的方式下,使用“足球游戏” 是无法找到“世界杯”、“f i f a ”、“中国甲a ”等内容的。多义词现象指的是同一个单词具 有多种不同的含义1 。比如单词“苹果”,它的本意指的是水果苹果,但是它作为商标又表 示苹果牌电脑或者苹果牌牛仔。多义词最大的损害在于极大降低信息检索的精确度,因为 检索“苹果”牌电脑所返回的结果中可能既包含介绍苹果特性的文章,又包含苹果电脑、 苹果牛仔等文章。近义词现象和多义词现象的存在极大地干扰了文本分类学习的准确度, 使得文本分类变得非常困难”1 。 综上所述,高维稀疏、近义词和多义词三个文本数据所特有的问题不仅使得文本分类 具有相当高的时间复杂度,而且极大干扰了分类学习算法的准确性,使文本分类的性能急 剧下降,因此迫切需要通过其它技术优化文本的向量表示以帮助提高文本分类的性能。 4 山东师范大学硕十学位论文 1 2 向量优化技术 1 2 1 向量优化技术简介 向量优化技术总的来说分为两类,首先是权重调整方法。权重调整方法是通过综合考 虑一个单词相对于一个文本,一个数据集或者一个类的重要性来调整其在不同文本中的权 重,使其值尽可能正确地反映一个单词与一个文本在语义上的关系。另一类优化技术是降 维,它指的是通过降低特征空间的维度优化文本的表示。降维不仅能极大降低特征空间的 维度,使文本分类的时间复杂度大大降低,而且还能非常有效地消除近义词和多义词所引 发的噪声和歧义,使文本数据具有更符合其真实语义的特征描述,从而能大幅提高文本分 类的性能。图1 2 对文本向量优化技术作了详细的描述。 图1 - 2 文本向量优化技术 单词权重指的就是一个单词在一个文本向量中的相关度值。目前有很多单词权重计算 方法,比如下面这篇文章: o n eo ft h ei m p o r t a n ta d v a n t a g e so ft h ev e c t o rs p a c em o d e li si t sa b i l i t yt ou s et e r mw e i 曲t s t oc a p t u r et h ef a c tt h a ts o m et e r m sa r ef a rm o r ei m p o r t a n tt h a no t h e r s w h i l es u c hw e i g h t sc o u l d b es e l e c t e db yt h eu s e r ,t h i sw o u l dr e q u i r eac o n s i d e r a b l ea m o u n to fk n o w l e d g ea n de f f o r t ,s ot h e b e s ts o l u t i o ni st oh a v et h es y s t e ms e l e c tt h e s ew e i 【g h t sa u t o m a t i c a l l y t e r mw e i g h t sc a nb e b r o k e nu pi n t ot h r e ec o m p o n e n t s :( 1 ) t e r mf r e q u e n c yw e i g h t s ,( 2 ) t e r mi m p o r t a n c ew e i g h t s ,a n d ( 3 ) d o c u m e n tn o r m a l i z a t i o nw e i g h t s 这一段文本中出现了很多单词,如“i m p o r t a n t ,a d v a n t a g e ,t e r m ,w e i g h t ,k n o w l e d g e ,e f f o r t ” 等。虽然这些单词都出现,但是很显然“t e r m ,w e i g h t ”最为重要,因为它们直接代表了这 段文本所介绍的内容,而“k n o w l e d g e ,e f f o r t ”这些单词与文本内容并没有直接的关系,所 以它们的有无对标识这个文本没有什么影响。所以如果为“t e r m ,w cz i g h t ”和“k n o w l e d g e , e f f o r t ”等这些单词都赋予相同的权重,显然很不合理,会使系统的性能降低很多。因此非 常需要其他的一些技术或者方法来使重要的单词具有更高的权重,不重要的单词具有较低 的权重。这也是单词权重计算这一个环节所要研究的主旨。 降维通常有两种方式,分别称为特征选择和特征抽取。其中特征选择指的是按照一定 的规则从原始的特征集合中选择出一小部分最为有效的特征。这些特征仍旧保持原来的含 义,所以能够更好地帮助用户理解文本数据、分类的规则和过程。图1 3 所示的就是一个 非常简单的特征选择例予,这个例子中方形的点和圆形的点分别表示平面空间上的两个类。 平面空间是二维坐标,即包含x 轴和y 轴两个特征,从这个图可以非常清楚地看出,如果 5 山东师范大学硕t 学位论文 要区分平面上的这两个类,只需要x 轴的坐标即可,y 轴对分类毫无帮助。所以特征选择 要做的就是从x 轴和y 轴中选择出最为有效的特征,即x 轴。当然文本数据远比这个例子 中的数据要复杂得多,所以用于文本数据的特征选择也更为复杂。 图1 - 3 特征选择举例 特征抽取指的是通过特定的映射函数对原始空间进行旋转、拉伸或者扭曲等变换从而 得到一个新的特征空间啪1 。在新的空间中,新的特征能更好地表征原始数据在概念或者说 语义上的分布,以致数据能够更好地被分类。比如图1 - 4 所示的就是一个非常简单的例子, 通过这个例子我们可以更好地理解特征抽取的含义和作用。同图1 - 3 中的例子类似,这个 例子中的平面空间上也有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论