




已阅读5页,还剩66页未读, 继续免费阅读
(计算机软件与理论专业论文)基于dom和igsvd的web文本分类模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
皋十d o m 和i g s v d 的w e b 义奉分类模型蛳究 中,形成了基于支持向量机的分类模型,并将该模型应用到了电子就 业智能分类领域中。 文章最后设计了一个基于支持向量机的电子就业智能分类预测系 统。在此系统中,我们测试了各种模型的分类效果和性能,并对结果 进行了对比。实验结果证明,我们提出的改进方法在性能和效率上都 有较为显著的提高。 关键词:d o m ;正则表达式;奇异值分解:信息增益;支持向量机 i i t h er e s e a r c ho fw e bc l a s s i f i c a t l 0 n m o d e lb a s e do nd o ma n di g s v d a bs t r a c t w i t ht h e r a p i de x p a n s i o no fn e t w o r ki n f o r m a t i o n ,b e i n g l a c ko f i n f o r m a t i o nw i l ln o tb o t h e ru sa n ym o r e h o w e v e r , t h ee x p o n e n t i a lg r o w t h o fn e t w o r ki n f o r m a t i o ni m p e l sp e o p l et of a c et h ec o n f u s i o na n df l o o d i n go f i n f o r m a t i o n n o n u n i f o r md a t af o r m a t sa n di n d e p e n d e n c ei n f o r m a t i o n a m o n gv a r i o u ss i t e sa r ed i f f i c u l tt os e tu p ad a t ap l a t i n gs h a r i n gp l a t f o r m t h em e t h o dh o wt ou n i f yh e t e r o g e n e o u sd a t af o r m a t si nt h en e t w o r ka n d e x t r a c ts t r u c t u r e dt e x ti n f o r m a t i o np e o p l en e e di sak e r n e lr e s e a r c hs u b j e c t i nt h ef i e l do fw e bt e x tc a t e g o r i z a t i o n i no r d e rt or e s o l v et h ec h a o so fc u r r e n tw e bi n f o r m a t i o na n d n e td a t a , an o v e lw e bt e x tc l a s s i f i c a t i o nm o d e lb a s e do nd o ma n di g - s v di s p r e s e n t e di nt h i sp a p e r m a i nc o n t r i b u t i o n so f t h ed i s s e r t a t i o ni n c l u d e : ( 1 ) a r e g u l a re x p r e s s i o na l g o r i t h mb a s e do nt h ed o m i sp r o p o s e d i nt h ed i s s e r t a t i o n i no r d e rt oo v e r c o m et h es h o r t c o m i n g so ft h eu n c l e a r t h e m eo ft h et r a d i t i o n a li n f o r m a t i o ne x t r a c t i o na n dt h er o u g he x t r a c t e d c o n t e n t s ,t h i sa l g o r i t h mc u s t o m i z e st h es u b j e c t o r i e n t e dr e g u l a re x p r e s s i o n 皋十d o m 和i g s v d 的w e b 文本分类模型研究 t e m p l a t e sb ya n a l y z i n gd o m o ft h ep a g ea n dt h e ni m p l e m e n t st h ep r o c e s s o f e x t r a c t i n gt h es t r u c t u r e dt e x t ( 2 ) af e a t u r es e l e c t i o n a l g o r i t h m b a s e do nt h ei g - s v di s i n t r o d u c e di nt h ed i s s e r t a t i o n f i r s t l y , af u z z ym e t h o di sd e s i g n e dt os e ta l a r g e s c a l ef e a t u r ew h i c hh a sh i g hd i v i s i o na b i l i t i e s t h e n ,b yu s i n g s i n g u l a rv a l u ed e c o m p o s i t i o nm e t h o d ,t h em a t r i xt r a n s f o r m a t i o n sa n da s i n g u l a rv a l u eks e l e c t i o na r es o l v e dw h i c hc a ns e l e c tt h es e m a n t i c c h a r a c t e r i s t i c sa n dt r e a tm u l t i m e a n i n ga n ds y n o n y m o u sw o r d sa n df i n a l l y r e s u l ti nab e t t e rf e a t u r ev e c t o rs p a c em o d e l ( 3 ) ac l a s s i f i c a t i o nm o d e lb a s e do ns u p p o r tv e c t o rm a c h i n ei s 毕fd o m 和i g s v d 的w e b 文奉分类模型研究 目录 摘要g i a b s t r a c t i i i 目录v 第一章绪论l 1 】研究背景及意义1 1 2 相关j :作2 1 2 1w e b 抽取技术的研究现状2 1 2 2 文本分类技术的研究现状3 1 3 课题的主要研究i :作及创新5 1 3 1 主要研究工作。5 1 3 2 论文创新点6 1 4 论文的组织7 第二章w e b 文本分类理论9 2 1 中文分词9 2 1 1 停用词删除一10 2 1 2 词性选择1 0 2 2 特征选取l 1 2 2 1 计算权值l l 2 2 2 搜索方向1 4 2 2 3 搜索策略1 4 2 3 文本表示l6 2 3 1 向量空间模型:1 7 2 3 2t f i d f 1 7 2 4 支持向量机分类理论1 7 2 4 1 线性分类器1 8 2 4 2 最优超平面18 2 4 3 非线性s v m 2 1 2 5 ,j 、结。2 3 第三章基于d o l d 的正则表达式模板算法2 4 3 1w e b 信息抽取理论2 4 3 2 基- pd 0 t , i 的正则表达式模板算法2 6 3 2 1 问题的提出2 6 3 2 2 算法描述2 6 3 2 3 实验结果及分析2 8 3 3 ,j 、结3 3 第四章基于i g - s v d 的特征选取算法3 4 4 1 特征选取基本理论3 4 4 1 1 潜在语义索引( l s i ) 模型理论3 4 4 1 2 奇异值分解理论( s v d ) 3 5 v 基于d o m 和i g s v d 的w e b 文本分类模型研究 4 2 基丁i g - s v d 的特征选取算法3 6 4 2 1 问题提出3 6 4 2 2 算法描述3 7 4 2 3 算法分析。3 9 。 4 2 4 实验结果分析4 0 4 3 小结4 3 第五章电子就业智能分类预测系统的设计与应用4 5 5 1 廊用背景4 5 5 2 软件功能结构4 6 5 2 1 整体架构4 7 5 2 2 特征选取模型流程图4 8 5 2 3 分类模型流程图4 9 5 2 4 软件详细功能设计- 5 0 5 3 实验结果及分析5 l 5 4 ,j 、结5 3 第六章结论与展望5 5 6 1 i :作总结5 5 6 2 展望5 6 参考文献5 7 附录1 攻读硕士期间发表的论文6 3 附录2 攻读硕士期间参加的课题和项目6 3 至殳谢6 4 独创性声明6 5 v i , 皋j 二d o m 和i g s v d 的w e b 文本分类模型研究 第一章绪论 本章为论文的绪论部分,将论述以下几个主要问题:论文的研究背景及意义; 提出支持向量机的w e b 文本分类存在的问题;文本分类技术和支持向量机的国内 外发展现状。 1 1 研究背景及意义 我们j 下处在一个信息急剧膨胀的时代。据国外媒体报道,网站托管检测机构 n e t c r a t t 的数据显示,截止2 0 0 8 年2 月底,全球互联网网站数量超过1 6 亿;截至 2 0 0 9 年5 月1 l 号为止,全球网站总量已经达到2 3 1 5 亿个。而中国w e b 数据信息 呈指数级增长。据( ( 2 0 0 5 年中国互联网络信息资源数量调查报告报告显示,2 0 0 5 年中文网页总数猛增,全国网页总数达到约2 4 亿。2 0 0 6 年,中国互联网信息中心 ( c n n i c ) 发布的第十九次互联网调查报告中显示,截至2 0 0 6 年底中国网站的 网页数量为4 4 7 亿,与2 0 0 5 年同期相比增加2 0 7 亿个,增长率达8 6 3 。 2 0 0 7 年中国境内网站总数已达1 9 2 万,中文网页8 4 4 亿页。截至2 0 0 8 年底,中国网页 总数超过1 6 0 亿个,较2 0 0 7 年增长9 0 。日益增长的网页也使信息开始泛滥,网 民们开始被巨大的信息海洋淹没。 全球网页总数和中文网页总数迅速扩展,一方面成为了人们获得信息的主要 来源,另一方面也成为了人们阻止获得信息的障碍。因为,多数网站考虑到维护 方便和规模限制等原因,将w e b 通过预先定义好的模板自动生成,使得网页中除 了有用的信息外,还包含诸如广告条、导航链接、版权等噪声内容。这些噪声严 重影响了各大搜索引擎的搜索精度。此外,人们利用了搜索引擎的缺陷,发展了 一种欺骗性质的搜索引擎优化技术。这种欺骗技术是在网页中穿插一些最近热门 和用户常用的搜索关键词,以欺骗搜索引擎,从而使网页的排名靠前,以增加网 页的浏览为目的的一种欺骗性营销手段。当前,不断冒出的欺骗手段让很多搜索 引擎束手无策,不断更新的搜索算法追不上人们脑中的鬼点子。 缺十d o m 和i g s v d 的w e b 义奉分类模型研究 面对如此庞大的信息海洋和信息垃圾( 信息噪音) ,再加上层出不穷的欺骗技 术,如何快速、准确和有效的抽取、整理和分类这些信息,是目前信息科学和技 术领域所面临的一大挑战。 1 2 相关工作 w e b 文本分类的基础是文本分类,而使用计算机自动进行的文本分类技术称 作自动文本分类。自动文本分类就是在给定的分类体系下,由计算机系统根据待 分类文本的内容自动确定文本类别( 也称主题) 的过程【l 】。一般我们简称自动文本分 类为文本分类。所以我们可以说,w e b 文本分类是指给定的分类体系下,由计算机 系统根据待分类w e b 文本的内容自动确定文本类别( 也称主题) 的过程。 w e b 文本分类技术发展分为两个部分,一部分是从w e b 页面中抽取有用信息 合成文本的技术,臣1 w e b 信息抽取;另一部分是将文本内容确定文本类别的技术, 即文本分类。 1 2 1w e b 抽取技术的研究现状 目前,国内外已经有很多学者对w e b 信息抽取的方法进行了研究。常见的w e b 信息抽取方法有包装器( w r a p p e r ) 、h t m l 网页分块、d o m 和j 下则表达式等。除此 之外,在主方法中也会结合x m l 、x s l t 和x p a t h 等技术进行辅助信息抽取。 s t a l k e r 2 】在早期的包装器归纳系统中对样本页逐一人工标记,此方法费时费 力,且容易失误,不易维护。c h i a h u ic h a n g 矛l l k a y e d 3 等人研究和分析了现有的包 。 装器归纳系统,并提出了这些系统的优缺点。m i l o 和d i l l i g e n t i 4 】等人提出了基于网 页视觉特征的w e b 抽取方法,将网页按区域分块,从区域中分析提取的内容,但是并 没有针对主题内容进行识别和提取。华盛顿大学的m i c h a e lj c a f a r e l l a l 5 等人分析了 i n t e m e t 的各类网页结构和提取方法,并设计了几种特定的w e b 信息提取系统。 g u p t a 和n a c - 儿u u - - a 6 7 】分别对基于d o m 的信息抽取方法进行了研究,提出了各自的 方法。f “8 通过结合x m l 技术来进行信息抽取,主要是通过数据项在x m l 文件 中的路径作为主要抽取规则。 国内在w e b 信息抽取方法的研究起步较晚,主要兴起于2 1 世纪后。王敬普【9 】 等在分析基于标志和基于文本模式两类算法的基础上,提出了改进的包装器归纳 2 坫fd o m 和i g s v d 的w e b 文奉分类模型研究 学习算法。于满泉掣1 0 】通过页面分块,对面向主题及个性化的信息采集,实现最 终信息抽取。王磊【l i 】等研究了基于d o m 的w e b 信息抽取技术,提出了扩展的d o m 抽取技术。苟全登等人【1 2 - h 1 通过结合x m l 、x s l t 和x p a t h 技术来进行信息抽取, 这些方法是以数据项在x m l 文件中的路径作为主要抽取规则。在杨桢等【”。6 】中, 是利用正则表达式从大量w e b 页面中抽取信息,这种方法是针对具体的信息制定特 定的j 下则表达式作为该信息的模板。 从国内外的w e b 信息抽取技术研究可以得知,w e b 信息抽取方法研究朝抽取 明确的主题信息方向发展。所以具有信息抽取精度高的f 则表达式方法越来越受 青睐。但是该方法相对死板,需要不断的维护模板文件。所以结合一种灵活的抽 取方法进行柔性结合是目前需要进一步研究的问题。 1 2 2 文本分类技术的研究现状 1 2 2 1 文本表示研究现状 计算机的c p u 系统处理文字的原理不同于人脑的识别系统,它不能直接读懂 一篇未处理的文章,所以必须用分词和统计学概率算法将一大篇文字处理成计算 机能识别的“o ”、“1 ”格式。这种将原始文本从计算机不能识别的自然语言形式 预处理成计算机默认格式的方法称为文本表示。目前,比较流行的文本表示主要 是向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 。它是g e r a r d s a l t o n t l 7 】等人在2 0 世 纪6 0 年代提出来的,并成功应用到了著名的s m a r t ( s y s t e mf o rt h em a n i p u l a t i o n a n dr e t r i e v a lo f t e x t ) 系统。此后,向量空间模型在信息检索和文本分类领域得到了 广泛应用,是目前非常流行的应用模型。向量空间模型中的典型应用算法有 r o c c h i o 18 1 、k n n 1 9 】、s v m 2 0 】和类中心向量法【2 。 在文本文类研究中,向量空间模型是当前主要的文本表示法。但是这种方法 将文本分词为一串互不相干的词集,我们简称为b o w ( b a go f w o r d s ) 。但是,在 实际中词与词之间是存在复杂的关系的。所以,这种死板的文本表示方法使一些 特殊文本分类准确率大大降低。潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 就是 为了解决以上问题而提出来的。潜在语义索引【2 2 】的出发点是假设文本中的词与词 之问存在某种联系,即存在某种潜在的语义结构。 皋十d o m 和i g s v d 的w e b 义本分类模型研究 潜在语义索引是s u s a nt d u m a i s 和s c o t td e e r w e s t e r 2 3 1 等学者在1 9 8 8 年共同提 出的。它的提出对文本检索研究领域具有重大的贡献,致使较长一段时间里l s i 较 多地被应用在了信息检索领域中【2 4 - 2 7 。而文本分类是信息检索领域的核心内容和 核心技术。l s i 的理论被提出后,国外学者开始对这方面的研究与应用层出不从, 尤其在文本处理领域中的应用研究。1 9 9 5 年,s c h u t z e 等学割2 8 1 将l s i 与其它特征选 取方法进行比较,并在不同的分类器上进行了实验。实验结果证明l s i 在容易过学 习的分类器上的效果远远好于其它特征选取算法。1 9 9 7 年,t o d d 雨l m i c h a e l 2 9 1 等人 分析了向量空间模型和潜在语义索引之间的优缺点,并将l s i 理论应用于了大规模 文本信息检索中。d i a ni w i t t 一3 0 1 等人对于近似潜在语义空间进行了研究,提出 了潜在语义空间更新算法,主要用于快速计算添加文本或词汇后的近似潜在语义 空间。p r e s l a vn a k o v 3 1 3 3 1 研究了l s i 理论在w e b 3 之本和德语文本处理中的应用。 s u j o yt 3 4 】等人研究了用奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 实现l s i 模型,并提取无结构的w 曲文本,对目前的搜索引擎中无目标的大量搜索问题进行 了改进。 国内对潜在语义索引的研究相对起步较晚。东北大学【3 5 3 7 1 研究了自然语言处 理方法和基于潜在语义索引的文本分析方法。张秋余等【3 8 】研究了传统l s i 没有充分 考虑分类信息的缺陷,提出了改进的局部潜在语义索引( l l s i ) 方法,用s v m 验 证了分类的效果。季铎等【3 9 】研究t l s i 在特征抽取中的应用,提出了基于l s i 的特 征向量空间降维的优化技术。 在以上的研究综述中,大部分的研究主要集中在独立的l s i 模型进行语义提 取和降维作用,而往往忽略了特征项的文本信息熵问题。如何将两种方式相结合 是本文需要研究的问题。 1 2 2 2 文本分类的相关工作 在国内外这些年的研究中,主要发展起来的文本分类技术有朴素贝叶斯 ( n a i v eb a y e s i a n ) 、k 近邻( k - n e a r e s tn e i g h b o r s ,简称k n n ) 、决策树( d e c i s i o nt r e e ) 、 支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 等。 国外对于文本分类的研究开展较早,5 0 年代末,h p l “4 0 1 提出了将词频 统计思想用于自动分类,这是文本分类的开创性研究。6 0 年代初,m a r o n 4 1 1 首先开 4 搪十d o m 和i g s v d 的w e b 文本分类模型研究 始了自动分类领域的研究。随后,众多学者开始投入了这个领域的研究,如 k s p a r k 、g s a l t o n 、r m n e e d h a m 、m e l e s k 和k s j o n e s 等。到了8 0 年代,开始研究基于知识工程技术的分类系统,如卡内基集团为路透社开发的 c o n s t r u e 系统【4 2 】。9 0 年代,基于机器学习的分类技术开始成为主流,逐步取代了基 于知识工程的方法。 国内的文本分类技术研究起步较晚。2 0 世纪8 0 年代,国内些学者开始对计 算机在文本分类工作中的应用进行探讨。候汉清教授在文酬4 3 1 中介绍了分类体系、 分类主题、汉语主题词表及计算机编制分类等技术。1 9 8 4 年,莫少强研制出了计 算机辅助图书分类系统【4 4 1 。该系统选择中图法军事类中1 0 0 个类目,自选2 0 0 个分类索引主题词,建立模拟机读分类表,实现了人工主题分析、系统完成查表、 自动归类及附表调用等功能m 】。至l j y 2 0 世纪9 0 年代,国内学者开始研究计算机自 动化与半自动化的分类算法:1 9 9 2 年陈大访 4 5 】等学者开发了自动化辅助分类工具 ( 软件系统) ;1 9 9 4 年,莫少强等人开发了计算机辅助图书分类、主题标引与检索系 统【4 6 】;1 9 9 9 年,汉语文本自动分类模型提出一种基于相关性的汉语文本自动分类 方法【4 7 1 。 从以上综述可知,到目前为止人们所研究的文本分类主要是基于统计学习和 机器学习的文本分类技术。随着研究者的不断深入,对于研究的领域开始细化, 例如语料库建设、分类器、性能评价、样本不均衡问题、维数约简和网页分类等 方面的研究开始层出不穷。 1 3 课题的主要研究工作及创新 1 3 1 主要研究工作 本文作者在经过大量检索、收集、阅读相关文献和相关技术文档后,通过观 察、分析、试验以及总结前人研究的基础上,主要作了以下几个方面的工作: ( 1 ) 综述了w e b 文本分类技术的相关工作,主要内容包括w e b 信息抽取和文本 分类技术及相关概念的介绍。综述向量空间模型和潜在语义索引模型的国内外发 展发展状况。 ( 2 ) 主要研究了w e b 信息提取算法中的d o m 的结构提取和j 下则表达式的模 捧十d o m 和i g s v d 的w e b 文本分类模型m 究 板制定。首先,简要介绍了信息抽取的基本理论,其中包括了信息抽取理论的定 义和目前研究的方法。然后,简单描述了目前各方法所存在的缺陷,在此基础上 提出了基于d o m 的j 下则表达式信息抽取算法。针对信息抽取的主题不明确,信息 抽取内容过于粗略,本文提出的基于d o m 的正则表达式算法所自动生成的正则表 达式模板将很好的解决该问题。 ( 3 ) 本文主要在传统的特征选取模型研究基础上,提出了基于i g s v d 的特 征选取模型。该模型重点研究了信息增益( i n f o r m a t i o ng a i n ,i g ) 和奇异值分解 ( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 两种统计学理论方法相结合特征选取算法, 结合到支持向量机分类中所形成的优化模型。文章介绍了传统的文本表示法,主 要是向量空间模型,并分析了该模型不关心词与词之间存在的复杂联系的弊端。 在此基础上,本文提出了潜在语义索引模型,它利用线性变化中的奇异值分解将 原先的特征向量空间再次分解,选取特征相关的特征向量,起到了高质量的降维 作用。但是,一般的s v d 都是在大量的原始数据中进行的,没有很全面的考虑词 的权重和词的区分度问题。所以本文将结合基于统计学理论的信息增益算法,将 原始的向量空问模型进行i g 计算,选取区分度较高的特征向量,再进行奇异值分 解,得出维度较低和区分度高的特征向量空间。 ( 4 ) 将改进的特征选取模型运用到就业岗位w e b 信息分类中,选取出最优的 特征向量空间。运用支持向量机多分类算法训练出该特征向量空间的分类模型, 继而预测该分类模型的分类准确度,间接地验证了该特征向量空间的分类准确度, 并设计了一个结合语义空间模型的支持向量机就业决策支持系统。 1 3 2 论文创新点 ( 1 ) 基于d o m 的正则表达式模板算法 本文的一个创新点是基于d o m 的正则表达式信息抽取算法。该算法运用面向 就业主题的h t m l 结构分析方法进行了d o m 结构的剖析,然后通过正则表达式模板 进行明确就业数据的信息抽取,为分类模型中的特征选取阶段提供了噪音剔除和 间接降维的作用。该算法的优点是结合了d o m 对h t m l 的灵活分析和f 则表达式模 板的精确提取相结合,实现了算法的柔性结合。 ( 2 ) 基于l g - s v d 的特征选取算法 6 t -, 够 龌十d o m 和i g s v d 的w e b 文本分类模型研究 本文的另一个创新点是运用信息增益和奇异值分解相结合进行特征选取,改 进的特征选取模型。首先将原始文本进行明确的噪音剔除,然后用两种传统的特 征选取方法进行综合特征提取与降维。与单一i g 算法相比,这个改进的特征选取 模型充分考虑了词的多义性和同义性的存在意义,并降低了特征向量维度。此外, 它又能选取了高区分度的特征向量,解决了单一s v d 算法所存在的问题。最后, 该算法的提出大大改善了算法的时间复杂度,使整体的分类模型的运行效率得到 了显著改善。 ( 3 ) 支持向量机的分类模型在高校就业领域的应用 将改进的特征选取模型融入到了支持向量机算法中,结合支持向量机的高效 的分类算法设计了一个基于w e b 的就业决策支持系统。 1 4 论文的组织 本文共分为六章: 第一章绪论,介绍了课题研究的背景及意义,简要的分析了文本分类技术、 文本预处理技术及支持向量机分类技术的国内外研究动态,最后介绍了本文的主 要研究工作及创新点。 第二章介绍w e b 文本分类的基本理论,详细的介绍了文本分类模型的详细过 程,分别是文本分词、特征选取、文本表示和支持向量机的分类原理。 第三章介绍了改进的w e b 信息抽取算法研究。首先简要介绍了信息抽取的基 本理论。然后简单描述了目前各方法所存在的缺陷,在此基础上提出了基于d o m 的正则表达式信息抽取算法。针对信息抽取的主题不明确,信息抽取内容过于粗 略,本文提出的基于d o m 的j 下则表达式算法所自动生成的j 下则表达式模板将很好 的解决该问题。 第四章介绍了改进的特征选取模型研究。首先综述了潜在语义索引模型的研 究现状和基本理论,并介绍了潜在语义索引模型中的奇异值分解理论的技术原理。 再次,分析了传统的特征选取模型的在文本分类中体现出的各种弊端。最后提出 来基于i g s v d 的语义特征选取模型,该模型先对原始文本进行明确的特征提取, 然后对i g 算法和s v d 算法的作初步改进,并将这两种改进的特征选取算法相结 合形成新的i g s v d 的语义特征选取模型。 7 坫fd o m 和i g s v d 的w e b 义本分类模型 i j l = 究 第五章介绍了基于d o m 和i g s v d 特征选取模型下的支持向量机分类模型。 首先,分析了高校毕业生的就业现状和各种分类技术的优缺点,然后,在此基础 上设计了电子就业智能分类预测系统,并详细的描述了该软件系统的功能结构、 软件设计和软件的详细流程图,提出了支持向量机在就业人才简历和岗位中的应 用。 第六章为总结与展望,总结了本文的研究工作,并对需要进一步完善和深入 研究的问题进行展望,指出今后的研究方向。 皋十d o m 和i g s v d 的w e b 文奉分类模型研究 第二章w e b 文本分类理论 w e b 文本分类是指给定的分类体系下,由计算机系统根据待分类w e b 文本的 内容自动确定文本类别( 也称主题) 的过程。w e b 文本分类可以有效的进行海量网页 数据管理,也是海量信息检索的重要手段。它主要包括了w e b 爬网、w e b 信息抽取、 中文分词、特征选取、文本表示和最终的文本分类等一系列过程。本文在w e b 文本 分类整体模型的研究基础上,深入研究了特征选取模型和支持向量机的多分类理 论。 2 1 中文分词 顾名思义,中文分词是指将一篇中文文本分解为一堆独立的词语。如,将“我 是中国人 分解为“我l 是l 中国人h 总所周知,英文和中文的铜的组成是完全不 样的,如英文“ia mc h i n e s e ”,他的每个空格就说明代表一个词。所以用中文 分词和英文分词的技术截然不同。 中文分词是文本处理的基础,如中文搜索引擎,中文文本分类等。中文分词是 文本分类的前提,分词的结果很大程度上会影响到文本分类的准备度。目前研究 中文分词技术的大多是科研院校,清华、北大、中科院、北京语言学院、东北大 学、i b m 研究院、微软中国研究院等。中国科学院计算技术研究所在多年研究基 础上,耗时一年研制出了基于多层隐马尔科夫模型的汉语词法分析系统 i c t c l a s ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y , c h i n e s el e x i c a la n a l y s i ss y s t e m ) ,该系 统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达9 7 5 8 ( 最近 的9 7 3 专家组评测结果) ,基于角色标注的未登录词识别能取得高于9 0 召回率, 其中中国人名的识别召回率接近9 8 ,分词和词性标注处理速度为31 5 k b s 。海 量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量 智能中心的研究成果,共同提高中文信息处理水平,特此发布海量智能分词研 究版,供专家、学者和爱好者进行研究。其他中文分词的研究产品如:c s w 中 文智能分词组件和c 撑写的中文分词组件等。 文本的预处理首先是通过文本分词,但是文本分词后还是存在数以千计的词 9 皋十d o m 和i g s v d 的w e b 义本分类模型研究 条,必须做进一步的处理才能真正成为文本的表示,如停用词的删除和词性选择。 下面我们将具体介绍这两种技术。 2 1 1 停用词删除 停用词指那些区分度不大,对分类作用效果不明显的词,一般包括虚词、叹词、 连词、标点符号或者某些单个字等。英文的停用词如:“w h a t ”、“i s ”等等,而中 文如:“啊”、“但是”、“如果”等等。这些词不能作为文本类别的特征,所带有的 信息量少,而且还会对其他实词起到一定的抑制效果。停用词删除便是将这些信 息量极少的词从文本中删除的过程。 但是停用词删除并不意味着通过人手逐一去除,这样的劳动力消耗是不可想 象的。它的实现常常需要一个停用词表,停用词表是一个庞大的虚词、叹词、连 词等组成的词库。随着语言文化的发展,这个词库需要不断的更新和维护。与此 同时,停用词自动选取技术也是必不可少的。它为了更好的定位文本中的停用词, 最终达到全部清除的效果。基于统计学的同义词选取方法是常用的中文停用词表 自动选取方法。科技同新月异的今天,新的中文停用词选取技术也不断被提出。 北京理工大学【4 8 】提出了一种新的停用词选取方法,它的原理是分别计算词条在语 料库中各个句子内发生的概率和包含该词条的句子在语料库中的概率,在此基础 上计算它们的联合熵,依据联合熵选取停用词,该方法比传统方法更适用于文本 分类的预处理。本文将使用这种方法实现停用词的删除,为后面更好的特征选取 和文本分类做好基础性的工作。 2 1 2 词性选择 词性的选择是在停用词删除后进行的。停用词的删除依靠停用词表的查询和更 新。但如果停用词表的更新进度慢,文本中的停用词则会删除不完全。在文本停 用词删除后,文本中依然还存在着大量的动词、形容词和助动词等,但是这些并 不是都符合我们的需求。所以我们必须进一步的分析词性。删除作用不大的词性, 如:助动词。选取区分度较大的词性,如:名词和动词。词性的初步筛选将有效 的降低维度,减少噪音,提升分类效果。当前比较著名的词性标注研究是中科院 的计算所汉语词法分析系统i c t c i a s ,该系统在分词的同此就标注了词类,并对 l o 丛十d o m 和i g s v d 的w e b 文本分类模型研究 词性进行筛选可以去除一大批无意义的词,达到了文本处理的初级目标。 2 2 特征选取 文本的预处理并没有在词性选择后终止,要选择出区分度大的词还需要进一 步的处理工作。研究人员发现,当不相关的和冗余的词被剔除后,文本分类的效 率和准确度将显著提高。所以,特征选取成了文本分类中非常重要的预处理步骤。 特征选取就是在词性筛选后,在一堆词中选取出区分度高,对文本分类意义重大 的词。它是通过某种变换,将高维的词映射到低维空间,从而实现降维的效果【4 9 1 。 传统的特征选取技术是一种集合映射和特征搜索的过程: ( 1 ) 映射的过程: 假设训练集d = d i ,d z ,以) ,它的特征项集合为t = t it 2 ,厶) ,给定一个集 合m = ( 1 ,2 ,3 ,m ) ,特征选取的第一步可以看作暑从t 到m 的1 1 映射。 ( 2 ) 搜索的过程: 在达到降维目的同时,也要保证分类的效果,所以最优选取特征向量空间也 是一个不断搜索最优向量子集合的过程。 其中包括以下几个子问题: 计算权值 搜索方向 搜索策略 最优评判标准 2 2 1 计算权值 特征集合的权值计算是集合映射的过程,即权值算法为映射函数f ,初始特征 集合d ,映射到集合m 。可以表示为:f = 厂( 石) :d m 。 其中,权值算法的研究是特征选取中比较热门的课题。而基于统计学的方法原 理简单、算法易实现,受到研究学者们的青睐。目前人们已经研究出来的算法有: 文档频率( d o c u m e n tf r e q u e n c y ,d f ) 、信息增益( i n f o r m a t i o ng a i n ,i g ) 、互信息 ( m u t u a li n f o r m a t i o n ,m i ) 、开方拟合检验( z 2 一c h l ) 。 堆- j = d o m 和i g s v d 的w e b 文本分类模型叫哆 ( 1 ) 文档频率 词的文档频率即语料库的所有文档中出现这个词的文档次数。在特征选取的 初期数据预处理中,文档频率低于某个阀值的特征项将被过滤掉。因为出现次数 太少的词( 低频词,或者叫生僻词) 往往是表意能力很差的词,有时候那种在几万篇 文档中却只出现几次的词更有可能是作者的笔误( 即创造了一个不存在的词) 。使用 它的更大好处还在于可以大大消减文档集中需要处理的词汇数量。在一定程度上 皋j 二d o m 和i g s v d 的w e b 文奉分类模型研究 ( 3 ) 互信息( m u t u a ii n f o r m a t i o n ,川) 互信息5 1 1 使用统计学的理论度量了特征项与某个类别之间的信息量,同样也 是将低于某个阀值的特征项删除。对于特征项t 它与某个类别c 之间的互信息计算 公式2 2 如下: m i ( c , t ) = l 。g 面而a x n ( 2 - 2 ) 其中,a 为特征项t 在类别c 中文档数;b 为特征项t 在其他类别中文档数; c 为类别c 中除了排除特征项t 后的文档数。n 为所有文档数。如果t 和c 不相关, 则m i ( t ,c ) 值为0 。如果有m 个类,于是对于每个t 会有m 个值,取它们的平均就 可得到特征选取所需的一个线性序列。大的m i 平均值的特征被选取的可能性大。 ( 4 ) 开方拟合检验( z 2 - c h i ) 开方拟合检验闯与互信息的特征选取方法有着同样的原理,通过计算特征项 w 在类别c ,中的出现与不出现的概率,来度量特征项w 与某个类别c ,之问的关系 程度。若关系紧密,则说明该特征项具有很好的区分度,反之,则被系统过滤掉。 它的计算公式2 3 如下: z 2 ( w 勺) = 西面万n 面x ( a d 面- c 而b ) 2 而 2 - 3 ) 其中,a 是c ,类中包含词w 的文本数目;b 是不属于c ,类、但包含特征项 w 的文本数目;c 是c ,类中不包含特征项w 的文本数目;d 是不属于c ,类、也 不包含特征项w 的文本数目,n 是文本总数。如果w 与c ,之间是独立的,则统 计量的值将为0 。对于训练文本集中的每一个类,可计算出每个项与该类之间的统 计量的值。 y a n g 和p e d e r s e n 5 3 1 针对英文纯文本比较研究了上述几种经典权值计算方法的 优劣。实验结果表明:i g 和c h i 方法的效果最佳;d f 方法的性能同i g 和c h i 的性能大体相当,而且d f 方法还具有实现简单、算法复杂度低等优点;t s 方法 性能一般;m i 方法的性能最差。以上几种权值计算方法都只考虑了特征项在文本 中出现的频率和规律,往往忽略了特征项的最重要的语义属性问题。本文将提出 幕于d o m 和i g s v d 的w e b 文本分类模型 i j f 究 i g s v d 算法,在考虑词在文本中出现的规律问题的同时,改进以往算法中的语义 鄙陋。 2 2 2 搜索方向 上面已经提到,特征选取可以看成是一个最优
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上海市宝山区高考语文二模试卷-教师版
- 军队文职人员招聘《仓库保管员》预测试卷三
- 2025年机关事务管理局机关服务中心招聘笔试专项练习含答案
- 2025年乡镇司法所辅助人员招聘笔试高频错题及答案
- 2025年社区矫正警察招聘面试预测题及答案
- 2025年中海油县片区“加油站+文旅”项目经理竞聘笔试模拟题及答案
- 2025新版广告投放权转让合同
- 2025贵阳公积金租房提取:合同的作用与要求
- 地税局财务知识培训计划课件
- 2025年法务招聘试题模板及答案
- 《工程勘察资质标准(征求意见稿)》
- 体检中心沟通技巧课件
- 工作交接表模板
- 佛吉亚卓越体系知识手册
- 3.2 歌曲《牧童之歌》课件(9张)
- 可穿戴设备可靠性优化技术
- 小升初分班考必刷题(试题)-2023-2024学年六年级下册数学人教版
- 数据治理与数据中台建设方案
- NBT 33018-2015 电动汽车充换电设施供电系统技术规范
- 《科技英语翻译方法》课件
- DL-T5455-2012火力发电厂热工电源及气源系统设计技术规程
评论
0/150
提交评论