文本分类中特征向量空间降维方法研究_图文_第1页
文本分类中特征向量空间降维方法研究_图文_第2页
文本分类中特征向量空间降维方法研究_图文_第3页
文本分类中特征向量空间降维方法研究_图文_第4页
文本分类中特征向量空间降维方法研究_图文_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第二章文本分类基础除以上介绍的算法之外,支持向量机和神经网络算法在文本分类系统中应用得也较为广泛,支持向量机的基本思想是使用简单的线性分类器划分样本空间。对于在当前特征空间中线性不可分的模式,则使用一个函数把样本映射到一个高维空间中,使得样本能够线性可分。而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判别正确时,权值向量保持不便,否则进行调整,因此也称为奖惩法。综上所述,文本分类的过程可以总结为图2.1 图2.1文本分类过程图2.1形象地说明了文本分类中要经历的两个主要阶段,以及文本的表示和训练/分类算法在文本分类

2、中所处的地位。从图中可以看出,训练阶段的作用是构造一个分类器,而分类阶段则是利用这个分类器来完成分类。另外,文本的表示是文本分类的基础,在文本分类的两个阶段中都要用到,而本文研究的特征空问降维方法中的一个目的,就是要寻求一种有效的文本表示方法。2.3特征向量表示的有效性评价一个特征向量表示的有效性,即看它是否能较准确地表示文本,故对一个文本集合用某一分类算法进行分类时,通常要比较该表示方法及其它表示方法所获得的分类结果。如果该表示方法得到的结果相对较好,则表明此种方法具有好的表示效力。特征向量的表示效力受两方面的影响:一是特征词的粒度选取,二是权值的计算。【Lewl992一文中指出:特征集合的

3、一些性质对表示方法的效力有很大的影响。很多实验的结果也证明了这一点1ow“”】。因此,本节主要讨论特征词集合对于特征向量表示效力有影响的一些性质。1.表示的充分性如果用一个特征集合表示的所有文本都是可以被区分的,也就是说不同的文本在该特征集合上的表示都是不同的,通常就认为它是充分的。否则无论通过什么样的训练算法也不可 东南大学硕士学位论文分类的具体情况,由于用上位概念代替其下位概念会使褥属于同一大类的小类的类别之间的区分度减小,较容易判别出它们属于同一个大类,因此如果类别分得较粗,即都是比较大的类别,则由于上位概念的归纳所带来的影响会较小,对查对率的影响并不是很大。实验选取文本分类方面的英文文

4、章50篇,采用本文所提出的方法,将初始得出的特征向量进行降维,原来的203个特征词,被归纳为87个,图4.6统计了特征词频度分布。 图4.6降维实验结果比较图4.6中横轴表示该类文本中特征词平均频度的对数值,纵轴表示具有该频度的特征词的数目。从图中可以看出,与单纯统计词形出现次数不做降维处理相比,本文方法所得出的结果低频特征词的数目减少,高频特征词增多且频度得到加强,特征词总的数目减少。下面,我们就实验中所显示的、算法对特征词频度分布的影响及各种情况的产生原因作一说明和分析。经本文的所给方法处理之后。特征词的频度分布主要有以下四个特点;1.低频的特征词的数目大为减少。由于本文在预处理(初始特征

5、词提取中没有做去除低频词的处理,所以预处理后仍保留了大量的较低频度的词,而经过本文算法的处理去掉了很多的低频词,这说明在下位概念集不能被上位概念替代的情况下,算法选取了具有较高重要度的下位概念,而剔除了那些重要度不高的下位概念,这样就出现了在图中横坐标0.9附近的词数目比处理前减少很多。而这种情况下的剔除操作是基于对同一层次上的各个概念之间重要度的比较,与单纯的基于某一频度的阀值有本质的区别。2.高频特征词频度得到加强。处理前的高频词集中在1.4附近,而经过概念归纳后,高频特征词集中在1.6附近。这说明本文提出的方法对处理文本包含的语义概念进行了有效的融合,使得相关概念得到不同程度的聚集,.原来的高频概念的频度得到更进一步地加强,这样就使得与文本类别相关的概念更为突出。3.高频特征词数目增多。处理前。高频词最高峰是19;而经过概念统计和归纳后,高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论