文本的空间向量表示模型_第1页
文本的空间向量表示模型_第2页
文本的空间向量表示模型_第3页
文本的空间向量表示模型_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。向量空间模型就是将文本表示成为一个特征向量:其中为文档d中的特征项为的权重,一般取为词频的函数。一般选取词作为文档向量的特征项,最初的向量表示完全是0,1的形式,即如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以逐渐0、1被更精确的词频代替,词频分为绝对词频和相对词频,绝对词频,使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,

2、目前存在多种形式的TF-IDF公式。在向量空间模型中,两个文本和之间的相关程度可以用它们之间的相似度来度量。当文本被表示为向量空间模型中的向量时,我们可以借助于向量之间的某种距离来表示文本之间的相似度,通常用向量之间的内积或者用夹角余弦值来表示。根据以上理论的指导,我做了如下实验。选取词作为文本向量的特征项(预先把中文词汇的停止词去掉,比如标点符号,啊,阿,哎,哎呀等)。文本向量权重的选取为特征词在文本中出现的次数。两个文本间的相似度用夹角的余弦值表示。比如连个文本=iphone5s, 16G,文本=iphone5s, 16G, 电信版,文本=iphone5s, 16G, 移动版。现在计算和之

3、间的相似度。步骤一:得到两个文本特征项集合的并集iphone5s, 16G, 电信版步骤二:的向量表示1,1,0步骤三:的向量表示1,1,1步骤四:根据向量余弦夹角公式计算两个文本的相似度。步骤五:保存结果。实验结果,的相似度为0.8164965809277259,和的相似度为0.6666666666666667。主程序流程图:结束计算所有文本间的相似度用特征向量表示各个文本用特征项表示各个文本统计特征项类从文件中加载文本集合从文件中加载停止词开始这个程序还比较简陋,里面还存在一些问题,只是一个入门程序,现在正在研究TF-IDF公式。TF是词频,不同类别的文档,在特征项的出现频率上有很大差异,

4、因此特征项频率信息是文本分类的重要参考之一,一般TF较大的特征项在该类文档中具有较高的权重,也就是说如果一个词有某类文档中经常出现,那么说明这个词对该类文档具有代表性,TF越大,表示这个词对文档越重要。如“计算机”这个词在计算机类的文档中出现的频率显然要高于政治类的文档。但是只是词频不足以表示一个词对文档的有用程度,为了消减几乎存在于所有文档中的高频词汇的影响,比较合理的办法是使用反比文档频率。DF是文档频率,就是文档集合中出现某个特征项的文档数目;IDF是反比文档频率,IDF越大,此特征项在文档中的分布越集中,说明他在区分该文档内容属性方面的能力越强。反文档频率是特征项在文档集分布情况的量化。IDF应用时经常采用对数形式。IDF算法能够弱化一些在大多数文档中出现的高频特征项的重要度,同时增强一些在小部分文档中出现的低频特征项的重要度。特征权重计算唯一的准则就是要最大限度的区分不同文档。因此特征项频率TF与反比文档频率IDF通常是联合使用的,也就是TF-IDF权重。参考文献:1苏力华.基于向量空间模型的文本分类技术研究D.西安电子科技大学,2006.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论