中文文本分类中特征提取算法研究TFIDF_第1页
中文文本分类中特征提取算法研究TFIDF_第2页
中文文本分类中特征提取算法研究TFIDF_第3页
中文文本分类中特征提取算法研究TFIDF_第4页
中文文本分类中特征提取算法研究TFIDF_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.2 TFIDF特征项频率是指特征项在文档中出现的次数。特征项可以是字、词、短语,也可以是经过语义概念词典进行语义归并或概念特征提取后的语义单元。不同类别的文档,在某些特征项的出现频率上有很大差异,因此频率信息是文本分类的重要参考之一。在最初的文本自动分类中,文档向量就是用TF 来构造的。单纯使用TF 往往会导致两个方面的问题,一方面:文档中大量出现一些对分类没有贡献的虚词如:感叹词,介词,连词等,这些词如果出现频率过大,在特征提取的时候将这些词选做了特征词条,而对分类产生负面的影响。另一个方面是:特征词的好坏是看能否代表类和文档的属性,TF 值高的特征词,如果在所有的文档中TF 值都高,那

2、就很难说这样的特征词到底代表哪个文档。因此单纯使用TF 是有很大的局限性的,人们往往将反文档频率IDF 27和TF 结合使用。1972年,Spark Jones 提出计算文献频率有助于计算词权重,从此,Inverse Document Frequency(IDF公式在信息检索中占据重要地位28。反文档频率是特征项在文档集分布情况的量化。IDF 常用的计算方法为:(nNlog t idf =(3.10其中 N 为文档集中的总文档数,n 为出现特征项t 的文档数。IDF 算法的核心思想是,在大多数文档中都出现的特征项不如只在小部分文档中出现的特征项重要。IDF 算法能够弱化一些在大多数文档中都出现

3、的高频特征项的重要度,同时增强一些在小部分文档中出现的低频特征项的重要度。一个有效的分类特征项应该既能体现所属类别的内容,又能将该类别同其它类别相区分。所以,在实际应用中TF 与IDF 通常是联合使用的。TF 与IDF 的联合公式如下29:(其中i 代表类别号:(t idf t tf t Weight TFIDF ×= (3.11在很多情况下还需要将向量归一化,TFIDF 的归一化计算公式30如下(其中n表示类别i 中特征项的总个数;(=n 1j j ii TFIDF tfidf tfidf t Weight 2(3.12TFIDF 的主要思想是:如果某个词或短语,在一个文档中出现的

4、频率TF 高,并且在其它文档中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来进行分类;IDF 的主要思想是:如果包含词条t 的文档越少,也就是n 越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类i C中包含词条t 的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n =m + k,当m大的时候,n也大,按照IDF公式(3.10得到的IDF的值会小,则表示该词条t类别区分能力不强。但是实际上,m大,说明词条t在i C类的文档中频繁出现,就C类的文本特征,应该赋予较高的权重并选作该类文说明t词条能够很好地代表i本的特征词。这就是IDF没有考虑特征词在类

5、间分布的一个方面;另一方面,虽然包含t的文档数n较小,但是如果其均匀分布在各个类间,这样的特征词不适合用来分类,应该赋予较小的权重,可按照传统的TFIDF算法计算其IDF值却很大。存在这些缺点的原因主要是因为:传统的特征权重算法TFIDF是将文档集作为整体来考虑的,特别是其中IDF的计算,并没有考虑到特征项在类间的分布情况。以上是特征词在类间的分布情况,而类内部的分布情况又是怎样呢?同样是集中分布于某一类别的不同特征项,类内分布相对均匀的特征项的权重应该比分布不均匀的要高,因为如果某一特征项只在某个类别的一两篇文档中大量出现,而在类内的其它文档中出现得很少,那么不排除这一两篇文档是该类别中特例

6、的情况,因此这样的特征项不具备代表性,权重相对较低,对于这种情况,传统的TFIDF 算法也不能很好地处理。这里通过一个很小的文档集来说明上述问题。假设有三个类别,每个类别各5t,2t,3t。篇文档,只考虑三个特征项1表3.1为特征项在各篇文档中出现的频率。表3.2为传统TFIDF算法的权值计算结果。表3.1 各个特征项的出现频率 表3.2 特征权重计算结果(TFIDF 从表3.1中可以看出:1t 只是在类1中的文档出现,分类能力应该最强,而2t 在三个类中均匀分布,对分类基本没有信息贡献,因此其分类能力应该最弱。但从表3.2的结果来看,2t 的权值却非常高。这是因为根据TFIDF 算法的定义,

7、特征项的权重由TF 和IDF 决定。当文档集中包含特征项1t 、2t 的文档数相同时,这些特征项的IDF 相同,特征项的权重由TF 唯一确定所以导致表3.2得到一个极不合理的结果,几乎没有分类能力的被赋予了很高的权值。而特征项3t 只是在类1的一个文档中出现,这些只在类中一个文档出现的词条,具有偶然因素,不能够代表这个类的特征,但是按照TFIDF 算法,却得到如此高的权重。由此可见,在没有考虑到特征项在类间和类内分布的比例情况31时,单纯使用TFIDF 算法会导致很大误差。此外,为了提高运行效率,往往还需要对文档向量进行压缩处理,仅保留权值较高的特征项,从而形成维数较低的文档向量。这样一来,低

8、频的词条就很有可能被删除。但是有的低频词只是在某一类别的文档出现,这样的低频专指这个类别,传统的TFIDF 算法未加任何处理,忽略了这些重要低频高权特征项的分类作用。本文将词条t 看作一个随机变量,t 在各个类间的取值用词条在各个类间的词频(即词在各个类的出现次数表示。由方差的定义,t 在各个类间分布的方差(t D 反映了t 在各个类间的分散程度, (t D 越小,则t 在各个类间分布越均匀。即如果词条t 越均匀分布在各个类间,(t D 就越小,词条t 对分类的贡献就越小,如果t 均匀分布在类间,则(t D 为0,对分类没有贡献。利用方差的这一特征,本文用(t D 来修正TFIDF 公式,恰好

9、可以弥补TFIDF 没有考虑词条在各个类间分布的缺点。由上面分析,t 在各个类间的取值用词频来表示,但是词条t 在各个类间的分布的概率很难计算,如果要计算方差比较困难,因此本文用词条t 的平均偏差平方32来近似代替(t D 。设总共有n 个类,(t tf i 代表词条t 在i C 类的出现频率,(t tf 代表词条t 的在各个类的平均词频,计算公式为:=n1i i t tf n 1t tf (。令t 用在各个类间的平均偏差平方为e D ,则t 的平均偏差平方计算公式:2n1i i e t tf t tf n 1D =(3.13用e D 修正TFIDF 公式:e TFIDF D t idf t

10、tf t Weight ××=(3.14显然,当t 均匀分布在各个类间时,由于e D 等于0,故 (t Weight TFIDF =0,词条t 对分类没有贡献。下面分析:词条t 在各个类内部分布情况,设i C 类中总的文档数为m ,将t 在各个文档的词频看作是t 在各个文档中的取值,(t tf i 表示t 在类i C 文档中的平均词频,其计算公式为:(t m 1t tf m1j ij i tf =(3.15用D ii 表示t 在类i C 中的文档中平均偏差平方,则:D ii =(2m1j i ij t m 1tf =( (3.16为了便于表示,将D ii 增加一个分母,使其

11、值小于1:='ii D (=mj ij m j i ij t tf m t tf t tf m 121211( (3.17同上面分析,如果词条t 在i C 类的文档中分布越均匀,D ii 则越小,而t 却能够代表i C 类,相应的1-'ii D 就越大,因此可以用1-'ii D 来修正TFIDF 公式:e k ik ik TFIDF D t idf t tf t Weight ××=('ii D ×1 (3.18下面证明'ii D 的值小于1:'ii D -1=(=mj ij m j i ij t tf m t tf t tf m 121211(-1=(=mj ij m j mj ij i ij t tf m t tf m t tf t tf m 121122111(=(=+mj ij m j m j ij i ij ij ij t tf m t tf m t tf t tf m 12112221121(=(=mj ij m j mj i ij i t tf m t tf t tf m t tf

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论