文本分类中词语权重计算方法的改进与应用_第1页
文本分类中词语权重计算方法的改进与应用_第2页
文本分类中词语权重计算方法的改进与应用_第3页
文本分类中词语权重计算方法的改进与应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2008,44(5)187Computer Engineering and Applications 卄算机工程与应用文本分类中词语权重计算方法的改进与应用熊忠阳,黎刚陈小莉,陈伟XIONG Zhong-yang.U Gang CHEN Xiao-litCHEN Wei*庆大学计算机学院重庆400030College of Computer,Chongqing University,Chongqing 400030,ChinaXIONG Zhong-yang,LI Gang,CHEN Xiao-Ii,et aLImprovement and appliext classi-flcatioiLC

2、omputer Engineering and Applications 12008,44(5): 187-189.Abstract: Text representation has been the fundamental problem in Information Retrieval.tf.idf (term frequencytinverse document frequency) as one of term weighting schemes in Vector Space Model is a good text representation,Which is popular a

3、nd make good results in the field of Information Retrieval.Hie difference of the proportion of distribution of terms in text collection is one of the most important factors of expressing the content of text.But the calculation of IDF,don't consider the infonnation of distribution about terms amo

4、ng classes,and don't consider the more term weighting for the terns of the relative distributed balance inner classes.The improved TFIDF are used to select feature,KNN algorithm and genetic algorithm are used to train the clasaifi- er.and proves that the improved TFIDF method is feasible.Key wor

5、ds: text representation;Vector Space Model;feature selection;TFIDF摘 耍:丈本的形式化表示一直是住息检索领城关注的基珈浊问翅。向受空间模型(Vector Space Model)中的tf.idf文衣表示是该 领城工碍到广泛应用,并JL取得较好效果的一种丈本表示方法。诃语在文左集合中的分布比例童上的是异是决定词语表达文本内 容的立矣因索之一。但爰其IDF的计算,并没有考虑到特征项在类何的分布情况,也没有考虔到在真内分布相对均匀的特征项的 权重用该比分布不均匀的要荷,应该赋于其较高的权蒐。用改进的TFIDF选择特枉诃铢、用KNN分矣

6、算法和逮传算法別陈分奂容 来验证其有效性,实脸表明改进的策略是可行的。关犍词:丈本表示;向童空间模型;特征选择;TFIDF文章编号:1002-8331(2008)05-0187)3文欽标汉码:A 中图分类号:TP3911引言文档的向化是进行文本分类的基础。只有文档向量很好 地保存了原有文档的倍息,文本分类才可能有令人満意的结 果。而文档向量的复杂程度(一般来说就是其维数)則很大程度 上形响了文本分类的处理结果。在对文档向童化时,通常先使 用 TF-IDF (Term Frequency -Inverse Document Frequency)公 式将文档向童化。因此,向吃间模型文档表示的形式化

7、方法 是基于文档处理的各种应用得以形式化的基础和前提。本文通 过研究发现传统的文本特征权值表示方法TFIDF的不足:其 IDF的计算,并没有考虑到特征项在类间的分布情况也没有 考虑到在类内分布相对均匀的特征项的权重应该比分布不均 匀的要离,应该赋予其絞高的权重。本文对此进行了改进,结合 特征项的类间,类内分布,以及类间特征项不完全分类对分类 的形响,提出了一种新的特征权重算法。在为毎个类训练分类 器的时候,用到了 KNN和遗传算法,最后通过实验证明改进的 THDF方法是可行的。2传统的TFIDF传统的特征权重算法主要考虑特征项的频率信息TF以及 反文档頻率伯息IDE。2-1特征及的頻率信息特征

8、项频率(TF)是指特征项在文档中出现的次数。特征项 可以是字、词、短语,也可以是经过语义概念词典进行语义归并 或概念特征提取后的语义单无。不同类别的文档,在某些特征 项的出现頻率上有很大差异,因此頻率信息是文本分类的重要 豔考之一。在量初的文本自动分类中文档向就是用TF来构 逍的。22反文档頻率信息1972年.Spark Jon“提出计算文献频率有助于计算词权 重,从此,Inverse Document Frequency(IDF)公式在信息检索中 占堀重要地位叫反文档頻率是特征项在文档集分布情况的量 化。IDF常用的计算方法为:K金用目:亶庆市自然科学基金(the Natural Scien

9、ce Foundntion of Chongqing City of China under Grant Njd.CSTC2006BB2021 )o作看If介朋忠阳(1964-),男博士康授,博士生耳师主要研究&域为数据挖拥、数据库、并行计算、网络信息处理;黎刚(197&).男硕士研究 生主要研究方向为数据挖掘数据庠在】ntemel上的应用、自然语盲处理和WEBft索;陈小»(1979-),女硕士研究生主要研究方向 为数据挖如自然沼育处理蜃伟(1974-) 男.碩士研究生.主耍研究方向为数据挖掘群集技术。收 ffHJR: 2007-05-28回日期:2007-07-2

10、51882008,44(5)Compuur Engineering and Applications 计算机工程与宜用u)=log(+0.1)' (1)其中N为文档集中的总文档数,砒为出现特征项Tk的文档数。IDF算法的核心思想是,在大多数文档中都岀现的特征项 不如只在小部分文档中岀现的特征项重要。IDF算法能够弱化 一些在大多数文档中都出现的高頻特征项的重要度同时增强 一些在小部分文档中出现的低频特征项的重要度。, Y 有效的分类特征项应该既能体现所属类别的内容,又 能将该类别同其它类别相区分。所以在实际应用中TF与IDF 通常是联合使用的c TF与IDF的联合公式如下叫其中i代表

11、类别号):Weight" “环讣耶 TJ(2)在很多情况下还需要将向*归一化,TFIDF的归一化计算 公式如下(其中n表示类别i中特征项的总个数):Weight" Tt )=严)诩外)(3)2.3 TFIDF的不足TFIDF的不足,主要表现TFIDF没有考虑特征项在类间. 类内和不完全分类的分布信息。23.1 TFIDF没有考虑转征项在类间的分布信0如果某一类C中包含词条7;的文档数为m.而其它类包 含7的文档总数为k 显找所有包含Tk的文档数nk,当m 大的时候山也大,按照IDF公式得到的IDF的值会小.则 表示该词条升类别区分能力不强c但是实际上大,说明词 条7;在G类

12、的文档中频繁出现就说明T、词条能够很好地代 表C类的文本特征应该賦予较高的权重并选作该类文本的 特征词。这就是IDF没有考虑特征词在类间分布的f 方面; 另一方面虽然包含升於文档数n较小,但是如果其均匀分布 在各个类间这样的特征词不适合用来分类应该赋予较小的 权重,可按照传统的TFIDF算法计算其IDF值却很大。23.2 TFIDF没有考虚秤征项在类内的分布信息同样是集中分布于某一类别的不同特征项类内分布相对 均匀的特征项的权重应该比分布不均匀的要离。传统的TFIDF 算法,也没育考虑这一情况。233 TFIDF没有考虔特征及不完全分类的情况实际使用的已分类的训练文本集通常是不完全的分类。即

13、有些类别的文档集还可以继续划分出更细的类别。如计算机 类一般来说至少可以再细分出计算机硬件、计算机软件两个子 类。在这种不完全的分类条件下,各个子类文章笳占的比重是 不均衡的。可能在某个计算机类的文本集中,软件类的占了 80%麼件类的只有20%的比例。在这个训练集中展于计算机 硬件类的特征词也应该作为判别计算机类文章的待征词。如果 菓些词在一类文就中戟体出现频率较低但是在本类中一定数 量的文章中岀现较频索.那么这些词也应该对分类来说具有较 多的信息*。这就是不完全分类的情况。3改进的TFIDF待征项的分布信息限称为特征项頻率分布的离敵度用 特征词在类间和类内部的分布的离散度来描述特征词在类间

14、和类内部的分布情况,用特征词在类间和类内部的分布的离散 度和不完全分类的词频差异来修正TFIDF公式。3.1特征項的类间离散度设总共有/个类,/(7?代表词条升在C,类的出现频率, 丽代表词条7;的在各个类的平均词频计算公式为丽*的则类间的离VD#丄(5)3.2特征词条叽勺文档数为将7;在各个文档的问频看作是h在各个文档中的取值.乔C表示1在类C,文档中的平均词频其计算公式为:页7£的)用。表示升在类C中的文档中无俱方差,则:则类内离散度D为:D尸(8) vm-1可以证明33特征项的不完全分类的词頻差异考虑到特征项在类中的不完全分类,引入了一个权重参数:词频差异(Word Frequ

15、ency Differentia Based,WFDB):(9)A为比例系数由实际的情况进行调整。结合以上三个方面的考虑,加上归一化处理S.TF-1DF变 为了 TF-IDF-DI-WFDB:(10)(-DjxWFDB4分类模型及策略本文采用的分类模型如图严所示。爭回审回回叵 是否弓于林| |是否号于本対 医呼于本主i1两有文档;图1分200B,44 189熊忠阳象刚味小莉尊:文本分灵申词语权to方逹曲改迸与炬用RecallTP、TPFN,类器奁类别C.上的査对率定义咖下:(11)(12)(13)当类分类器训练好后要看测试文档是否属于该类比较 测试文档和类分类器的相似程度将其分类到与之相似度最

16、大 的分类器所对应的类中。本文采用KNN和遗怜算法进行分类.以验证改进的TF- IDF的有效性和可行性。5实验及其结果分析5.1评价指标对分类器性能评价的主要指标有召回率(Recall 亦称査全 率).精确率(Precision,亦称査对率)。假设皿表示测试文档集 中本来属于类别G而且被分类器分类到类别G的文档数” 表示测试文档集中本来不属于类别G但却被分类器错误分类 到类别G的文档数则表示本来应该属于类别C但被分类器 分类到别的类别的文档数,而TNt表示本来不属于类别G也没 有被分类器分类到类别C的文档数。那么分类器在类别C.上 的査全率(Recall)定义咖下:PrtcisionpTP含

17、FP、对于类别G,其F#定义为: F 二 2RctaUPtecision1 PtecuionRecall5.2实验结果分析实验采用数据集来源于复旦大学,其中训练样本和测试样 本分别都有10个类训纷样本共有1 882个文档,而测试样本 有2 816个文档。实验结果的KNN算法的K=8 相似度阈值为0.8;遗传算 法的初始种群为100,交叉概率取为0.75,变异概率取值为005 相似度阑值为0.78o把传统的TFIDF和KNN的分类效果与改进的TFIDF和 KNN的分类效果,改进的TFIDF和遗传算法的分类效果进行 比较,如表1,2所示。«1直平均、微平均分矣嫂果比絞THDF 与 KNN

18、New TFIDF 与 KNNNew TFIDF 与 GA90.11991.46690.639査全率/%磁平均91.2649X25991.83292.30793.29693.149査对*常平均91.2649X25991.8325宏平均S8.26190.12688.204徽平均45.04345.71645.273TFIDF与KNN指传统的THDF和KNN的分类效果,NewTHDF与KNN指改进的TFIDF和KNN的分类效果,NewTHDF与GA指改进的TFIDF和遗传算法的分类效果,/? J、F 分别指査全率、査准率和F1评估值。*2各个矣的分矣效果比絞EDF 与 KNN N" TF1

19、DF 与 KNNNew THDF 与 GAR/%Pf%Ff%fU%PI%FT%R/%Pf%Ff%85.07590.47687.69288.55?91.75390.12685.57291.00588.204Eff83.82494.47588.83185.78498.31591.6238333398.26690.185军事8433792.920M.4208634589.958S8.11485.14192.98288.888经挤92.92381.469M.76091.36491.57893.150体育96.8899».42596.36988.710 91.85091.89295.0508i.22590.601计算机90.50090.000X.459交通915239i.69494.5626结束语本文从类间、类内和类内的不完全分类的角度,对TFIDF 进行了改进,并采用KNN和遗传算法来为每个类训练分类瞅 把传统THDF结合KNN的分类效果分别和改进的THDF结 合遗传算法的分类效果改进的TFIDF结合KNN的分类效果 作了比较。实脸结果表明,改进的TFIDF结合遗传算法的分类 效果和改进的TFIDF结合KNN的分类效果从总体上都要比 传统TFIDF结合KNN的分类效果好.因此改进的TFIDF是 有效的且可行的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论