文本特征提取以及分类结果分析_第1页
文本特征提取以及分类结果分析_第2页
文本特征提取以及分类结果分析_第3页
文本特征提取以及分类结果分析_第4页
文本特征提取以及分类结果分析_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本特征提取以及分类结果分析目标:提取文本中的关键信息,用于文本的自动分类。要求:编写特征提取程序,从训练语料中根据IG,MI,CHI或CE等指标,分别提取文本特征词集。编写文本特征向量生成程序,根据得到的文本特征词集,生成任意文档的权值特征向量。为其它设计分类器的同学提供训练文档和测试文档的特征向量集。编写统计程序,对其它同学的分类结果进行统计和分析,包括准确率(Precision)和找回率(Recall),以及综合指标〔F-Measure=…〕。文本特征提取原理文本特征提取是进行文本分类训练和识别的根底。其根本思路是基于向量空间面向〔VSM――VectorSpaceModal〕,即把一篇文本视为N为空间中的一个点。点的各维数据表示该文档的一个特征〔数字化的特征〕。而文档的特征一般采用关键词集,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,这就是该文档的特征向量。由上面的简介可知,这里有两个方面的问题:〔1〕如何定义“关键词集”〔或称为“特征词集”〕;〔2〕如何就是某个关键词在一篇文本中的权重。提取关键词集首先,我们提取关键词的最终目的是为了对文本进行分类。一些词,如“的”,对应文本分类不可能有任何帮助;或者,“计算机”一词对进行“台独类”和“成人类”文章的分类也没有任何帮助。因此,关键词集是与分类目标相关的。从上面的例子可以想象,在提取关键词集中有两个步骤:筛选关键词的各种方法根据词汇与预定义分类文本的相关程度来筛选关键词。使用一个训练文档集〔其中各文档的分类已经由人工指定〕,通过计算其中词汇与文档分类的相关程度,选择相关程度高的词汇作为表达文档特征的关键词。词汇与文档分类相关度的计算有多种方式。词频〔TF-TermFrequency〕:该思路很简单:如果词汇w在Ci类文本中出现的频率很高,就用它作为一个关键词:其中,表示在Ci类文档中w出现的总次数;表示Ci类文档中的总词汇数。计算Ci类文档中各词汇的词汇频率后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。文档频率〔DF-DocumentFrequency〕。文档频率是指在Ci类文档中,出现词汇w的文档的比例。该比例越高,那么所有w对Ci的特征表达可能越重要,所以可以以此作为筛选关键词的条件。,其中是属于类的文档总数,是在属于类的文档范围内出现w的文档数量。计算Ci类文档中各词汇的文档频率后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。TF-IDF〔词频-反向文档频率〕:可以看出,上述两种方法各有其道理,但都失之偏颇。注意,这里的反向文档频率与2〕中的文档频率是不同的概念。这里的文档频率是指词汇w在整个文档集中的文档频率,而2〕中是指在类Ci子集中的文档频率。因而这里的文档频率的计算为: 其中,是包含w的文档总数,是总文档数。词汇w的TF-IDF计算方法为: 计算Ci类文档中各词汇的TFIDF后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。互信息〔MI-MutualInformation〕:互信息指标是用于表示两个特征共同出现的程度。在这里,如何词汇W和类C总是共同出现,那么它们的互信息度高,W就是C类文档的一个特征词。 〔1〕其中,是在整个训练集中,出现词汇w的文档的概率〔用频率代替〕;是在训练集中,属于类的文档的概率;表示在训练集中既出现w又属于类的文档的概率。此外,w与Ci的互信息度高,并不说明w与另一个类Cj的互信息度就一定低。为了更好地区分两个类,我们应该选择仅与一个类的互信息度高的词汇。这种表达是很理想化的。实际上我们可以选择哪些与不同类的互信息度差距较大的词汇作为关键词。表示这一特征的方法是求词汇w的互信息度的均方差: 〔2〕其中,为w的平均互信息度,其公式为: 互信息的一个缺点是没有考虑w在某类文档中的词汇频率,因而稀有词汇常常可以有很大的权重。文章《基于改良的互信息特征选择的文本分类》中提出的方法是: 〔3〕其中,是词汇w的词频在Ci类文章中的词汇频率: 其中,count(w)是w在所有文章中出现的词汇数,count〔w|Ci〕是w在Ci类文章中出现的词汇数。我们在实验中可以比拟以上三种指标的分类效果。计算各词汇与Ci类的互信息度后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。χ2统计量:互信息的关键是考虑词汇与类的同现概率。而χ2统计希望考虑得根据全面:综合考虑词汇w与类C关系的四种情况。假设我们用W表示出现词汇w的文档,表示不出现w的文档,C表示属于类C的文档,表示不属于类C的文档,那么它们之间的组合有:。如:表示既不出现w又不属于C的文档。假设以上四种情况的文档子集中包含的文档数分布为下表:W那么,w与Ci的为:计算各词汇与Ci类的χ2统计量后,设定一个阀值,选择大于该阀值的词汇作为Ci类的关键词。将各类的关键词集合并后,形成整个系统的关键词集。信息增益〔IG-InformationGain〕:信息增益又称为熵增益。熵是热力学中的一个概念,用于表达一个封闭系统中的混乱程度。系统越混乱,熵越大。自然规律中〔热力学第二定律〕,系统中的熵在没有外部干预的情况下总是不变或增大,称为“熵增定律”。我们作文本分类却是反过来,要使系统中的熵减小〔变得有秩序〕。这里,系统是指一个文本集,有秩序是指其中的分类是否清晰。在信息论中,一个系统的熵用来表示某一类信息的不同数据在系统中分布的均匀程度。如在文本分类中,属于不同类别的文本在文本集中分布的越均匀,系统越混乱,熵越大。在提取特征词中,我们希望当取w为特征词,并根据是否包含w将整个文本集分为两个子集后,各类文本在两个子集内局部布的非常不均匀。理想的情况是,正好一个子集包含一个类。这一两个子集内部的熵就非常小,而整个系统的熵是两个子集熵的和,因而也会变小。这样,根据w划分子集后,系统就产生了一个熵增益〔实际上是熵减〕。通过比拟不同词汇对系统产生的熵增,选择哪些熵增很大的词汇作为关键词。 使用w划分子集前,整个系统的熵〔Entropy〕为: 其中,为文本集中Ci类文本出现的概率〔频率〕。划分后,系统的熵为: 其中,是在包含词汇w的文本子集中Ci类文本出现的概率;那么是在不包含词汇w的文本子集中Ci类文本出现的概率。根据以上两个公式,使用w作为关键词的熵增为: 计算各词汇的熵增后,设定一个阀值,选择大于该阀值的词汇作为关键词。期望交叉熵〔ECE-ExpectedCrossEntropy〕:交叉熵反映了文本类别的概率分布和在出现了某个特定词汇的条件下文本类别的概率分布之间的距离。名词W的交叉熵越大,对文本类别分布的影响也越大。计算为:注意到,其中log局部实际上就是w与Ci的互信息度。计算各词汇的期望交叉熵后,设定一个阀值,选择大于该阀值的词汇作为关键词。文本证据权〔TheWeightofEvidenceforText〕:计算各词汇的文本证据权后,设定一个阀值,选择大于该阀值的词汇作为关键词。排除停用词。所谓停用词就是在各种文档中均经常出现的、不能反映文档内容特征的常用词,如:助词、语气词等〔已有停用词表〕。上述方法中,一些方法已考虑到这种情况,因而不需要排除停用词。这些方法包括TFIDF〔其中的反向文档频率就已经考虑了停用词的情况〕,IG,交叉熵和文本证据权。应该其它方法时,必须排除停用词。但实际上,排除停用词可以提高筛选关键词的效率。我们可以在筛选关键词前,首先排除停用词。即如何一个词是停用词,那么根本不考虑去计算它的相应指标。这样可以缩小计算的范围,提高效率。文档编码――计算关键词在文档中的权重根据前面提取的一组关键词,表示为<K1,K2,…,Kn>,我们需要将任意一篇文档转换为数字向量,如<q1,q2,…,qn>,其中:qi是关键词Ki对于当前文档的权重――即重要性。计算某个关键词对一篇文档的权重主要有如下方法:以关键词的词频作为其权重。。以关键词的TI-DIF频率作为其权重。TF-IDF判断关键词对于文档的重要性时,不仅考虑一个关键词在文档中出现的频率〔即上述的词频〕,而且考虑该关键词在所有文档中出现的频率〔即文档频率〕。如果一个关键词在很多文档中都出现,那么它对于当前文档的重要性就比拟低。关键词ti对于文档d的TF-IDF权重计算的方法是:其中,N表示文本总数,nt表示出现关键词t的文本数。称为t的反向文档频率。公式的分子中综合了t的词频和反向文档频率两个因素,因而能够更好地反映t与文档d的关系。公式的分母中[]内局部形式上与分子相同,但其中的tj是指各个关键词,表示求所有关键词的平方和。其目的是归一化关键词的权重。在实现中,我们使用训练文档集作为计算TFIDF的根底:N表示训练文档集中的文本总数,nt表示出现关键词t在训练文本集中出现的文本数。当对新的文本进行编码时,对任意一个关键词t,我们只需要统计它在该文本中的词频〔tf〕,结合在训练集中已统计的N和nt,就可以计算出t的TFIDF权重。实现从训练文本中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论