文本自动分类初探_第1页
文本自动分类初探_第2页
文本自动分类初探_第3页
文本自动分类初探_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文本自动分类初探摘要文本自动分类办法是在给定的分类体系下,根据文本的内容自动判别类型的过程。它是当今信息搜索领域的重要研究方向。本文论述了文本自动分类过程中各类文本自动分类的关键技术,同时综述了各类文本分类的算法。关键词:文本分类;向量空间模型;支持向量机;搜索引擎AbstractionTextclassificationisgivenintheclassificationsystem,automaticallydeterminethetypeofprocessaccordingtothetextcontent.Itisanimportantfieldofinformationsearchre

2、searchtoday.Thispapersummarizesthekeytechnologiesofautomatedtextclassificationandallkindsofclassifiers,additionally,givesitsapplicationinsearchengine.Keywords:textclassification;vectorspacemodel;supportvectormachine;searchengin文本分类分为手工和自动两种。手工分类就是人工将文档分配到相应的类别下,但是这种方式的代价比拟昂贵,不适于处理大规模的因特网上的文档。自动分类系统是

3、根据文本内容自动判别类型的过程,我们可以从领域专家那里或者从训练文档汇合里面自动学习分类模型进行分类。就文本分类的过程可以分为三步:首先对文本进行预处理,将文本数字化;接着构造并训练分类器;最后用分类器对新文本进行分类。本文将详细介绍各种文本分类技术,并附带介绍自动文本分类技术在搜索引擎中的应用。【1】一、文本自动分类技术介绍1、文本预处理为保证文本分类任务能够快速有效地执行,将文本转化为适合挖掘工具处理的中间形式并滤除任务不相关的冗余特征是文本预处理的主要步骤。对于英文语料,由于单词间以空格分隔,经过抽取词干(stemming)和删除停词(stopword)就可以将文本表示成特征向量的形式。

4、而中文句子中词与词之间没有固有的分隔符,因此在对中文文本进行处理或分析之前先要进行分词处理。通常在中文句子中引入所需要分词、词性标记、短语辨认等。2、文本表示文档的内容是用自然语言描述的,计算机很难处理其语义,所以必须将文本的内容特征转化为计算机可以处理的格式。向量空间模型是近几年来信息检索领域应用较广且效果比拟好的模型。除此之外,文本表示还有潜在语义索引模型和概率模型。向量空间模型的根本思想是把文档简化为以项的权重为分量的向量表示。在该模型中,文档被看作一系列无序词条的汇合,对每个词条加上一个对应的权值,将文档映射为一个特征向量其中为词条项,为在d中的权值。一般被定义为在d中出现频率的函数,

5、即=。其计算办法主要运用公式:其中,为词t在文本d中的词频,N为训练文本的总数,为训练文本集中出现t的文本数。文本经过预处理后进行词频统计,最终表示为上面描述的向量。根据公式,文档集中包含某一词条的文档越多,表明它辨别文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,表明它辨别文档内容属性的能力越强,其权值越大。3、特征抽取在中文文本分类中,文本集经过分词后变成词集,然后经过去掉停用词得到特征集。但是特征集仍然是个高维的特征空间,对于所有的分类算法来说维数都太大。因此,我们面临寻求一种有效的特征抽取办法,以降低特征空间的维数,提高分类的效率和精度。常见的特征选择有

6、:文档频率(DF)、信息增益IG、互信息(MI),统计量(CHI)等。【2】1、特征词的文档频率(DF)一个特征的文档频率(DocumentFrequency,简记为DF)是指在文档集中含有该特征的文档数目。采用DF作为特征选择,基于如下根本若:DF值低于某个阈值的词条是低频词,它们不含或含有较少的类别信息。将这样的词条从原始特征空间中除去,不但能够降低特征空间的维数,而且还有可能提高分类的精度。文档频率是最简单的特征抽取技术,由于其相对于训练语料规模具有线性的计算复杂度,所以它能够很容易被用于大规模语料统计。2、信息增益(InformationGain,简记为IG)在机器学习领域被广泛使用。

7、信息增益小于某个预定值的,就要被去掉。对于一个样本集K,用熵来表示它的信息量,记为E(K):其中,为类在样本中的比率。为样本集的类别数。的值越大,表明分布越均匀,越有可能出现在较多的类别中;该值越小,表明分布越倾斜,词可能出现在较少的类别中。实验中可以对语料中出现的每个词条计算其信息增益值,从原始特征空间中移除低于特定阈值的词条,保存高于阈值的词条作为表示文档的特征。3、互信息办法互信息(MutualInformation,简记为MI)在统计语言模型中被广泛采用。MI越大,共现程度越大。如果用A表示包含词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但是不包含t的文

8、档频数,N表示语料中文档总数,t和c的互信息可以由下式计算:如果t和c无关,即值自然为零。4、统计办法度量词条t和文档类别c之间的相关程度,并若t和c之间合乎具有一阶自由度的分布。词条t对于某类的统计值越高,它与该类之间的相关性越大,携带的类别信息也较多,独立性也越小。A表示包含词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但是不包含t的的文档频数,N表示语料中文档总数,D是既不属于c也不包含t的文档频数。假设,那么类和词独立,。那么t对于c的值,由下式计算:如果t和c之间是独立的,那么统计量的值将为0。二、文本分类办法介绍1、Rocchio算法Rocchio分类

9、器是一种应用非常广泛的使用了向量空间模型的反应学习办法。在向量空间模型中,每一篇文档都表示为一个向量,类别也表示为一个向量。度量文档与类别的相似性时,首先计算向量之间夹角的余弦值或者向量内积,并设置一个阈值。如果余弦值或向量内积超过了这个阈值,那么认为两者是相关的。设文档表示为向量,表示属于某一类别,表示不属于某一类别;用于反应学习的文档集含有篇文档,其中篇和类别相关;表示类别的当前向量为。的反应调整策略就是如下的Rocchio公式:其中为调整参数,为调整后的向量。经过反应调整后,产生新的向量用于分类。2、朴素贝叶斯算法朴素贝叶斯办法是贝叶斯学习办法中最常用的一种。假定每个实例d由其属性值的合

10、取来描述,即,那么贝叶斯办法的目标是在给定d的情况下,得到最可能的目标类别值其中朴素贝叶斯分类器基于一个根本的假定:实例中各属性值之间互相独立。即:朴素贝叶斯分类是通过计算的办法来确定文本所属类别的概率,文本所属类别的概率等于文本中每个词条项所属类别的概率的综合叙述式。3、K近邻算法(KNN)它是基于实例的学习中最根本的一种办法。该算法假定所有的实例对应于n维空间中的点。一个实例的最近邻是根据距离来定义的,即把任意的实例x表示为下面的特征向量:,其中表示实例x的第i个属性值。那么两个实例之间的距离定义为,其中最常用的计算距离的办法是欧氏距离:所谓K近邻指的就是K个最靠近新实例的训练样本,K近邻

11、算法将返回这K个近邻中最普遍的类值作为新实例的类别值。4、支持向量机算法支持向量机办法是建立在统计学习理论中的VC维和结构风险最小原理根底上的,它根据有限样本信息在模型的复杂性和学习能力之间寻求最正确的折中,以期获得最好的概括能力GeneralizationAbility。从几何意义上看,支持向量机就是要在r维空间中寻找一个最正确决策面,使得该决策面能最好地辨别正例和反例,让正例和反例之间的分类间隔到达最大。支持向量机的根本思想可用正例和反例线性可分的情况来表明;对于非线性问题,可以通过非线性变换转化为某个更高维空间中的线性问题,在变换空间中寻找最优分类面。支持向量机办法具有坚实的理论根底,支

12、持向量机训练的本质是解决一个二次规划问题,得到全局最优解,这有着其他统计学习技术难以比较的优越性,从而使得支持向量机分类器成为文本分类中效果最好的分类器之一。但支持向量机也有缺点,其核函数的选择不足指导,难以针对具体的问题选择最正确的核函数;另外支持向量机的训练速度极大地受到训练集规模的影响,计算开销比拟大。5、决策树决策树分类器是一种基于规那么的分类器。它采用"分而治之"DivideandConquer)的策略,通过学习,自顶向下构造一棵决策树。树的内部节点是特征,分支表示特征到不同状态的权重,叶子节点为类型。建立一个决策树分类器一般包括下列四步【3】:a.从特征集当选择

13、信息量最大的特征,作为当前节点;b.按所选特征的所有状态权重值将训练集分类,得到相应的子类,生成分支;c.对各子类递归进行以上两步操作,直到子类中的样本都属于同一类型树的叶子,得到决策树;d.对决策树进行修剪,生成更紧凑的决策树。在建立决策树时,选择节点的依据是特征含有的信息量,常用的有信息增益、信息增益率(IGRatio)、信息熵等。对决策权进行修剪是为了避免决策树过大,将局部子树合并成一个叶子节点,叶子节点的类型由子树中的文本子集决定。修剪技术有REP、FOIL、Grow、IREP等。目前,决策树分类器有许多成熟的软件包可用,如:ID3,C4.5等【4】。三、文本自动分类在搜索引擎中的应用

14、分析在设计搜索引擎时,文档自动分类技术对创立索引的结构化和检索的优化,对大量网页有效寻找和自动分类的组织办法是很重要的。通过文档自动分类技术,搜索结果被自动分成假设干簇,同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。每个簇有各自的主题,一般不同的簇可以对应用户不同的需要。1、应用类别在搜索引擎中采用文本自动分类技术时,为了对众多的网页进行分类,需要在适当的时候对网页按照上述办法进行自动分类。通常分为基于全局的文档自动分类和基于部分的文档自动分类。在基于全局的文档自动分类中,文档的分类是它们在整个文档信息库中的出现情况。而基于部分的文档自动分类是根据用户的当前查询所获取的文档进行

15、自动分类的。前者可以利用网页的全文在整个网页信息库中的出现情况进行分类,结果要准确一些,但是代价比拟大,目的是为了提高检索效率。后者那么与查询所得结果相关,信息量相对小,本钱比拟低,目的是为了改善检索。在实际的应用中,更多地采用了基于部分的文档自动分类。它能够利用与局部文档汇合的主要特征提高检索效果,对搜索结果进行文本自动分类可以在三方面帮忙用户:更容易在搜索结果中浏览与查找;更容易以适宜的新关键词来细化搜索;使每次的搜索结果得到充沛的展示和利用。不过,基于部分的文档自动分类需要一定的时间。2、应用原那么在搜索引擎中应用文本自动分类技术时,可以考虑下列几方面的应用原那么:一是文本自动分类办法的稳定性。也就是当有新的对象参加某一类别的时候,原有的类别不会变化太大。二是欲分类对象描述上的一些小错误只能导致原有类别较小的变化,也就是这种办法对小错误应该不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论