(计算机应用技术专业论文)基于半监督学习的文本分类研究.pdf_第1页
(计算机应用技术专业论文)基于半监督学习的文本分类研究.pdf_第2页
(计算机应用技术专业论文)基于半监督学习的文本分类研究.pdf_第3页
(计算机应用技术专业论文)基于半监督学习的文本分类研究.pdf_第4页
(计算机应用技术专业论文)基于半监督学习的文本分类研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于半监督学习的文本分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 摘要 随着网络信息技术的发展,人们在日常工作中需要处理越来越多的文本信息,文 本分类作为这一领域的关键技术近年来日益受到关注,传统的文本分类方法需要大量 的己知类别文本来帮助构建分类器,然而通常情况下我们只能得到少量的已知类别样 本和大量的未知类别样本,如果只利用这些已知类别样本来构建分类器,不但得到的 结果具有一定的局限性,大量的未知类别样本隐含的信息也难以得到有效利用,这就 造成了一定程度上的资源浪费,而且人工为未知类别样本打标记也需要耗费大量的人 力物力,因此半监督学习应运而生。半监督学习是一种介于监督学习和无监督学习的 一种学习方式,它只需要部分已知类别的训练样本,结合未知类别样本含有的知识来 学习构建分类器。 本文在现有的半监督分类算法的基础上,提出了一种可以有效提高分类性能的基 于多数投票的半监督分类方法,并结合文本分类,提出了一种扩大已知样本集的新方 法,论文的主要工作如下: 1 介绍了文本分类的关键技术,包括文本的表示、文本的预处理、特征选择、特 征权重计算,常见的分类方法和分类性能评估。 2 介绍了半监督学习的概念,并结合现有的半监督分类算法,引入了基于最近邻 的多数投票规则,通过实验证明了该方法的有效性。 3 将半监督分类的思想用于文本分类,并根据文本的特征提出一种加入相似样本 的小样本半监督学习方法,该方法首先通过已知类别样本集提取出能代表每个类别的 代表特征,再根据这些代表特征从未知类别样本集中挑选出相似样本加入到已知类别 样本集,扩大了已知类别样本集的规模,再用以后续的学习。实验中采用了一个标准 的中文分类数据集来验证该方法的有效性。 关键词:文本分类;半监督学习;最近邻( n n ) ;相似样本; 西南交通大学硕士研究生学位论文第1 l 页 a bs t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , p e o p l ed e a lw i t hm o r ea n dm o r et e x t i nt h e i rd a i l yw o r k a n dd o c u m e n tc l a s s i f i c a t i o na sa k e yt e c h n o l o g yg e t sm o r ea t t e n t i o ni n r e c e n ty e a r s h o w e v e r , c l a s s i c a ld o c u m e n tc l a s s i f i c a t i o nm e t h o d sr e q u i r eal a r g en u m b e ro f t e x tc a t e g o r i e st ob u i l dc l a s s i f i e r i np r a c t i c e ,w em a yo n l yg e tas m a l ln u m b e ro fs a m p l e s w h i c hc o n t a i nt h ec a t e g o r i e sa n dal a r g en u m b e ro fu n l a b e l e ds a m p l e s i f j u s tu s es u c hl e s s l a b e l e ds a m p l e st ob u i l dt h ec l a s s i f i e r , t h e r ei sn o to n l yac e r t a i nl i m i t a t i o ni nt h er e s u l t s ,b u t a l s ot h eu n d e r l y i n gi n f o r m a t i o nw h i c hb e l o n g st ot h eu n l a b e l e ds a m p l e sw o u l dn o tb e e f f e c t i v e l yu s e d s o ,i tl e a d st ow a s t er e s o u r c e s s e m i s u p e r v i s e dl e a r n i n gi sal e a r n i n gm o d e b e t w e e ns u p e r v i s e dl e a r n i n ga n du n s u p e r v i s e dl e a r n i n g i to n l yc o m b i n e sp a r t so ft h el a b e l e d s a m p l e sw i t ht h eu n l a b e l e ds a m p l e st ob u i l dt h ec l a s s i f i e r t h et h e s i si n t r o d u c e sc u r r e n ts e m i s u p e r v i s e dc l a s s i f i c a t i o na l g o r i t h m ss y s t e m i c a l l y , a n d p r o p o s e sas e m i s u p e r v i s e dc l a s s i f i c a t i o nm e t h o db a s e do nm a j o r i t yv o t i n ga n dan o v e l d o c u m e n tc l a s s i f i c a t i o nm e t h o dw h i c hc o u l de x p a n dt h el a b e l e ds a m p l e s t h em a i nt a s k si n t h et h e s i sa r ea sf o l l o w s : 1 t h ek e yt e c h n o l o g i e sf o rd o c u m e n tc l a s s i f i c a t i o na r ed i s c u s s e ds y s t e m a t i c a l l yi n t h i st h e s i s ,i n c l u d i n gd o c u m e n tr e p r e s e n t a t i o n ,d o c u m e n tp r e p r o c e s s i n g ,f e a t u r es e l e c t i o n , f e a t u r e w e i g h tc a l c u l a t i o n ,t h e c l a s s i c a lc l a s s i f i c a t i o nm e t h o d sa n dc l a s s i f i c a t i o n p e r f o r m a n c ee v a l u a t i o n 2 s o m ec u r r e n ts e m i s u p e r v i s e dl e a r n i n gc o n c e p t sa n dm e t h o d sa r ei n t r o d u c e da n d a n a l y z e d ,a n dt h e nan o v e ls e m i - s u p e r v i s e dc l a s s i f i c a t i o na l g o r i t h mb a s e do nt h en e a r e s t n e i g h b o r sm a j o r i t yv o t i n gr u l ei sp u tf o r w a r d t h ee x p e r i m e n t ss h o wt h a tt h ep r o p o s e d m e t h o di se f f e c t i v ea n dp r a c t i c a l 3 i n s p i r e db yt h ei d e ao fs e m i s u p e r v i s e dc l a s s i f i c a t i o n ,as e m i s u p e r v i s e dl e a r n i n g m e t h o di nv e r yf e wo fs a m p l e so na d d i n gs i m i l a rs a m p l e si sp r o p o s e da c c o r d i n gt ot h e f e a t u r e so ft h ed o c u m e n t s t h i sm e t h o de x t r a c t st h er e p r e s e n t a t i v ef e a t u r e so fe a c hc a t e g o r y f r o mt h el a b e l e ds e t s ,a n dt h e ns e l e c t st h es i m i l a rs a m p l e sf r o mt h eu n l a b e l e ds e t sa c c o r d i n g t os u c hf e a t u r e s ,w h i c hi se x p a n d e dt h el a b e l e ds e t s t h ee x p e r i m e n tw i t has t a n d a r dc h i n e s e c l a s s i f i c a t i o nd a t a s e t ss h o w st h a tt h en o v e lm e t h o di ss u p e r i o ri nt h ep e r f o r m a n c e k e yw o r d s :d o c u m e n tc l a s s i f i c a t i o n ;s e m i - s u p e r v i s e dl e a m i n g ;n e a r e s tn e i g h b o r h o o d ; s i m i l a rs a m p l e s 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西 南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密匦使用本授权书。 ( 请在以上方框内打“扩) 学位论文作者签名: 兹、够 指导老师签名: 久 枉 1 日期:z 口fd 年舌月9 日 日期:2 0 io 年石月g 日 西南交通大学硕士学位论文主要工作( 贡献) 声明 本人在学位论文中所做的主要工作或贡献如下: ( 1 ) 针对现有半监督分类算法的不足,提出了一种基于投票的最近邻规则并与现有 的半监督分类算法相结合,在u c i 数据集上的实验证明,基于投票的最近邻规则可以在 一定程度上提高半监督分类的精度。 ( 2 ) 针对文本分类数据的特点,提出了一种寻找相似样本以扩大已标记训练集的方 法,并在一个标准的中文数据集上进行实验和分析并取得了良好的效果。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。 除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的 研究成果。对本文的研究做出贡献的个人和集体,均己在文中作了明确说明。本人完全 了解违反上述声明所引起的一切法律责任将由本人承担。 学位论文作者签名:气矽 日期: z 矿fo 厂驴 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景 第1 章绪论 进入二十一世纪,计算机和通信网络的快速发展使得互联网( i n t e m e t ) 迅速普及。 i n t e m e t 正以人们始料不及的惊人速度向前发展。如今的i n t e m e t 正从各个方面逐步改 变人们的工作和生活方式,并且已经构成了全球信息高速公路的雏形和未来信息社会 的蓝图。面对如此庞大的信息世界,如何有效地组织和管理这些信息,并且能够快速、 准确地从中找到所需要的信息是当前信息科学与技术领域所面临的一大挑战。文本分 类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息的纷繁杂乱 问题,方便用户快度、准确地定位所需要的信息,因此受到了极大的关注。 目前用于自动分类的算法主要有k 近邻算法( kn e a r e s tn e i g h b o r ) 、朴素贝叶斯算 法( n a i v eb a y e s ) 、支持向量机( s u p p o r tv e c t o rm a c h i n e ) 、神经网络、决策树等等。 但是大量的实践表明,并没有哪一种分类算法能够在所有的数据集上都能有良好的表 现,并且如果想要达到较好的分类精度都必须要有大量的已标记类别的文本进行训练。 随着数据采集技术和存储技术的发展,获取大量未标记文本已经比较容易,而由于要 消耗一定的人力和物力,获得大量的已标记文本则相对困难,因此能够同时利用已标 记样本和未标记样本的半监督学习成为解决此问题的有效途径。其中的半监督分类算 法可以利用较少的标记样本和大量的未标记样本来达到用大量己标记样本作为训练数 据的监督分类的分类性能,并且可以大大提高分类性能,节省分类时间,因此在文本 分类领域得到了广泛的应用【l 引。 1 2 国内外发展现状 1 2 1 文本分类研究现状 上世纪5 0 年代末,h r l u h n 在文本分类领域进行了具有开创意义的研究。1 9 6 0 年,m a r o n 等人发表了有关文本自动分类的首篇论文“o nr e l e v a n c e ,p r o b a b i l i s t i c i n d e x i n ga n di n f o r m a t i o nr e t r i e v a l ”【4 】,随后大量的学者对这一领域的研究便逐步开展起 来。6 0 年代到8 0 年代,这一时期,模式识别和信息检索相继发展成- - i 7 学科,主要集 中在对分类理论的研究。直到8 0 年代末,采用知识工程的文本自动方法一直处于领导 地位。这一阶段的主要特点是采用人工的方式来构建分类器,因此不可避免地需要大 西南交通大学硕士研究生学位论文第2 页 量领域专家和知识工程师的参与。当应用领域改变时,这些规则将不再适用,而且没 有办法将它们从一个领域移植到另一个领域。但是这段时期内也涌现了批性能不错 的分类系统,如路透社使用的c o n s t r u e 系统p j 。它能够自动地对路透社每天的成千上 万篇稿件进行分类。在发展到9 0 年代,机器学习和统计分析的思想被引入到文本自动 分类研究中来,通过对训练集的学习得到分类效果更好的模型,统计学习方法进行文 本分类的一个重要前提就是认为:文档的内容与其中所包含的词有着必然的联系,同 一类文档之间总存在多个共同的词,而不同类的文档所包含的词之间差异很大【6 】。自此 文本分类技术在信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等技术 领域,有着广泛的应用前景。近年来,随着半监督学习和集成学习的兴起,文本分类 领域又取得了突破性的进展,集成学习主要通过决策优化或覆盖优化两种手段将若干 弱分类器的能力进行综合,以优化分类系统的总体性能。针对实时数据中难以获得大 量已标记文本,结合利用未标记文本取得良好性能的半监督学习也广泛地应用到文本 分类中1 引。 国内文本数据分类研究起步较晚【7 蚓,始于2 0 世纪8 0 年代初期,但是经过这些年 的发展已经取得了长足的进步。由于中文与英文的差异较大,因此不能照搬国外的研 究成果。中文文本分类的研究基本上是在英文文本分类的研究策略上,结合中文文本 的特点,形成的中文文本自动分类研究体系。中文文本自动分类主要有两类方法:基 于语义的分类方法和基于外延的分类方法。基于语义的分类方法采用全部或部分理解 文本的语义进行分类,但这种方法的进一步发展受到了自然语言处理技术的制约;基 于外延的分类方法不关心文本的语义,仅仅根据文本的外在特征进行分类。目前,我 国在中文文本自动分类的研究领域中已经取得了令人瞩目的成果,并且一些系统已经 成功地推广和应用,典型的代表系统有百度和搜狗等搜索引擎。文本分类作为一项管 理信息的核心技术,吸引了越来越多的研究者,同时也得到了国家各级、各类研究部 门的高度重视,从而加速了国内文本分类技术的发展,其中文献 9 提出了一种字特征 选择方法作为中文文本分类的有效建模方法,文献 1 0 提出了一种基于关键字符的字符 串核函数的s v m 分类方法,文献 1 1 提出了一种基于语义网的中文文本分类方法,该 方法首先从网页文本获取关键字,去除模糊关键字,然后得到基于“知网”的关键字语 义概念,整合所有得到的语义概念用于文本分类。 1 2 2 半监督学习研究现状 对半监督学习的研究最初始于s h a h s h a n a n i 和dl a n d g r e b e 1 2 的工作,但早在2 0 世 纪八十年代,未标记样本的实际价值就已经引起了一些学者的注意。近年来随着统计 学习的不断发展和利用未标记样本的强烈需求,半监督学习才逐渐成为一热门的研究 西南交通大学硕士研究生学位论文第3 页 领域。半监督学习主要关注当训练数据的部分信息缺失的情况下,如何获得具有良好 性能和泛化能力的学习机器【l3 。1 4 。目前半监督学习的研究成果己广泛应用于自然语言 处理【3 】【15 1 、数字图像处理【1 6 - 1 9 、视频标型2 0 啦】、生物特征识别2 3 1 等领域中。 目前对半监督学习的研究主要包括: 1 基于e m ( e x p e c t a t i o nm a x i m i z a t i o n ) 的半监督学习算法 e m 算法是最早的半监督学习方法【2 4 1 ,用以在给定不完全数据下求解极大似然估 计问题,在半监督学习的问题中,由于大部分样本是未标记样本,我们也可以把它们 看成是不完全数据。它的主要思想是,以生成式模型为分类器,将未标记数据属于每 一个类别的概率当做是一组缺失的参数,然后采用e m 算法进行标记评估和模型参数 估计。n i g a m 3 】等人利用它对文本进行分类。b a l u j a 2 5 将它应用到人脸定位判别任务; 然而f a b i o 【2 6 】等人指出这种方法很受模型假设的限制。 2 自训练( s e l f - t r a i n i n g ) 和协同训练( c o t r a i n i n g ) 算法 自训练算法顾名思义就是只通过一个学习器迭代地对未标记数据进行学习,它先 通过己标记数据训练生成一个模型,然后利用这个模型对未标记的数据进行预测,将 预测的置信度较高的数据加入到己标记训练集中重新训练分类器,重复迭代直到满足 一定的条件。自训练已经被应用到一些自然语言处理问题中。 y a r o w s k y 把自训练方法用到语义自动消歧问题中【27 1 ,例如:在给定的背景下预测 单词“c o n e ”的意思是“松果”还是“冰激凌”。而协同训练则需要使用两个或多个学习器, 通过在不同视图下的数据集进行学习的两个分类器之间的交互来提高分类器的精度, 未标记数据被分类器逐步做标记,然后选出置信度较高的数据加入训练集,不断重复, 直到未标记数据全部打上标记为止,从而使得模型得以更新。b l u m 和m i t c h e l l 在1 9 9 8 年提出最早的协同训练算法以后,有很多学者对其进行了研究并取得了很大进展,使 得协同训练成为半监督学习中最重要的风范之一1 4 】,而不再仅仅是一个算法。文献【2 8 中通过大量的实验来对比协同训练算法和基于e m 的半监督学习算法,结果显示,当 条件独立假设成立时协同训练算法表现更好;当没有明显的特征划分的时候,人工的 特征划分方法仍然有效。文献 2 9 3 0 使用了协同训练算法从文本中提取信息。文献 3 1 提出了t r i t r a i n i n g 算法,该算法使用了三个分类器,如果其中任意两个分类器对一个 未标记样本的预测类标记一致,那么这个样本将作为训练样本添加到另外一个分类器 中,这种方法不需要将数据集分割成不同的视图。 3 基于图的半监督学习算法 基于图的半监督学习方法同样很受关注,该学习算法把问题看成是一个图,图的 节点是已标记数据或者无标记数据点,边反映了节点间的关系( 相似度或者距离) 。如 果边代表节点的相似度,则权重大的边连接的两个节点趋向于有同样的标记。一个节 西南交通大学硕士研究生学位论文第4 页 点的标记可以通过加权的边传播给它的邻居节点,权重大的边可以更容易地传播标记。 如果边代表节点间的距离,则该距离代表所有连接它们间的最小路径。一个好的图可 以反映出相关领域的先验知识。 图方法是无参数的判别方法,大部分基于图的方法是求解一个关于图的函数,该 函数要满足下面两个条件,一是在标记样本点上必须近似地等于给定类标,二是该函 数在整个图上是光滑的。目前基于图的半监督方法已经被用到一些分类问题中【3 2 3 3 】, 并取得了很好的效果。 4 直推式支持向量机 直推式支持向量机( t r a n s d u c t i v es u p p o r tv e c t o rm a c h i n e s ,t s v m ) 是支持向量机 方法的扩展,它是一种直接从已知样本出发对特定的未知样本进行识别和分类的技术, 该方法在利用了己知样本的同时,考虑了未知样本对分类器的影响,并结合支持向量 机算法,实现一种高效的分类算法。 在直推式学习的过程中,使用较少的标记样本和较多的无标记样本进行学习。它 的重要特点在于,在这样一个由混合类型的样本学习过程中,测试集的样本分布信息 从无标记样本转移到了最终的分类器中。由于无标记样本的数量较有标记样本占很大 比例,所以更能准确地刻画整个样本空间上的分布特性,从而使得学习得到的模型有 更好的推广能力。直推式学习在模式识别各个领域得到了广泛的应用【3 4 弓5 1 。 然而众多实验表明,使用未标记样本来帮助学习并不总是能够提高学习效果,有 时反而会使学习的性能下降。在模型假设不符合真实情况【3 6 3 7 1 或者未标记样本与标记 样本的分布有较大差异【3 8 】时,使用半监督学习有可能导致学习效果下降,这也成为今 后半监督学习一个重要的内容。 1 3 本论文的研究内容 本文首先对中文文本自动分类所涉及的各种技术进行了全面的论述。然后针对半 监督学习进行了研究,并主要对半监督分类中的一些典型算法如半监督自训练分类模 型,半监督t r i t r a i n i n g 分类模型进行了深入的分析,在此基础上引入了基于多数投票 的最近邻规则来有效地利用未标记样本信息提高分类模型的精度。然后将半监督学习 的思想应用到文本分类中去,并提出了一种基于相似样本的小样本半监督学习方法, 扩大了已标记训练集的规模,通过实验表明加入相似样本的方法可以在一定程度上提 高分类性能。 全文分五章,各章节安排如下: 第1 章:绪论。阐明本文选题的研究背景及意义,并对题目相关领域的国内外研究 西南交通大学硕士研究生学位论文第5 页 现状进行了综述,引出论文的研究内容和论文的结构安排。 第2 章:文本分类关键技术。介绍了文本分类的一些关键技术,包括文本特征的表 示、文本的预处理、特征选择、特征权重计算,常见的分类方法和分类性能评估方法 等。 第3 章:基于最近邻多数投票的半监督分类器。介绍了半监督学习概念,着重介绍 了s e l f - t r a i n i n g 和t r i t r a i n i n g 两种半监督分类方法,并引入了基于最近邻的多数投票 的规则,在u c i 数据集证明了改进方法的有效性。 第4 章:寻找相似样本的小样本半监督学习。介绍了寻找相似样本的技术,通过抽 取代表特征和选择相似样本两个步骤扩大了已知类别样本集的规模,并将该技术应用 于文本分类。采用搜狗新闻数据验证该算法的有效性。 第5 章:文本分类系统设计与实现。这一章展示了一个完整的算法演示的平台,该 平台是基于w e k a 开发,有三个模块,样本的载入和预处理,相似样本的选择和最后的 半监督分类算法实验。 西南交通大学硕士研究生学位论文第6 页 2 1 文本分类概述 第2 章文本分类关键技术 文本分类( d o c u m e n tc l a s s i f i c a t i o n ) 是指在分析文本内容的基础上按一定的策略把 文本归入一个或多个合适的类别的应用技术【3 9 1 。利用文本分类技术可以快速、有效地 对大量文本进行自动分类,因此可以较好地解决大量文本信息归类的问题并可以应用 到很多情况下,包括基于受控词典的文本自动索引、文本过滤、元数据的自动生成、 词义辨别、类似于y a h o o 的w e b 资源层次分类等,它是很多信息管理任务的重要组成 部分【4 0 1 。文本分类以后,用户不但能够方便地浏览文本,还可以通过限制搜索引擎范 围来使文本的查找更为容易。 根据是否有固定的类别体系可分为有监督( s u p e r v i s e d ) 的分类( 也称为自动归类) 和 无监督( u n s u p e r v i s e d ) 的分类( 也称为自动聚类) 。 有监督的分类是先抽取待分类文本的特征,和各类文本的共同特征或者一定的分 类标准、分类参数进行比较,然后将待分类文本划归为特征相近的类,并赋予相应的 分类号。它由训练和测试两个阶段组成,训练阶段所用到的文本集合是预先定义好类 别的,分类系统先通过训练文本集学习分类知识,然后在测试阶段根据所学的知识为 待分类的文本确定一个或多个合适的类别。 无监督分类首先从文本中抽取有关特征,再根据一定的法则或需要利用聚类算法 将具有相同或相近特征的文本定义为一类,划分出的类别是不确定的,要求同一类内 文本内容的相似度尽可能大,而不同类间的相似度尽可能地小。 文本分类是一种典型的有监督的学习过程,在本质上与其它分类问题没有区别, 其方法可以归结为根据已经被标注的文本集合,通过学习得到一个文本特征和文本类 别之间的关系模型,然后利用这个关系模型对新文本进行类别判断。从数学角度来看, 文本分类( 文本归类) 是一个映射的过程,它将未标明类别的文本映射到己有的类别中, 该映射可以是一一映射,也可以是一对多的映射。 一般地,分本分类的过程如图2 1 所示: 匿三,墨置巨 田 文本集台净= 李;橹征襄示亨= 苗;特征选择 := 模式获取p i 结是评价 卑l 有用梗式 弋一,。、4 乙 ;l i。i;t 、,7 、j 图2 1 文本分类的过程 西南交通大学硕士研究生学位论文第7 页 ( 1 ) 特征提取和表示 要从文本中提取适当的特征,将文本表示成计算机能够理解的形式。即选用什么 样的文本特征和用怎样的数学形式组织这些特征来表示文本。这是文本分类中的一个 重要的技术问题。目前的文本分类方法和系统大多以词或词组作为表示文本语义的语 言要素;表示模型主要有布尔模型和向量空间模型等。 ( 2 ) 特征选择 在目前所采用的文本表示方法中,文本特征向量大都具有惊人的维数,这使得特 征子集的选取成为文本分类过程中必不可少的一个环节。文本分类系统应该选择尽可 能少而准确并且与主题概念密切相关的文本特征进行分类。选择什么样的特征由具体 的度量准则确定。 ( 3 ) 模式获取 模式获取即采用各种文本挖掘方法发现隐藏的知识模式,以满足用户评价标准的 模式最终输出,成为指导人们实践的有用知识。在文本分类领域,常用的文本分类方 法有n a i v eb a y e s 、k n n 、回归模型、支持向量机、决策树等。 ( 4 ) 结果评价 最后对获取的知识模型进行质量评价。若评价结果满足一定的要求,则保留该知 识模式;否则就返回到以前的某个环节,分析改进后进行新一轮的挖掘工作。为了客 观地评价文本分类的效果,人们提出了很多评估方法,比较常用的有查准率( p r e c i s i o n ) 、 查全率( r e c a l l ) 和f i 3 - m e a s u r e 等。 2 2 文本表示模型 人类能够理解的自然语言形式多样,结构复杂,人在阅读了一篇文章以后,能够 根据以往的经验和自身的理解能力对文章的内容产生一定的认识,然而计算机不具有 人类的智能,计算机从根本上说只能识别“o ”和“l ”,所以如何将文本表示成计算机可以 识别的格式是文本分类的一个重要的问题。只有将原始的文本数据表示为计算机可以 理解和处理的结构,才能有效地分析和处理其中的信息。将这些计算机无法理解的无 结构或半结构化数据转化为计算机可以理解的结构化数据的过程被称为文本表示。 组成一篇文本的语法单位可以是词、短语、句子和段落。所以,这些语言单位都 可以作为文本的特征来表示文本。在中文文本中,词和短语是最小的具有语义的语言 单位,因此可以使用词和短语作为表征文本语义的特征。还有一种途径是用n g r a m 项 作为文本的特征。对于中文来说,n g r a m 项一般由相邻字构成。例如:在“文本特征” 一词中,“文本”、“特征”、“本特”、“文本特”都可以作为n g r a m 项。 西南交通大学硕士研究生学位论文第8 页 常用的文本表示模型有以下三种: ( 1 ) 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是在2 0 世纪6 0 年代由s a l t o n 等人所 提出,并且成功地应用于著名的s m a r t 系统中4 h 2 1 。向量空间模型的基本思想是把 文本表示成特征向量,用相似度确定文本内容的相关程度。在向量空间模型中,每个 文本都可以被抽象成如下形式:( w 1 ,w 2 ,w 3 ,w 。) ,其中w i 表示第i 个特征 项的权重,特征项可以是字、词、短语、句子和旬群等,目前普遍认为选取词作为文 本特征要优于字和短语等【4 3 1 。因此为了将一个文本用向量空间模型表示,首先要对文 本进行分词,我们用词频来体现某个词在文本中的重要程度,计算方法采用流行的 t f i d f 公式,后面的章节中会对该公式做详细的介绍。 ( 2 ) 布尔模型 经典的布尔模型( b o o l e a nm o d e l ) 建立在集合论和布尔代数的基础上,是向量空 间模型的一种特例。根据特征是否在文本中出现,特征的权值只能取o 或者取1 。但是 在有些时候,使用布尔模型不比使用特征在文本中出现的频率的分类效果差。在常见 的分类方法中,决策树、关联规则和b o o s t i n g 方法就是基于布尔模型的。 ( 3 ) 概率模型 概率模型( p r o b a b i l i s t i cm o d e l ) 不同于向量空间模型和布尔模型,它将与待分类 的文本的条件概率晟大的那个类作为该文本的类别。概率模型的优点是以严格的数学 理论为依据,为人们提供了一种数学理论基础来进行匹配,采用相关性反馈原理,可 开发出理论上更为坚实的方法;缺点是增加了存储和计算资源的开销,而且参数估计 难度较大。常见的朴素贝叶斯方法就是基于概率模型的分类方法。 现在大多数的文本分类方法都是采用的向量空间模型。 2 3 文本的预处理 在基于向量空间模型的文本分类系统中,我们采用v s m 模型来表示文本,把一个 文本表示成一个n 维向量,在这之前通常还要先做好一些必要的文本预处理工作,将 有用的信息提取出来,减少数据噪声,改善文本表示的质量,增加分类的准确性。 在文本预处理中,首先要处理的是文本中的标点符号、数字和大小写,其目的是 把文本变成一个只由词条和空格组成的小写( 或者大写) 字符串。其次,将文本分成 词以确定处理的基本分析单位。对于英文及类似语种来说,因为这些语种采用空格或 标点将词隔开,所以词的获取非常简单;然而,对中文及类似语种来说,由于词与词 之间没有空格,因此词的获取必须通过分词技术来实现。 西南交通大学硕士研究生学位论文第9 页 分词是指将没有明显分界标志的汉字串自动切分为汉词串。它需要先建立起一部 词语粒度大小适中,数据结构合理的机器词典,再根据合适的分词算法和机器词典, 将汉字串切分为汉词引4 4 1 。常用的分词方法有以下几种:正向最大匹配法【4 5 】:基本思 想是,假定自动分词词典中的最长词是i 个字,则取被处理材料的当前被处理字串序列 中的前i 个字作为匹配字段,以首字为入口,查找词典,若词典中存在这样的一个i 字 词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样一个i 字词, 则匹配失败,匹配字段去掉最后一个汉字,剩下的字串作为新的匹配字段,再进行匹 配,如此进行下去,直到匹配成功为止,也即完成一轮匹配,切分出一个词为止。如 果一直匹配不成功,则得到长度为1 的单字词。除了正向最大匹配法,还有逆向最大 匹配法、逐词遍历匹配法、设立切分标志法、最佳匹配法、双向匹配法、最短路径法 在占 守0 然后,将文本( 或文本表征词典) 中具有相同或相近含义的词合并成一个语义单 位,这个过程称为取词根。在英文中有名词单复数的变化,动词有时态、人称的变化 等,这就会使同一个单词会有很多表现形式,但是对于分类来讲,它们都属于一个单 词。比如a c t o r 的复数形式为a c t o r s ,a c t 有a c t s ,a c t i n g ,a c t i o n ,a c t i v e 等形式;中文 里面也有很多同义词或者近义词,例如:“母亲”和“妈妈”就有相同的含义。可以把它们 看成是同一个词的不同出现形式,这样就能够在很大程度上减少文本向量的维数。取 词根主要有两种基本实现途径:基于规则的方法和基于词典的方法。前者按照一定的 规则逐个剥离各个单词的后缀,得到表明其基本含义的词根,著名的p o r t 取词根算法 就是基于规则的方法【4 6 】;后者则是将所有含义相同的单词归为一类,并编制专门的同 义词词典,专供取词根时使用。 最后,删除文本( 或文本表征词典) 中的停用词和稀有词。停用词是指那些不能 反映主题的功能词,例如:英文中的“a ”a l l ”“t h e ”之类的冠词;中文中的“的”、“地”、“得” 之类的助词,以及“虽然”、“所以”、“但是”之类只能反映句子语法结构的词语等。停用 词通常是冠词、助词、代词、介词和连词等,由于这些词是自然语言中不可缺少的部 分,所以它们频繁地出现在各个类别的文档中。然而,这些词对文本所要表达的内容 几乎没有贡献,对文本的区分能力也很弱。如果以这些词作为文本特征的话,即便是 内容上完全不同的两个文本也会由于这些词的存在而很难被区分开。由于存储这些词 不但浪费存储空间,也没有为分类带来明显的好处。所以非常有必要把这些停用词从 文本中删除出去。在实际应用中,文本分类系统通常会建立一个停用词表,将出现在 停用词表中的词直接进行过滤掉。这样做不仅方法简单,也能将一些对分类无用的词 滤掉,禁止它们出现在后面的文本向量空间中,这个过程就称为去停用词。另外,一 些稀有词在全部文本中出现的次数极少,也不适合作为判断文本内容的特征,这些词 西南交通大学硕士研究生学位论文第10 页 也要从文本中删除。实际上我们也可以将这一过程理解为特征空间的降维,只不过这 种降维工作的实现比较粗糙。 通过以上几项的预处理工作,我们就可以把文本集合中的文本表示成特征向量的 形式,使文本数据结构化,从而满足各种文本分类方法在文本表示形式方面的要求。 但经过停止词处理后的特征集仍然过大,这样不仅耗费计算资源,也因为会引起“过拟 合问题”而影响分类效果【4 7 1 。 2 4 特征选择与降维 通常经过预处理之后的文本特征集仍然是个高维的特征空间,这对于大部分分类器 来讲是很难接受的,而且很多特征的存在是大大降低分类效果的,因此我们就需要给 这些高维的特征空间降维,选择出最有利于进行文本分类的特征,从而大幅提高文本 分类的准确率和运行速度。通常的做法是使用特征评估函数对特征集中的每一个特征 进行评估,选择评估值最高的n 个特征组成新的特征集,采用什么样的特征评估函数 和选择出多少新的特征都可以通过实验来确定。常用的特征选择方法有文档频率,信 息增益,互信息,贮统计量( c h i ) 等。 ( 1 ) 文档频率( d o c u m e n tf r e q u e n c y ,d f ) 是指文本集合中出现某个特征项的文 本数,d f 值低于某个阈值的特征项由于其不具有代表性可以将其剔除,d f 值高于某 个阈值的特征项往往缺乏足够的区分度,也可以将其剔除,这样不仅可以降低特征空 间的维数,而且能够提高分类性能。文档频率是一种最简单的特征选择方法,缺点是 容易剔除那些在某一类别经常出现且包含重要分类信息但频率较低的某些特征项。 ( 2 ) 信息增益( i n f o r m a t i o ng a i n ) 是一种基于熵理论的度量不确定性的方法,通 过计算某一特征出现前后的信息熵进行特征选择,反映了文本中包含这一特征时文本 类的平均信息量。信息增益评估函数定义如下: i n f g a 叫动叫如等蜥) i = 1 脚等 ( 2 ) 其中尸( c ,) 是c ,类文本在所有文本中出现的概率,p ( 0 9 ) 是特征0 9 在文本中出现的概 率,p ( c ,l 妫是指包含特征0 9 的文本属于c ,类文本的概率,p ( 妫是特征彩在文本中没有 出现的概率,p ( c i l 妫是指不包含特征彩的文本属于c ,类文本的概率。 计算出的信息增益越大,说明该特征分类能力越强,特征选择时就应该从原始特 征空间中保留这些特征。目前,信息增益被证明是最为有效的特征选择方法之一,它 能够在保证文本分类性能的前提下移走多达9 8 的单词【4 8 1 。 西南交通大学硕士研究生学位论文第11 页 ( 3 ) 互信息( m u t u a li n f o r m a t i o n ,m i ) 也是信息论中的一个重要概念,用来衡量 某个特征和类别之间的统计独立关系,对于某个特征和类别c ,互信息的计算方法如 下: ,c ) = 1 。g ( 丽p ( 0 3 a c ) ) ( 2 - 2 ) 其中,p ( 0 3 a c ) 表示既包含特征0 9 又属于c 类别文本的概率,p ( 0 3 ) 表示文本包含特 征国的概率,p ( c ) 表示文本属于类别c 的概率。当特征缈和类别c 相互独立时,上式值 为0 ,也就是说特征0 3 对于类别c 没有什么信息量。采用互信息作为特征选择函数由于 没有考虑词频,因此在用在文本分类上表现较差。 ( 4 ) z 2 统计量( c h i ) 同互信息一样也是表征两个统计量之间的相关性,但它同 时考虑特征存在与不存在两种情况,特征彩和某个类别的z 2 统计量的值越大,它们之 间的独立性就越小,相关性就越强,该特征对这个类别的贡献也就越大。对于特征功, 其z 2 统计值为: z2(厶co):p(c,w)p(c,co)-p(c,o)p(c,w) ( 2 3 ) “、7 尸( c ) 尸( 妫尸( c ) 尸( 动 z 2 统计量( c h i ) 是和信息增益在文本分类的性能不相上下的特征选择算法,甚至有 时候比信息增益更为出色,所以较多地应用于文本分类。 2 5 权重的计算 经过文本特征选择后,我们可以得到一组具有将各个类别分开能力的特征组合, 然而这些特征区分类别的能力是不同的,有的特征区分类别的能力较强,有的特征区 分类别的能力较弱,有的特征甚至是噪声。因此我们需要将具有不同区分类别能力各 个特征加权,使得分类能力较强的特征具有较高的权重,分类能力较弱的特征具有较 低的权重,并且抑制噪声。最初的特征权重计算方法是0 、l 赋值法,即文本中如果出 现了该特征,那么文本向量该维为1 ,否则为o ,但是这种方法体现不出特征在文本中 的作用程度。后来常见的赋权中方法是运用统计方法,即用文本的统计信息,主要是 词频来计算特征的权重。其中最常用的特征加权算法是t f i d f 方法。 t f i d f ( t e r m sf r e q u e n c yi n v e r s ed o c u m e n tf r e q u e n c y ) 算法最早是由s a l t o n 和 b u c k l e y 于1 9 8 8 年提出并用于信息检索领域的【4 9 1 ,之后被应用到文本分类领域中计算 特征权重。t f i d f 以特征的反向文档频率对词频作加权处理,计算公式如下: i d i t f i d f ( d ,c o ) = t f ( d ,c o ) xi d f ( d ,动= t f ( d ,c o ) l o g ( i 丢乓) ( 2 - 4 ) 西南交通大学硕士研究生学位论文第12 页 其中 r f ( a ,0 3 ) 表示特征彩在文本d 中出现的频率,d f ( 0 3 ) 是在所有文本中出现特 征翻的文本数,从这个公式可以看出,如果某个特征在文本中出现的次数越多,它的 权重就越高,如果在所有文本中出现某一个特征倒的文本数越少,它的权重就越高, 该特征就具有更好的类别区分能力。 2 6 文本分类方法 文本分类问题在本质上与其它分类问题没有区别,其方法可以归结为根据文本集 合构造一个分类模型,然后对待分类的文本数据进行匹配,最后根据某种评价标准选 择最优的匹配效果,从而完成分类。目前,常用的分类方法有很多种,例如k n n 、朴 素贝叶斯、类中心向量、回归模型、支持向量机、最小二乘拟合、最大熵模型和人工 神经网络等分类方法,这些都属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论