(计算机软件与理论专业论文)基于pls的文本分类技术研究.pdf_第1页
(计算机软件与理论专业论文)基于pls的文本分类技术研究.pdf_第2页
(计算机软件与理论专业论文)基于pls的文本分类技术研究.pdf_第3页
(计算机软件与理论专业论文)基于pls的文本分类技术研究.pdf_第4页
(计算机软件与理论专业论文)基于pls的文本分类技术研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机软件与理论专业论文)基于pls的文本分类技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信 息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检 索和机器学习中的前沿研究领域。自动文本分类是指在给定的分类体系下,对未 知类别的文档进行自动处理,并根据文档特征来判断其所属类别的过程;基于机 器学习的文本分类技术已经成为主流技术。本文旨在运用偏最小二乘回归和核偏 最小二乘回归的统计理论,研究一些基于学习的文本分类技术。 在文本分类中,有效的维数约简可以提高学习任务的效率和分类性能。特征 选择和特征抽取是维数约简常用的两种方法。特征选择的优点是所选择的特征都 有很好的语义解释,但在文本分类中效果不够理想。特征抽取能够较好地处理多 义词、同义词问题,但是不能给出降维后所得到特征的语义解释。为了有效地提 取特征所在类别的语义信息,本文提出了基于潜在语义文本分类模型( l a t e m s e m a n t i cc l a s s i f i c a t i o nm o d e l :l s c ) 的特征选择两步法:用l s c 模型进行特征抽 取;引入特征变量投影重要性( v a r i a b l ei m p o r t a n c ei np m j e c t i o n :v i p ) 指标来重 新度量各特征的重要性,根据特征的重要性来进行特征选择。在复旦中文文本分 类语料库上,实验表明新方法进行选择特征能很好地表示类别的语义信息,在一 些经典模型上分类性能有较大提高。 考虑了文本特征和分类信息的l s c 模型本质上是线性模型。为了提高分类性 能,通过引入核函数提出了一种非线性的文本分类模型:基于核方法的潜在语义 文本分类模型( k _ e m e ll a t e n ts e m a n t i cc l a s s m c a t i o n :k l s c ) 。实验结果表明该模型 也能很好地表示文档空间的潜在语义结构信息,具有良好的分类性能。 在l s c 模型和k l s c 模型中都面临一个关键问题:潜在变量对数量的确定。 两个模型都是通过阈值来控制,在中文语料库上实验表明随着维数的增加,微 平均f l 值和宏平均f 1 值对阈值越来越敏感;在不同特征维数下,l s c 模型所 有类别阈值和潜在变量对数量呈非线性关系,而k l s c 模型呈线性关系;我们 发现大约2 0 个左有的概念( c o n c e p t ) 就可以很好地表示个类别的语义信息。 关键词:文本分类:潜在语义分类:偏最小二乘回归;核方法;核偏最小二乘回 归;维数约减;特征选择;特征抽取 a b s t r a c t w i t ht h ee x p l o s i v eg r 0 、耐ho f m eo n l i n ee l e c t r o n i cd o c u m e n t s ,t h ea u t o m a t e dt c x t c a t c g o r i z a t i o n( o r t e x tc l a s s m c a t i o n ,t c ) i sb e c o m i n gm o r ei m p o n a mi nt h e a p p l i c a t i o n so fi n f b 兀n a t i o nr e t r i e v a l ( i r ) i n i o 咖a t i o nf i l t e ra n dc o n t e n tm a n a g e m e n t i nt h el a s t1 0y e a r s ,a n dh a sb e c o m ef o n v a r dr e s e a r c ha r c ao f i ra n dm a c h i n e1 e a r n m g ( m l ) t e x tc a t e g o r i 硪i o ni st h ep r o c e d u r eo fa u t o m a t i c a l l ya s s i g n i n gp r 酣e n n e d c a t e g o r i e st of k et e x td o c u m e n t s ,a n dt h et cm e t h o db a s e d 1 e a m i n zh a sb e c o m e m a i n s t r e a l l lt e c h n o l o g y b ye m p l o y i n g i n gt h es t a t i s t i c a lt h e o r yo f p a r t i a ll e a s ts q u a r e r c g r c s s i o n ( p l s ) a n dk e m e lp a n i a l l e a s ts q u a r cr e g r e s s i o n 张p l s ) ,o u rw o r l 【sf o c u s o nt h et ct c c h n i q u eb a s e do nm el e a m i n 叠a p p r o a c h e f r c c t i v ed i m e n s i o n a l i t yr e d u c t i o nc o u l dm a k et h el e a m i n gt a s km o r ee m c i e n t a n dm o r ea c c u r a t ei nt e x tc l a s s i f i c a t i o n f e a t u r es e l e c t i o na n df e a t u r ee x t r a c t i o na r e c o m m o nm c t h o d sf o rd i m e n s i o n a l i t yr e d u c t i o n t h ea d v a n t a 窟eo f t h ef e a t i l r es e l e c t i o n i st h a ts e m a n t i ci n f o m l a t i o ni so b t a i n e d ,b u tt h ep e r f o r 玎a a n c ei nt e x tc l a s s i f i c a t i o ni s n o te x c e l l e n c e f e a t u r ee x n a c t i o ni sh e l p m li na v o i d i n gm ep r o b l e m so fs y n o n y m y a n dp o l y s e m y ,b u tt h es e m a i l t i ci n t e r p r c t a t i o no fm ef c a t i i r e si sd i f n c u l tt og i v e w e p r o p o s et w o s t e df e a t i i r es e l e c t i o nm e t h o db a s e dl s c 正a t e n ts e m a n t i cc l a s s i n c a t i o n m o d e l ) :i nt h ef i r s ts t a g e ,t h el s cm o d e li su s e dt os e l e c tf e a t i i r e s ;i nt h es e c o n ds t a g e , t h ev i p ( v a r i a b l ei m p o r t a n c ei np m i e c t i o n ) i sa d o p t e dt om e a s u r em ei m p o n a n c eo f t h ef c a t u r e sa n dm ef e a t u r c sa r es e 】e c t e da c c o r d i n gt oi t e x p e r i m e n t so nf u d a n u n i v e r s i t yc h i n e s et e x tc l a s s i f i c a t i o nc o r p u ss h o w e dt h a tt h en e wa p p r o a c hc o u l d c a p t u r e 廿1 es e m a n t i ci n f o n l l a t i o no ft h ec a t e g o r i e sa n dp e b n n e db e t t e rt h a nt h o s e s e l e c t e db yo t h e r sw i t hs e v e r “c l a s s i c a lc l a s s j f i c a t i o na l g o f j t h m s l s cm o d e lw h i c hc o n s i d e r sb o i ht e x tf e a t u r ea n dc l a s s i n c a t i o ni n f 0 兀n a t i o ni s v i r t u a l l va1 i n e a rm o d e l s oan o n l i n e a rk e m e ll a t e n ts e m a n t i cc l a s s i f i c a t i o nm o d e l ( k l s c ) i sp r o p o s e db a s e do nk e m e lm e m o d ,a n dc a na l s oc a p t u r cl a t e n ts e m a n t i c s t c t u r ei n f b m a t i o n e x d e r i m e n t ss h o w e dt h a t 廿l i sm o d e lw a se f f b c t i v e b o mt h el s cm o d e la 1 1 dk l s cm o d e la r ef a c et oak e vd m b l e mh o wt o d e t e r m i n et h en u m b e ro ft h e1 a t e n tv a r i a b i e p a i r s t h es o l u t i o nt 0t h i sp r o b l e mi n t h e mi sb ym e a n so fm et h r e s h o l d t 0c o n t m lt h en u m b e r e x p e r i m e n t ss h o w e dt h a t t h em o r et h et b a t u r ed i m e n s i o n a l i t yi n c r e a s e d ,t h em o r es e n s i t i v em i c r o a v e r a g i n gf l v a l u ea n dm a c r o a v e r a g i n gf 1v a i u e 、v e r e ,a n dt h a t t h er c i a t i o n s h t pb e t w e e nt l l r e s h o j d a n dt h en u m b e ro f t h e1 a t e n tv a r i a b l e d a i rw a sl i n e a ri nt h el s cm o d e lb u tn o n l n e a r 访t h ek l s cm o d e l w ba l s of o u n dt h a ta b o u t2 0c o n c e p t sc o u l de x p r e s st h es e m a n t i c i n f o r m a t i o no f o n ec a t e g o 阱 k e yw o r d s :1 、e x tc l a s s i e c a t i o n ;l a t e n ts e m a n t i cc i a s s i n c a t i o n ;p a r t i a ll e a s ts q u a r e r c g r c s s j o nr e g r e s s i o n ;k e m e lm e t h o d ;k e m e lp a r t i a ll e a s ts q u a r er e g r e s s i o n ; d i m e n s i o n a i i t yr e d u c t i o n ;f e a t u r es e i e c t i o n ;f e a t u r ee x t r a c t i o n 1 1 1 图目录 图2 一l 文本分类系统总体结构图5 图2 2s v m 原理示意图1 8 图2 3 文本分类过程2 2 图4 1 多义词和同义词的几何表示3 4 国4 2s v m “在不同特征维数下两种力法微平均f i 值和宏平均f 1 值的变化情况4 0 图4 3s m o 在不同特征维数下两种方法的微平均f l 值和宏平均f l 值变化情况4 l 图4 4k n n 在不同特征维数下两种方法微平均f l 值和宏平均f 1 值的变化情况4 1 图4 _ 5c 4 5 在不同特征维数下两种方法微平均f 1 值和宏平均f 1 值的变化情况4 l 图5 1x o r 问题的几何表示4 4 圈5 2 简化分类任务的特征映射4 4 图5 3k l s c 模型在r e u t e r s 一2 1 5 7 8 语 + 库上不同特征维数下微平均f 1 值变化情况一5 1 图5 4k l s c 模型在r e u t e r s 一2 1 5 7 8 语料库上不同特征维数下宏平均f 1 值变化情况。5 2 图5 5l s c 模型在复旦文本分类语料库上l 0 0 0 维潜在变量对数量和阈值e 的变化情 ,一一57 图5 6k l s c 模型在复旦文本分类语料库上1 0 0 0 维潜在变量对数量和闽值的变化情 z 州i 。5 7 图5 7l s c 模型在复旦文本分类语料库上,不同特征维数分类性能最佳时的潜在变量 对数量变化陪况5 8 图5 8k l s c 模型在复旦文本分类语科库上,不同特征维数分类性能最佳时的潜在变量 对数量变化情况5 8 图5 9l s c 模型在r e u t e r s 一2 1 5 7 8 语料库上,9 5 9 6 维数上不同潜在变量对数量f 1 变化 情况一5 9 表目录 表2 一lr e u t e r s 一2 1 5 7 8 前1 0 类和后1 0 类文档数统计表9 表2 2r e u t e r s 一2 1 5 7 8 训练集低频词统计l o 表2 3 复旦大学中文文本分类语料库各类别文档数统计“ 表2 4 复旦太学中文文本分类语料库训练集低频词统计1 2 表4 1 复旦文本分类语料库6 0 0 0 维上部分类别前2 0 个特征项的v i p 值3 8 表4 2 复旦文本分类语料库6 0 0 0 维上部分类别前2 0 个特征项的回归系数3 9 表4 3 在不同特征维数上不同模型的微平均f l 值和宏平均f l 值4 0 表5 一lx o r 问题4 3 表5 2k l s c 模型在复旦文本分类语料库上,3 0 0 维时不同。时微平均f 1 值和宏平均f l 值5 ( 1 表5 3k l s c 模型在复旦文本分类语料库上8 0 0 维时不同。时微平均f 1 值和宏平均f l 值5 ( 1 表5 4k l s c 模型在r e u t e r s 一2 1 5 7 8 语料库上,不同特征维数下的宏平均f 1 值和微平均 f l 值5 1 表5 5k l s c 模型在复旦文本分类语料库上。不同特征维数下的宏平均f l 值和微平均f 1 值5 3 表5 6k l s c 与其他模型在r e u t e r _ 2 1 5 7 8 语料库上前1 0 类的f 1 值、所有类的微平均f l 值和宏平均f l 值的性能比较5 4 表5 7k l s c 与其他模型在复旦文本分类语料库上所有类别微平均f 1 和宏平均f l 的性 能比较5 5 表5 8 在复旦文本分类语料库上不同特征维数和不同阈值e 的微平均f 1 值5 6 表5 9 在复旦文本分类语 库上不同特征维数和不同阈值e 的宏平均f l 值5 6 x i 第一章引言 1 1研究背景 随着因特网( i n t e m e t ) 和企业内部网( i n t r a n e t ) 的飞速发展,各种电予文 本、声音和图像等信息的急剧增加,在给人们以丰富信息资源的同时,也给人 们带来了信息灾难。目前,虽然在线的多媒体信息与日俱增,但是因特网和企 业内部网的大部分信息是文本数据,文本信息仍然是十分重要的信息资源之一。 所以,面对这些快速增长的海量文本数据,我们如何快速有效地获取、管 理和使用这些数据,己经成为当前迫切需要解决的重要问题。很多领域都存在 这种问题,包括邮件过滤、邮件自动分类、网页搜索、主题索引、新闻故事的 分类和大型学术会议的论文组织与管理等。如果是用传统的手工方式,必然需 要大量的人力、物力,对参加的工作人员要求也较高,确时还需要具备某些领 域的专业知识。 4 作为解决这些问题的基奉工具之一,近十年来,基于人工智能技术的自动 文本分类( a u t o m a t e dt e x tc a t e g o r i z a t i o n ) 技术得到了空前的发展,已经成为当 前极具理论意义和实际价值的一个研究领域。并且,自动文本分类技术在数字 图书馆、个性化信息检索、信息过滤等领域也具有极高的研究价值和极其广阔 的应用前景。 自动文本分类是将自然文本文件根据内容自动分为预先定义的一个或几个 类别的过程1 【”。自动文本分类技术的研究目标就是实现文本分类的自动化,以 达到降低分类成本、提高分类效率和改善分类性能等目的。大多数情况下自动 文本分类简称为文本分类( t e x tc i a s s 讯c a t i o n 或t e x tc a t c g o r i z a t i 叫,缩写为t c ; 论文中除有另外说明,文本分类均指自动文本分类) 。自动文本分类主要有两种 基本实现途径:基于知识的( b a s e d k n o w l e d g e ) 和基于学习的( b a s e d - l e a n l i n 曲。 也有两者结合的方式。基于知识也称基于规则的( b a s e d r u l e ) ,它的分类规则 通常由一些领域的专家手工建立。这种方式的优点是可以达到非常高的分类准 确率,但是它非常耗费人力和时间,对于各个领域的文本信息需要不同领域的 专家。基于学习的自动文本分类系统是利用机器学习技术从预先定义的类别中 自动提取分类规则,自动导出文本分类器。它是因十九世纪九十年代计算机性 能大幅提高而兴起的,目前几乎所有重要的机器学习算法在自动文本分类领域 江西师范大学硕士学位论文 基于p l s 的文本分类技术研究 都得到了广泛应用,如:最小二乘回归模型口,4 1 、t 近邻口,6 ,”、决策树n8 一、朴 素贝叶斯晦卫1 们、神经网络【1 1 ,2 】和支持向量机 1 3 1 4 增,基于机器学习的文本分 类技术已经成为文本分类的主流技术。本文重点研究基于学习的文本分类技术。 当前,自动文本分类主要是信息检索( i n f o r i i l a t i o nr e t r i e v a l :i r ) 和机 器学习( m a c h i n el e a r n i n g :m l ) 两个领域的结合,涉及人工智能、语言学、统 计学、认知科学和信息论等多个学科,是前沿的研究热点之一,国内外均有大量 的学者从事这方面的研究。在2 0 0 6 年2 月9 日公布的国家中长期科学和技术发展 规划纲要( 2 0 0 6 2 0 2 0 年) 中,把智能感知技术作为规划中的前沿技术:“重 点研究基于生物特征、以自然语言和动态图像的理解为基础的以人为中心的 智能信息处理和控制技术,中文信息处理;研究生物特征识别、智能交通等相关 领域的系统技术”。 1 2 本文工作 在文本分类中,特征选择和特征抽取是维数约简常用的两种方法。特征选 择的优点是所选择的特征都有很好的语义解释,但在文本分类中效果不够理想。 特征抽取能够较好地处理多义词、同义词问题,但是不能给出降维后所得到特 征的语义解释。 潜在语义文本分类模型( l a t e n ts e m a n t i cc l a s s i f i c a t i o nm o d e i :l s c ) 综合考 虑了文木特征和分类信息,但它通过线性化原始的文档矩阵和文档类别矩阵提 取新的潜在语义变量对或成分( 也称新的综合变量) 来提高分类性能,本质上 是一个线性模型。已有的研究表明,为了提高分类性能,非线性化是一种有效 的途径。 针对上述问题,本文运用偏最小二乘回归和核偏最小二乘回归的统计理论, 开展了一些基于机器学习的文本分类技术方面的研究工作,具体研究内容如下: ( 1 ) 基于l s c 的文本分类特征选择方法 潜在语义文本分类模型( l s c ) 是一种同时考虑词的信息和类别信息的分类 模型。本文在l s c 模型的基础上,使用重要投影重要性指标v i p ( v a r i a b l e l m p o n a n c ei np r o j e c t i o n :v i p ) 直来度量各特征,提出了一种基丁l s c 模型的特 缸选择二步法。在提取了各特征的v i p 岱后,认真分析这些值在文本分类叶1 的 作用、特点以及它们的语义信息。在典型的s v m l “、s m o 、c 4 ,5 和刖n 四种 第一章引言 模型上,采用复旦大学中文文本分类语料库将新的特征选择方法和z 2 统计量提 取特征方法进行比较,检验其分类性能。 在研究各特征的v i p 值的同时,初步分析l s c 模型回归方程中各特征的回 归系数( 或权重) 。 ( 2 ) 基于核方法的潜在语义文本分类模型( k l s c ) 运用核方法的思想和核偏最小二乘的统计理论,我们提出了一种非线性化 的文本分类模型:基于核力法的潜在语义文本分类模型( k e m e ll a t e n ts e m 锄t i c c l a s s i f i c a t i o nm o d c l :k l s c ) 。在r c u t e r s - 2 1 5 7 8 语料库和复旦大学中文文本分类 语料库上检验新模型的文本分类性能和稳定性;与经典的s v m “出、s m o 、c 4 + 5 和扑m 四种文本分类模型以及l s c 模型进行性能比较。 ( 3 ) 潜在变量对的研究与分析 在新提出的k l s c 模型和已有的l s c 模型中,都面临着如何确定潜在变量 对( 或成分) 数量的问题。算法中都是通过闽值来控制潜在变量对数量。在 复旦大学中文文本分类语料库上,对于这两个模型,本文通过实验分析了在不 同特征数上阈值对文本分类性能的影响;研究了在不同特征维数下所有类别 阂值和潜在变量对数量的关系;探讨了在使用偏最小二乘方法后多少个新的 综合变量可以表达一个类别的语义信息这问题。 ( 4 ) 文本分类系统平台的建立 使用j a v a 语言编程,按照文本分类系统组成建立了一个完整的文本分类系 统平台。 本文的的创新点如下: ( 1 ) 运用偏最小二乘的统计理论,在l s c 模型的基础上,使用重要投影重 要性指标v i p ,提出了一种新的特征选择方法:基于l s c 的特征选择二步法; ( 2 ) 使用v i p 值表示后的特征能够给出合理的语义解释,能很好地表示它 们与所在类别相关程度,更客观地表示了文档信息和类别的语义信息,克服了 现有的一些特征抽取方法不能很好地给出语义解释的一些局限性,并且显著提 高了文本分类性能; ( 3 ) 运用核偏最小二乘的统计理论和核方法的思想,提山了一种基于核方 法的潜在语义文本分类模型( k e m e ll a t e n ts e m a n t i cc l a s s 讯c a t i o nm o d e l : k l s c ) ,并在语料库上检验了文本分类性能,和一些经典的模型进行了性能比 江西师范大学硕士学位论文基于p l s 的文本分类技术研究 较; ( 4 ) 对l s c 模型和k l s c 模型中潜在变量对数量的确定这一问题进行了 分析,得出了一些初步的研究结果。 1 3论文组织 本文的组织如下: 第一章为引言,简介了文本分类技术的研究背景、研究目的及意义,简述 了本文的研究工作,并列出了后续章节的安排; 第二章概括性地介绍了文本分类系统及其相关技术。按文本分类系统的系 统组成、实现步骤,简单介绍了文本预处理、文本表示方法、常用的文本分类 算法、文本分类器的测试和评价方法等。叙述了本文使用的语料库:r e u t e r - 2 1 5 7 8 语料库和复旦大学中文文本分类语料库,并对其进行了分析。 第三章简单介绍了本文运用的偏最小二乘的统计理论知识。 第四章简单叙述了文本分类中的维数约简技术,详细阐述了一种基于潜在 语义文本分类模型( l s c ) 的特征选择二步法的基本原理和具体的算法思想; 并给出了使用新的特征表示方法后的实验结果和分析。 第五章着重说明了通过引入核方法的思想提出了一种非线性化的潜在语 义文本分类模型,给出了推导过程和具体的算法;给出了新模型的实验结果和 分析。同时,也对l s c 模型的k l s c 模型的潜在变量对数量确定问题作了些初 步的分析。 第六章总结全文,并展望了进一步的工作。 第二章文本分类概述 第二章文本分类概述 2 。1文本分类的数学定义 文本分类的形式化一般定义为5 1 6 ,1 7 ,1 ”,给定文档集合d = d ,d 2 ,“ , d 。表示第f 篇文档,d 由m 篇文档组成;预先定义的文档类别集合 c 3 c ,。 ,。旧) 。假设文档集合和类别存在一个末知的目标函数: 中:d c l ,) ( 2 一1 ) 文本分类任务可以描述为努力找到一个函数 毒:d x c z f ( 2 - 2 ) 尽量逼近未知的目标函数m 。画称为分类器( c l a s s 讯e r ) 或者模型( m o d e l ) 。 如果中( z ,c ,) = 丁,那么称文档d ,为类别0 的正例;中( 吐,c ,) = f 则称文档m 为 类别g 的反例。 依据文本所属类别的个数( 即类别标号的个数) ,文本分类问题可以区分为 甲标签( s i n g l e j a b e l e d ) 文本分类和多标签( m u l t i - l a b e l e d ) 文本分类。在单标签文本 分类中,文档d 。只赋予一个标签;在多标号文本分类问题中,文档d j 可能同时 属于多个不同的文本类别。二元文本分类( b j n a 叫t c ) 则是文档d i 属于类别0 或者类别白的补集c ,它是单标签文本分类的一个特例。多标签文本分类器通 常由单文本分类器组合而成。 2 2文本分类系统的组成 一般来说,一个完整的文本分类系统通常包括如下几个主要阶段:文本预 处理、文本的表示、文本特征的选择、分类器的学习、分类器的测试和性能评 价。 图2 1 文本分类系统总体结构图 图2 1 中简单表示了一个文本分类系统基本结构和数据流程,实际上这个过 江西师范大学硕十学位论文 基于p l s 的文本分类技术研究 程是一个反反复复、不断调整和反馈的过程。有些情况下为了研究的需要研究 人员会自己建立文档集,更多的情况是使用国际上流行的、已经建立好的权威 的文档集。不考虑文档集的建立,按照上述结构我们可以把一个文本分类系统 分为以下几个部分: ( 1 ) 文本预处理 对中文进行分词、去除停用词和稀有词等操作;对于英文要进行词干化 ( s t e m i n g ) 、去除停用诃和稀有词等操作。目前,中文的预处理难点和重点是 中文分词。 ( 2 ) 文本特征的表示 本质上,文本是字符串的集合。要将计算机技术应用到文本分类上,必须把 文本转换成为计算机容易处理的表示方式。使用最普遍的文本表示方式是向量空 间模型( v e c t o rs p a c em o d e l :v s m ) 。 ( 3 ) 特征降维 确定特征单位( 可以是具体的单词、短语,也可以是抽象的语义、概念单元) , 并按一定的描述模型对文本进行特征表示。它的作用是将文本的内容按照一种计 算机能够理解的格式用特征( f e a t u r c ) 描述出来,使机器能够对文本进行处理和运 算。它是文本分类系统的核心。特征降维的基本概念和常用的降维技术将在第四 章中阐述。 ( 4 ) 学习训练 这也是文本分类系统的核心部分,主要包括选择文档集中的若干文档构成训 练集,确定学习器的各个参数,建立一个自动分类器,对训练集进行学习训练。 ( 5 ) 测试和评价 利用学习训练阶段获得的自动分类器,对测试集的文档进行分类;选择合适 的评价指标对分类器的性能进行评价。 2 3 文本预处理 目前发布的一些语料库( c o r p u s ,也称文档集) 的存储格式爿i 尽相同,一般 不能直接使用;有些文档可能不完整,存在一些不规范字符;有些语料库中存 在不少的重复文档;有些语料库的文档直接从网上下载,非常不规范。上述这 弟二章文本分类概述 些问题的存在会严重影响文本分类系统后续的工作以及分类性能,所以必须进 行一些前期的数据预处理工作。 为保证文本分类任务能够快速有效地执行,必须进行文本预处理,其主要是 指将文本转化为适合文本分类系统处理的中间形式并滤除与任务不相关的冗余 特征。一般包括去除文档巾的格式标记、过滤非法字符、字母大小写转换、去除 停用词和稀有词、词干化等处理步骤,中文语料库还包括中文分词处理。不同的 预处理方式会对分类器产生一定的影响,这使得很多研究人员之间的实验结果有 时很难进行比较和评价。 2 3 1 文档中的格式标记去除 语料库中的文档有的是网页,文件格式是超文本标记语言( h y p e rt e x t m a r k u pl a n g u a g e :h t m l ) ,网页里除文本分类巾一般需要的标题和文本内容外, 有时为了网页分类需要提取链接地址、字体等信息。目前国际公开发布的语料 库大多数是以标准通用标记语言( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e : s g m l ) 和扩展标识语言( e x t e n s i b l em a r k u pl a n g u a g e :x m l ) 表示文档。文档 中的格式标记去除主要是指去除语料库中的一些格式,提取文档里的部分内容, 转换为文本分类系统需要处理的格式和内容。 2 3 2 停用词、稀有词和词干化 停用词一般是指语言中的功能词( f u n c t i o nw o r d :f w ) ,中文中一般称为 虚词。英文的功能词包括冠词、代名词、助动词、介系词、连接词等;巾文则 包括“的”、“地”、“得”、“啊”、“吗”等等。它们本身没有太多的意 义,在语料库中出现的频率很高,对文本分类没有贡献或者贞献不大,但可以表 示各种各样的语法关系。中文的动词、形容词和副词等也会被滤除,主要保留 有利于文本分类的名词等。 语料库中出现频率很低( 一般为1 3 次) 的稀有词,也可以考虑去除。它 们的数量通常很多,计算机非常难处理,一般需要去除。 词干化主要是去除英文单词中的前缀、后缀,保留单词中的词干部分。英文 的单词常由前缀、词根、后缀等部分组成。在句子中,单词还有性、数、格以及 时态引起的词形变化。这样处理的目的也是便于计算机处理,减少文本处理中的 特征维数。词干化处理常常采用基于自动机的规则方法,即将词形变化的规律总 7 江西师范大学硕士学位论文基于p l s 的文本分类技术研究 结成规则,然后通过自动机的方法对词形进行转换。转换的过程当中可使用或者 不使用词典。目前使用最广泛的词干化处理算法是m a n i np o r t e r 提出的p o r t e r s t e m m e r 算法1 。 2 3 3 中文分词 英文中词之问有天然的间隔,但是中文文本中词与词之问却没有明确的分 隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正 确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题,也 是中文信息处理的基础。汉字的简体繁体转换、信息检索和信息摘录、自然语 言理解、文本分类、机器翻译、文本校对等中文信息处理系统同样都首先需要 分词作为其最基本的模块。 目前,中文分词所要解决的关键问题是通用词表和切分规范、切分歧义和 未登录词识别。中文分词方法大致分为三类: 机械分词方法:基于分词词表,按照字符串匹配的原理进行的。根据切取字 串的方向,机械匹配法义分为正向匹配法和逆向匹配法。根据每次匹配时优先考 虑长词还是优先考虑短词,机械匹配法又分为最大匹配法和最小匹配法。根据匹 配不成功时重新切取的策略,机械匹配法又分为增字法和减字法。使用较为广泛 是最大匹配法( m a x i m u mm a t c h i n gm e t h o d ) ,该方法依据一个分词词表和一个基 本的切分评估原则,即“长词优先”原则,来进行分词;分为正向最大匹配法 ( f o n v a r dm “i m u mm a t c h i n g :f m m ) 和逆向最大匹配法( r e v e r s em a x i m u m m a t c h i n g :r m m ) 。 基于统计分词方法:先切分出与词表匹配的所有可能的词,这种切分方法称 为“全切分”,然后运用统计语言模型和决策算法决定最优的切分结果。这种方 法的优点是可以发现所有的切分歧义,但是解决歧义的方法很大程度上取决于统 计语吉模型的精度和决策算法。需要大量的标注语料,并且分词速度也因搜索空 间的增大_ 而有所缓慢。 基于规则和基于统计相结合的方法:首先运用最大匹配作为一种初步切分, 接着对切分的边界处进行歧义探测,发现歧义。再运用统计和规则结合的方法来 判别正确的切分,运用不同的规则解决人名、地名、机构名识别,运用浏法结构 规则来生成复合词和衍生词。 第二章文本分类概述 2 4 语料库 文本分类实验中,语料库的选择至关重要,选择的原则是国内外使用广泛、 权威标准和规范。这样使得我们的实验结果和国内外同行的实验结果具有可比 性,同时也便于认真细致地分析实验数据,分析算法的优劣。英文语料库已经 有受到因内外认可和广泛使用的路透社语料库( r c u t e r s - 2 1 5 7 8 、r c v l 和r c v 2 ) 、 1 r e c 文档集和2 0n e w s g r o u p 等文档集;中文语料库还没有一个公认权威的, 目前有复旦大学计算机信息与技术系围际数据库中心自然语言处理小组建立的 中文文本分类语料库( 简称复旦大学中文文本分类语料库1 ) 和北京大学计算机 网络实验室建立的中文w 曲文档集( 目前版本是c w t l o o g 和2 0 0 6 年4 月发布的 c w t 2 0 0 9 ) ,研究人员使用较为广泛的是复且大学中文文本分类语料库。 实验中我们选用r e u t c r s _ 2 1 5 7 8 语料库和复旦大学中文文本分类语料库进行 实验分析和性能比较。 2 4 1r e u t e r s 一2 15 7 8 语料库及其预处理 r e u t e r s 一2 1 5 7 8 是d a v i dl e w i s 从1 9 8 7 年萸国路透社新闻专线公开发表的数据 中编辑的,在文本分类研究领域是一个使用非常广泛、公认权威的语料库,国内 外已有许多研究人员公布了基于此语科库的实验结果。r e u t e r s 一2 1 5 7 8 语料库可 以从网上免费下载2 。 表2 1r e u t e r s 一2 1 5 7 8 前1 0 类和后1 0 类文档数统计表 费 学:剩拳别麟熙螂序謦j 爨剽名钏练叟档熬栅试文档数 1e a m2 8 7 71 0 8 7l ld 0 t a t 033 2 c a1 6 5 07 1 91 2 c p u 3l 3【1 l o n e v - 扭5 3 81 7 91 3p h t h a 24 4g r 4 3 31 4 91 4:o p r a c a k e 2l 5c m d e3 8 91 8 9l s d a l m k e m e l2l 6i h d e3 6 91 1 81 6d a l l a d l u m 2l 7【m e r e s t 3 4 71 3 11 7 d n 21 8w h e a t2 1 27 11 8c o 牡o n o i l12 9 s h i p 1 9 78 91 9i m o j l1 l 1 0c o m1 8 25 62 0r y e1l r e u t e r s 一2 1 5 7 8 中总共包含了2 2 个s g m l 格式的数据文件,其中前2 1 个文件 1 下载地址为:中文自然语言处理开放、f 台( w w w n l po r gc n ) 。 2 下载网址为:h n p :w 、v w d a v i d d l e w i sc o 唧,r e s o u r c e s ,t e s t c o l l e c t 幻咀s r c u t e r s 2 1 5 7 8 9 江西师范大学硕士学位论文基丁p l s 的文本分类技术研究 每个包含l ,0 0 0 篇文章,最后一个文件则只包含5 7 8 篇文章,整个语料库共有 2 1 ,5 7 8 篇文章。语料库中共有1 3 5 个类别,一篇文章最多时同时属于1 4 个类别, 平均一篇文章属于1 2 4 个类别。但实际上,类别的分布是非常不均匀的,存在7 5 个类别( 大于5 0 ) 的训练文档数不足1 0 篇,有一些类别根本就没有训练文档。 实验中,我们保留了在训i 练集和测试集中都至少有一篇训练文档的类别,总共有 9 0 个类别。 语料库中的所有文章,可以根据t o p i s 、l e w l s s p u t 、c g i p l i t 等属性进 行不同的划分,实验中我们选择了最普遍采用的m o d a p t e 划分。根据m o d a p t e 划 分的说明,r e u t e r s _ 2 1 5 7 8 文档集可以划分为9 ,6 0 3 篇训练文档和3 ,2 9 9 篇测试文档。 经分析发现,这些文档中有一些是信息残缺的,如类别信息丢失或文档正文信息 缺失等。在实验中,我们滤去这部分损坏文档后,保留有7 ,0 6 3 篇训练文档和2 ,7 4 2 篇测试文档。从表2 一l 也可以看出语料库中的类别分布非常不均衡,最常见的类 别,拥有2 ,8 7 7 篇训练文档和1 ,0 8 7 篇测试文档;但后面类别之间的文档数相 差很大,最后1 0 个类别的文档大部分小于3 篇。 我们对r e u t e r s - 2 1 5 7 8 语料库的文本预处理,主要包括以下内容: ( 1 ) 格式标记去除,提取每篇文档中的 和 部分的内容,采 用m o d a p t e 划分确定其对应的类别信息; ( 2 ) 对 和 中的内容过滤非法字符( 包括标点符号、阿拉伯 数字和簟个英文字母等) ,只保留我们需要的英文单词,并将英文字母全部转换 成小写形式; ( 3 ) 根据英文停用词表,去除内容中的停用词; ( 4 ) 采用p o n e rs t e m m e r 词干化算法对提取到的英文单词进行词干化处 理。 表2 2r e u t e r s 一2 1 5 7 8 训练集低频词统 词频 1234567891 0 l 相同词频的词 的数量 8 3 6 82 7 1 31 2 7 57 8 85 3 23 8 63 1 82 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论