已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i 么1 l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所 取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均 已在文中作了明确的说明。本声明的法律结果由本人承担。 学位论文作孝签名:上4 2 # 卜日期:乌丛j 乙一 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它 复制手段保存、汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学 位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全 文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式出版 发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 学位论文作 工作单位: 通讯地址: 指导教师签名:互醴堡 。 日期: 2 望f q 。盘= 6 电话: 邮编: 爨静, ,m pj曩。 摘要 在当今社会,人们身边充斥着大量的数据,特别是文本数据,使人目不暇接。 面对如此海量数据,我们已经不能简单地凭借人工处理来得到信息,迫切需要计 算机来帮助我们更好地发现和管理这些信息资源。如何从海量数据中挖掘出有用 的信息已成为当今科学研究的一个重要课题。文本数据挖掘是应用数理统计方法 及计算机技术,对文本数据进行信息提取的- - f q 新兴学科。文本分类是文本数据 挖掘的一个重要研究方向。文本分类的方法已经有很多,比! t t l n a i v eb a y e s ,k 一 近邻,支持向量机,神经网络等等。但对于中文文本分类问题,由于中文文本本 身的复杂性,一直没有得到很好的解决,中文文本分类是建立在汉字编码,词语 切分,歧义词消解和新词的识别等基础上的一项技术。中文文本数据的处理是以 语句作为研究对象,以词作为最小研究单位的,因此无论是在中文文本数据的语 法研究还是计算数学模型上都存在相当大的难度,目前采用的方法主要有基于语 法规则的方法,基于数理统计方法,以及语法规则与数理统计相结合的方法。 本文是在采用反向最大匹配分词技术,消解歧义,以及添加新词的基础上, 建立了向量空间模型。基于数理统计的方法,使用n a i v eb a y e s 分类器,并使用 a d a b o o s t 算法对分类器的分类效率进行提升,以达到提高预测精度的目的。针对 本文提出的方法,将其应用到了“长春市市长公开电话”数据的分类问题中,分 类精度得到提升,显示该方法的有效性及其重要的应用价值。 关键词:文本分类;n a i v eb a y e s - b o o s t i n g ;a d a b o o s t a b s t r a c t i nm o d e ms o c i e t y , p e o p l ea leb o m b a r d e dw i t hal o to fi n f o r m a t i o n ,e s p e c i a l l y t e x tm e s s a g e s ,w h i c ha r et o om a n yf o r p e o p l et ot a k ei n i no r d e rt om a k eb e t t e ru s e o f a l lt h e s ei n f o r m a t i o n ,i t sn e c e s s a r yt oh a v eac l a s s i f i c a t i o no ft h ei n f o r m a t i o n t h e r e a r ea l r e a d ym a n yt e x tc l a s s i f i c a t i o nm e t h o d s ,s u c ha sn a i v eb a y e s ,k - n e i g h b o r , n e u r a ln e t w o r k sa n ds oo n b u tf o rc h i n e s et e x tc l a s s i f i c a t i o n ,d u et ot h ec o m p l e x i t y o ft h ec h i n e s et e x ti t s e l f , t h ec h i n e s et e x td a t ac l a s s i f i c a t i o np r o b l e mh a sn o tb e e n p r o p e r l yr e s o l v e d c h i n e s et e x tc l a s s i f i c a t i o n i sat e c h n o l o g yb a s e do nc h a r a c t e r e n c o d i n g ,w o r ds e g m e n t a t i o n ,a m b i g u o u sw o r d sd i g e s t i o na n di d e n t i f i c a t i o no fn e w w o r d s a st h ec h i n e s el a n g u a g ep r o c e s s i n gt a k e ss e n t e n c e sa st h eo b j e c to fs t u d y , t h e r e f o r e ,w h e t h e ri n c h i n e s e g r a m m a rs t u d y o rt h em a t h e m a t i c a lm o d e lo f c o m p u t i n g ,t h e r ea r ec o n s i d e r a b l ed i f f i c u l t i e s a tp r e s e n t ,t h em e t h o du s e di sm a i n l y b a s e do ng r a m m a t i c a lr u l e s ;o nm a t h e m a t i c a ls t a t i s t i c s ,a n dt h em e a n st h a tc o m b i n e s t h e t w o 。 t h i sa r t i c l ei st h ei n t r o d u c t i o no ft h er e v e r s em a x i m u mm a t c h i n gw o r d s e g m e n t a t i o nt e c h n o l o g y , d i s p e l l i n ga m b i g u i t i e s ,a n da d d i n g n e ww o r d s t h e e s t a b l i s h m e n to ft h ev e c t o rs p a c em o d e l ,b a s i n go nm a t h e m a t i c a ls t a t i s t i c a lm e t h o d s , t h eu s eo fn a i v eb a y e sc l a s s i f i e r , a n du s et h ea d a b o o s ta l g o r i t h mt oe n h a n c et h e c l a s s i f i e r i no r d e rt oi m p r o v ec l a s s i f i c a t i o na c c u r a c y a st ot h em e t h o dp r o p o s e di n t h i sp a p e r , a p p l i e di nt h et e x tc l a s s i f i c a t i o nc a l l e d ”m a y o ro fc h a n g c h u n ,ap u b l i c p h o n et h r o u g h w h i c hp e o p l e c o m p l a i n ”,t h ec l a s s i f i c a t i o na c c u r a c y w o u l db e e n h a n c e da n dw o u l dp r o v et h ee f f e c t i v e n e s so ft h i sm e t h o d k e yw o r d s :t e x tc l a s s i f i c a t i o n ;n a i v eb a y e s :b o o s t i n g ;a d a b o o s t l l , , i 气 甲,l 一 目录 摘要i a b s t r a c t i i 目录i i i 引言1 一b o o s t i n g 方法一3 二n a i v eb a y e s 方法5 ( 一) 模型假设5 ( 二) 参数估计:6 ( 三) 建立分类器7 三a d a b o o s t 8 ( 一) 带权重数据的参数估计8 ( 二) a d a b o o s t 算法:9 四实例分析1 1 ( 一) 确定分类器个数m 1 1 ( 二) 训练样本和检测样本的精度对比1 3 五结论1 4 参考文献1 5 致谢1 7 i i i p 东北师范大学硕士学位论文 引言 伴随着互联网技术的高速发展,互联网的结点数和用户数量也在飞速增长, 在我们大量使用互联网的同时,也就意味着数据信息的不断增加,特别是文本信 息的数量,但对这些文本信息的处理对于我们来说是一个很大的挑战,使得我们 在提取相关信息时,遇到很大的困难。进而,人们迫切希望找到新的工具或软件 来有效的解决这个问题。搜索引擎的出现,有效地解决了该问题,比如现在的很 多搜索网站,百度、雅虎等。随着时代的发展,新的问题出现了,这些常用的搜 索引擎,常常反馈给我们的是大量的冗余信息,这就需要我们做进一步的研究, 才能更有效的使用互联网提供的信息。 文本数据挖掘是由机器学习、数理统计、以及自然语言处理等多个学科组成 的新兴交叉学科。它包括文本分类、文本聚类、文本信息融合、文本信息压缩等 重要方面。文本的修复,查询和过滤都是以文本分类为基础的。文本分类是文本 数据挖掘的一个重要内容,它是按照预先定义的类别,基于文本的内容将待定文 本数据划分到一个或多个类别中的方法。对文本进行分类可以说是人们对文本信 息的一种基本的认识。最初的文本分类是靠人工来完成的,它对专业知识要求较 高而且耗资巨大,不能满足海量文本数据处理的要求,进而,人们希望找到一种 能够自动进行文本分类的方法。 文本分类面临很多的问题和挑战。首先,仅用有限的几个特征词很难表示文 本的确切含义,是无法代替自然语言的。例如,在中文文本数据中,有很多“一 词多义,多词一义”的情况。另外,对中文进行语义分析也是相当困难的。虽然, 已经有一些技术被成功地应用在某些领域中,但中文文本与英文文本有着本质的 不同。英文文本任何两个字之间,天然的有空格分开,而中文文本却没有。中文 文本是以汉字作为最基本的语言单位,是一种表意的文字,很少具有独立的语言 含义,因此需要用词作为最小的语言单位,然而它缺少严格的分词标志,这就需 要分词。分词的两个主要的难点:歧义词的消解和新词的识别,目前这两个问题 还没有得到根本性的解决。中文文本分词的常用方法有三种:正向最大匹配分词, 反向最大匹配分词,全切分词网格分词。本文实例分析中的“长春市市长公开电 话”文本数据,采用的是反向最大匹配分词方法。分词以后,还要针对具体的问 题,来提取特征词,构建特征词库,因为词库的好坏直接关系到分类的精度。 其次,自然语言的复杂性和文本特征空间的高维特征。词库的维度往往很高, 东北师范大学硕士学位论文 大量的特征词含有冗余信息,这就需要降维。降维的方法主要有:基于评估函数 的方法,包括互信息、信息增益、词频法、卡方统计量,期望交义熵、几率比、 文本证据权、潜在语义索引、主成分分析法等。而且数据本身又具有稀疏性这一 特点。因而对于中文文本分类仍然非常困难。9 0 年代之前,大多是利用知识工 程的方法进行文本分类;9 0 年代之后,大多是利用统计和机器学习的方法,但 机器学习的方法较少考虑文本的语义信息,我们希望能够将机器学习方法和语义 分析结合,以得到更好的分类效果。现在常用的文本分类1 1 】的方法有:n a i v eb a y e s 方法,k 一近邻方法,支持向量机和神经网络,决策树,分类委员会等。 提升方法是近十年来提出的最有效的学习思想之一,它最初就是为了分类问 题而提出的,提升的目的就是合并许多“弱”的分类器的输出以产生有效的“委 员会”的过程。而最流行的提升方法是f r e u n d 和s c h a p i r e l 2 】提出的“a d a b o o s t ” 的算法。 本文主要以n a _ | v eb a y e s 方法来建立分类器,它是处理文本数据分类问题中 的一种简单、高效的方法。并使用a d a b o o s t 来对分类器的效率进行提升,以达 到提高预测精度的目的,其中用到的多个分类器指的是多个不同参数的n a i v e b a y e s 分类器。本文的结构安排如下:第二部分是b o o s t i n g 方法的历史简单回 顾,以及当前问题的进展;第三部分是n a i v eb a y e s 方法介绍,包括模型假设, 参数估计和分类器的建立:第四部分是a d a b o o s t 算法的介绍和带权重的参数估 计;第五部分是真实数据分析,将该方法应用到“长春市市长公开电话”的文本 数据的分类问题中。 丫k 东北师范大学硕士学位论文 一b o o s tin g 方法 在分类问题中,研究提高单个分类器的分类效率已经很难实现,因此我们希 望结合多个分类器的优点对分类效率进行提升。b o o s t i n g 方法就是一种能够有效 提升一般分类器分类精度的方法,它可以有效地结合几个初等分类器组成一个的 新分类器,而新分类器的分类效率比任何单一初等分类器的效率高出很多。它是 二十世纪机器学习与数据挖掘领域中最重要的方法之一。本文主要介绍被广泛应 用的“a d a p t i v eb o o s t i n g ”方法,简记为a d a b o o s t ,是1 9 9 6 年,由f r e u n d 和 s c h a p i r e 2 】提出的。即使一个分类器的分类效果比随机分类略好一点,a d a b o o s t 就可以很好的提升该分类器的效率。 b o o s t i n g 方法的雏形,可以在v a l i a n t 3 1 对机器学习领域中的“p a c ”模型的 理论研究中找到。后来k e a r n s $ f :i l v a z i r a n i 4 1 对该模型又做了详细的介绍k e a r n s 和v a l i a n t 5 “】首次提出在“p a c ”模型中,是否可以将弱的学习算法( 只是比随 机猜测好一点的算法) ,提升为可以达到任何精度要求的强学习算法。1 9 8 9 年, s c h a p i r e 7 】首次提出可证实的p 0 1 y n o m i a 卜t i m eb o o s t i n g 算法。一年后,f r e u n d 【8 j 提出一个更加有效的b o o s t i n g 算法,虽然这个算法在一定程度土比较理想,但在 应用中,仍然存在操作上的缺陷。d r u c k e r ,s c h a o i r e 和s i m a r d 例首次将这些早 期的b o o s t i n g 算法应用到o c r 工作中。y o a vf r e u n d 和r o b e r te s c h a p i r e l l 0 1 在 1 9 9 9 年,对b o o s t i n g 方法给出过简洁的介绍。 c o m m i t t e e 方法的基本假设:k 个专家个人判断的有效组合应优于任何个人判 断。常用的组合规则有多票表决、线性加权组合、动态分类器选择和自适应分类 器组合。b o o s t i n g 方法与c o m m i t t e e 方法的主要区别在于b o o s t i n g 方法的训练分 类器时,不是并行的,而是有序进行的,而且训练当前分类器的文本数据的权重 是依赖于上一分类器的分类结果,使上一分类器分错的文本的权重会增加,相对 的上一分类器分对的文本权重就降低了,因为权重的总和每次都不变,从而使得 当前分类器更加关注前一分类器错分的文本,是一种样本级的融合。c o m m i t t e e 方法,对任何初等分类器i ) 1 1 练时,文本权重是不变的,是一种决策级的融合。 实际的应用中,a d a b o o s t 具有很多的优点,首先,它方法简单,易于操作。 除迭代次数需要确定外,没有其他的参数需要去调整。不需要知道分类器的先验 知识以及它是如何构成的,而且能够容易地将任何方法生产的分类器联系起来。 在具有足够的训练样本以及不太差分类器的前提下,a d a b o o s t 算法是有理论可以 保证一定能够提升分类精度的。a d a b o o s t 算法的提出,改变了人们的观点,使得 东北师范大学硕士学位论文 我们从原来关注在整个空间上寻求最优的分类器,转变为寻求一般的分类器,经 过a d a b o o s t 算法的提升,同样可以达到所要求的精度。a d a b o o s t 算法还具有一个 非常好的性质,它可以识别在训练样本中很难分类的数据,因为这些数据是模棱 两可的,天生难以分对,所以它们的权重是最高的,在分类过程中特别地得到重 视。这样可以提醒我们在分类中,要特别关注这些数据,对于我们在实际问题中 做出决策也具有一定的指导意义。 4 釉 东北师范大学硕士学位论文 二n a i v eb a y e s 方法 n a i v eb a y e s 方法也称朴素贝叶斯方法,它是一种基于n a i v eb a y e s 假设的分 类方法,即在给定类别时各个变量之间是相互独立的。依据朴素贝叶斯理论,建 立的n a i v eb a y e s 分类器【1 1 1 2 1 3 1 ,适应于输入数据的维数较高时。虽然n a i v eb a y e s 分类器是一种简单的分类器,但往往其分类效果很好,相比于一些复杂的分类器。 而且它有着坚实的数学基础,稳定的分类效率,算法也比较简单。该方法已经被 成功地应用至t j r a i n b o w 文本分类系统中。本文是在文本分词等预处理步骤已经完 成的基础上,主要关注对文本的向量空间数据进行分类的问题。 ( 一) 模型假设 n a f v eb a y e s 方法需要假设文本来自一个具体的模型,我们假设文本数据来 自一个有限混合模型。另外,我们给出两个假设:第一,n a i v eb a y e s 假设:在 给定文本数据类别的条件下,同一文本数据的各个特征词间相互独立;第二,特 征词出现的概率与其所在的文本数据中的位置无关,且均服从b e r n o u l l i 分布; 第三,类别参数与类内参数独立。这三个假设,虽然大部分现实情况,是不容易 满足的,但可有效的降低参数的个数,简化了判别过程。 首先,介绍一下表示文本的符号: l d = 面,彳) ,z = ( ,z t ) , l d 是已经分类完成的文本,称为训练样本,谚表示是训练样本集的第,个文本, x = ( 五,x ) 。,x j = ( 一。,葺:,) 。,嘞 o ,1 ) ,i e 1 ,) , l ,d ) , x ,表示特征词出现与否,当= l 时,表示第i 个文本中的第个特征词出现,否 则就是没有出现,我们不关注出现的次数,只是关注是否出现。 k z = ( z l ,知) ,乙= ( 缸) 。, o ,1 ) ,= 1 h = l p r ( z ,k = 1 ) = 死,p r ( z , = o ) = l - z k ,f l ,) ,k 1 ,k ) z ,是x ,的类标签向量,当毛= 1 时,表示文本x ,是第j 类文本,也就是说z i 中, 5 东北师范大学硕士学位论文 只有个是1 ,其他全部是o ,后面我们还会使用标量形式的标签。以是z 这个 文本属于第k 类的概率,是类参数。 按照假设,我们得出模型的密度函数如下: x: ( 谚;o ) = ( 薯,乞;o ) = 兀 死尸( 薯;瓠= 1 ,秒) k = l :a | - 兀d 7 k 昭( 一毛) 嘞 = 兀l 兀昭( 1 一毛) i k = ll1 = 1 j 其中参数是: e = 万,口 ; 万= 乃,) ,乃e ( 0 ,1 ) ,k 1 ,k ,以= 1 ; 秒= ( b ,& ) ,眈= ( 皖。,) ,k 1 ,k ) ,( o ,1 ) ,k 1 ,k ) ,_ 1 ,d ) ( 二) 参数估计 在此,我们类别参数先验i 蚁j d i r i c h i l e t 7 布,类内参数是相互独立的b e t a 分 布: 巾m 坤,= 器妒直1 = 1 瓮筹i 我们此时,很容易得出后验似然: ( o ;d ) 芘厂( l d ;o ) f ( o ) 、 其中: a 菩钆卉n 芳( 。一) 争硝孙兀k 群兀kn d 昭一,( ,一) = 兀k 砖一- n k 兀d 叼+ 叫1 一) 仇一+ 仇= z i k ,为个文本中属于第七类的文本总数; i = 1 = x y z 埔,为第七类中,出现第歹个特征词的文本总数。 i = l 6 ”:矿 专。 ,f k 东北师范大学硕士学位论文 k 进而,通过对后验似然求导数,利用7 k - - 1 ,容易求出后验估计为: k = l 巩= 而n k 瓦+ a 面- 1 ,七 1 ,2 ,“) , 瓦= 揣舡 1 ,2 砖巾,2 , 取口:2 时,相当于做l a p l a c e 平滑,因为有可能在训练文本中,属于第j | 类的文 本没有出现,使得无法估计类参数,防止该情况的出现,取口= 2 ,使得第k 类 文本至少出现一次。口白和,ke 1 ,2 。k ) ,j 1 ,2 d ) ,是超参数,对于眈砌分 布的均值e ( 引5 再a 0 ,我们一般选取2 ( + 1 ) 五+ = ( + 2 ) 硒 了限制先验的比重,我们一般选取五较小,也可以通过试验,选取使分类器的分 豢效栗最好的a 。 ( 三) 建立分类器 由于我们采用的是n 柳eb a y e s t j 类器,应用b a y e s 理论,容易算出文本z 属 于第k 类的概率值, 如乩噼塑端户 一巩a 珥d 为( 一矿 k 以a 兀d 岛a ( 1 一瓦) 卜 我们自然是选y 似) = a r g m 。a x p ( 钰2 1 ;谚,6 ) ) 作为第f 个文本的类别。 7 东北师范大学硕士学位论文 三a d a b o o s t ( 一) 带权重数据的参数估计 为了能够使甩a d a b o o s t 算法,我们要想办法给文本数据,加上权型14 1 ,在对数 n ,k d 、 似然中三( o ) = l o gjz l l k 兀厂( 勤;p ) l ,可以视为每个数据的权重都是相等的, i - - i k = l1 = i, 都是1 ,所以,如果我们想要改变数据的权重,只需在每个数据的对数似然乘以 对应的权重。若记q 为文本谚的权重,且q = n ,则带权重的对数似然为 n ,k d 、 三( ) = ql o g i 以i - i f ( x v ;o ) l ,此时,转化为对应的后验似然为: i = l k = l= 1, ( ;d 。) f ( l d 。;o ) 厂( ) a 菇q 血血芳卿( 。一) 喜t - - x , j ) qn k 瓤a - i 兀k 兀d 略一t ( 。一吃) 啕- 1 = a 砑+ a - - i 兀k 兀d 砑+ 叫( 1 一) t 一砖嘞_ 1 其中 n 玩= 气哆,为n 个文本中属于第露类的权重和; l = l _ = x o z , 。哆,为第七类中,出现第个特征词的文本权重和。 对应的参数估计为: 云= 端舡“2 ,斟; 西。= 端肛 1 ,2 洲1 ,2 。) 在实际的编程运算中,为了防止出现磊l 的情况出现,我在选取和6 勾时,是 , : t k 东北师范大学硕士学位论文 选用= ( + 1 ) 2 + 1 ,+ = ( + 2 ) 2 + 2 。对于五的选取,同样是可以通 过试验获得,为了限制先验的比重,一般都是很小的。 一( 二) a d a b o o s t 算法 文本权重记为 哆) ,初始时,4 1 = 1 ,i = 1 ,2 ,n ; 对册= 1 ,2 m , i ,拟合一个分类器虼( 珥) = a r g m a x 。 p ( 缸= l ;谚,芘) ) 厶= 4 ”,( ( 4 ) ) , l 2 k ) 宁1 i i ,错判率:厶= # 进一步算出第埘个分类器的权重 4 册 叫n ( 导) i i i ,更新权重 矿q = 矿e x p j ( ( z ) ,j ) ) - 掣 , f 一 最终分类器的确定:y ( z ) = a r g m a x t 薹m 口。,( ( 谚) = 七) o 1 kl m = lj 通过以上a d a b o o s t 算法的过程,我们可以发现,a d a b o o s t 算法,不像 c o m m i t r e e s 方法,它是单独的训练初等分类器,是没有顺序的,而且每个初等分 类器的权重是一样的,而a d a b o o s t 在训练初等分类器时,是有顺序的。只有在训 练第一个初等分类器,各个文本数据的权重是一样的,在接下来的初等分类器的 训练中,紧挨着的上次训练完成的初等分类器,对训练样本中的某个文本进行判 别时,若分类错误,则在这次训练分类器时,文本权重增加,上次分对的自然就 权重相对减少,也就是说,这次分类器更关注上次分错的文本。如果这次再次分 错,文本权重会变的更大,造成以后的初等分类器训练时,更加关注分错的文本, 这样更容易在训练该分类器时,将这个文本数据分对。这样最后通过每个分类器 9 东北师范大学硕士学位论文 的权重,把各个分类器联系起来,c 要求删5 ,是错粹而乩( 鲁 是分类器的权重,很容易知道,是的减函数,说明如果一个分类器效果好 的话,那么它的权重也会高。 l o 气、 0 东北师范大学硕士学位论文 四实例分析 对于本文提出的方法,我们要应用到“长春市市长公开电话”的文本数据处 理中,而长春市市长公开电话“1 2 3 4 5 ”是直接接受人民投诉及建议的公开电话, 是长春市人民政府,为了服务人民,执政为民,为民众排忧解难的民心工程,有 利于社会和谐,方便市长了解普通民众的心声,在一定程度上,提高了普通民众 在政府决策中的话语权。 市民通过拨打市长公开电话,进行投诉或建议,接线员将投诉或建议的内容 录入,成为数据库中的一个文本,利用语料库,经过自动分词,歧义词消解等文 本预处理后,我们把每一个词作为一个特征,该特征出现记为1 ,不出现记为0 , 从而建立了向量空间模型。长春市市长公开电话的处理原来是通过人工分类的, 精度很高,但随着市民觉悟的提高,参政议政的愿望的迫切,电话量成指数增长, 依靠人工分类,要花费太高的人力,物力和财力。现在利用我们的方法,实现自 动分类,精度虽有下降,但速度得到极大的提升,而且人员需求很少,实现办公 的自动化。 本文的方法是使用n a i v eb a y e s 分类器,然后再用a d a b o o s t 算法进行提升。 对于超参数,力= 0 2 ,口= 2 ,相当于进行l a p l a c e 平滑,防止出现有一类无文 本出现。我们选用其中的五个有代表性的部门的数据,进行分析。 ( 一) 确定分类器个数m 我们通过五折的交叉核实,来确定。 东北师范大学硕士学位论文 图( 1 ) 通过图( 1 ) ,我们可以发现n a i v eb a y e s 分类器的分类效果是不错的,远高于我 们的要求( 分类效果比随即分类好) ,从而导致在紧接着的分类器训练时,分类 精度反而有所降低。可以经过9 次以后的提升,分类精度基本稳定在8 7 5 ,比最 初的单一的n a i v eb a y e s 分类器的分类精度8 6 2 ,高出1 3 ,在分类大量数据, 还是很可观的。 1 2 东北师范大学硕士学位论文 ( 二) 训练样本和检测样本的精度对比 魁 粲 图( 2 ) 图( 2 ) 可以有效的解释,在分类器个数是2 时,分类器的精度反而降低了。通过 图( 2 ) 在分类器总数是两个时,训练样本的精度也降低,这是因为上一分类器 的分类精度太高,而这一分类器又很关注那些分类错误的数据,造成整体的分类 效果偏低,但在分类器总数为三个以后,分类精度,得到了强有力的提升,说明 a d a b o o s t 算法,在提升分类器精度方面的能力还是很强的。 1 3 东北师范大学硕士学位论文 五结论 通过使用本文的方法对“长春市市长公开电话”文本数据的处理,我们可以 容易发现a d a b o o s t 算法,即使使用最简单的n a i v eb a y e s 分类器,也能够提升算 法的精确度。对于海量的文本数据来说,提高百分之几的分类精度就可以减少大 量的人工判别,节省了人力。 前面,我们已经介绍了a d a b o o s t 算法的很多优点,但在使用a d a b o o s t 算法时, 还是有不少的问题需要注意,比如,当我们使用的是不同种类的分类器时,应该 如何安排训练分类器的次序,单一的分类器是否还需要提升等。本文中,我们就 使用了一种分类器,当然不涉及这些问题,我们只需关注提升的次数,这个我们 已经通过五折的交叉核实,进行选择,提升9 次以后,就比较稳定了。 另外,在实际的操作中,我们发现本方法对于各个类的训练样本量,差不多 时,效果比较好;另外对类数不是很多时,分类效果也比较好:实际的“长春市 市长公开电话”文本数据有七十万多的数据,变量个数有一万多,而且还在继续 增加,可以说是海量数据。因为有些类,一年也不出现几次,样本量很小,而总 的类数有1 1 3 个单位,造成我们在随即选择训练样本是,有可能选不到这一类的 一个样本;还有可能,在训练样本中出现的类,与检测样本中的类的种类不同, 这些都是需要考虑的问题。 ! | , 、;ll、 , 、l 盯 , 东北师范大学硕士学位论文 参考文献 1 l iyha n dakj a i n c l a s s i f i c a t i o no ft e x td o c u m e n t s j t h ec o m p u t e r j o u r n a l ,v o l ,4 1 ,n o 8 ,1 9 8 8 2 y o a vf r e u n da n dr o b e r te s c h a p i r e ad e c i s i o n t h e o r e t i cg e n e r a l i z a t i o no f o n l i n el e a r n i n ga n da l la p p l i c a t i o nt ob o o s t i n g j j o u r n a lo fc o m p u t e ra n ds y s t e m s c i e n c e s 5 5 ( 1 ) :1 1 9 1 3 9 ,a u g u s t1 9 9 7 3 lg v a l i a n t at h e o r yo f t h el e a r n a b l e c o m m u n i c a t i o n so f a c m j ,2 7 ( 1 1 ) :1 1 3 4 1 1 4 2 ,n o v e m b e r1 9 8 4 4 m i c h a e lj a n du m e s hvv a z i r a n i a ni n t r o d u c t i o nt oc o m p u t t a t i o n a ll e a r n i n g t h e o r y j m i tp r e s s ,1 9 4 4 5 m i c h a e lk e a n sa n dl e s l i egv a l i a n t l e a r n i n gb o o l e a nf o r m u l a eo rf i n i t e a u t o m a t ai sa sh a r da sf a c t o r i n g j t e c h n i c a lr e p o r tt r 一1 4 8 8 ,h a r n a r du n i v e r s i t y a i k e nc o m p u t a ti o nl a b o r a t o r y ,a u g u s t1 9 8 8 6 m i c h a e lk e a n sa n dl e s l i egv a l i a n t c r y p t o g r a p h i c1 i m i t a t i o n so nl e a r n i n g b o o l e a nf o r m u l a ea n df i n i t ea u t o m a t a j j o u r n a lo f t h ea s s o c i a t i o nf o rc o m p u t i n g m a c h i n e r y ,j a n u a r y1 9 9 4 ,4 1 ( 1 ) :6 7 9 5 7 r o b e r tes c h a p i r e t h es t r e n g t ho fw e a kl e a r n a b i l i t y j m a c h i n e l e a r n i n g ,1 9 9 0 ,5 ( 2 ) :1 9 7 2 2 7 8 y o a vf r e u n d b o o s t i n gaw e a kl e a r n i n ga l g o r i t h mb ym a j o r i t y j i n f o r m a ti n o na n dc o m p u t a t i o n ,1 2 1 ( 2 ) :2 5 6 2 8 5 ,1 9 9 5 9 1h a r r i sd r u c k e r ,r o b e r ts c h a p i r e a n dp a t r i c es i m a r d b o o s t i n gp e r f o r m a n c ei nn e u r a ln e t w o r k s j i n t e r n a t i o n a lj o u r n a lo fp a t t e r nr e c o g n i t i o na n d a r t i f i c i a li n t e l l i g e n c e ,1 9 9 3 ,7 ( 4 ) :7 0 5 7 1 9 1 0 y o a vf r e u n da n dr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建泉州城建集团城建地产集团招聘营销总监岗位1人备考题库及完整答案详解1套
- 私人空调安装协议书
- 第三方租车协议合同
- 电网用工合同协议书
- 电梯修理安全协议书
- 浙江国企招聘-2025年下半年嘉兴电影集团有限公司(含下属单位)公开招聘工作人员9人备考题库附答案详解(轻巧夺冠)
- 租借饰品免押协议书
- 空调安装质量协议书
- 租店铺转让合同范本
- 租房合同丢失补协议
- 自然护坡施工方案
- 三年级数学专项思维训练习题11套原卷+答案解析
- 常见继发性头痛鉴别
- 口服液可行性研究分析报告
- 网络舆情应对处置
- 旭辉地产年度品牌整合传播规划方案
- 工程竣工验收告知单
- 橡胶的加工工艺课件
- DCC网销能力提升培训
- 神经病理性疼痛诊疗专家共识解读
- 广告制作常用材料专题培训课件
评论
0/150
提交评论