版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 /7朴素贝叶斯分类器的改进摘要:朴素贝叶斯分类器是一种简单而高效的分类器,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,以及它的被动学习策略,影响了它的分类性能。本文从不同的角度出发,讨论并分析了三种改进朴素贝叶斯分类性能的方法。为进一步的研究打下坚实的基础。关键词:朴素贝叶斯;主动学习;贝叶斯网络分类器;训练样本;树增广朴素贝叶斯1问题描述随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。分类技
2、术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后,能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。在众多的分类器的构造方法与理论中,朴素贝叶斯分类器(NaiveBayesianClassifiers)由于计算高效、精确度高。并具有坚实的理论基础而得到了广泛的应用。文献朴素贝叶斯的原理、研究成果进行了具体的阐述。文章首先介绍了朴素贝叶斯分类器,在此基础上分析所存在的问题。并从三个不同的角度对朴素贝叶斯
3、加以改进。研究现状朴素贝叶斯分类器(NaiiveBayesianClassifier)是一种基于Bayes理论的简单分类方法,它在很多领域都表现出优秀的性能12。朴素贝叶斯分类器的“朴素”指的是它的条件独立性假设,虽然在某些不满足独立性假设的情况下其仍然可能获得较好的结果3,但是大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类器的性能。改进朴素贝叶斯分类器的方式主要有两种:一种是放弃条件独立性假设,在NBC的基础上增加属性间可能存在的依赖关系;另一种是重新构建样本属性集,以新的属性组(不包括类别属性)代替原来的属性组,期望在新的属性间存在较好的条件独立关系。目前对于第一种改进方法研究得较多
4、245。这些算法一般都是在分类精度和算法复杂度之间进行折衷考虑,限制在一定的范围内而不是在所有属性构成的完全网中搜索条件依赖关系。虽然如此,寻找条件依赖关系依然需要较复杂的算法。而通过重新构建样本属性集的方式则可以避免寻找条件依赖关系,保持朴素贝叶斯分类器的简单和直观。事实上,属性构造方法一直是机器学习领域中重要的方法之一,在决策树、规则学习、神经网络等方面得到了有效应用。Pazzani提出了一种构建NBC的方法:BSEJ算法,该算法是基于原有属性的笛卡儿积来构建新的属性。算法原理3.1朴素贝叶斯分类器朴素贝叶斯分类器假定特征向量的各分量间相对于决策变量是相对独立的,并使用概率规则来实现学习或
5、某种推理过程,即将学习或推理的结果表示为随机变量的概率分布。这可以解释为对不同可能性的信任程度。它的出发点就是贝叶斯定理和贝叶斯假设3。假定随机向量X,0的联合分布密度是p(x,0),它们的边际密度分别为p(x),p(0)o一般情况下设X是观测向量。0是未知参数向量,通过观测向量获得未知参数向量的估计。贝叶斯定理记作:从上式可以得知,对未知向量的估计综合了它的先验信息和样本信息,这正是贝叶斯增量学习模型的基础。可简单地理解为:后验知识(Il)=先验知识(I0)+样本信息(s)。当新的样本到来时,上面的后验知识变为先验知识,因此它是一个利用样本知识来修正当前知识的连续的动态的过程。朴素贝叶斯分类
6、器将每个训练样本数据分解成一个n维特征向量x和决策类别变量c,并假定特征向量的各分量间相对于决策变量是相对独立的。设特征向量X=X,x2,xn表示数据个属性(舛,A2,An)的具体取值,类别变量C有m个不同的取值C,C2,C,即有m个不同的类别。贝9:l2mp(X|Ck)=pg.g兀I|G)拓JtWwO.1由贝叶斯定理知x属于ck的后验概率为:k呻)朴素贝叶斯分类器将未知类别的决策变量X归属于类别当且仅当:p(CkIX)pCjIX)对于W丿W烷JXk即jp(CkIX)最大由于P(X)对于所有类别均是相同的,因此:Xxp(X-P(Ca)Q)(1超电仍 /7由于类别的事前概率是未知的,因此,可以假
7、设各类别出现的概率相同,P(C)=P(C2)=P(C)。这样求公式(2)的最大转换为求P(XICK)最大,否则就要求P(XICK)P(CK)得最大。可以通过训mKKK练样本数据集合估计P(XCK)(lWiWn,lWkWm):iKF)“山(5)p(兀|G)二跚仁(6)其中,Sk为训练样本数据集合中类别为的样本个数,为整个训练样本数据集合的容量。为训k练样本数据集合中类别为且属性A,的取值为Xi的样本个数。算法实现从属性变量间的关系来改进朴素贝叶斯分类器朴素贝叶斯分类器关于变量独立性的假设虽然大大减少了参数量,但在现实生活中,这种独立性假设经常是不满足的。经过分析得知,朴素贝叶斯分类器的本质是一种
8、具有很强限制条件的贝叶斯网络分类器,但是它限制条件太强。不适于现实应用;然而,完全无限制的贝叶斯网络也是不现实的,因为学习这样的网络非常耗时,其时间复杂度为属性变量的指数级,并且空间复杂度也很高。因此,可以从属性变量间的关系来改进朴素贝叶斯分类器,研究具有较宽松条件限制的贝叶斯网络分类器。属性分组适用于属性可以分为独立的子集合的情况。Kononerko提出一种采用穷尽搜索的属性分组技术,假定同一组内的属性之间可能是相互依赖的,但组与组之间是满足独立性假设的属性集合。也就是说,独立性假设弱化为这些属性组之间的独立性。但是,这种算法的复杂性要远远高于朴素贝叶斯分类器,而且在现实世界中,属性可以完全
9、被分成独立的子集合只是少数情况。4.1.2树增广的朴素贝叶斯分类器TAN这种结构允许各属性节点之间构成一树形结构,即若去掉根结点到各属性节点之间的有向弧,各属性节点之间形成树形结构(如图1)。学习该模型结构的典型方法是以条件互信息为评分函数的网络结构学习算法,学习TAN的一般过程可描述为:计算各属性节点间的条件互信息;以属性变量为节点,以条件互信息为节点之间的连接权,构造无向完全图;生成最大权张树;转换无向的最大权张树为有向树;从类别变量向各属性节点引一条有向边,生成TAN模型。这种方法可以增强朴素贝叶斯分类器的表达能力,但计算量明显变大。4.2朴素贝叶斯分类器的提升提升方法(Boosting
10、)总的思想是学习一系列分类器,在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给予更大的重视。尤其是,在学习完分类器Hk之后,增加了Hk导致分类错误的训练例子的权值。并且通过重新对训练例子计算权值,再学习下一个分类器Hk+1。这个过程重复T次。最终的分类器从这一系列的分类器中综合得出。在这个过程中,每个训练例子被赋予一个相应的权值,如果一个训练例子被分类器错误分类,那么就相应增加该例子的权重,使得在下一次的学习中,分类器对该例代表的情况更重视。对多类分类问题的提升方法如下:对多类分类问题的提升方法如下:Input:N个训练实例:(X1,丫),,(Xn,yN)N个训练实例上分布D:W,
11、W,为训练实例的权向量。T为训练重复的趟数。Initialize;初始化训练实例的权向量。Wi=1/N,i=1,,Nfort=ltoT给定权值Wit得到一个假设:H(t):X一丫(5)估计假设H(t)的总体误差,N尹=丰附(耳)(6)计算(7)计算下一轮样本的权值W严=财)(严)严(力册)正规化W(J+1),使其总和为1EndforOutput(11)蚣)=吨max若(log)7(护(x)=y)这里I(0)=1,如果0=T;否则,I(B)=0。提升方法可以保证训练集的差错率维持在较低的水平上,并可进一步提高分类精度;但当训练集的噪音很多时,这种提升效果不大。4.3基于主动学习的朴素贝叶斯分类器
12、按照分类学习对训练样本的处理方式,可将分类模型分为两类:被动分类模型和主动分类模型5。被动学习也称为“从样本中学习”,它随机地选择训练样本被动地接受这些样本的信息。如图2。它对于具有严格序关系的训练样本来说是必要的。也是不可改变的。然而绝大部分分类学习中都认为训练样本是独立分布的,这种被动的学习显示出明显的不足:(1)有顺序地处理训练样本往往会使学习的分类器具有顺序相关性,对数据过分敏感;(2)遇到噪音样本时会使这种噪音一直传播下去,影响分类精度;(3)缺乏综合未带标注样本信息的能力。在学习分类模型中,未带类别标注的样本往往包含有助于分类的信息。在这种情况下,选择好的未带类别标注的样本,把它加
13、入到当前的分类器中是相当重要的。主动分类模型对训练样本的选择是主动的。它首先选择最有利于分类器性能的样本来训练分类器。属于更高层次的、具有潜意识的学习,如图3。主动学习分类模型在较难获得标注样本或者获得标注样本的费用较高时。其优越性特别明显。图2被动学习模式 /7图3主动学习模式在这里,我们可以结合主动学习的思想,来学习朴素贝叶斯分类器。基本模型如图4图4主动贝叶斯分类器模型首先,主动贝叶斯模型利用标注数据。获得一个初始分类模型。由于我们的学习算法是在大量的未标注样本下进行的,为了加快算法效率,在主动选择训练实例时,我们从这些样本中选出一部分。放入数据池中。只在数据池中选择新的训练实例。为避免
14、朴素贝叶斯模型在学习过程中,出现某个类别的概率趋近于1或0。我们采用随机抽样的方法,从未标注样本中选择数据。主动选择算子(ActiveSelector)根据一定的选择策略从数据池中选择出训练样本,并用当前的分类模型,进行类别标注。这个部分是系统的关键部分。它的任务有三个:用当前的分类器对数据池中的每个未标注样本进行评价。并选出最优的训练样本集。回收剩余的样本到未标注样本集:对最优训练集中的每个样本用当前的分类模型进行类别标注;使用加上类别标注的最优训练样本集中的数据重新修正分类器的参数。直观上看,上述模型的实现是相当复杂的一个过程,它需要反复地对样本进行分类和修正分类器参数。然而由于朴素贝叶斯
15、模型所具有的一些特性,可以使计算的复杂性大大降低。我们选用Delicious中的数据来进行测试,首先随机取出10个样本作为训练集。记作A,然后将数据分成两个不相交的子集B(2000)和c(1196),括号内数字为该集合所含的样本个数。试验结果如下:从试验结果可以看出:对相同的训练集、测试集而言,基于主动学习的朴素贝叶斯的分类精度明显优于朴素贝叶斯分类器。实验结果训练集测试集朴素贝叶斯分类器基于主动学习的朴素贝叶斯分类器AB69.753%87.457%AC73.496%91.008%6结论本文讨论了朴素贝叶斯分类器的一些基本性质和学习问题。并从不同的角度出发。分析了三种改进朴素贝斯分类性能的方法
16、:从属性变量间的关系来改进朴素贝叶斯分类器、朴素贝叶斯分类器的提升、基于主动学习的朴素贝叶斯分类器。进一步的研究方向应是在训练集存在噪音时如何提高提升的性能、在主动学习中研究有效的抽样策略来选择样本等。参考文献1WrittenIH,FrankEDataMining:PracticalMachinelearningToolsandTechniqueswitllJavaImplementationM.Seattle:MorganKaufmannPublishers,2000.265314.史忠植.知识发现M.北京:清华大学出版社.2002.朱明数据挖掘M.北京:中国科技大学出版社.2002.KononerkoI.Semi-na?veBayesianClassifiersA.In:ProceedingsofEuropeanConferenceonArtificialIntelligence
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AI在商务德语中的应用
- 浙教版小学信息科技三年级上册第二单元获取在线资源全课教学设计
- 员工职业生涯规划管理办法
- 公关服务公司大客户专项服务管理制度
- 2026电商营销岗面试题及答案
- 2026动画相关面试题及答案
- 工业机器人维护协议(2026年智能制造升级)
- 工程监理桩基工程施工质量监督手册
- 金店防盗联防联控工作指导手册
- 幼儿园安全应急预案编制指南
- 基于ARMA模型猪肉价格预测实证分析
- DBJT 13-508-2025 城市道路项目安全性评价标准
- DB3711∕T 118-2022 毛竹栽培技术规程
- 激光3D打印人形机器人关节结构拓扑优化研究
- 2025年八年级生物会考真题
- 地勘单位面试题库及答案
- cass简码实体对照表
- 2025年陕西省中考数学试题卷(含答案详解)
- 学堂在线 中国建筑史-史前至两宋辽金 期末考试答案
- 山东省古建筑修缮工程人工、材料、机械单价表
- 上市公司关务管理制度
评论
0/150
提交评论