【《四种贝叶斯网络分类模型概述》4600字】_第1页
【《四种贝叶斯网络分类模型概述》4600字】_第2页
【《四种贝叶斯网络分类模型概述》4600字】_第3页
【《四种贝叶斯网络分类模型概述》4600字】_第4页
【《四种贝叶斯网络分类模型概述》4600字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四种贝叶斯网络分类模型概述目录TOC\o"1-3"\h\u19258四种贝叶斯网络分类模型概述 1253681.1贝叶斯网络基本概念 1181691.2四种贝叶斯分类模型 3176231.2.1朴素贝叶斯分类模型 327921.2.2SNB分类模型 513131.2.3AODE分类模型 6201961.2.3WAODE分类模型 81.1贝叶斯网络基本概念贝叶斯网络(BayesianNetwork,BN)实质是基于概率推理的图形化网络,它所依赖的概率推理指的是在已知某些变量的情况下,利用这些已知变量所含有的信息来推测其他未知变量发生的概率,由BN的本质可以看出它主要用来解决不确定性和不完整性的问题。BN主要由有向无环图(DirectedAcyclicGraph,DAG)和条件概率表(ConditionalProbabilityTable,CPT)这两部分构成。其中DAG由节点和连接节点的弧组成。在DAG中的每个节点意味着随机变量{𝑋1,𝑋2,……𝑋𝑛},这些节点可能是一些可视的变量、隐藏变量又或者其他未知参数等。如果认为随机变量之间存在因果关系则用箭头来连接。箭头指向的节点是“果”,箭头的另一端则表示“因”,又称“因节点”为父节点,“果节点”为子节点。连接父节点和子节点之间的弧有具体的值,这个值表示在已知父节点的条件下子节点发生的条件概率值。CPT是一个条件概率表,其中的每一个元素代表了一个节点在其父节点取各种值时所对应的条件概率,如果该节点没有父节点,则CPT中存储的是它的先验分布。例如,假设节点E是节点H的父节点,即E→H,则用从E指向H的有向弧诠释结点E和结点H之间的关系(𝐸,H),这条弧的权值用条件概率P(H|E)来表示,如图3-1所示。图3-1弧的示意图如果用二元组𝐺=(𝐵𝑠,𝐵𝑝)表示一个贝叶斯网络,令𝐵𝑠=(𝑿,𝐸)表示它的有向无环图,其中X代表BN中全部节点的集合X={𝑋1,𝑋2,……𝑋𝑛},而E代表全部有向弧的集合,则X的联合概率可以用公式(11)来表示,其中𝑃𝑎(𝑋𝑖)表示节点𝑋𝑖的父节点。P贝叶斯分类器是贝叶斯网络一个重要应用,它的分类原理是在给定数据集D={𝑋1,𝑋2,……𝑋𝑛,𝐶}时,其中X={𝑋1,𝑋2,……,𝑋𝑛}是属性变量集合,C表示类变量,对于一条未知的样本x={𝑥1,𝑥2,……,𝑥𝑛}分类时选取条件概率𝑃(𝑐|𝑥)最大的类别c作为最后的分类结果。其中条件概率𝑃(𝑐|𝑥)的计算方法如公式(12)所示。argmaxc贝叶斯分类器属于监督式学习,分类器依赖属性变量和类变量的联合分布,因此它具有生成式模型的以下三个优点:(1)可以给出变量的多种概率分布。比如可以计算边缘分布𝑃̃(𝑥),其中𝑃̃(𝑥)=𝑃(𝑐)𝑃(𝑥|𝑐)如果边缘分布过小,则可以认为该分类器不适合对此样本点分类。(2)比较快的收敛速度。尤其当数据量比较多时,模型更容易收敛于接近数据本身的分布。(3)能够处理数据中含有隐藏变量的问题。除此之外,因为分类器输出的是后验概率最大的类别,这既在理论上保证了模型有最小概率误差又使得模型不仅适用于二分类问题同样还适用于处理多分类问题。1.2四种贝叶斯分类模型1.2.1朴素贝叶斯分类模型朴素贝叶斯分类模型是贝叶斯衍生模型中最早的一个分类模型,其具有简单的模型结构和逻辑,而且高效的运算速度可以在短时间内完成分类,且大多数情况下具有较高的分类精度,因此在实际生活中被广泛应用。贝叶斯分类算法的原理主要源于概率统计理论,其分类原理主要是计算在指定的分类条件下,待分类项中各类别的出现概率。如果待分类项在某一类别中出现的概率比较高,就认为此待分类项属于这一类别。朴素贝叶斯分类的基本原理比较容易理解,即在给定的条件概率基础上,计算两个事件在彼此交换后的概率。即事件A发生的前提下,计算事件B的发生概率,称作A发生下B的条件概率。如果可能性函数大于1,意味着“条件概率”被增强,事件A的发生的可能性变大;如果可能性函数等于1,对于判断没有任何显著性帮助;如果小于1,意味着“条件概率”削弱,事件A的可能性变小。数据预测可以根据数据库中某些已知字段预测其它感兴趣字段的未知的值,同时描述指给出知识的可理解模式。贝叶斯分类算法通过描述变量之间的因果联系,自然地将先验知识与概率推理相结合,从而更贴近现实问题,有助于优化人们的决策。贝叶斯分类算法的概率化使得贝叶斯的学习允许样本有一定程度的不完整和噪声数据的存在,这种不确定性知识及规则是进行不精确推理的主要工具。相较于其他的分类方法,由于朴素贝叶斯分类具有较为坚实的理论基础,其出错率在理论上要比其他的分类算法低。朴素贝叶斯分类模型是基于属性之间条件独立假设和贝叶斯定理的一种贝叶斯分类方法。贝叶斯分类的流程是对于给定的训练集先根据相应的贝叶斯网络结构计算出属性和类变量之间的联合概率分布,然后根据贝叶斯定理求得后验概率最大的类别。而属性和类变量之间联合概率的计算一直是贝叶斯分类器的难点。为了简化这一计算,朴素贝叶斯网络假设所有的属性在类变量的条件下相互独立。如果用C表示类变量,用{𝑋1,𝑋2,…,𝑋𝑛}表示一系列的属性变量,NB分类模型的网络结构如图3-2所示。图3-2NB分类模型网络结构示意图由图1.2可知,NB分类模型的网络结构图是一个星状图。在NB结构中所有的属性节点仅和类变量之间存在联系,属性之间完全独立。则对于一个样本实例x={𝑥1,𝑥2,……,𝑥𝑛}想要预测它所属的类别c,c∈C,定义它的目标表达式如公式(13)所示。argma因为条件概率𝑃(𝑥|𝑐)和贝叶斯网络结构直接相关,根据NB的网络结构图可知在NB中𝑃(𝑥|𝑐)的计算如公式(14),其中n表示朴素贝叶斯网络中节点的数目。P NB分类模型的后验概率分布𝑃(𝑥|𝑐)的计算如公式(15)所示:PNB分类模型本身是典型的生成式学习方法,但是因为属性之间条件独立的假设简化了联合概率𝑃(𝑥,𝑐)的计算,算法很容易实现,模型的结构固定不需要在训练过程中动态调整网络结构,因此模型具有很高的分类效率。在众多的贝叶斯网络分类器中其时间复杂度和空间复杂度是最小的。但是属性的完全独立也限制了它的适用场合多为小数据集,当样本量较大、特征维度较高的时候,NB模型的分类精度就会大大缩减。1.2.2SNB分类模型朴素贝叶斯分类模型的计算简便,忽略掉了属性间的依赖关系(即假设属性之间相互条件独立),虽然它在很多情况下表现非常优秀,但计算过程中忽略掉的各种依赖关系却是实实在在存在于变量之间,SNB模型是对朴素贝叶斯分类模型的扩展,通过寻找和利用属性间的依赖关系达到改善分类器的目的,图3-3为SNB分类模型网络结构示意图。图3-3SNB分类模型网络结构示意图SNB分类模型对朴素贝叶斯分类模型的属性进行分组,用πi作为变量集合X的一个划分,在分类时假设待分类数据各姐之间相互条件独立,组内数据各属性相互依赖,通过合理选取依赖性强的几个属性作为属性组来达到改进分类器的目的,该依赖性强弱模型可用公式(11)表示为:p由上述模型可得出SNB分类模型如下:p通过式我们了解到分母的值对于选定的数据集是一个定值,通常以一个常数对待,问题就成了求解分子,取其最大值表示属性组π属于类C的可能性,在此列出分类器主要用到的参数(边缘和条件概率):pc,pπc(通过上面对SNB分类模型的描述,可用下面的结构来表示朴素贝叶斯分类模型到SNB分类模型的演变。图3-4NB分类模型到SNB分类模型的转换图3-4是朴素贝叶斯分类模型到半朴素贝叶斯分类模型的演变过程,图3-4中的πi表示朴素贝叶斯分类模型中属性集X的一个子集,通过上图的描述,我们清晰的知道,对原数据集合X化分组的合理性,将直接影响到分类的准确率,因此π构建一个合理的分类模型,有利于提高数据集的分类准确性,理论推理得知,分类器属性组的划分与数据集的实际关联度表现越匹配,分类模型越复杂越能体现实际数据集,得到越好的分类效果。实验表明,过度复杂的结构会导致过度拟合的现象,这种现象导致分类器在训练学习性能优越,但在对新实例进行分类时,却很容易出错。这就要求在构建分类模型和训练分类器时,合理的掌握一个阔值,使得分类器的结构相对简单,分类效果却相对优越。通过大量的分类器改进算法和数据实验表明,SNB分类器模型从属性间依赖关系出发进行改进NB分类器模型,在很多情况下能起到比NB分类器模型更佳的效果。随着算法研究的深入,已经在很多行业中得到了广泛应用。1.2.3AODE分类模型AODE分类模型的全称是AveragedOne-DependenceEstimators分类模型,它可以看作是一组由特殊的NB算法构造的模型的集合。在AODE模型里,依次选取一个属性节点,将它和类标签C共同作为所有其他属性节点的公共父节点构造模型,也就是说子模型的个数等于属性节点的个数。之所以称之为是用特殊的NB算法构造的模型,是因为如果将选取的属性节点和类标签C看作是一个整体,那么构造的模型同采用朴素贝叶斯算法构造的模型相同。如果用C表示类标签,用𝑋={𝑋1,𝑋2,……𝑋𝑛}表示一系列的随机变量,图3-5(a)表示的是以属性节点𝑋1为公共父节点的AODE子模型。同理,图3-5(b)所表示的是以属性节点𝑋2为公共父节点的AODE子模型。图3-5部分AODE分类模型子模型结构对于以𝑋i为根节点的AODE子模型,该子模型的后验概率分布𝑃(𝑐|𝑥)的计算公式可以表示如下:P其中n代表属性节点的个数。由于AODE模型共含有n个子模型,所以最终的分类概率计算结果是取AODE所有子模型后验概率的平均值,具体计算公式如下所示:pAODE采用的平均策略属于集成式学习方法,它的每个子模型都是一个SPODE模型,网络中每个属性节点轮流做超父节点形成的若干个SPODE模型就构成了AODE模型。假设一个网络中有n个属性节点,那么就会有n个SPODE模型,每个SPODE模型的非类变量的公共父节点分别是X1,X2,……Xn。最后这n个SPODE模型平均后的分类结果即为最终的分类结果。AODE模型是在NB模型的基础上增加了超父节点与属性节点之间的弧,算法思路简单明确,不需要在训练过程中学习网络结构,节省了很多时间开销。此外它又属于集成分类器,具有很强的泛化能力、抗噪能力。很多实验表明,AODE在大部分数据集下的分类精度和分类稳定性都较高。尤其当训练集和测试集数据分布不一致时,AODE模型的优势更加突出。1.2.3WAODE分类模型无论数据集中属性变量与类变量之间的关联性大还是小,AODE把所有属性对类变量的贡献认为是一样的,这种做法是不科学的。一些科研人员针对这类问题提出了基于属性的加权策略,主要是在计算属性节点与类变量的联合概率时,分配给属性一定的权重以便增大与类变量依赖关系强的属性对分类决策的影响,削弱与类变量关系弱的属性节点对分类结果的影响。常用的加权策略有基于信息增益比加权、互信息加权等,实验表明其中Liangxiao提出的以属性和类变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论