贝叶斯粗糙集_第1页
贝叶斯粗糙集_第2页
贝叶斯粗糙集_第3页
贝叶斯粗糙集_第4页
贝叶斯粗糙集_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、山西大学研究生学位课程论文(20102011学年第一学期)学院(中心、所):计算机信息与技术学院专业名称:计算机应用技术课程名称:高等数理统计论文 题目:基于贝叶斯方法的分类预测授课教师(职称):张小琴(讲师)研究生姓名:翁小奎年级:2010 级学号:201022403005成绩:评阅 日期:山西大学研究生学院2011年1月12日基于贝叶斯方法的分类预测摘 要:本文通过对概率论与数理统计中的贝叶斯方法的学习与了解,并联系与 自己研究的相关内容,介绍一下基本的贝叶斯分类模型和贝叶斯信念网络模型, 并对网络模型的学习进行了讨论,从实际出发,介绍了几种可以简化模型结构、 降低学习复杂性的可行方法,简

2、要说明了这些方法在网络模型中的应用,对贝叶 斯分类模型的准确性及其主要特点进行了分析。关键词:数据挖掘 分类预测贝叶斯方法信念网络l引言随着数据库技术的日益成熟和广泛应用,人们收集的数据成指数地增长。尤 其是伴随着因特网的诞生和普及,数据量更是急剧增加,人们而对的早已不只是 本部门或本企业的庞大数据库,而是来自全球的数据汪洋。如此浩瀚的数据海洋 “隐藏了什么”、“预示了什么”、“表明了什么”?人们感到“数据过剩” 和“知识贫乏”的矛盾。由此,从庞大数据集中开采有用知识的技术一一数据 挖掘(Data Mining)便应运而生。分类预测是数据挖掘中的一大任务。分类就是找出一组能够描述数据集合典 型

3、特征的模型,以便住给定其他变量值的条件下能对人们感兴趣的未知变量值做 出预测。分类预测的变最是范畴型的,即将未知数据映射到某种离散类别之一。 分类预测模型可以通过分类挖掘算法从一组类别已知的训练样本数据中学习获 得。分类挖掘获得的分类模型可以采用多种形式描述输出,常见的有:分类规则 (IF_rrHEN)、决策树、数学公式、神经网络等形式。而基于贝叶斯方法的分类模 型则是一种概率模型,常可以借助有向无环图来描述这种概率模型,因此也是一 种图形模型。这种图表示强调了模型结构的独立性,在计算机科学中也被称为信 念网络(belief network)。在数据挖掘中,通常事先对数据的模型结构了解甚少,

4、因此选择比较简单、灵活的模型结构或函数形式是有益的,而且较简单的模型具 有更加稳定和更易于解释的优势,还经常可以为更复杂的模型提供函数分量。 基于贝叶斯方法的分类预测模型就具有形式简单、易于解释,且可以很容易从不 同的角度进行推广等特点。文章从贝叶斯方法的基本观点出发,介绍基本的贝叶斯分类模型,并在此基 础上对模型进行了推广,引入了贝叶斯信念网络模型,对网络模型的通用性及其 学习进行了讨论。并从实际出发,提出了几种可以降低模型学习复杂性的可行方 法。最后讨论了模型的准确性问题。2贝叶斯方法的基本观点贝叶斯方法的特点是使用概率规则来实现学习或某种推理过程,即将学习或 推理的结果表示为随机变量的概

5、率分布,这可以解释为对不同可能性的信任程 度。贝叶斯方法的出发点就是贝叶斯定理和贝叶斯假设。假定随机向量X,0的联合分布密度是P(x,0 ),其边际密度分别为P(X), p(0 )。一般设 是测量向量,0是未知参数向量,通过测量向量获得末知向量的 估计,贝叶斯定理记作:Ip(on)二已戏(加)二 p(e)*p(Aio)从上式可以看出,对未知向量的估计综合了它的先验信息和样本信息,这正 是贝叶斯方法与传统经典方法的主要区别所在:传统的参数估计方法只是从样本 数据获取信息,如最大似然估计。贝叶斯统计推断一般分为两步:(1)根据以往对参数0的知识,确定先验分布P(0 )。(2)利用贝叶斯公式计算后验

6、分布.从后验分布做出对参数的推断。先验分布P(0 )的选取是贝叶斯方法的核心问题,如果没有任何以往的知识来 帮助确定P(0 ),贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化 范围内,取各个值的机会均等,称这个假定为贝叶斯假设。贝叶斯假设在直觉上 易于被人们所接受,但它却难处理无信息先验分布,尤其是未知参数无界的情况。 另一种观点认为,先验分布的选取应与目前看到的样本相联系,即经验贝叶斯方 法,这种方法将经典方法和贝叶斯方法结合在一起,用经典的方法获得样本的边 际密度P(X),然后通过下式确定先验分布p(0 ):p(。)率p愆旧)3基本贝叶斯分类模型基本贝叶斯分类模型将每个训练样本数据

7、分解成一个n维特征向量X和决策 类别变量C,并假定特征向量的各个分量间相对于决策变量是相对独立的。设特征向量X = XI,X2,Xn表示数据n个属性(A1,A2,,An )的具体取值,类别变量有山个不同的取值C1,C2 . Cm,即有m个不同的 类别。则:)=p(X 土,)=Dp(幻c;)i(i)P W 1由贝叶斯定理知X属于Ck的后验概率为:PggPM1豺也 IWPWm(2)基本贝叶斯分类模型将未知类别的决策变量X归属于类别Ck当且仅当:P(CkX)PCX) 于即 P(CX)最大,由于P(X)对于所有类别均是相同的,因此:p(q成澳联01唇)尸(剧都(cnpM免)1咚左戛访 J = 1由于类

8、别的事前概率是未知的,因此,可以假设各类别出现的概率相同,即 P(C1)=P(C2)二=P(Cm)。这样求公式(2)的最大转换为求P(X/Ck)最大。否则就要 求P(X/Ck)P(Ck)的最大。可以通过训练样本数据集合估计P(Ck)和P(Xi/Ck)(1忍i 忍 n,1km1: TOC o 1-5 h z P(G)2(4)P (邳G 当属性1为离散量时(5)或PS馈)*土,也叫)当属性孔为连续最时其中Sk为训练样本数据集合中类别为Ck的样本个数,s为整个训练样本数 据集合的容量。Ski为训练样本数据集合中类为Ck且属性Ai取值Xi的样本 个数。因fi是属性的高斯规范密度函数,孔分别为训练样本数

9、据集合中类别为Ck属性Ai的均值和方差。4基本贝叶斯模型的推广基本贝叶斯分类模型关于变量独立性的假设大大减少了参数量,在一些问题 中,这种假定可能是非常合理的,但在很多实际问题中,这种条件独立假定可能 是很不现实的。例如,一群人的年收入(X1 )和存款总额(X1), Ck代表他们的信 誉度,分为两类:好和坏。很显然U和X2存在依赖性,如果假定两个变量是独立 的,显然与实际情况不符。因此,可以通过包含超出一阶范围的一些依赖性来推 广基本贝叶斯模型。这种推广可以想象是对更高阶的依赖性进行搜索,然后选择 出一些“重要的,依赖性加入模型。可以借助图形网络描述这些依赖关系,这样 实际上就建立了一种通用的

10、图模型一信念网络,来完成分类预测任务。一组变量X=X1,X2,Xn的贝叶斯信念网络可以定义为一个二元组(S, P)其中:S是一个有向无环图,用于表示乂中各变量间的依赖关系?是与每个变 量相联系的局部概率分布集。因此,S=(X,E),X足图巾结点集合,是弧集,每 条弧表示一对结点问的概率依赖。弧尾结点足弧头结点的父结点,反过来弧头结 点是弧尾结点的子结点。给定父结点,图中每个变量有条件地独立于非子结点, 结点之间缺省弧线则表示条件独立。如果以Pai表示结点的父结点集。则X的合 概率分布可表示为:p - I其中P(Xi/Pai),即为变量Xi的局部概率分布。即二元组(S,P)表示了联合概 率分布P

11、(X)。显然.如果每个结点的父结点集只包含类别变量,则(S,P)对应一阶贝叶斯 图形模型,即基本贝叶斯模型。建立一个信念网络首先必须确定与模型相关的变量和解释,结果不是唯一的。 其次是为了决定网络结构,需要将变SX1,X2,Xn拓扑排序,并为每个变 量Xi确定一个子集Pai,Pai X1,X2 ,Xi-1 ,使得Xi 与(X1,X2,,Xi-1 Pai是条件独立的,这样根据概率乘法公式有: TOC o 1-5 h z .FI夕(k)=FIp30,勺,5)=TIp(印也)(8)4=1 =最后足确定局部概率分布P(Xi /Pai)。信念网络中任一个人们感兴趣的结点都可以作为输出结点,用于代表类别属

12、 性。除了可以通过增加依赖性来推广模型外,还可以从许多不同的角度来推广模 型。例如,对于任何实数他i,可以用象正态密度这样的参数模型,也可用象核 密度函数这样的非参数模型来估计P(Xi/Ck)。另外,还可以为每个类 使用不同 的模型结构,如可以用正态密度对某些类建摸,用指数混合或核密度估计等对另5信念网络模型的学习基本贝叶斯分类模型的计算是对一元密度的简单函数相加,所以该模型的计 算复杂度大体是估计每个单独一元分类依赖密度和分布的复杂度的nm倍。对于 离散型变量,充分统计量就是每个柱位(bin )中的点数,所以只要扫描数据一次 就可以建立起分类模型。对于连续型变量的一元密度参数模型扫描一次也足

13、够 了,因为只需搜集充分统计量y,E。当然对于更复杂的密度模型可能需 要扫描数据多次才能建立。对于通用的信念网络模型,如果网络结构确定,所涉及的变量都是可测量 的,那么与基本贝叶斯分类模型的概率计算过程类似。如果有些变量是隐含的, 即数据不完全时,可以利用梯度下降方法帮助训练信念网络。假设D=YlY2,Yn是一组训练样本数据集,Wyk表示对应变量X取值 为Xy,其父结点Pa取值为Pak的局部概率。Wyk的集合设为W,则利用梯度下降 方法搜索最适合数据的模型参数的Wyk值,其目标就是使Pw (D)最大。对每个Wyk 其下降梯度为aln Pw (D) / Wyk,沿梯度方向不断循环更新Wyk,最终

14、将收敛于 局部最优。对于不完全数据,还可以使用期望最大化(ExpectionMaximization, EM)算法求极大似然(ML)或极大后验(MAP)等。尽管自有不少成热的算法、尤其是 在高维空里,模型构建的难度会迅速增大。因此,在实际计算中,应尽量利用 变量的条件独立性来简化模型,降低学习的复杂性。下面介绍几种可行的方法, 并简要说明其在网络模型中的应用。因式分解:因式分解足为多元数据构建简单模型的一种简单有力的方法, 在信念网络构造过程中可以根据实际情况充分应用这一技术。实际上基本贝叶斯 分类模型就是通过假定每个变量是相互条件独立的,而将数据的联合概率分布密 度函数分解为(1)式的形式。

15、另外还可以从数据结构中寻找这种简化的因式分解 形式。例如,如果变量代表的是对同一属性的一系列测量值(不同时间),这种情 况下的模型可以简化为马尔可夫链,则公式(8)中的因式就可以被简化为 P(Xi/X1,X2,Xi-1)=p(XilXi-1)。引入隐含变量:通过引入隐含变量作为中间变量来简化测量变量间的依赖 关系,使得多个测量变量能相对于中间变量条件独立,从而起到简化模型结构中 关系的作用当然引入中间变母必须慎重,因为带有隐含变晕的参数估汁和模型 选择会使问题变得繁琐。变量选择:变量选择是用来处理高维数据、简化模型的另一种通用技术。当 用变量XI,X2,Xn来预测变量y时,很多时候并不是所有的

16、口个变量都是准确预测所必须的,即存在冗余变量。一种简单易行的变量选择方法是使用独立概 念通过样本数据来定量衡量变量问的相关性。例如,如果P(yIx1)=p(Y)对所有的 Y和x1都成立的话,可以认为y独立于输入变量XI。当然在实践中不一定能根据 有限的样本确定哪些变量是独立的,但我们并不一定要根据严格的独立与不独 立来选择变量,而可以根据独立的程度来选择。6结束语贝叶斯分类预测模型返回的不是一个类别标记,而是每个类别的预测概率。 这里是把后验概率P(CkIX)最高的类别Ck作为对任意给定X值的类别预测,因为这 个类别最可能产生这个数据。这种方案具有最优性,因为其分类误差率(贝叶斯 误差率):阵

17、:P(如X)p(X)4X是可能的最小误差率:没何其他分类器可以对新的未见过数据达到更低的预期误 差率。尽管基本贝叶斯模型的独立假定可能不是很切合实际,但它仍有可能作出相 当精确的分类预测 原因有多种,包括:要估计的参数较少,因此加强了估计的 稳定性;虽然概率估计t足有偏的,但人们关心的并不是它的绝对值,而是它的 排列次序,因此可能并不要紧;很多时候已经对变量进行了筛选,可能在筛选中 已经去掉了高度相关变量对中的多余变量等等。除了分类性能很好外,贝叶斯分类模型还具有形式简单、很强的可扩展性和 可理解性等特点。例如,假定只有两种类别C1,和C2,由(2)式知其对数赔率 为:, P(qix)p(引c

18、。6&十加*站口庇宗方(9)可以解释为一个实例属于C1类的对数赔率可以通过把先验的贡献和每个变量 分别的贡献简单相加得出,每一项log(p( x1/C,) / P(X1/C2)可以看作可能属 于C1还是C2的正向或负向贡献。毫无疑问,建立的信念网络模型越完整、越准确,对变量的密度估计就越精 确,但实践表明对于很多数据集,完整的信念网络模型较之基本的贝叶斯分类模 型对分类性能的改善经常是非常有限的,这说明建立精确的密度估计量和建立好 的分类器是不同的。因此,在信念网络模型建立中适当地增加变量的独立性,简 化模型的学习是完全合理的。以上是本学期对高等数理统计这门课程的学习,并结合自己的研究方向查询 理解的一个文章的介绍,其中主要是对概率论与数理统计这门课程中的贝叶斯方 法在分类器中的应用做了介绍与研究。参考文献:Jawei Han,Micheline Kamber. Data

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论