贝叶斯统计方法报告.docx_第1页
贝叶斯统计方法报告.docx_第2页
贝叶斯统计方法报告.docx_第3页
贝叶斯统计方法报告.docx_第4页
贝叶斯统计方法报告.docx_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯方法贝叶斯分类器是一种比较有潜力的数据挖掘工具,它本质上是一 种分类手段,但是它的优势不仅仅在于高分类准确率,更重要的是,它会通过训练集学习一个因果关系图(有向无环图)。如在医学领域,贝叶斯分类器可以辅助医生判断病情,并给出各症状影响关系,这样医生就可以有重点的分析病情给出更全面的诊断。进一步来说,在面对未知问题的情况下,可以从该因果关系图入手分析,而贝叶斯分类器此时充当的是一种辅助分析问题领域的工具。如果我们能够提出一种准确率很高的分类模型,那么无论是辅助诊疗还是辅助分析的作用都会非常大甚至起主导作用,可见贝叶斯分类器的研究是非常有意义的。 与五花八门的贝叶斯分类器构造方法相比,其工作原理就相对简 单很多。我们甚至可以把它归结为一个如下所示的公式:选取其中后验概率最大的c,即分类结果,可用如下公式表示 贝叶斯统计的应用范围很广,如计算机科学中的“统计模式识别”、勘探专家所采用的概率推理、计量经济中的贝叶斯推断、经济理论中的贝叶斯模型等。上述公式本质上是由两部分构成的:贝叶斯分类模型和贝叶斯公式。 下面介绍贝叶斯分类器工作流程: 1 学习训练集,存储计算条件概率所需的属性组合个数。 2 使用1中存储的数据,计算构造模型所需的互信息和条件互信 息。 3 使用2种计算的互信息和条件互信息,按照定义的构造规则, 逐步构建出贝叶斯分类模型。 4 传入测试实例 5 根据贝叶斯分类模型的结构和贝叶斯公式计算后验概率分布。 6 选取其中后验概率最大的类c,即预测结果。一、第一部分中给出了7个定义。 定义1 给定事件组,若其中一个事件发生,而其他事件不发生,则称这些事件互不相容。 定义2 若两个事件不能同时发生,且每次试验必有一个发生,则称这些事件相互对立。 定义3 若定某事件未发生,而其对立事件发生,则称该事件失败定义4 若某事件发生或失败,则称该事件确定。定义5 任何事件的概率等于其发生的期望价值与其发生所得到的价值之比 。定义6 机会与概率是同义词。 定义7 给定事件组,若当其中任何一个事件发生时,其余事件的概率不变,则称该事件组互相独立。 贝叶斯所给出的互不相容、相互独立、对立事件的定义与现在的定义差别无几,他首次明确了机会与概率的等价性。同时贝叶斯也给出了一系列命题。 2、 贝叶斯统计的基本思想拉普拉斯(Laplace,Pierre-Simon(17491827))发现了贝叶斯统计的核心贝叶斯公式(又称为逆概公式),进行了更清晰的阐述,并用它来解决天体力学、医学统计以及法学问题。在介绍贝叶斯公式前,先简单介绍一下三种信息:总体信息、样本信息和先验信息。 1.1 总体信息:是人们对总体的了解,所带来的有关信息,总体信息包括总体分布或者总体分布族的有关信息。例如:“总体属于正态分布”、“它的密度函数是钟型曲线”等等。 1.2 样本信息:是通过样本而给我们提供的有关信息。这类“信息”是最具价值和与实际联系最紧密的信息。人们总是希望这类信息越多越好。样本信息越多一般对总体推断越准确。 基于以上两种信息所作出的统计推断被称为经典统计。其特征主要是:把样本数据看成是来自具有一定概率分布的总体,所研究的对象是总体,而不是立足与数据本身。 1.3 先验信息,即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。先验信息在日常生活中和工作中也经常可见,不少人在自觉或不自觉的使用它,但经典统计忽视了,对于统计推断是一个损失。 基于上述三种信息进行的推断被称为贝叶斯统计学。它与经典统计学的主要区别在于是否利用先验信息。在使用样本信息上也是有差异的。 2. 贝叶斯统计的基本思想 国际数理统计主要有两大学派:贝叶斯学派和经典学派。他们之间既有共同点,又有不同点。贝叶斯统计与经典统计学的最主要差别在于是否利用先验信息,经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的信息)进行的统计推断,而贝叶斯统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断。贝叶斯统计是贝叶斯理论和方法的应用之一。其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验(Prior)分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X之前,往往对参数统计模型中的参数。有某些先验知识,关于q的先验知识的数学描述就是先验分布。贝叶斯统计的主要特点是使用先验分布,经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的信息)进行的统计推断,而贝叶斯统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断。贝叶斯统计是贝叶斯理论和方法的应用之一。其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验(Prior)分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X之前,往往对参数统计模型中的参数。有某些先验知识,关于q的先验知识的数学描述就是先验分布。贝叶斯统计的主要特点是使用先验分布,经典统计学是基于总体信息(即总体分布或总体所属分布族的信息)和样本信息(即从总体抽取的样本的信息)进行的统计推断,而贝叶斯统计是基于总体信息、样本信息和先验信息(即在抽样之前有关统计问题的一些信息,主要来源于经验或历史资料)进行的统计推断。贝叶斯统计是贝叶斯理论和方法的应用之一。其基本思想是:假定对所研究的对象在抽样前己有一定的认识,常用先验(Prior)分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X之前,往往对参数统计模型中的参数q有某些先验知识,关于q的先验知识的数学描述就是先验分布。贝叶斯统计的主要特点是使用先验分布,贝叶斯定理既适用于离散型随机变量,也适用于连续型随机变量,它形成了贝叶斯统计的基本原理和统计思想。设事件A、B为试验E的两事件,由于A和B是一个完备件组,单形式为式(2-1)是离散型变量的贝叶斯公式。它实际上可以看作是从先验概率到后验概率的转换公式,即是一个“由果求因”公式。这与全概率公式不同,全概率公式是“由因求果”公式。由于贝叶斯统计集先验信息、样本信息和总体信息于一身,更贴近实际问题,并且由于在处理小样本问题时有其独特的优点。事件形式的条件贝叶斯公式:在已有的贝叶斯公式的定义下,事件C条件下,我们的任务是要对未知数作出统计推断。在没有样本信息时,人们只能据先验分布对未知数作出推断。在有样本观察值我们应该依据可得到它的计算公式是这就是贝叶斯公式的密度函数形式。这个在样本x给定下,的条件分布被称为的后验分布。它是集中了总体、样本和先验等三种信息中有关的一切信息,而又是排出一切与无关的信息之后所得到的结果。故基于后验分布进行统计推断是更为有效,也是最合理的。前面提到根据参数的先验信息确定先验分布。那么到底如何确定先验分布呢?这是贝叶斯统计中最困难的,也是使用贝叶斯方法必须解决但又最易引起争议的问题。这个问题现代有很多研究成果,但还没有圆满的理论与普遍有效的方法。根据先验信息确定先验分布,先验分布分为无信息先验分布和有信息先验分布两大类。在没有先验信息的情况下确定的先验分布就叫做无信息先验分布。这是贝叶斯分析诞生之初就面临的问题,是贝叶斯学派近30多年来获得的重要成果之一。主要有贝叶斯假设位置参数的无信息先验分布,尺度参数的无信息先验分布和Jeffreys先验分布。共轭先验分布就是一种有信息先验分布,一般都含有超参数,而无信息先验分布一般不含超参数。从实用角度出发,应充分利用专家的经验或者对历史上积累的数据进行分析和拟合,以确定先验分布。在确定先验分布时,许多人利用协调性假说。共轭先验分布是对某一分布中的参数而言的,离开了指定的参数及其所在的分布去谈共扼先验分布是没有意义的。定义中未对“同一类型”四个字给出精确的定义,也很难给出恰当的定义。通常的理解是,将概率性质相识的所有分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论