专为程序员设计的统计课彻底学会统计分析chapter12_第1页
专为程序员设计的统计课彻底学会统计分析chapter12_第2页
专为程序员设计的统计课彻底学会统计分析chapter12_第3页
专为程序员设计的统计课彻底学会统计分析chapter12_第4页
专为程序员设计的统计课彻底学会统计分析chapter12_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学决策 &统计推断描述统计参数估计假设检验贝叶斯统计概率论贝叶斯统计Bayesian StatisticsH0: = 1wHA: > 1wH0为真P(data | H0为真)DataP(H1为真 | data) P(H2为真 | data)P(H3为真 | data)H1: = 1wH2: > 1w H3: < 1w决策Data概率知识间的! # =和! #积! #空集A与B是互相容的/互斥的SABSABSAB条件概率和乘法定设A, B是两个,且! "> 0= !($")则称 ! "|$为在A发生的条件下!($)B发生的条件概率

2、! "#= ! #|" !(")乘法定= ! &|" !(")! "> 0, ! &"SAB全概率公式!", !$, !%S为试验E的样本空间,为E的一组!"!# = ø ( *)且 !" !$ !& = (称 !", !$, !% 为样本空间S的一个划分对每次试验,!", !$, !%必有一个且仅有一个发生S!"!"!"全概率公式!(#$) > 0 (i = 1,2, , n)! "= !

3、("|&')! &'+ !("|&*)! &*+ + !("|&,)!&,SA!"!"!"贝叶斯公式! "> 0!(#$) > 0 (i = 1,2, , n)! "= !("|&')! &'+ !("|&*)! &*+ + !("|&,)!&,= !(#$') =#(%|'()#('()!(#A贝叶斯公式$!(')

4、,#(%|'+)# '+-.SA!"!"!"概率树 (probability tree)+P(+ | Spam) = 0.9P(+ & Spam) = 0.18P(Spam)= 0.2-P(- & Spam) = 0.02P(- | Spam) = 0.1+P(+ | NS) = 0.05P(+ & NS) = 0.04P(Not Spam)= 0.8-P(- | NS) = 0.95P(- & NS) = 0.76P(Spam | +) = 0.18/(0.18+0.04) = 0.818P(Spam | -) =

5、 0.02/(0.02+0.76) = 0.026P(NS | +) = ?P(NS | -) = ?+P(+ | HIV) = 0.998P(+ & HIV) = 0.1277P(HIV)= 0.128-P(- & HIV) = 0.0003P(- | HIV) = 0.002+P(+ | NH) = 0.065P(+ & NH) = 0.0567P(No HIV)= 0.872-P(- | NH) = 0.935P(- & NH) = 0.8153P(HIV | +) = 0.1277/(0.1277+0.0567) = 0.6925P(NH | -)= 0

6、.8153/(0.8153+0.0003) = 0.9996+P(+ | HIV) = 0.998P(+ & HIV) = 0.6911P(HIV)= 0.6925-P(- & HIV) = 0.0014P(- | HIV) = 0.002+P(+ | NH) = 0.065P(+ & NH) = 0.02P(No HIV)= 0.3075-P(- | NH) = 0.935P(- & NH) = 0.2875P(HIV | +) = 0.6911/(0.6911+0.02) = 0.972P(NH | -)= 0.2875/(0.2875+0.0014) =

7、0.995贝叶斯推断A = 数据(data)Bi = 第i个假设HiP(data | Hi)P(Hi | data)Bayesian updating贝叶斯公式P(H1)P(data | H1)P(H1 | data)H1Posteriorprobability后验概率Priorprobability先验概率Likelihood似然H2贝叶斯公式P(H2)P(data | H2)P(H2 | data)Bayesian updatingLikelihoodPosterior probabilityPrior probabilityMarginal likelihood贝叶斯推断 - 1贝叶斯推

8、断 - 1+P(+ | HIV) = 0.998P(HIV)= 0.128-P(- | HIV) = 0.002+P(+ | NH) = 0.065P(No HIV)= 0.872-P(- | NH) = 0.935贝叶斯推断 - 1Hypothesis/MHIVNo HIVTotalPrior: P(m)0.1280.872+1DataLikelihood P(data | m)0.9980.065P(data | mode)xP(m)0.12770.05670.1844Posterior: P(m| data)0.69250.30751贝叶斯推断 - 1Hypothesis/MHIVNo

9、HIVTotalPrior: P(m)0.69250.3075+1DataLikelihood P(data | m)0.9980.065P(data | mode)xP(m)0.69110.020.7111Posterior: P(m| data)0.9720.0281贝叶斯因子(Bayes Factor)P(data | H1)数据支持哪一个假设/模型Bayes Factor =P(data | H2)P(+ | HIV)0.998= 15.35BF =0.065P(+ | NH)P(- | HIV)0.002= 0.002BF =0.935P(- | NH)贝叶斯因子(Bayes Fac

10、tor)P(+ | HIV)BF = 15.35P(+ | NH)P(- | HIV)BF = 0.002P(- | NH)BF解释< 1没有证据支持H1 (支持H2)1 3较弱的证据支持H13 10中等程度的证据支持H110 30较强的证据支持H130 100非常强的证据支持H1> 100极强的证据支持H1Odds和Odds ratioP(HIV)odds of HIV =MHIVNo HIVP(No HIV)0.147Prior: P(m)0.1280.872Posterior2.2520.69250.3075P(m| data)Posterior oddsodds ratio

11、 = 2.252/0.147 = 15.4Prior odds贝叶斯推断 - 2贝叶斯推断 - 2研究: 治疗高血压的新药是否有效方法: 让高血压患者服用新药一段时间, 然后检查高血压症状是否有所使用症状得到有效程度的患者占总患者数的比来近似代表新药的数据: 100名高血压患者服用新药, 其中78名患者症状有所贝叶斯推断 - 2明确假设(模型)和先验概率 假设/模型: 新药的有效性为0.01, 0.02, , 0.99 (以0.01为步长)先验概率: 各模型的概率相等, 均为1/99假设/模型Prior贝叶斯推断 - 2 计算各假设下得到观测数据的可能性(likelihood)k = 78,

12、n = 100,p = 0.01, 0.02, , 0.99假设/模型Likelihood贝叶斯推断 - 2计算marginal likelihood = sum(prior x likelihood)假设/模型假设/模型PriorLikelihood贝叶斯推断 - 2计算后验概率 = (likelihoorior) / marginal likelihood0.78假设/模型Posterior先验概率的选择对后验概率影响PriorLikelihoodPosterior假设/模型假设/模型假设/模型先验概率的选择对后验概率影响PriorLikelihoodPosterior假设/模型假设/模型

13、假设/模型样本容对后验概率的影响k = 78, n = 100k = 780, n = 1000置信区间(credible interval)置信区间 (credible interval)使用拒绝采样(rejection sampling)方法从后验概率分布中抽样, 然后计算分位数以得到置信区间 抽样次数: n = 100,000x代表prespond y代表prespond的后验概率置信区间 (credible interval)重复下步骤n次 从均匀分布U(0,1)中抽取1个数, 赋值给x 从均匀分布U(0,1)中抽取1个数, 赋值给y 从真实的后验概率分布中找到x对应的后验概率f(x) 如果y < f(x), 接受x,下该x的值置信区间 (credible interval) 从所有被接受的x值中, 找到两个数值L和H, 使落在这两个数值之间的x的值的个数占x值总数的95%, 则这两个数值的区间(L,H)就是一个95%的置信区间置信区间的含义: prespond落在区间(L,H)内的概率是95%置信区间 (credible interval)PriorLikelihoodPosteriork = 78, n = 100假设/模型假设/模型假设/模型置信区间 (credible interval)Posteriorx = 0.8,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论