




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
作者:阮一峰日期:2011年8月25日一年前的这个时候,我正在翻译Paul Graham的黑客与画家。那本书的第八章,写了一个非常具体的技术问题-如何使用贝叶斯推断过滤垃圾邮件(英文版)。我没完全看懂那一章。当时是硬着头皮,按照字面意思把它译出来的。虽然译文质量还可以,但是心里很不舒服,下决心一定要搞懂它。一年过去了,我读了一些概率论文献,逐渐发现贝叶斯推断并不难。原理的部分相当容易理解,不需要用到高等数学。下面就是我的学习笔记。需要声明的是,我并不是这方面的专家,数学其实是我的弱项。欢迎大家提出宝贵意见,让我们共同学习和提高。=贝叶斯推断及其互联网应用作者:阮一峰一、什么是贝叶斯推断贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理(Bayes theorem)的应用。英国数学家托马斯贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多统计量是无法事先进行客观判断的,而互联网时代出现的大型数据集,再加上高速运算能力,为验证这些统计量提供了方便,也为应用贝叶斯推断创造了条件,它的威力正在日益显现。二、贝叶斯定理要理解贝叶斯推断,必须先理解贝叶斯定理。后者实际上就是计算条件概率的公式。所谓条件概率(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(AB)除以P(B)。因此,同理可得,所以,即这就是条件概率的计算公式。三、全概率公式由于后面要用到,所以除了条件概率以外,这里还要推导全概率公式。假定样本空间S,是两个事件A与A的和。上图中,红色部分是事件A,绿色部分是事件A,它们共同构成了样本空间S。在这种情况下,事件B可以划分成两个部分。即在上一节的推导当中,我们已知所以,这就是全概率公式。它的含义是,如果A和A构成样本空间的一个划分,那么事件B的概率,就等于A和A的概率分别乘以B对这两个事件的条件概率之和。将这个公式代入上一节的条件概率公式,就得到了条件概率的另一种写法:四、贝叶斯推断的含义对条件概率公式进行变形,可以得到如下形式:我们把P(A)称为先验概率(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。P(A|B)称为后验概率(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。P(B|A)/P(B)称为可能性函数(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。所以,条件概率可以理解成下面的式子:后验概率先验概率 调整因子这就是贝叶斯推断的含义。我们先预估一个先验概率,然后加入实验结果,看这个实验到底是增强还是削弱了先验概率,由此得到更接近事实的后验概率。在这里,如果可能性函数P(B|A)/P(B)1,意味着先验概率被增强,事件A的发生的可能性变大;如果可能性函数=1,意味着B事件无助于判断事件A的可能性;如果可能性函数 P(A)如果对最初的信念坚信不疑,对新证据的准确性我有多大的信心?- P(B|A)如果对最初的信念摇摆不定,对新证据的准确性我有多大的信心?- P(B)Bayesian Inference:P(A|B)=P(A)*P(B|A)/P(B)该文揭示了公式中每一项的现实含义。谢谢分享,我一直在想公式里的每一项有什么直接朴素的内涵,这三个问题回答了我的疑问。2011年8月28日 23:54|档案|引用Chuan说:请问有什么即有趣,又实用的概率论方面的书吗?2011年8月29日 14:31|档案|引用Michael.Z说:越来越多的邮件采取图片和附件的方式发送垃圾邮件。这方面的鉴别方法又是如何的?2011年8月29日 16:43|档案|引用宁静致远说:在华尔街的高频交易系统,70%的股票交易由计算机算法完成,而算法并不总是很可靠。2010年5月算法曾引起股市在短时间内崩盘,它在20分钟内抛出了价值26亿美元的股票,导致其它高频交易算法跟随,引发金融市场混乱。这种算法的推广的结果是,下个5000天会产生60亿个相当于人脑一样复杂的机器在互联网上.2011年8月29日 17:04|档案|引用mw3000说:Bill:谢谢你的解释.2011年8月29日 19:54|档案|引用I believe I can fly说:不是很明白:P(S)=p(E1)/(P(E1)+P(E2)求解释2011年9月 1日 21:10|档案|引用Jin说:引用Bill的发言:整个过程讲的很清晰,谢谢阮大哥分享,不过,推导中有两个地方我不太明白:1. P(E1)=P(S|W1)*P(S|W2)*P(S) (why?)2. P=P(E1)/(P(E1)+P(E2) 像楼上Allen说的,直觉是P(E1)+P(E2)=1感觉推导跳过了几步:P(S|W1 W2) = P(W1 W2|S)P(S) / (P(W1 W2|S)P(S) + P(W1 W2|S)P(S)W1,W2独立:P(W1 W2) = P(W1)P(W2), P(W1 W2|S) = P(W1|S)P(W2|S) (?)上式 = P(W1|S)P(W2|S)P(S) / (P(W1|S)P(W2|S)P(S) + P(W1|S)P(W2|S)P(S)应用Bayesian 原理,将 P(Wi|S) 用 P(S|Wi) 表示:上式 = (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2) / (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2) + (P(S|W1)P(S|W2)P(S) * P(W1)P(W2) / P(S)2)在 P(S) = P(S) = 50% 的条件下:上式 = P(S|W1)P(S|W2) / (P(S|W1)P(S|W2) + P(S|W1)P(S|W2)= P1P2 / (P1P2 + (1-P1)(1-P2);2011年9月 7日 15:26|档案|引用fly说:根据 Jin 的方法,得到的结果是p(S|W1W2) = P(S)P1P2/(P(S)P1P2 + P(S)(1-P1)(1-P2)我觉得Jin是正确的。2011年9月16日 00:13|档案|引用ttldreams说:现在垃圾留言的干扰符号/文字/异形字越来越多,变种也很多,这种算法奏效吗2011年9月18日 18:08|档案|引用C楠R诺说:实在很佩服作者!您的文章给了我学习很大的帮助!非常感谢。2011年9月24日 19:29|档案|引用rrandom说:最近在看斯坦福的在线课程..对比着这篇文章.收获蛮大.2011年11月19日 21:12|档案|引用fafa说:学习了 不过后面的联合概率部分有点懵2011年11月30日 11:30|档案|引用liput说:非常感谢你的文章,看了受益匪浅!2012年2月15日 10:56|档案|引用Quady说:又由于在W1和W2已经发生的情况下,垃圾邮件的概率等于下面的式子:P=P(E1)/(P(E1)+P(E2)我来尝试解释一下,呵呵在上面已经说明了,E1是在W1和W2同时出现的情况下垃圾邮件的事件,E2是W1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版高品质商品房预售协议合同范本解读
- 2025版天强建设工程有限公司承接XX学校教学楼及宿舍楼工程合同
- 2025版通信网络优化通信劳务分包合同规范文本
- 2025版全新民间借款合同利息计算及下载服务
- 2025版泰和泰大豆短量合同审查与诉讼代理服务合同
- 2025年度生猪屠宰与屠宰废弃物处理设施建设合同
- 2025年度多人持股企业股权转让及后续分红权益分配合同
- 2025标准私人别墅购置合同
- 2025版金融创新产品融资咨询与居间服务协议
- 2025年新能源汽车充电桩股份投资与运营管理协议
- 人教版高中生物必修1全册教学课件
- 青岛版小学数学五年级上册教案全册
- 11节约我们在行动(教学课件)五年级综合实践活动上册(苏少版)
- 2024年卫星遥感数据服务长期租赁合同
- 2024年浙江省单独招生文化考试语文试卷(含答案详解)
- DB21-T+3942-2024.建筑消防设施维护保养技术规程
- 精神科意外事件防-噎食
- 国家职业技术技能标准 6-28-01-03 汽轮机运行值班员 人社厅发202226号
- GB/T 44633-2024电力突发事件信息报送技术规范
- 虹桥商务区核心区一期及南北片区集中供能专项规划
- 2024年新人教版地理七年级上册全册课件
评论
0/150
提交评论