全概率公式与贝叶斯公式的运用举例.doc_第1页
全概率公式与贝叶斯公式的运用举例.doc_第2页
全概率公式与贝叶斯公式的运用举例.doc_第3页
全概率公式与贝叶斯公式的运用举例.doc_第4页
全概率公式与贝叶斯公式的运用举例.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯公式的几个应用在一般的概率统计课程的教学中 ,都会涉及到贝叶斯公式 .遗憾的是, 多数教材对该公式的探讨都点到为止.同时,教材中所涉及到的应用又都过于单调.据此, 本文拟对由贝叶斯公式得到的结论作更深入的探讨以及提供更多类型的应用.通过贝叶斯公式, 我们看到, 某些看似合理的结论却往往蕴含着不合理.1 贝叶斯公式贝叶斯公式是英国学者托马斯 贝叶斯(Thomas Bayes , 1702 -1761)最早发现的, 首次发表在 1763 年 ,当时贝叶斯已经去世 , 其结果没有受到应有的重视.1774 年 , 法国数学家拉普拉斯(P .-s . Laplace , 1749 -1827)再一次总结了这一结果 .此后 ,人们逐渐认识到这个著名概率公式的重要性.现在,它已在疾病诊断、安全监控、质量控制、安全部门的招募、药剂检测等方面发挥着重要的作用.贝叶斯公式 若事件B1 ,B2 , ,Bn 是样本空间的一个划分, P(B i)0 (i =1 ,2 , , n ),A 是任一事件且 P(A)0 , 则有P(BjA)=P(Bj )P(AB j ) (j =1 ,2 , , n ),(1)P(A)其中 , P(A)可由全概公式得到 .即nP(A)= P(B i)P(AB i).i =1本文主要应用贝叶斯公式的一种简单情形,即对任意两个事件 A 和 B ,根据贝叶斯公式有P(B A)=P(B)P(A B), P(A)其中(2)(3)P(A)=P(B)P(AB)+P(B )P(AB).(4)这里 ,事件 B 的概率通常是根据以往的数据分析得到的 ,叫作先验概率,而 P(B A)是在获得新的信息后对先验概率作出重新的认识 ,称为后验概率 1 .后验概率体现了已有信息带来的知识更新, 经常用来分析事件发生的原因 .2 贝叶斯公式的应用1 .疾病诊断 .贝叶斯公式在疾病诊断方面的应用很多 ,一般教材多采用这方面的例子.在此, 我们引入两个案例.并通过第一个案例, 对最后的结果进行详尽的讨论 .资料显示, 某项艾滋病血液检测的灵敏度(即真有病的人检查为阳性)为 95 %, 而对没有得病的人这种检测的准确率(即没有病的人检查为阴性)为 99 %.美国是一个艾滋病比较流行的国家, 估计大约有千分之一的人患有这种病.为了能有效地控制、减缓艾滋病的传播 ,几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查 .该计划提出后 ,征询专家意见,遭到专家的强烈反对 ,计划没有被通过.现在我们用贝叶斯公式分析专家为何反对通过这项计划.设 A =检查为阳性,B =一个人患有艾滋病.根据文中叙述可知 ,P(B)=0 .001 ,P(A B)=0 .95 ,P(B )=1 -0 .001 =0 .999 ,P(A B )=1 -0 .99 =0 .01 .由(4)得P(A)=0 .001 0 .95 +0 .999 0 .01 =0 .01094 .根据公式(3),得到P(B A)=0 .001 0 .95 0 .087 . 0 .01094也就是说 ,被检测患有艾滋病而此人确实患有该病的概率大约为 0 .087 .这个结果使人难以接受 ,好像与实际不符.从资料显示来看 ,这种检测的精确性似乎很高.因此 ,一般人可能猜测, 如果一个人检测为阳性 ,他患有艾滋病的可能性很大 ,估计应在 90 %左右, 然而计算结果却仅为 8 .7%.如果通过这项计划,势必给申请登记的新婚夫妇带来不必要的恐慌 .因为约有 91 .3%的人并没有患艾滋病.为什么会出现与直觉如此相悖的结果呢? 这是因为人们忽略了一些基础信息,就是患有艾滋病的概率很低,仅为千分之一.因此,在检测出呈阳性的人中大部分是没有患艾滋病的 .具体的说, 若从该地随机抽取 1000 个居民, 则根据经验概率的含义, 这 1000 个居民中大约有 1 人患有艾滋病 ,999 人未换艾滋病 .检查后 ,大约有 1 0 .95 +999 0 .01 =10 .94 个人检查为阳性,而在这个群体中真正患有艾滋病却仅有 1 人 .因此有必要进行进一步的检测 .但是 ,我们也应该注意到 ,这项检测还是为我们提供了一些新的信息.计算结果表明 ,一个检测结果呈阳性的人患有艾滋病的概率从最初的 0 .001 增加到了 0 .087 ,这是原来患有艾滋病概率的 87 倍.进一步的计算, 我们得到一个检查呈阴性而患有艾滋病的概率为P(B A)=P(B)P(A B)=0 .001 0 .05 0 .00006 .P(A )0 .98906因此 ,通过这项检测, 检查呈阴性的人大可放宽心 , 他患有艾滋病的概率已从千分之一降低到十万分之六 .我们再举一个心理学研究中常被引用的例子:参加常规检查的 40 岁妇女患乳腺癌的概率是 1 %. 如果一个妇女有乳腺癌, 则她有 80 %的概率将接受早期胸部肿瘤 X 射线检查 .如果一个妇女没有患乳腺癌 ,也有 9 .6%的概率将接受早期胸部肿瘤X 射线检查.在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤 X 射线检查, 问她实际患乳腺癌的概率是多少? 2心理学家关心的是, 一个不懂贝叶斯原理的人对上述问题进行直觉推理时的情形是什么样的 ,并将他们的判断结果与贝叶斯公式计算的结果作比较来研究推理过程的规律.结果 ,95 %的内科医生的判断介于 70 %80 %,远远偏离正确答案 .设 B =患有乳腺癌, A =早期胸部肿瘤 X 射线检查.由资料知 P(B)=0 .01 , P(B )=0 .99 , P(A B)=0 .8 , P(A B )=0 .096 .由上面公式(4), 有P(A)=P(B)P(A B)+P(B )P(A B )=0 .01 0 .8+0 .99 0 .096 =0 .10304 .利用上面公式(3),有P(B A)=0 .01 0 .8 =0 .0776 . 0 .10304由此可知 ,在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤 X 射线检查, 她实际患乳腺癌的概率是 0 .0776 .2 .说谎了吗 ?测谎仪是用来检测一个人是否说谎的仪器,经常用于征兵、安全部门的筛查、侦破、诉讼等领域 .定义事件 T =“检测为一个人在说谎”, L =“一个人真正在说谎” .根据经验 , P(T L)=0 .88 , P(T L ) =0 .86 .看起来 ,测谎仪比较精确 .假设在一次试验中, 检测出被测对象在说谎.按照上面所给资料 ,也许很多人都认为这个人说谎的概率会很高, 也许在 0 .87 左右 .然而 , 在安全部门的招募筛查中, 大多数人都是诚实的, 假设 P(L) =0 .01 , 根据公式(4),有P(T)=P(L)P(TL)+P(L )P(T L )= 0 .01 0 .88 +0 .99 0 .14= 0 .1474 .应用公式(3),有P(L)P(TL) 0 .01 0 .88P(LT)=P(T)= 0 .14740 .06 .从计算结果来看 ,94 %的检测都是错误的 .如果测谎试验导致被检测者逮捕或被指控 ,后果该有多么严重! 这也显示了在一般人群中使用这种筛查的危险性 .如果检验用在嫌疑犯身上,危险性将大大降低.一般嫌疑犯说谎的概率都很高 ,假设 P(L)=0 .5 , 这时我们得到 P(L T)=0 .86 ,这个概率还是可以接受的 .3 .诉讼.1981 年 3 月 30 日 ,一个大学退学学生欣克利(Jo hn Hinckley Jr .)企图对里根总统行刺.他打伤了里根、里根的新闻秘书以及两个保安.在 1982 年宣判他时, 欣克利的辩护律师以精神病为理由作为其无罪的辩护 3 .作证的医师告诉法院当给被诊断为精神分裂症的人以 CA T 扫描时 ,扫描显示 30 %的案例为脑萎缩 ,而给正常人以 CA T 扫描时 ,只有 2 %的扫描显示脑萎缩.欣克利的辩护律师试图拿欣克利的 CA T 扫描结果为证据,争辩说因为欣克利的扫描显示了脑萎缩, 他极有可能患有精神病, 从而应免受到法院的起诉.让我们尝试用贝叶斯方法对欣克利是否患有精神病作出判断.一般地 ,在美国精神分裂症的发病率大约为 1 .5%.设 A =CAT 扫描显示脑萎缩;B =做扫描的人患有精神病.根据上文的叙述可知,P(B)=0 .015 ,P(A B)=0 .3 ,P(B )=1 -0 .015 =0 .985 ,P(A B )=0 .02 .由上面公式(4),得P(A)=0 .015 0 .3 +0 .985 0 .02 =0 .0242 ,再由公式(3),有P(B A)=0 .015 0 .3 =0 .186 . 0 .0242这意味着即使欣克利的扫描显示了脑萎缩,他也只有 18 .6%的可能患有精神病, 因此 CA T 扫描无法作为其无罪的证据 .4 .企业资质评判 .在市场经济条件下, 一些大的建筑工程都实行招投标制.在发包过程中, 对参加招标的施工企业的资质(含施工质量信誉等)进行调查和评定是非常重要的 .设 B =被调查的施工企业资质不好, A =被调查的施工企业资质评定为不好.由过去的资料知 P(A B)=0 .97 , P(A B )=0 .95 .现已知,在被调查的施工企业当中有 6 %确实资质不好,我们来看一下评定为资质不好的施工企业确实资质不好的概率.由上面公式(4),有P(A)=P(B)P(A B)+P(B )P(A B )=0 .06 0 .97 +0 .94 0 .05 =0 .105 .利用上面公式(3),有P(B A)=0 .06 0 .97 =0 .55 .0 .105由此可知, 被评为资质不好的施工企业中 ,真正不好的约占 55 %,也就是说 ,误评的可能性相当大.所以不能对评为不好的企业轻易下不发包的结论 .为了使发包工作公正合理地进行 ,一般应从其他方面对这些企业进行深入了解 ,再作决定.3总结在教学中应提醒学生以下两个方面 .第一、必须注意事件的基础概率, 即事件的先验概率 .基础概率小的事件 ,即使某种条件概率 ,如 P(A Bi)较高 ,其出现的概率仍然是较小的 .如现实生活中中奖的机会就是小概率事件.第二、应该对信息的外部表征作理性的分析 ,不应被一些表面特征所迷惑 ,如条件概率的高低并不决定某一事件出现概率的高低 .贝叶斯公式的应用1综述 在日常生活中,我们会遇到许多由因求果的问题,也会遇到许多由果溯因的问题。比如某种传染疾病已经出现寻找传染源;机械发生了故障,寻找故障源就是典型的南果溯因问题等。在一定条件下,这类由果溯因问题可通过贝叶斯公式来求解。以下的例子来说明贝叶斯公式的应用。贝叶斯公式的定义给出了事件随着两两互斥的事件中某一个出现而出现的概率。如果反过来知道事件已出现,但不知道它由于中那一个事件出现而与之同时出现,这样,便产生了在事件已经出现出现的条件下,求事件出现的条件概率的问题,解决这类问题有如下公式:2定义 设为 的一个分割,即互不相容,且,如果P( A ) 0 , ,则。贝叶斯公式在市场预测中的应用我们知道,国外的旧车市场很多。出国留学或访问的人有时花很少的钱就可以买一辆相当不错的车,开上几年也没问题。但运气不好时,开不了几天就这儿坏那儿坏的,修车的钱是买车钱的好几倍,经常出毛病带来的烦恼就更别提了。为了帮助买旧车的人了解各种旧车的质量和性能,国外出版一种专门介绍各品牌旧车以及各年代不同车型各主要部件质量数据的旧车杂志。比如有个买主想买某种型号的旧车,他从旧车杂志上可发现这种旧车平均有30%的传动装置有质量问题。除了从旧车杂志上寻找有关旧车质量的信息外,在旧车市场上买旧车时还需要有懂车的内行来帮忙。比如可以找会修车的朋友帮助开一开,检查各主要部件的质量。因为旧车杂志上给出的是某种车辆质量的平均信息,就要买的某一辆来讲可能是好的传动装置,也可能会有问题。比较常见的方法是花一点钱请个汽车修理工帮助开几圈,请他帮助判断一下传动装置和其他部件的质量。当然,尽管汽车修理工很有经验,也难免有判断不准的时候。假定从过去的记录知道某个修理工对于传动装置有间题的车,其中90%他可以判断出有问题,另有10%他发现不了其中的问题。对于传动装置没问题的车,他的判断也差不多同样出色,其中80%的车他会判断没问题,另外的20%他会认为有问题,即发生判断的错误。根据这些已知信息请你帮助买主计算如下的问题:1、若买主不雇用修理工,他买到一辆传动装置有问题的车的概率是多少?2、若买主花钱雇修理工帮他挑选和判断,当修理工说该车“传动装置有问题”时该车传动装置真有问题的概率是多少?3、当修理工说该车“传动装置没问题”时而该车传动装置真有问题的概率是多少?解 1、问题是简单的,即有30%的可能性买到一辆有传动装置间题的旧车,我们在这里只利用旧车杂志的信息。第2问和第3问是贝叶斯估计或者利用贝叶斯公式进行决策的问题。 2、我们知道,贝叶斯公式是个条件概率的公式,即其中称为事件的后验概率,即在已知事件发生条件下事件发生的概率;是事件的先验概率;称为样本信息,即在发生条件下事件的概率。对于第2问,我们不妨令:=实际有问题,=实际没问题=修理工判断“有问题”, =修理工判断“没问题”则可将贝叶斯公式改写成: 根据已知条件,计算式中各项的概率分别为:代入上式这个结果表明,当修理工判断某辆车的传动装置“有问题”时,实际有问题的概率为0.66,即修理工的判断有问题使得真有问题的概率由0.30增长到0. 66。3、由问题2知道0.05这个结果表明,当修理工判断某辆车的传动装置“没问题”时,实际有问题的概率为0.05,即修理工的判断没问题而实际上有问题的概率由0.3下降到0.05。评注 这是一个生活中很常见的问题。利用贝叶斯公式计算出买主花钱雇修理工帮他挑选和判断,当修理工说该车“传动装置有问题”时该车传动装置真有问题的概率,当修理工说该车“传动装置没问题”时而该车传动装置真有问题的概率。如果买主没有请修理工,他买到的旧车有质量问题的概率高达0.3,但是如果请修理工帮忙试车的话买到的旧车有质量问题的概率却可以降到0.05。这样不仅为买主剩下较多修车的钱,还帮助买主避免了日后的很多麻烦。贝叶斯公式局限. 目前,针对其他学派指责最多的“先验分布如何确定”这个贝叶斯统计的难点。已初步研究出了以下方法:(1)无信息先验分布;(2)共轭先验分布;(3)用经验贝叶斯方法确定先验分布;(4)用最大熵方法确定先验分布;(5)用专家经验确定先验分布;(6)用自助(Bootstrap)法和随机加权法确定先验分布。贝叶斯方法在可靠性分析中有着重要的应用。数据少是可靠性分析的特点。由于可靠性分析的对象大多是精密、贵重的仪器设备试验费用大,样本量小到甚至只有一、二次的试验结果。在这种情况下去分析设备的可靠性指标。须尽可能地搜集、综合各种验前经验,整理、推导出参数的先验分布。而先验分布的确定不是凭空捏造的,是通过正常的逻辑思维获得的。先验分布的使用,成为验后样本最不足的合理的补充。 贝叶斯公式的应用一、 综述 在日常生活中,我们会遇到许多由因求果的问题,也会遇到许多由果溯因的问题。比如某种传染疾病已经出现寻找传染源;机械发生了故障,寻找故障源就是典型的南果溯因问题等。在一定条件下,这类由果溯因问题可通过贝叶斯公式来求解。以下从几个的例子来说明贝叶斯公式的应用。 文【1】主要应用贝叶斯公式的简单情形,从“疾病诊断”,“说谎了吗”,“企业资质评判”,“诉讼”四个方面讨论其具体应用。文【2】用市场预测的实例,介绍了贝叶斯公式在市场预测中的应用。贝叶斯市场预测能对信息的价值是否需要采集新的信息做出科学的判断。文【3】、文【4】介绍贝叶斯过滤技术的工作原理及技术原理,讨论了邮件过滤模块,通过分析研究该模块中垃圾邮件关键词的统计概率分布,提出了基于贝叶斯概率模型的邮件过滤算法,并对该算法的合理性和复杂度进行了分析。可以根据垃圾邮件内容的特征,建立贝叶斯概率模型,计算出一封邮件是垃圾邮件的概率,从而判断其是否为垃圾邮件。文【5】基于贝叶斯公式中概率统计的重要性与在日常生活中应用的广泛性,概述了贝叶斯统计的基本思想及其与其他统计学派的争论,并对作为贝叶斯统计基石的贝叶斯公式进行了归纳。二、 内容1. 疾病诊断. 资料显示, 某项艾滋病血液检测的灵敏度( 即真有病的人检查为阳性) 为95%, 而对没有得病的人,种检测的准确率( 即没有病的人检查为阴性) 为99%. 美国是一个艾滋病比较流行的国家, 估计大约有千分之一的人患有这种病. 为了能有效地控制、减缓艾滋病的传播, 几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查. 该计划提出后, 征询专家意见, 遭到专家的强烈反对, 计划没有被通过. 我们用贝叶斯公式分析专家为何反对通过这项计划. 设A= 检查为阳性, B = 一个人患有艾滋病。据文中叙述可知:由公式: 得: 由公式: 得:也就是说, 被检测患有艾滋病而此人确实患有该病的概率大约为0. 087. 这个结果使人难以接受, 好像与实际不符. 从资料显示来看, 这种检测的精确性似乎很高. 因此, 一般人可能猜测, 如果一个人检测为阳性, 他患有艾滋病的可能性很大, 估计应在90% 左右, 然而计算结果却仅为8. 7%. 如果通过这项计划, 势必给申请登记的新婚夫妇带来不必要的恐慌. 因为约有91. 3%的人并没有患艾滋病. 为什么会出现与直觉如此相悖的结果呢? 这是因为人们忽略了一些基础信息, 就是患有艾滋病的概率很低, 仅为千分之一. 因此, 在检测出呈阳性的人中大部分是没有患艾滋病的. 具体的说, 若从该地随机抽取1000 个居民, 则根据经验概率的含义, 这1000 居民中大约有1 人患有艾滋病, 999人未换艾滋病. 检查后, 大约有个人检查为阳性, 而在这个群体中真正患有艾滋病却仅有1 人. 因此有必要进行进一步的检测. 但是, 我们也应该注意到, 这项检测还是为我们提供了一些新的信息. 计算结果表明, 一个检测结果呈阳性的人患有艾滋病的概率从最初的0. 001 增加到了0. 087, 这是原来患有艾滋病概率的87倍. 进一步的计算, 我们得到一个检查呈阴性而患有艾滋病的概率为: 因此, 通过这项检测, 检查呈阴性的人大可放宽心, 他患有艾滋病的概率已从千分之一降低到十万分之六。2. 诉讼. 1981 年3 月30 日, 一个大学退学学生欣克利( John Hinckley Jr. ) 企图对里根总统行刺. 他打伤了里根、里根的新闻秘书以及两个保安. 在1982 年宣判他时, 欣克利的辩护律师以精神病为理由作为其无罪的辩护。 作证的医师告诉法院当给被诊断为精神分裂症的人以CAT 扫描时, 扫描显示30% 的案例为脑萎缩, 而给正常人以CAT 扫描时, 只有2%的扫描显示脑萎缩. 欣克利的辩护律师试图拿欣克利的CA T 扫描结果为证据, 争辩说因为欣克利的扫描显示了脑萎缩, 他极有可能患有精神病, 从而应免受到法院的起诉。 我们尝试用贝叶斯方法对欣克利是否患有精神病做出判断. 一般地, 在美国精神分裂症的发病率大约为1. 5% :设A = CAT 扫描显示脑萎缩 ; B = 做扫描的人患有精神病 . 根据上文的叙述可知,由公式: 得:由公式: 得:这意味着即使欣克利的扫描显示了脑萎缩, 他也只有18. 6%的可能患有精神病, 因此CAT 扫描无法作为其无罪的证据.3. 贝叶斯公式在市场预测中的应用(修正主观概率). 在定性预测方法中,有一种集合意见法,就是主管人员召集营销人员对预测对象进行座谈讨论,提出方案。在集中意见时,常采用主观概率法加以合成,求出期望值。如甲营销人员对某种商品销售量的估计最高为1000,最可能为800,最低为500,主持预测者将根据他平时对市场行情的了解程度和分析判断能力,给三种估计以可能实现的概率。设过去十次预测中,这位营销人员的预测期望值为: 如果我们把每次预测成功置于一定的条件下来考察(见表1),就是贝叶斯公式对原先所给的主观概率予以修正。 表1 甲营销人员预测效果表 表中数字为预测成功的次数,成功的标准可以假定一个区间,如,实际值落入这个区间即为成功。 在进行这一次新的预测时,已知该商品的货源偏紧,在此信息条件下计算验后概率,先确定检验前概率P(Bi)。即原先给的主观概率:从过去10 次成功的预测中,最高销售量是3 次,最可能销售量是5 次,最低销售量是2 次。从而可推断P(Bi)分别为3/10、5/10、2/10 最为确切。再找条件概率P(A/Bi),这是指以三种预测结果为条件能获信息A 的概率。由表1 可知预测最高销售量成功三次,其中货源偏紧的一次,即有:,预测最可能销售量成功五次,其中货源偏紧二次,即有:,预测最低销售量成功二次,其中货源偏紧一次,即有:,最后计算检验后概率 即在货源偏紧的条件下,三种预测结果的可能性分为0.25,0.5,0.25,因此检验后概率计算期望值为: 4. 贝叶斯过滤技术.4.1、贝叶斯过滤技术的工作原理根据贝叶斯理论,根据已经发生的时间可以预测未来事件发生的可能性。将该理论运用到反垃圾邮件上:若已知某些字词经常出现在垃圾邮件中,却很少出现在合法邮件中,当一封邮件含有这些字词时,那么他是垃圾邮件的可能性就很大。 创建基于字词符号的贝叶斯数据库用户首先需要对贝叶斯进行培训,即将邮件分类为垃圾邮件(用户不想要的)和正常邮件(用户想要的),贝叶斯将提取这些邮件样本中主题和信体中的独立字串,包括字词(word)和符号(token)(如$,IP地址,域名等),并建立相应的数据库。创建贝叶斯概率库统计出每个字串在垃圾邮件中出现的概率以及在正常邮件中出现的概率,然后根据公式计算出邮件中含某字串则为垃圾邮件的概率。例如:在3000封垃圾邮件样本中mortgage(抵押)出现了400次,而在300封正常邮件中这个词出现了5次,那么其对应的垃圾概率为0.8889(400/3000 /5/300+400/3000)。创建个性化的贝叶斯库由于每个单位对所收到的邮件偏好是不同的,例如,某个金融类单位在正常邮件中可能经常用到 mortgage 这个词,如果使用静态的关键词过滤,就可能产生很多误判。如果采用贝叶斯过滤,在对贝叶斯进行培训的时候,将该单位的合法邮件(自然,很多都包含了 mortgage 这个词)分类为正常邮件。这样,垃圾邮件的识别率将更高,同时也使得误判率变得很低。贝叶斯过滤算法的主要思想是在已知的大量垃圾邮件中,邮件中包含一些特征串(token),这些特征串可以简单的理解为一个完整的单词,但实际上它不仅仅限于单词,它们一般出现在邮件中的频率特别高,而在一些合法邮件中,另一些特征串出现的频率也很高。一般而言,对于同一个特征串出现在垃圾邮件和合法邮件中的概率是不同的。因此,对于出现的每一个特征串,都会生成一个“垃圾邮件指示性概率”(spam ratio)。所以我们就可以判断文本消息的整体“垃圾邮件概率”。在垃圾邮件的处理中,对token的定义方法有很多种,如字母、数字、破折号、撇号、美元号等,还有在收件人,发件人和主题等这些栏中出现的token作为相应的标记。根据一些划分方法从邮件中提取标识时,得到标识的数量比较大时,这样处理工作带来了较大的计算开销,使整个处理过程的效率下降。另外,有些标识,例如a 、the、of 、for等,这些词出现的频率虽然很高,但它们在一封邮件中频繁出现我们并不能说明这封邮件是垃圾邮件还是合法邮件。因此,必须对标识进行必要的细化处理,找出这些非用词放入一个表中,保留其他的标识为以后工作使用。4.2、贝叶斯方法过滤垃圾邮件的基本技术原理收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。提取邮件主题和邮件体中的独立字串作为TOKEN串,并统计提取它的TOKEN串出现的次数,即字频。每一个邮件集对应一个哈希表,设hashtable_good对应非垃圾邮件集而hashtable_good对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)。综合考虑hashtable_good和hashtable_bad,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为: A事件-邮件为垃圾邮件;代表TOKEN串,则表示在邮件中出现TOKEN串时,该邮件为垃圾邮件的概率。设: 则;建立新的哈希表 hashtable_probability存储TOKEN串到的映射。此时垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的hashtable_probability估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时,按照步骤2生成TOKEN串。查询hashtable_probability得到该TOKEN 串的键值。假设由该邮件共得到N个TOKEN串,, hashtable_probability中对应的值为,表示在邮件中同时出现多个TOKEN串时,该邮件为垃圾邮件的概率。由复合概率公式得:当超过预定阈值时,就可以判断邮件为垃圾邮件。4.3、贝叶斯过滤的优点贝叶斯过滤技术对邮件的所有内容进行分析,不仅仅是其中的某个关键词,而且他能判别邮件是垃圾邮件还是正常邮件。例如:包含“free”“cash”“发票”字样的邮件不一定是垃圾邮件,如果采用关键字过滤技术,显然难以达到理想的效果。而贝叶斯呢,即

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论