版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
不确定知识处理
13.1根据基本原理证明:P(a|ba)1。
参考解答:此处"基本原理"是指条件概率的定义,P(X|Y)P(XY)/P(Y),以及逻辑"与"的定义。
因此认为给定了BA成立,则A必定为真是不足以完成证明的。应从上述两个定义出发,由
AAA,且满足交换律和结合率,则有:
P(A|BA)P(A(BA))P(BA)1
P(BA)
P(BA)
得证。
13.6给定如图13.3所示的全联合分布,计算下列式子:
toothocahce
catch
catch
toothocahce
catch
catch
0.072
0.144
0.008
0.576
cavity
cavity
a.P(toothache)
b.P(Cavity)
0.108
0.016
0.012
0.064
c.P(Toothache|Cavity)
d.P(Cavity|toothachecatch)
参考解答:本习题的主要目的在于熟练掌握一个基本的机理,即任何对该领域内的问题的答案都可以通
过全联合概率分布的某些项相加得到。此外,通过练习可以理解变量符号P和P(即课本中的粗体P)、
大写和小写开头(如Cavity和cavity)的具体含义和区别。
a.即询问Toothocahce为真的概率.
P(toothache)0.1080.0120.0160.0640.2
b.
即询问随即变量Cavity的概率值向量(即该随即变量取不同的值的概率)。对于Cavity,有两个
值,按照true,false的顺序给出。通过以下4项相加得到0.1080.0120.0720.0080.2,因此
有:
P(Cavity)0.2,0.8
c.即询问在给定Cavity为真的条件下,Toothache的概率值向量。
P(Toothache|cavity)(0.1080.012)/0.2,(0.0720.008)/0.20.6,0.4
d.即问在给定Toothache或Catch为真的条件下,Cavity的概率值向量。首先计算
P(toothcahecatch)0.1080.0120.0160.0640.0720.1440.416
然后计算
P(Cavity|toothachecatch)
(0.1080.0120.072)/0.416,(0.0160.0640.144)/0.416
0.4615,0.5384
13.7证明公式(13.8)中的独立性的3种形式是等价的,即两个命题b和a之间的独立性可以写作:
P(a|b)P(a)或者P(b|a)P(b)或者P(ab)P(a)P(b)
参考解答:由第1个式子P(a|b)P(a),两边乘上P(b)得
P(a|b)P(b)P(a)P(b)
由乘法法则有P(a|b)P(b)P(ab)
因此可得第3个式子P(ab)P(a)P(b)
所以第1个式子蕴涵第3个式子;
通过和上述过程相反的处理,同样是应用乘法法则,在第3式两边同除以P(b),即可证明当
P(b)不为零时,有第3式蕴涵第1式(而当P(b)为零时,条件概率无定义)。
所以得证第1式与第3式等价。
同理按照以上方法,在过程中以P(a)代替P(b),即可证明第2式和第3式等价。
因此,得证三个式子等价。
13.8在一年一度的体检之后,医生告诉你一个好消息和坏消息。坏消息是你在一种严重疾病的测试结
果呈阳性,而这个测试的准确率为99%(即当确实患这种病时,测试结果呈阳性的概率为0.99,同时也
是未患这种疾病时测试结果为阴性的概率)。好消息是,这是一种很罕见的病,在你这个年龄段大约
10000人中才有1例。为什么"这种病很罕见"对于你而言是一个好消息?你确实患有这种病的概率
是多少?
参考解答:由题意我们得到以下信息
P(test|disease)0.99
P(test|disease)0.99
P(disease)0.0001
以及观察test。病人所关心的是P(disease|test),即测试结果为阳性,患病的概率多大?大概来
说,这种病很罕见"是一个好消息,原因在于P(disease|test)与P(disease)是成比例的,因此
"
disease低的先验概率将意味着P(disease|test)有个很低的值。大约来看,如果10,000人进行测试,
将会有1人确实患有该疾病,而且极有可能其测试为阳性,然而在其余没有患病的人里面,却会有
1%(大约100人)的测试结果为阳性,因此P(disease|test)将大约为1/100。精确的计算,依据贝叶斯定
理有:
P(disease|test)
P(test|disease)P(disease)
P(test|disease)P(disease)P(test|disease)P(disease)
0.990.0001
0.990.00010.010.9999
0.009804
其中的意义在于,当一种疾病很罕见,其概率远小于测试准确率时,则测试结果呈阳性并不意味着
得病的可能性。对测试阳性的错误解读会认为得病的可能性很大,其实不然。
和以上思路类似的有另外一个例子:医生说当一个婴儿仰卧着的时候,如果它的头更多转向右侧,
则是习惯用右手;如果更多时候转向左侧的话,则是一个左撇子。宝宝小明在躺着的时候,小脑袋更多时
候是转向左侧;且已知有90%的人习惯用右手。那么当以上所述的测试准确率为90%的时候,宝宝小明
习惯用右手的概率是多少?如果测试准确率为80%,那它习惯右手的概率又是多少呢?
按照同样的推理过程,可以得到当测试准确率为90%时,宝宝小明习惯用右手的概率为50%;如果
测试准确率为80%的话,它习惯右手的概率为69%。
13.11假设给你一只装有n个无偏差硬币的袋子,并且告诉你其中n1个硬币是正常的,一面是正面
一面是反面。不过剩余1枚硬币是伪造的,它的两面都是正面。
a.假设你把手伸进口袋均匀随即地取出一枚硬币,把它抛出去,并发现硬币落地后正面朝上。那
么你拿到伪币的(条件)概率是多少?
b.假设你不停地抛这枚硬币,拿到它之后一共抛了k次而且看到k次正面朝上。那么现在你拿到
伪币的条件概率是多少?
c.假设你希望通过把取出的硬币抛掷k次的方法来确定它是不是伪造的。如果k次抛掷后都是正
面朝上,那么决策过程返回FAKE(伪造)
,否则返回NORMAL(正常)
。这个过程发生错误的(无
条件)概率是多少?
参考解答:
a.一种典型的"计数"方法为如下的过程:取一个硬币会有n种不同的取法(有多少个硬币就有多少种
取法),一次抛掷有2种结果(尽管对于假币无法区分其抛掷结果的不同),因此共有个2n原子事件。当
然其中只有2次是假币,即有2(n1)次结果为正面。所以在抛掷结果为正面的条件下,假币的概率
P(fake|heads)为2/(2n1)2/(n1)。
上述"计数"的解题方法常常会在事件变得复杂时陷入混乱。所以最好使用以下公式:
P(Fake|heads)P(heads|Fake)P(Fake)
1.0,0.51/n,(n1)/n
1/n,(n1)/2n
2/(n1),(n1)/(n1)
b.
此时有2kn个原子事件,其中2k次取的是假币,及有2k(n1)次抛掷结果为正面。因此在
k次正面的条件下,假币的概率P(fake|headsk)为2k/(2k(n1))。注意当k增加时,结果会向1逼
近。例如kn12时,P(fake|headsk)0.9973。以公式描述如下:
P(Fake|headsk)P(headk|Fake)P(Fake)
1.0,0.5k1/n,(n1)/n
1/n,(n1)/2k
2k/(2kn1),(n1)/(2kn1)
c.过程发生错误当且仅当一枚真币被选中且抛掷k次都为正面。其概率如下:
P(headsk|fake)P(fake)(n1)/2kn
13.15假设你时雅典一次夜间出租车肇事逃逸的交通事故的目击者。雅典所有的出租车都是蓝色或者
绿色的。而你发誓所看见的肇事出租车时蓝色的。大量的实验表明,在昏暗的灯光条件下,对于蓝色
和绿色的区分的可靠度为75%。有可能据此计算出肇事出租车最可能是什么颜色的吗?(提示:请仔
细区分命题"肇事车是蓝色的"和命题"肇事车看起来是蓝色的"
。
现在,如果已经雅典的出租车10辆有9辆是绿色的呢?
参考解答:题意所述问题相关方面可由两个随机变量:令B表示"的士是蓝色的",LB表示"的士看起来
是蓝色的"。则有关颜色的判断的可靠性有:
P(LB|B)0.75
P(LB|B)0.75
我们是要求出在看起来是蓝色的情况下,的士确实为蓝色的概率:
P(B|LB)P(LB|B)P(B)0.75P(B)
P(B|LB)P(LB|B)P(B)0.25(1P(B))
因此如若没有关于蓝色的士的先验概率的信息,是无法求出上式所述概率。例如,如果知道所有的
士都是蓝色的,即P(B)1,则显然有P(B|LB)1;另一方面,如果在缺乏信息的情况下,往往认为
各种可能是机会均等的,即认为的士为绿色或蓝色的概率是均等的,有P(B)0.5,则
P(B|LB)0.75。通常会知道一些相关的差异信息(例如题目给出绿色和蓝色的士为9:1,即
P(B)0.1),则有:
P(B|LB)0.750.10.075
P(B|LB)0.250.90.225
所以
0.075
0.25
0.0750.225
0.225
P(B|LB)
0.75
0.0750.225
P(B|LB)
13.18文本分类是在文档所包含的文本基础上,把给定的文档分配到固定类别集合中某一个类别。这
个任务常常用到朴素贝叶斯模型。在这些模型中,查询变量是文档类别,结果"变量是语言中每个词
"
是否出现。我们假设文档中的词的出现都是独立的,其出现频率由文档类别确定。
a.准确地解释当给定一组类别已经确定的文档作为"训练数据"时,这样的模型时如何构造的。
b.准确解释如何对新文档进行分类
c.这里独立性假设合理吗?请讨论。
参考解答:本题提出的问题是课本第23章相关内容的一个预览版,不过更直接的说,本题是为了理解掌
握从完整的数据中如何对条件概率进行估计。
a.模型由先验概率P(Category)和条件概率P(Wordi|Category)构成,其中的Wordi为真,当且
仅当所查询的文档包含有词汇表里的第i个单词。对于每一个文档类别c,P(Categoryc)表示基于
文档的部分片段估计其属于文档类别c。类似的,P(Worditrue|Categoryc)表示文档类别属于
c类的,其中包含有单词i。
b.利用朴素贝叶斯模型的条件独立来计算新文档的类别概率分布:
P(Category|word1,wordn)
P(Category,word1,wordn)
P(Category)P(wordi|Category)
i
c.这样的独立性假设其实是完全有违实际的。例如,一个词组"artificialintelligence"其在给定的某个
文档类别中出现的概率其实大于上述模型所得出的两个词"artificial"和"intelligence"的出现概率的乘积。
比如"artificial
intelligence"在计算机学科学术类型的文档中大约100篇会出现5次,即"artificial
intelligence"的概率大约为0.05;而贝叶斯朴素模型给出的概率却是"artificial"的概率0.05和
"intelligence"的概率0.05的乘积,即0.025;所以说基于条件独立性假设的朴素贝叶斯模型给出的估计是
与实际不相符的。这意味着对于词组(单词的组合)来说,其真是的概率大多是比模型给出的估计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江西鹰潭市余江区殡仪馆招聘编外聘用人员9人备考题库含答案详解
- 2026贵州工贸职业学院春季学期马克思主义学院专任教师招聘3人备考题库完整参考答案详解
- 2026浙江杭州市桐庐县凤川街道招聘编外工作人员1人备考题库及完整答案详解
- 2026中建安装国际公司招聘68人备考题库附答案详解(典型题)
- 2026江西新余市高欣集团控股有限公司招聘9人备考题库及1套参考答案详解
- 中广核服务集团有限公司2026届校园招聘备考题库附答案详解(完整版)
- 2026湖南长沙市第二医院(长沙市妇幼保健院河西分院)招聘92人备考题库含答案详解(培优a卷)
- 2026安徽六安裕安区中医医院劳务派遣制工作人员招聘6人备考题库及一套参考答案详解
- 2026遵义医科大学附属医院高层次人才引进127人备考题库及答案详解(名师系列)
- 2026年西安高新区第五高级中学校园招聘备考题库及一套完整答案详解
- DB34∕T 4324-2022 水泥土搅拌桩地基加固施工技术规程
- 2025江苏南京市交通集团相关财务岗位公开招聘57人笔试历年常考点试题专练附带答案详解试卷2套
- 2025年中国移动计算机类校招笔试题及答案
- 部编人教版初中道德与法治九年级下册教材分析及教学建议
- 放射性药物检验知识培训课件
- 桩基工程质量验收工作总结报告
- 矿井提升机设计技术规范详解
- 中药饮片代煎协议书
- 2025年临床检验检查项目审核制度
- 班组安全管理培训课件
- 《三体》教学课件
评论
0/150
提交评论