




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、问题问题: 数学家庞加莱每天都从一家数学家庞加莱每天都从一家面包店买一块面包店买一块1000g 的面包,并记的面包,并记录下买回的面包的实际质量。一年录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据后,这位数学家发现,所记录数据的均值为的均值为950g。于是庞加莱推断这。于是庞加莱推断这家面包店的面包分量不足。家面包店的面包分量不足。 假设假设“面包分量足面包分量足”,则一年购买面包的质量,则一年购买面包的质量数据的平均值应该不少于数据的平均值应该不少于1000g ; “这个平均值不大于这个平均值不大于950g”是一个与假设是一个与假设“面包面包分量足分量足”矛盾的小概率事件;矛盾
2、的小概率事件; 这个小概率事件的发生使庞加莱得出推断结果。这个小概率事件的发生使庞加莱得出推断结果。一一: :假设检验问题的原理假设检验问题的原理假设检验问题由两个互斥的假设构成,其中一个假设检验问题由两个互斥的假设构成,其中一个叫做原假设,用叫做原假设,用H0表示;另一个叫做备择假设,表示;另一个叫做备择假设,用用H1表示。表示。例如,在前面的例子中,例如,在前面的例子中, 原假设原假设为:为: H0:面包分量足,:面包分量足,备择假设备择假设为为 H1:面包分量不足。:面包分量不足。这个假设检验问题可以表达为:这个假设检验问题可以表达为: H0:面包分量足:面包分量足 H1:面包分量不足:
3、面包分量不足二二: :求解假设检验问题求解假设检验问题考虑假设检验问题:考虑假设检验问题: H0:面包分量足:面包分量足 H1:面包分量不足:面包分量不足 在在H0成立的条件下,构造与成立的条件下,构造与H0矛盾的小概矛盾的小概率事件;率事件; 如果样本使得这个小概率事件发生,就能如果样本使得这个小概率事件发生,就能以一定把握断言以一定把握断言H1成立;否则,断言没有成立;否则,断言没有发现样本数据与发现样本数据与H0相矛盾的证据。相矛盾的证据。求解思路:求解思路:三三:二个概念二个概念这种变量的不同取这种变量的不同取“值值”表示个体所属的不表示个体所属的不同类别,这类变量称为同类别,这类变量
4、称为分类变量分类变量1.1.分类变量分类变量 对于性别变量,取值为:男、女对于性别变量,取值为:男、女 分类变量分类变量在现实生活中是大量存在的,如是在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。出生月份等等。利用随机变量利用随机变量K K2 2来确定在多大程度上可以认为来确定在多大程度上可以认为”两个分类变量有关系两个分类变量有关系”的方法称为的方法称为两个分类变两个分类变量的独立性检验量的独立性检验.(.(为假设检验的特例为假设检验的特例) ) 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计
5、总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大吸烟者患肺癌的可能性大0.54%0.5
6、4%2.28%2.28%1)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:三维柱三维柱状图状图2) 通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:二维条二维条形图形图3)通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:患肺癌患肺癌比例比例不患肺癌不患肺癌比例比例 独立性检验H H0 0: 吸烟吸烟和和患肺癌患肺癌之间没有关系之间没有关系 H H1 1: 吸烟吸烟和和患患肺癌肺癌之间有关系之间有关系通过数据和图表分析,得到通过数据和图表分析,得到结论是:结论是:吸烟与患肺癌有关吸烟与患肺癌有关结论的可靠结论的
7、可靠程度如何?程度如何? 用用 A A 表示表示“不吸烟不吸烟”, B B 表示表示“不患肺癌不患肺癌”则则 H0: 吸烟和患肺癌之间没有关系 “吸烟吸烟”与与“患肺癌患肺癌”独立独立, ,即即A A与与B B独立独立P P( (A AB B) )= = P P( (A A) )P P( (B B) )等价于等价于等价于等价于 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟a ab ba+ba+b吸烟吸烟c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+da a + + b ba a + + c ca aP P( (A A) )
8、, ,P P( (B B) ), ,P P( (A AB B) )n nn nn n其其 中中 n n = = a a + + b b + + c c + + d dacac,a+bc+da+bc+d a a c c+ +d d c c a a+ +b b , ,adbcaa+ba+caa+ba+cnnnnnn2 22 2n n(a ad d- -b bc c)K K = =( (a a+ +b b) )( (c c+ +d d) )( (a a+ +c c) )( (b b+ +d d) ) 独立性检验0.adbca ad d- -b bc c 越越小小,说说明明吸吸烟烟与与患患肺肺癌癌之之
9、间间的的关关系系越越弱弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量引入一个随机变量作为检验在多大程度上可以认为作为检验在多大程度上可以认为“两个变量两个变量有关系有关系”的标准的标准 。1)1)如果如果P(P(m10.828)= 0.00110.828)= 0.001表示有表示有99.9%99.9%的把握认为的把握认为”X X与与Y”Y”有关有关系系; ;2)2)如果如果P(m7.879)= 0.005P(m7.879)= 0.005表示有表示有99.5%99.5%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;
10、3)3)如果如果P(m6.635)= 0.01P(m6.635)= 0.01表示有表示有99%99%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;4)4)如果如果P(m5.024)= 0.025P(m5.024)= 0.025表示有表示有97.5%97.5%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;5)5)如果如果P(m3.841)= 0.05P(m3.841)= 0.05表示有表示有95%95%的把握认为的把握认为”X X与与Y”Y”有关系有关系; ;6)6)如果如果P(m2.706)= 0.010P(m2.706)= 0.010表示有表示有90%90%的把握认为
11、的把握认为”X X与与Y”Y”有关系有关系; ;7)7)如果如果m m2.706),2.706),就认为没有充分的证据显示就认为没有充分的证据显示”X X与与Y”Y”有关系有关系; ;设有两个分类变量设有两个分类变量X X和和Y Y它们的值域分别为它们的值域分别为xx1 1,x,x2 2 和和yy1 1,y,y2 2 其样本频数列表其样本频数列表( (称为称为2 22 2列联表列联表) ) 为为y y1 1y y2 2总计总计x x1 1a ab ba+ba+bx x2 2c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d22列联表22()()()()n ad
12、 bcKa b c d a c b d()2 2P(k m)P(k m)适用观测数据适用观测数据a a、b b、c c、d d不小于不小于5 5 独立性检验 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7775427817吸烟吸烟2099492148总计总计9874919965通过公式计算通过公式计算2242 209956.6327817 2148 9874 91K9965(7775 49) 独立性检验已知在已知在 成立的情况下,成立的情况下,0H2(6.635)0.01P K 即在即在 成立的情况下,成立的情况下,K K2 2 大于大于6.6356.635
13、概率非常概率非常小,近似为小,近似为0.010.010H现在的现在的K K2 2=56.632=56.632的观测值远大于的观测值远大于6.6356.635分类变量之间关系条形图柱形图列联表独立性检验背景分析例例1.1.在某医院在某医院, ,因为患心脏病而住院的因为患心脏病而住院的665665名男性病人中名男性病人中, ,有有214214人秃顶人秃顶, ,而另外而另外772772名名不是因为患心脏病而住院的男性病人中有不是因为患心脏病而住院的男性病人中有175175人秃顶人秃顶. .分别利用图形和独立性检验方分别利用图形和独立性检验方法判断是否有关法判断是否有关? ?你所得的结论在什么范围你所
14、得的结论在什么范围内有效内有效? ?例例2 2. .为考察高中生性别与是否喜欢数学为考察高中生性别与是否喜欢数学课程之间的关系课程之间的关系, ,在某城市的某校高中生在某城市的某校高中生中随机抽取中随机抽取300300名学生名学生, ,得到如下列联表得到如下列联表: : 性别与喜欢数学课程列联表性别与喜欢数学课程列联表喜欢数学课程喜欢数学课程不喜欢数学课程不喜欢数学课程 总计总计 男男 37 37 85 85 122 122 女女 35 35 143 143 178 178 总计总计 72 72 228 228 300 300由表中数据计算得由表中数据计算得 , ,高中生的高中生的性别与是否喜欢数学课程之间是否有关系性别与是否喜欢数学课程之间是否有关系? ?为什么为什么? ?2 2K K 4 4. .5 51 13 3acdb解解:P:P111111独立性检验基本的思想类似独立性检验基本的思想类似反证法反证法( (1)1)假设结论不成立假设结论不成立, ,即即“两个分类变量没有关系两个分类变量没有关系”. .(2)(2)在此假设下随机变量在此假设下随机变量 K K2 2 应该很能小应该很能小, ,如果由观测数据如果由观测数据计算得到计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 区块链技术的创新发展及其商业价值
- 人工智能在医疗人才培养中的角色与价值
- 医务人员法律意识培养与职业道德教育
- 以人为本的科技应用探索区块链在办公场景中的优势
- 医疗人文关怀与患者安全文化的构建
- 保护患者隐私医疗行业的挑战与策略
- 会议服务制作合同范例
- 人员外派劳务合同范例
- 小升初地理介绍课件
- 两人股合同范例
- 文房四宝(课堂PPT)
- 第五单元晚清时期的内忧外患与救亡图存期末复习测试卷-高一上学期历史统编版(2019)必修中外历史纲要上
- 铁路基础知识考试题库500题(单选、多选、判断)
- 2023小学语文新课程标准
- 任务1-安装CPU、CPU风扇及内存
- 安全事故应急响应程序流程图
- 07FK02 防空地下室通风设备安装
- 家用青饲料切割机说明书-毕业设计
- GB/T 11253-2019碳素结构钢冷轧钢板及钢带
- GB/T 10125-2012人造气氛腐蚀试验盐雾试验
- 商务标评审表
评论
0/150
提交评论