




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-3-5思思想想及及其其初初步步应应用用独独立立性性检检验验的的基基本本2.32022-3-5.,.,.,等等等等国国籍籍宗宗教教信信仰仰否否吸吸烟烟是是例例如如分分类类变变量量是是大大量量存存在在的的生生活活中中在在现现实实像像这这类类变变量量称称为为别别类类表表示示个个体体所所属属的的不不同同值值种种变变量量的的不不同同这这其其取取值值为为男男和和女女两两种种对对于于性性别别变变量量分类变量分类变量.?,.,等等等等影影响响有有程程数数学学课课别别对对于于是是否否喜喜欢欢性性有有关关系系吸吸烟烟与与肺肺癌癌是是否否例例如如量量之之间间是是否否有有关关系系变变我我们们常常常常关关心心
2、两两个个分分类类在在日日常常生生活活中中2022-3-5: ):(,9659,人人单位单位结果结果得到如下得到如下人人了了肿瘤研究所随机地调查肿瘤研究所随机地调查某某癌有影响癌有影响为调查吸烟是否对患肺为调查吸烟是否对患肺探究探究996591987421484920997817427775总总计计吸吸烟烟不不吸吸烟烟总总计计患患肺肺癌癌不不患患肺肺癌癌吸吸烟烟与与患患肺肺癌癌列列联联表表表表73 ?有有影影响响那那么么吸吸烟烟是是否否对对患患肺肺癌癌2022-3-5.:,.%28.2,;%54.0,:.,73在差异在差异肺癌可能存肺癌可能存烟者患烟者患吸烟者和不吸吸烟者和不吸结论结论直观上可以
3、得出直观上可以得出因此因此患有肺癌患有肺癌有有在吸烟者中在吸烟者中患有肺癌患有肺癌有有吸烟者中吸烟者中在不在不估计出估计出表可以粗略表可以粗略癌情况的列联癌情况的列联由吸烟情况和患肺由吸烟情况和患肺称为称为频数表频数表的的样列出的两个分类变量样列出的两个分类变量这这像表像表列联表列联表,.与表格相比 图形能更直观地反映出相关数据的总体状况2022-3-532.3图图不不吸吸烟烟吸吸烟烟,;.在等高条形图中 绿色的条高表示不患肺癌的百分比 黑色的条高表示患肺癌的百分比2022-3-5?.,呢呢烟烟与与患患肺肺癌癌有有关关吸吸的的把把握握认认为为或或者者说说我我们们能能够够以以多多大大此此呢呢那那
4、么么事事实实是是否否真真的的如如象象是是吸吸烟烟和和患患肺肺癌癌有有关关得得到到的的直直观观印印和和图图形形上上面面我我们们通通过过分分析析数数据据.:H,0吸烟与患肺癌没有关系我们先假设为了回答上述问题 .BPAPABPH, ,B,A0等价于即吸烟与患肺癌独立等价于癌没有关系肺吸烟与患则表示不患肺癌表示不吸烟用2022-3-5:,73母表示的列联表母表示的列联表得到如下用字得到如下用字中的数字用字母代替中的数字用字母代替把表把表dcbadbcadcdcbaba总总计计吸吸烟烟不不吸吸烟烟总总计计患患肺肺癌癌不不患患肺肺癌癌吸吸烟烟与与患患肺肺癌癌列列联联表表表表83 成立的条件下应有所以在于
5、频率近似于概率由发生的频数和恰恰好分别为事件和发生的频数恰好为事件中在表0H,.BAcaba:ABa,832022-3-5,cabaadcba,dcban,ncanbana即量为样本容其中.bcad 即.,|bcad;|,|bcad,|关系越强说明吸烟与患肺癌之间越大系越弱关说明吸烟与患肺癌之间越小因此 .dcban1dbcadcbabcadnK,22为样本容量其中我们构造一个随机变量基于上面的分析准数据有统一的评判标为了使不同样本容量的2022-3-5 ,632.56919874214878172099424977759965kK1,73,.K, ,H2220的观测值为算得计利用公式中的数据
6、根据表现在很小应该则吸烟与肺癌没有关系即成立若?这个值是不是很大呢 2.01.0635.6KP,H20率统计学家估算出如下概成立的情况下在成立的情况在也就是说近似于非常小的概率的值大于成立的情况下即在020H.01.0.635.6KH2022-3-5.1001635.6,K2的频率约为观测值超过进行多次观测下对随机变量 .5d, c, b, a,.,n,2都不小于都不小于要求要求通常通常在实际应用中在实际应用中近似程度越高近似程度越高越大越大中中在在?,H,635.6K02断出错的可能性有多大断出错的可能性有多大这种判这种判不成立不成立就断定就断定如果如果思考思考 056.6326.635,2
7、0.01.0.01.kH现在观测值远远大于在成立的条件下 由式可知能够出现这样的观测值的概率不超过因此,在我们认为 吸烟与肺癌有关系 的犯错误概率不会超过2022-3-5.2个分类变量的的方法称为两两个分类变量有关系可以认为来确定在多大程度上上面这种利用随机变量 K.独立性检验独立性检验22.,.,.KK独立性检验的基本思想类似于反证法 要确认 两个分类变量有关系 这一结论成立的可信程度 首先假设该结论不成立 即假设结论 两个分类变量没有关系 成立 在该假设下构造的随机变量应该很小 如果由观测数据计算得到的的观察值很大 则在一定程度上说明假设不合理2022-3-5?,量量是是否否相相关关吗吗形
8、形图图中中看看出出两两个个分分类类变变你你能能从从列列联联表表的的三三维维柱柱利利用用上上面面的的结结论论思思考考:)22(,y,yx,x,YX,2121为为列联表列联表称为称为其样本频数列联表其样本频数列联表和和别为别为它们的值域分它们的值域分和和假设两个分类变量假设两个分类变量一般地一般地dcbadbcadcdcxbabaxyy2121总总计计总总计计93表表列联表列联表222022-3-5111121121:.,;.3-9,;,.,.HXYP Yy XxP Yy XxXYaXxYyXxabcYycdacabcd若要推断的论述为与 有关系 ,可以通过频率直观判断两个条件概率和是否相等 如果
9、判断它们相等 就意味着 和 没有关系 否则就认为它们有关系由表知 在的情况下的频率为在的情况下的频率为因此 如果通过直接计算或等高条形图发现和相差很大 就判断两个变量之间有关系2022-3-5020,.:(1),(310).,;kKkkkXY上 面 的 这 种 直 观 判 断 不 足 之 处 在 于 不 能 给 出 推 断两 个 分 类 变 量 有 关 系 犯 错 误 概 率 而 独 立 性 检 验则 可 以 弥 补 这 个 不 足 独 立 性 检 验 的 具 体 做 法 是根 据 实 际 问 题 的 需 要 确 定 容 许 推 断 两 个 分 类变 量 有 关 系 犯 错 误 概 率 的 上
10、 界然 后 通 过 查 表表确 定 临 界 值( 2) 利 用 公 式 计 算 变 量的 观 测 值( 3) 如 果就 推 断与有 关 系这 种 推 断 犯错 误 的 概 率 不 超 过否 则 就 认 为 在 犯 错 误 概 率 不超 过的 前 提,.XYXY下 不 能 推 断与有 关 系或 者 在 样本 数 据 中 没 有 发 现 足 够 的 证 据 支 持 结 论与有关 系2022-3-5.,5d, c, b, a确确的的检检验验方方法法需需采采用用很很复复杂杂的的精精时时中中有有小小于于当当观观测测数数据据706.2072.2323.1708.0455.0k10.015.025.040.
11、050.0kKP2828.10879.7635.6024.5841.3001.0005.0010.0025.005.0103表表2022-3-51,665,214,772175.(1);(2)0.01?例在某医院 因为心脏病而住院的名男性病人中 有人秃顶 而另外名不是因为患心脏病而住院的男性病人中有人秃顶利用图形判断秃顶与患心脏病是否有关系能否在犯错误概率不超过的前提下认为秃顶与患心脏病有关系如下列联表根据题目所给数据得到解秃顶与患心脏病列联表表11314377726651048597451389175214总计不秃顶秃顶总计患其他病患心脏病2022-3-5(1)等高条形图(图略)所示,透顶样
12、本中患心脏病的频率明显高于不秃顶中患心脏病的频率,因此可以认为秃顶与患心脏病有关系。(2)根据列联表中的数据,得到因此,在犯错误概率不超过0.01的前提下,认为秃顶与患心脏病有关系.21437214 597-175 45116. 3736. 635389 1048 665 772k2022-3-5:,300,2得得到到如如下下列列联联表表名名学学生生抽抽出出中中随随机机在在某某城城市市的的某某校校高高中中生生之之间间的的关关系系是是否否喜喜欢欢数数学学课课程程为为考考察察高高中中生生的的性性别别与与例例30022872178143351228537总总计计女女男男总总计计不不喜喜欢欢数数学学课
13、课程程喜喜欢欢数数学学课课程程联联表表性性别别与与喜喜欢欢数数学学课课程程列列表表123 ?.513.4K2为为什什么么否否有有关关系系否否喜喜欢欢数数学学课课程程之之间间是是高高中中生生的的性性别别与与是是由由表表中中数数据据计计算算得得2022-3-5.dcbabdacdccbaa,dccbaa,.d, c, b, a应很大即相差很多应该数学课的人数比例与女生中喜欢例的比课学数欢中喜生则男系有关课学数欢如果性别与是否喜生人数数、不喜欢数学课的女数学课的女生人数、喜欢不喜欢数学课的男生人的男生人数、表示样本中喜欢数学课分别用解:在犯错误概率不超过0.05的前提下,认为性别与是否喜欢数学课程有关系.2022-3-5,dbcadcbadcba乘以常数因子将上式等号右边的式子,dbcadcbabdacnK22然后平方得. ,K. dcban2成立的可能性越大欢数学课之间有关系性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 用电基础知识培训资料课件
- 用户运营行业知识培训课件
- 2025至2030中国折叠屏风面板行业项目调研及市场前景预测评估报告
- 2025至2030中国眼睑植入物行业项目调研及市场前景预测评估报告
- 2025至2030150BS光亮油行业供需预测与投资潜力咨询报告
- 2025至2030中国免疫分析仪器行业产业运行态势及投资规划深度研究报告
- 2025至2030中国净重填料行业项目调研及市场前景预测评估报告
- 2025至2030中国马桶座圈举升器行业项目调研及市场前景预测评估报告
- 鲁宾漂流记考试题及答案
- 2025至2030中国挂毯行业产业运行态势及投资规划深度研究报告
- 《法律职业伦理(第3版)》全套教学课件
- 2025年秋季新学期全体中层干部会议校长讲话:在挑战中谋突破于坚实处启新篇
- 2025年幼儿园保育员考试试题(附答案)
- 【《惠东农商银行个人信贷业务发展现状及存在的问题和策略分析》15000字】
- 高中数学选修一(人教A版2019)课后习题答案解析
- 中国农业银行笔试题库(含答案)
- GA 1808-2022军工单位反恐怖防范要求
- GB/T 4745-2012纺织品防水性能的检测和评价沾水法
- 静设备安装课件(PPT 91页)
- 《生产运作与管理》教案(完整版)
- DB∕T29-297-2021 海绵城市雨水控制与利用工程施工及验收标准
评论
0/150
提交评论