高中数学 3.2 独立性检验的基本思想及其初步应用课件 新人教A版选修23 .ppt_第1页
高中数学 3.2 独立性检验的基本思想及其初步应用课件 新人教A版选修23 .ppt_第2页
高中数学 3.2 独立性检验的基本思想及其初步应用课件 新人教A版选修23 .ppt_第3页
高中数学 3.2 独立性检验的基本思想及其初步应用课件 新人教A版选修23 .ppt_第4页
高中数学 3.2 独立性检验的基本思想及其初步应用课件 新人教A版选修23 .ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 2独立性检验的基本思想及其初步应用 1 与列联表相关的概念 1 分类变量 变量的不同 表示个体所属的 像这样的变量称为分类变量 2 列联表 列出的 分类变量的 称为列联表 值 不同类别 两个 频数表 一般地 假设有两个分类变量x和y 它们的取值分别为 x1 x2 和 y1 y2 其样本频数列联表 称为2 2列联表 为 a b c d a c b d 2 等高条形图等高条形图与表格相比 图形更能直观地反映出两个分类变量间是否 常用等高条形图展示列表数据的 相互影响 频率特征 3 独立性检验的基本思想 1 定义 利用随机变量 来判断 两个分类变量 的方法称为独立性检验 2 公式 k2 其中n k2 有关系 a b c d 3 独立性检验的具体做法 根据实际问题的需要确定容许推断 两个分类变量有关系 犯错误概率的上界 然后查表确定 k0 利用公式计算随机变量k2的 k 如果 就推断 x与y有关系 这种推断犯错误的概率不超过 否则 就认为在 不超过 的前提下不能推断 x与y有关系 或者在样本数据中 支持结论 x与y有关系 临界值 观测值 k k0 犯错误的概率 没有发现足够证据 1 判一判 正确的打 错误的打 1 分类变量中的变量与函数中的变量是同一概念 2 列联表频率分析法 等高条形图可初步分析两分类变量是否有关系 而独立性检验中k2取值则可通过统计表从数据上说明两分类变量的相关性的大小 3 独立性检验的方法就是反证法 解析 1 错误 分类变量 如性别变量 可取值为男 女 这里的性别为变量 它不一定为数值 而函数中的变量一定为实数 2 正确 列联表或等高条形图能直观地感受两分类变量是否相关 具体可用独立性检验的方法从可信度上检验两分类变量相关性的大小 3 错误 独立性检验是在假设两分类变量无关的基础上推出一个小概率事件 在一定可信度的基础上说明假设是否成立的方法 而反证法是按照一定的逻辑推出与已知或已经成立的结论相矛盾的证明方法 两者不尽相同 故此种说法错误 答案 1 2 3 2 做一做 请把正确的答案写在横线上 1 为了调查高中生的性别与是否喜欢踢足球之间有无关系 一般需要收集以下数据 2 若观测值k 7 8 得到的正确结论是在犯错误的概率不超过的前提下认为 爱好该项运动与性别有关 3 独立性检验中 假设h0 变量x与变量y没有关系 则在h0成立的情况下 估计概率p k2 6 635 0 01表示的意义是变量x与变量y 填 有关系 或 无关系 的概率是99 解析 1 为了调查高中生的性别与是否喜欢踢足球之间有无关系 一般需要收集男女生中喜欢和不喜欢踢足球的人数 再得出2 2列联表 最后代入随机变量的观测值公式 得出结果 答案 男女生中喜欢和不喜欢踢足球的人数 2 因为7 8 6 635 所以这个结论有0 01 1 的机会说错 在犯错误的概率不超过1 的前提下认为 爱好该项运动与性别有关 答案 1 3 因为概率p k2 6 635 0 01 所以两个变量有关系的可信度是1 0 01 99 即两个变量有关系的概率是99 答案 有关系 要点探究 知识点1分类变量与列联表1 对分类变量的三点说明 1 分类变量的取值一定是离散的 而且不同的取值仅表示个体所属的类别 如性别变量 只取男 女两个值 商品的等级变量只取一级 二级 三级等 2 分类变量的取值有时可用数字来表示 但这时的数字除了分类以外没有其他的含义 如用 0 表示 男 用 1 表示 女 3 分类变量存在的广泛性 在现实生活中 分类变量是大量存在的 如吸烟变量 国籍变量等 2 2 2列联表在2 2列联表中 如果两个分类变量没有关系 则应满足ad bc 0 因此 ad bc 越小 关系越弱 ad bc 越大 关系越强 微思考 在交通事故中 司机的血液中是否含有酒精和是否有事故责任是分类变量吗 提示 是 是否含有酒精 其取值为含有酒精和不含有酒精 是否有责任 其取值为有责任和无责任 即时练 考察黄烟经过培养液处理与是否发生青花病的关系 调查了457株黄烟 得到表格中数据 请根据数据分析 黄烟是否经过培养液处理与发生青花病有无关系 由列联表可粗略地看出 1 有青花病的黄烟有株未处理 2 无青花病的黄烟有株未处理 由此得出结论 解析 1 210 2 142 因为 故黄烟是否经过培养液处理与发生青花病有关系 答案 1 210 2 142黄烟是否经过培养液处理与发生青花病有关系 知识点2独立性检验的基本思想1 在实际问题中常用的几个数值 1 k 6 635表示认为 x与y有关系 犯错误的概率不超过0 01 2 k 3 841表示认为 x与y有关系 犯错误的概率不超过0 05 3 k 2 706表示认为 x与y有关系 犯错误的概率不超过0 1 2 独立性检验的基本思想与反证法的思想的相似之处 微思考 1 独立性检验的必要性即为什么不能只凭列联表的数据和图形下结论 提示 列联表中的数据是样本数据 它只是总体的代表 具有随机性 故需要用列联表检验的方法确认所得结论在多大程度上适用于总体 2 在k2运算时 在判断变量相关时 若k2的观测值k 56 632 则p k2 6 635 0 01和p k2 10 828 0 001 哪种说法是正确的 提示 两种说法均正确 p k2 6 635 0 01的含义是在犯错误的概率不超过0 01的前提下 认为两变量相关 而p k2 10 828 0 001的含义是在犯错误的概率不超过0 001的前提下 认为两变量相关 即时练 2014 珠海高二检测 某班主任对全班50名学生进行了作业量多少的调查 数据如下表 根据表中数据得到k 5 059 参考下表 则认为喜欢玩电脑游戏与认为作业量多少有关系犯错误的概率大约为 a 0 025b 0 05c 0 1d 0 01 解析 选a 因为根据表中数据得到k 5 059 且p k2 5 024 0 025 所以认为喜欢玩电脑游戏与认为作业量多少有关系犯错误的概率大约为0 025 故选a 题型示范 类型一关于 相关 的检验 典例1 1 2014 湛江高二检测 利用独立性检验来考虑两个分类变量x和y是否有关系时 通过查阅表格来确定 x和y有关系 的可信度 如果k 3 841 那么在犯错误的概率不超过多少的前提下认为 x和y有关系 a 5 b 75 c 99 5 d 95 2 在对人们的休闲方式的一次调查中 共调查了124人 其中女性70人 男性54人 女性中有43人主要的休闲方式是看电视 另外27人主要的休闲方式是运动 男性中有21人主要的休闲方式是看电视 另外33人主要的休闲方式是运动 根据以上数据建立一个2 2的列联表 并估计 以运动为主的休闲方式的人的比例 能否在犯错误的概率不超过0 025的前提下 认为性别与休闲方式有关系 附表 解题探究 1 题 1 中k 3 841对应附表中的哪个数值 2 题 2 中 以运动为主要的休闲方式的比例为多少 犯错误的概率不超过0 025对应的临界值是多少 探究提示 1 3 841与0 05对应 即对应表中的0 05 2 根据所给的条件中的数据写出列联表 得到以运动为主要的休闲方式的比例为15 31 对应的临界值为5 024 自主解答 1 选a 因为k 3 841 所以有0 05的几率说明这两个变量之间的关系是不可信的 即有1 0 05 95 的把握说明两个变量之间有关系 2 由所给的数据得到列联表所以以运动为主要的休闲方式的人的比例为15 31 假设休闲与性别无关 因为k 5 024 所以在犯错误的概率不超过0 025的前提下认为休闲方式与性别有关 方法技巧 两个分类变量相关关系的判断 1 等高条形图法 在等高条形图中 可以估计满足条件x x1的个体中具有y y1的个体所占的比例 也可以估计满足条件x x2的个体中具有y y1的个体所占的比例 两个比例的值相差越大 x与y有关系成立的可能性就越大 2 观测值法 通过2 2列联表 先计算k2的观测值k 然后借助k的含义判断 两个分类变量有关系 这一结论成立的可信程度 变式训练 2014 江西高考 某人研究中学生的性别与成绩 视力 智商 阅读量这4个变量之间的关系 随机抽查52名中学生 得到统计数据如表1至表4 则与性别有关联的可能性最大的变量是 a 成绩b 视力c 智商d 阅读量 解题指南 根据独立性检验公式分别求出相应的k2 数据大的与性别有关联的可能性大 解析 选d 分析判断最大 所以选择d 补偿训练 为了调查某地区老年人是否需要志愿者提供帮助 用简单随机抽样方法从该地区调查了200位老年人 结果如下 参照附表 得到的正确结论是 附 a 在犯错误的概率不超过0 1 的前提下 认为 该地区的老年人是否需要志愿者提供帮助与性别有关 b 在犯错误的概率不超过0 1 的前提下 认为 该地区的老年人是否需要志愿者提供帮助与性别无关 c 在犯错误的概率不超过0 01的前提下 认为 该地区的老年人是否需要志愿者提供帮助与性别有关 d 在犯错误的概率不超过0 01的前提下 认为 该地区的老年人是否需要志愿者提供帮助与性别无关 解析 选a 由题意 18 18 因为18 18 10 828 所以有0 001 0 1 的机会错误 即在犯错误的概率不超过0 1 的前提下认为 该地区的老年人是否需要志愿者提供帮助与性别有关 故选a 类型二关于 无关 的检验 典例2 1 为了研究性格和血型的关系 抽查80人做实验 血型和性格情况如下表 则在犯错误的概率不超过多少的前提下认为性格与血型有关系 a 0 001b 0 01c 0 05d 没有充分的证据显示有关 2 为了探究学生选报文 理科是否与对外语的兴趣有关 某同学调查了361名高二在校学生 调查结果如下 理科对外语有兴趣的有138人 无兴趣的有98人 文科对外语有兴趣的有73人 无兴趣的有52人 能否在犯错误的概率不超过0 1的前提下 认为 学生选报文 理科与对外语的兴趣有关 解题探究 1 计算k2的观测值k 再与哪个值进行比较 2 犯错误的概率不超过0 1 对应的临界值是多少 探究提示 1 利用表中数据 结合公式 计算k2的观测值k 再与临界值比较 即可作出判断 2 犯错误的概率不超过0 1 对应的临界值是2 706 自主解答 1 选d 由题意 利用公式可得k 1 92 2 706 所以我们没有充分的证据显示性格与血型有关系 故选d 2 根据题目所给的数据得到如下列联表 根据列联表中数据由公式计算得k 1 871 10 4 因为1 871 10 4 2 706 所以 在犯错误的概率不超过0 1的前提下 不能认为 学生选报文 理科与对外语的兴趣有关 方法技巧 有关 无关 的检验方法 无关 的检验方法与 有关 的检验方法相同 也可以利用 等高条形图 和 观测值k 只是选取的判断点不一样罢了 变式训练 为考察喜欢黑色的人是否易患抑郁症 对91名大学生进行调查 得到如下2 2列联表 附表 则在犯错误的概率为多少的前提下认为喜欢黑色与患抑郁症有关系 a 0 01b 0 05c 0 1d 不能判断 解析 选d 由于当观测值小于2 706时 认为没有充分证据显示两变量有关系 而0 0000979远远小于2 706 所以不能认为喜欢黑色与患抑郁症有关系 补偿训练 考察棉花种子经过处理跟生病之间的关系得到如表数据 根据以上数据 则 a 种子经过处理跟是否生病有关b 种子经过处理跟是否生病无关c 种子是否经过处理决定是否生病d 以上都是错误的 解析 选b 由公式计算得 k 0 1641 2 706 所以种子经过处理跟是否生病无关 类型三独立性检验的综合应用 典例3 1 在一次独立性检验中 得出列联表如下 且最后发现 没有充分证据显示两个分类变量a和b有关系 则a的可能值是 a 200b 720c 100d 180 2 某中学将100名高一新生分成水平相同的甲 乙两个 平行班 每班50人 陈老师采用a b两种不同的教学方式分别在甲 乙两个班级进行教改实验 为了解教学效果 期末考试后 陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计 作出茎叶图如图 记成绩不低于90分者为 成绩优秀 在乙班样本的20个个体中 从不低于86分的成绩中随机抽取2个 求抽出的两个均 成绩优秀 的概率 由以上统计数据作出列联表 并判断能否在犯错误的概率不超过0 1的前提下认为 成绩优秀 与教学方式有关 解题探究 1 处理题 1 的关键是什么 2 题 2 是一个什么概率模型 犯错误的概率不超过0 1对应的临界值是多少 探究提示 1 处理本题的关键是根据列联表及k2的计算公式 计算出k2的观测值 并代入临界值表中进行比较 再根据a的取值情况 即可得到答案 2 本题是一个等可能事件的概率模型 对应的临界值是2 706 自主解答 1 选b 计算k 当a 200时 k 103 37 2 706 此时两个分类变量a和b有关系 当a 720时 k 0 由k 2 706知此时没有充分证据显示两个分类变量a和b有关系 则a的可能值是720 2 由题意知本题是一个等可能事件的概率 试验发生包含的事件是从不低于86分的成绩中随机抽取两个包含的基本事件是 86 93 86 96 86 97 86 99 86 99 93 96 93 97 93 99 93 99 96 97 96 99 96 99 97 99 97 99 99 99 共有15种结果 符合条件的事件数 93 96 93 97 93 99 93 99 96 97 96 99 96 99 97 99 97 99 99 99 共有10种结果 根据等可能事件的概率得到p 由已知数据得根据列联表中的数据 k 3 137 由于3 137 2 706 所以在犯错误的概率不超过0 1的前提下认为 成绩优秀 与教学方式有关 方法技巧 解独立性检验问题的基本步骤 1 认真读题 指出相关数据 得出2 2列联表 2 根据2 2列联表中的数据 计算k2的观测值k 3 观测值k与临界值k0进行比较 4 在犯错误的概率不超过 的前提下能否推断 x与y有关系 变式训练 为调查某市学生百米运动成绩 从该市学生中按照男女生比例随机抽取50名学生进行百米测试 学生成绩全部都介于13秒到18秒之间 将测试结果按如下方式分成五组 第一组 13 14 第二组 14 15 第五组 17 18 如图是按上述分组方法得到的频率分布直方图 1 设m n表示样本中两个学生的百米测试成绩 已知m n 13 14 17 18 求事件 m n 2 的概率 2 根据有关规定 成绩小于16秒为达标 如果男女生使用相同的达标标准 则男女生达标情况如表 根据上表数据 在犯错误的概率不超过0 01的前提下认为 体育达标与性别有关 若有 你能否提出一个更好的解决方法来 附 k2 解题指南 1 成绩在 13 14 的人数有2人 设为a b 成绩在 17 18 的人数有3人 设为a b c 基本事件总数为10 事件 m n 2 由6个基本事件组成 根据古典概型公式可求出所求 2 根据列联表所给的数据 代入随机变量的观测值公式 得到观测值的结果 把观测值的结果与临界值进行比较 即可求得 解析 1 成绩在 13 14 的人数有 50 0 04 2人 设为a b 成绩在 17 18 的人数有 50 0 06 3人 设为a b c m n 13 14 时有ab一种情况 m n 17 18 时有ab ac bc三种情况 m n分别在 13 14 和 17 18 时有aa ab ac ba bb bc六种情况 基本事件总数为10 事件 m n 2 由6个基本事件组成 所以p m n 2 2 依据题意得k 8 333 6 625 故在犯错误的概率不超过0 01的前提下认为 体育达标与性别有关 故可以根据男女生性别划分达标的标准 补偿训练 某中学对高二甲 乙两个同类班级进行 加强 语文阅读理解 训练对提高 数学应用题 得分率作用 的试验 其中甲班为试验班 加强语文阅读理解训练 乙班为对比班 常规教学 无额外训练 在试验前的测试中 甲 乙两班学生在数学应用题上的得分率基本一致 试验结束后 统计几次数学应用题测试的平均成绩 均取整数 如下表所示 现规定平均成绩在80分以上 不含80分 的为优秀 1 试分别估计两个班级的优秀率 2 由以上统计数据填写下面2 2列联表 并问是否有75 的把握认为 加强 语文阅读理解 训练对提高 数学应用题 得分率 有帮助 解析 1 由题意 甲 乙两班均有学生50人 甲班优秀人数为30人 优秀率为 60 乙班优秀人数为25人 优秀率为 50 所以甲 乙两班的优秀率分别为60 和50 2 根据题意得出列联表因为k 1 010 所以在样本数据中没有足够证据认为 加强 语文阅读理解 训练对提高 数学应用题 得分率 有帮助 易错误区 因不理解独立性检验的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论