3.2独立性检验的基本思想及其初步应用(2课时选修2-3).ppt_第1页
3.2独立性检验的基本思想及其初步应用(2课时选修2-3).ppt_第2页
3.2独立性检验的基本思想及其初步应用(2课时选修2-3).ppt_第3页
3.2独立性检验的基本思想及其初步应用(2课时选修2-3).ppt_第4页
3.2独立性检验的基本思想及其初步应用(2课时选修2-3).ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3 2独立性检验的基本思想及其初步应用 一 独立性检验 本节研究的是两个分类变量的独立性检验问题 在日常生活中 我们常常关心分类变量之间是否有关系 例如 吸烟是否与患肺癌有关系 性别是否对于喜欢数学课程有影响 等等 为了调查吸烟是否对肺癌有影响 某肿瘤研究所随机地调查了9965人 得到如下结果 单位 人 说明 吸烟者和不吸烟者患肺癌的可能性存在差异 吸烟者患肺癌的可能性大 0 54 2 28 探究 列联表 定义 列出的两个分类变量的称为列联表 2 2列联表一般地 假设两个分类变量X和Y 它们的取值分别为和 其样本频数列联表 也称为2 2列联表 为下表 频数表 x1 x2 y1 y2 一般地 假设有两个分类变量X和Y 它们的可能取值分别为 x1 x2 和 y1 y2 其样本频数列联表 即2 2列联表 为 其中n 为样本容量 a b c d 三维柱形图 二维条形图 在三维柱形图中 主对角线上两个柱形高度的乘积与副对角线上两个柱形高度的乘积相差越大 两个分类变量有关系的可能性就越大 等高条形图等高条形图与表格相比 更能直观地反映出两个分类变量间是否互相影响常用等高条形图展示列联表数据的频率特征 等高条形图 等高条形图更清晰地表达了两种情况下患肺癌的比例 某企业为了考察同一种产品在甲 乙两条生产线的产品合格率 同时各抽取100件产品 其中甲线中合格产品的个数为97 乙线中合格产品的个数为95 请做出列联表 三维柱形图与二维条形图 练习 1 2 2列联表是传统的调查研究中最常用的方法之一 用于研究两个变量之间相互独立还是存在某种关联性 它适用于分析两个变量之间的关系 2 在实际问题中 判断两个分类变量的关系的可靠性时 一般利用随机变量K2来确定 而不利用三维柱形图和二维条形图 上面我们通过分析数据和图形 得到的直观印象是吸烟和患肺癌有关 那么事实是否真的如此呢 这需要用统计观点来考察这个问题 现在想要知道能够以多大的把握认为 吸烟与患肺癌有关 为此先假设 H0 吸烟与患肺癌没有关系 把表中的数字用字母代替 得到如下用字母表示的列联表 用A表示不吸烟 B表示不患肺癌 则 吸烟与患肺癌没有关系 等价于 吸烟与患肺癌独立 即假设H0等价于P AB P A P B 因此 ad bc 越小 说明吸烟与患肺癌之间关系越弱 ad bc 越大 说明吸烟与患肺癌之间关系越强 在表中 a恰好为事件AB发生的频数 a b和a c恰好分别为事件A和B发生的频数 由于频率接近于概率 所以在H0成立的条件下应该有 为了使不同样本容量的数据有统一的评判标准 基于上述分析 我们构造一个随机变量 卡方统计量 1 若H0成立 即 吸烟与患肺癌没有关系 则K2应很小 根据表3 7中的数据 利用公式 1 计算得到K2的观测值为 那么这个值到底能告诉我们什么呢 2 独立性检验 k大小的标准是什么呢 独立性检验首先 假设结论不成立 即H 两个分类变量没有关系 在这种假设下k应该很小 其次 由观测数据计算K的观测值k 如果k很大 则在一定可信程度上说明H不成立 即两个分类变量之间有关系 最后 根据k的值判断假设是否成立 2 临界值表 这种判断可能有错误 但是犯错误的不会超过0 001 这是个小概率时间 我们有99 9 的把握认为 吸烟与患癌症有关系 利用随机变量K2来确定是否能以一定把握认为 两个分类变量有关系 的方法称为两个分类变量的独立性检验 在吸烟与患肺病这两个分类变量的计算中 下列说法正确的是 A 若K的观测值为k 6 635 我们有99 的把握认为吸烟与患肺病有关系 那么在100个吸烟的人中必有99个患肺病B 从独立性检验可知有99 的把握认为吸烟与患肺病有关系时 我们说某人吸烟 那么他有99 的可能患肺病C 若从统计量中求出有95 的把握认为吸烟与患肺病有关系 是指有5 的可能性使得推理出现错误D 以上三种说法都不对 练习 c 例2某电视台联合相关报社对 男女同龄退休 这一公众关注的问题进行了民意调查 数据如下表所示 根据表中数据 能否在犯错误的概率不超过0 001的前提下认为对这一问题的看法与性别有关系 P K2 10 828 0 001 解析 假设H0 对这一问题的看法与性别无关 由列联表中的数据 可以得到 125 161 10 828又P K2 10 828 0 001 故在犯错误概率不超过0 001的前提下认为对 男女同龄退休 这一问题的看法与性别有关 点评 可以利用独立性检验来判断两个分类变量是否有关系 具体做法是 5月31日是 世界无烟日 2009年的主题是 让肺自由呼吸 为探究患肺癌是否与吸烟有关 某校研究性学习小组调查了1339名50岁以上的人 调查结果如下表所示 试问 能否在犯错误的概率不超过0 01的前提下认为50岁以上的人患肺癌与吸烟有关系 解析 依题意可知 6 635 又P K2 6 635 0 01 因此 在犯错误的概率不超过0 01的前提下认为吸烟与患肺癌有关 例3为了解铅中毒病人是否有尿棕色素增加现象 分别对病人组和对照组的尿液作尿棕色素定性检查 结果如下 问铅中毒病人和对照组的尿棕色素阳性数有无差别 解析 由上述列联表可知 在铅中毒病人中尿棕色素为阳性的占80 56 而对照组仅占24 32 说明他们之间有较大差别 根据列联表作出三维柱形图 如图1 二维条形图 如图2 频率分布条形图 如图3所示 由上述三图可知 铅中毒病人中与对照组相比较 尿棕色素为阳性差异明显 因此铅中毒病人与尿棕色素为阳性存在关联关系 某学校对学生课外活动内容进行调查 结果整理成下表 利用图形判断学生课外活动的类别与性别是否有关系 解析 某等高条形图如图所示 由图可以直观地看出喜欢体育还是喜欢文娱在性别上有较大差异 说明课外活动的类别与性别在某种程度上有关系 练习 1 调查男女学生购买食品时是否看出厂日期与性别有无关系时 最有说服力的是 A 期望B 方差C 正态分布D 独立性检验 答案 D 2 10名学生在一次数学考试中的成绩如下表 要研究这10名学生成绩的平均情况 则最能说明问题的是 A 概率B 期望C 方差D 独立性检验 答案 B 练习 3 下面是一个2 2列联表则表中a b处的值分别为 A 94 96B 52 50C 52 59D 54 52 答案 C 4 用K2统计量进行独立性检验时 使用的表称为 要求表中的四个数据 答案 2 2列联表均大于5 5 若两个分类变量x和y的列联表为 则x与y之间有关系的概率约为 答案 99 6 为调查学生对国家大事关心与否是否与性别有关 在学生中进行随机抽样调查 结果如下表 根据统计数据作出合适的判断分析 点评 根据随机变量K2的值判断两分类变量是否有关的步骤 第一 假设两分类变量无关 第二 由数据及公式计算K2的观测值k 第三 将k的值与临界值比较得出结论 思考 利用上面的结论 你能从列联表的三维柱形图中看出两个分类变量是否相关呢 表1 112x2联表 一般地 假设有两个分类变量X和Y 它们的值域分别为 x1 x2 和 y1 y2 其样本频数列联表 称为2x2列联表 为 若要判断的结论为 H1 X与Y有关系 可以按如下步骤判断H1成立的可能性 2 可以利用独立性检验来考察两个分类变量是否有关系 并且能较精确地给出这种判断的可靠程度 1 通过三维柱形图和二维条形图 可以粗略地判断两个变量是否有关系 但是这种判断无法精确地给出所得结论的可靠程度 1 在三维柱形图中 主对角线上两个柱形高度的乘积ad与副对角线上两个柱形高度的乘积bc相差越大 H1成立的可能性就越大 2 在二维条形图中 可以估计满足条件X x1的个体中具有Y y1的个体所占的比例 也可以估计满足条件X x2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论