版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、8.3 列联表与独立性检验 前面两节所讨论的变量 , 如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等, 都是数值变量, 数值变量的取值为实数. 其大小和运算都有实际含义. 在现实生活中 , 人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题. 例如 ,就读不同学校是否对学生的成绩有影响 , 不同班级学生用于体育锻炼的时间是否有差别 , 吸烟是否会增加患肺癌的风险 , 等等 , 本节将要学习的独立性检验方法为我们提供了解决这类问题的方案. 在讨论上述问题时 , 为了表述方便 , 我们经常会使用一种特殊的随机变量 , 以区别不同的现象或性质 , 这类
2、随机变量称为分类变量. 分类变量的取值可以用实数表示 , 例如, 学生所在的班级可以用1, 2, 3等表示 , 男性、女性可以用1 , 0表示 , 等等. 在很多时候 , 这些数值只作为编号使用, 并没有通常的大小和运算意义 , 本节我们主要讨论取值于0 , 1的分类变量的关联性问题.8.3.1 分类变量与列联表 如何利用统计数据判断一对分类变量之间是否具有关联性呢? 对于这样的统计问题 , 有时可以利用普查数据 , 通过比较相关的比率给出问题的准确回答 , 但在大多数情况下, 需要借助概率的观点和方法, 我们先看下面的具体问题. 问题 为了有针对性地提高学生体育锻炼的积极性, 某中学需要了解
3、性别因素是否对本校学生体育锻炼的经常性有影响 , 为此对学生是否经常锻炼的情况进行了普查 , 全校学生的普查数据如下: 523名女生中有 331 名经常锻炼 ; 601名男生中有 473 名经常锻炼 . 你能利用这些数据 , 说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 问题 普查数据如下: 523名女生中有 331 名经常锻炼 ; 601名男生中有 473 名经常锻炼 . 该校女生和男生在体育锻炼的经常性方面是否存在差异吗? 这是一个简单的统计问题 , 最直接的解答方法是 , 比较经常锻炼的学生在女生和男生中的比率, 为了方便, 我们设 那么 , 只要求出f0和f1的值 , 通过
4、比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异, 由所给的数据, 经计算得到 上面的问题还可以通过建立一个古典概型, 使用条件概率的语言,给出另外一种解答方法. 用表示该校全体学生构成的集合 , 这是我们所关心的对象的总体 . 考虑以为样本空间的古典概型 , 并定义一对分类变量X和Y如下: 对于中的每一名学生, 分别令 我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题. 我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题. 按照条件概率的直观解释, 如果从该校女生和男生中各随机选取一名学生, 那么该女生属于经常
5、锻炼群体的概率是P(Y=1|X=0), 而该男生属于经常锻炼群体的概率是P(Y=1|X=1). 因此,“性别对体育锻炼的经常性有影响”可以描述为“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);P(Y=1|X=0)P(Y=1|X=1).为了清楚起见, 我们用表格整理数据性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124 我们用X=0, Y=1表示事件X=0和Y=1的积事件, 用X=1, Y=1表示事件X=1和Y=1的积事件, 根据古典概型和条件概率的计算公式, 我们有 由P(Y
6、=1|X=1)P(Y=1|X=0)可以作出判断 , 在该校的学生中, 性别对体育锻炼的经常性有影响 , 即该校的女生和男生在体育锻炼的经常性方面存在差异, 且男生更经常锻炼. 在实践中 , 由于保存原始数据的成本较高 , 人们经常按研究问题的需要, 将数据分类统计, 并做成表格加以保存, 我们将上表这种形式的数据统计表称为22列联表. 22列联表给出了成对分类变量数据的交叉分类频数.以上表为例, 它包含了X和Y的如下信息: 最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数; 最后一列的前两个数分别是事件 X=0和 X=1中样本点的个数 ; 中间的四个格中的数是表格的核心部分, 给出了事
7、件X=x, Y=y(x, y=0, 1)中样本点的个数; 右下角格中的数是样本空间中样本点的总数. 在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率 . 然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率 . 在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路 . 比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断. 例1 为比较甲、乙两所学校学生的数学水平, 采用简单随机抽样的方法抽取88名学生 . 通过
8、测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀. 试分析两校学生中数学成绩优秀率之间是否存在差异. 解:用表示两所学校的全体学生构成的集合. 考虑以为样本空间的古典概型 . 对于中每一名学生,定义分类变量X和Y如下:我们将所给数据整理成下表(单位:人).我们将所给数据整理成下表(单位:人).学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788 上表是关于分类变量X和Y的抽样数据的22列联表: 最后一行的前两个数分别是事件Y=0和Y=1 的频数 ; 最后一列的前两个数分别是事件X=0和X=1
9、的频数 ; 中间的四个格中的数是事件X=x, Y=y(x, y=0, 1)的频数; 右下角格中的数是样本的容量. 甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为 我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示. 左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率; 右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率. 通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率. 依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1) . 也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高. 思考? 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的? 事实上,“两校学生的数学成绩优秀率存在差异”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏南京生物医药创新转化研究院招聘2人备考题库附答案详解
- 2026四川成都职业技术学院招聘助学助管员43人备考题库及参考答案详解1套
- 思想政治教育专业实习报告2026(2篇)
- 除颤仪的判断试题及答案
- 2026年云南公开遴选公务员考试(党务工作)模拟试题及答案
- 2026单招面试题目及最佳答案
- 2026道路规划面试题库及答案
- 2026年第2期广西住房城乡建设领域施工现场专业人员岗位资格培训考试(市政工程质量员)复习题及答案
- 2025年住房和城乡建设领域现场专业人员培训考试(土建施工员专业基础知识)题库及答案(湖北武汉)
- 2025年浙江建设工程质量检测人员考试市政桥梁检测综合能力测试题及答案
- 2026年北京市第一次普通高中学业水平合格性考试物理试卷(含答案)
- 2026江苏宿迁学院产业技术研究院员工招聘2人考试参考题库及答案解析
- 2026年石油压裂支撑剂行业分析报告及未来发展趋势报告
- 豆包AI写作指令
- (完整版)堤防工程施工方案
- 不燃型复合膨胀聚苯乙烯保温板专项施工方案
- 山西大学附属小学五年级数学摸底测试卷含答案及解析
- 【 历史 】2025-2026学年统编版八年级下册历史期末复习专题归纳课件
- 2026年图书资料员高级技师通关题库及完整答案详解(易错题)
- 新组建部门工作方案
- 乡镇孕产妇管理奖惩制度
评论
0/150
提交评论