版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章成对数据的统计分析8.3.1分类变量与列联表在美丽的云南省,一个叫做墨江的小县城里,有一口双胞井,井水清澈,据村里的人讲,喝了井里的水,就会生下双胞胎。这个说法并非空穴来风,在这个小小县城,竟生活着1200多对双胞胎。更令人称奇的是,外地人短暂来访,喝了井水也能生出双胞胎。问题:生双胞胎是否与喝了井水有关呢?变量数值变量例:人的身高;100米短跑所用时间;产品月销量
数值变量的取值为实数.其大小和运算都有实际含义.两个数值变量之间的关系:回归分析法;例:班级;性别;是否经常锻炼;是否每年体检;分类变量的取值可以用实数来表示;这些数值只作为编号使用,用来表示不同的类别;并没有通常的大小和运算意义.例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示研究一定范围内的两个变量的相关关系分类变量研究一定范围内的两种现象或性质之间是否存在关联性或存在差异思考1:如何利用统计数据判断一对分类变量之间是否具有关联性呢?问题背景:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?∴该校的女生和男生在体育锻炼的经常性方面有差异,且男生更经常锻炼方法1——由频率估计概率523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成2×2列联表加以保存.方法2——借助条件概率性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)331523男生(X=1)473601合计19212811243208042×2列联表列联表给出了成对分类变量数据的交叉分类频数.523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?性别对体育锻炼的经常性有影响:性别对体育锻炼的经常性无影响:频率稳定于概率性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124提示:对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理作出推断.例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测试得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.性别锻炼合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,可推断P(Y=1|X=0)>P(Y=1|X=1).乙校学生中数学成绩优秀的频率为:故可认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.不优秀的频率为0.7674不优秀的频率为0.8444甲校学生中数学成绩优秀的频率为:我们可以用等高堆积条形图直观地展示上述计算结果,如图所示.现在你能归纳2×2列联表的特点及意义吗?等高堆积条形图呢?1.列联表
XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+da+b+c+d(样本容量n)若不相等,则推断两个分类变量有关联或存在明显差异.若相等,则推断两个分类变量无关联或没有明显差异.要点归纳2.等高堆积条形图等高条形图展示可列联表数据的频率特征,依据频率稳定与概率的原理,我们可以推断结果.①和表格相比,等高条形图更能直观地反映出两个分类变量间是否相互影响.②比较同色的条形图高度差,若高度差明显,则判断两个分类变量有关系或存在明显差异.1.假设有两个分类变量X与Y,它们的可能取值分别为{0,1}和{0,1},其2×2列联表为:XY合计Y=0Y=1X=0101828X=1m26m+26合计10+m44m+54则当m取()时,X与Y的关系最弱.A.8
B.9C.14
D.19X与Y的关系几乎无关联C练一练2.某大学通过随机询问100名性别不同的大学生是否爱好某项运动后发现:爱好该项运动的男生有40人,接受调查的45名女生中有25人不爱好该项运动.请作出2×2列联表.解:列表如下:是否爱好性别合计男女爱好402060不爱好152540合计5545100练一练3.两个分类变量x,y之间关系最强的是()吸烟与患肺病有关联D练一练4.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:考前心情性格合计内向外向紧张332213545不紧张94381475合计4265941020练一练相应的等高堆积条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.判断两分类变量是否有关联的步骤(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y;(2)将样本数据整理成2×2列联表的形式;(3)计算并比较分类变量X和Y相应的频率;(4)用等高堆积条形图直观展示上述频率;(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.方法归纳思考2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?甲校学生中数学成绩优秀的频率为:乙校学生中数学成绩优秀的频率为:依据频率稳定于概率的原理,可推断P(Y=1|X=0)>P(Y=1|X=1).即甲校学生的数学成绩优秀率比乙校学生的高,故可认为两校学生的数学成绩优秀率存在差异.此结论是根据两个频率间存在差异推断出来的.但有可能在随机抽取的样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.思考3:有多大的把握推断“学校与优秀率有关”?这个推断犯错误的可能性多大?希望能对出现错误推断的概率有一定的控制或估算.①样本容量较小,导致频率与概率的误差较大;②样本具有随机性,因而频率有随机性,频
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 雨课堂学堂在线学堂云《体育科研方法(沈阳体育学院)》单元测试考核答案
- 雨课堂学堂在线学堂云《思想政治教育心理学(福建农林)》单元测试考核答案
- 【语文】《荷花淀》课件 2025-2026学年统编高二语文选择性必修中册
- 广东省惠州市名校2026届中考五模生物试题含解析
- 译林版英语五年级下册Unit4 (Grammar time Fun time)
- (2025年)人身保险合同题库及答案大全
- 2026年中医基础理论必刷200题含答案详解【培优A卷】
- 2026年国开电大审计学形考综合提升测试卷【历年真题】附答案详解
- 2026年国家开放大学电大专科《机械制图》形考自我提分评估附参考答案详解(完整版)
- (2025年)中国海洋大学海洋环境保护期末考试问题答案
- 2026上半年安徽黄山市休宁城乡建设投资集团有限公司及权属子公司招聘18人备考题库带答案详解(综合卷)
- 2026内蒙古地质矿产集团有限公司社会招聘65人笔试历年备考题库附带答案详解
- 广东江西稳派智慧上进教育联考2026届高三年级3月二轮复习阶段检测语文+答案
- 2026山东出版集团有限公司山东出版传媒股份有限公司招聘193人备考题库及完整答案详解【历年真题】
- 2025年宣城市辅警招聘考试真题(附答案)
- 2026年春季人教PEP版四年级下册英语Unit 2 Family rules 教案(共6课时)
- 《零碳办公建筑评价标准》
- 2025年电子技术春考笔试题及答案
- 呆滞物料管理规定
- 2023年安徽省淮南市招聘专职消防员37人笔试参考题库(共500题)答案详解版
- AB-PLC-5000-编程基础指令例说明
评论
0/150
提交评论