版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.3列联表与独立性检验预习检测在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题。例如:就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否存在区别,吸烟是否会增加患肺癌的风险等。为了方便表述eg:班级:1、2、3,男生、女生:0、1本节主要讨论取值于{0,1}的分类变量的关联性。在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量比较经常锻炼的学生在女生和男中的比率.男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。解法一:问题1:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解法二:对于Ω中的每一名学生,分别令性别对体育锻炼的经常性没有影响:性别对体育锻炼的经常性有影响:问题1:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)男生(X=1)合计问题1:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?19233112847352360132080411242✖2列联表的概念XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d分类变量X和Y的抽样数据的2✖2列联表:用途:可以清晰的给出成对分类变量数据的交叉分类频数。在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:
学校数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788所以
例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.解:我们可以用等高堆积条形图直观地展示上述计算结果:
通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.两个分类变量之间关联关系的定性分析的方法定义一对分类变量X和Y,我们整理数据有2×2列联表
总计cae23d48
总计b78121A.54,43B.53,43C.53,42 D.54,42B观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是(
)ABCDD现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图,根据这两幅图中的信息,下列哪个统计结论是不正确的(
)DA.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于
有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理由于数据的随机性,这一推断有可能是错误的!那么犯错误的概率有多大呢?如何从概率的角度去研究两个分类变量X和Y是否有关联?将问题数学化,尝试用数学语言描述一下两个分类变量是否有关联.事件{Y=1}与事件{X=1}或事件{X=0}是否有关联.概率语言从集合{X=0}中随机先取一个样本点,该样本点属于{X=0,Y=1}的概率从集合{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率
判定根据条件概率的计算方法不同学校对数学成绩没有影响P(Y=1|X=0)=P(Y=1|X=1)不同学校对数学成绩有影响P(Y=1|X=0)≠P(Y=1|X=1)判断依据性别数学成绩合计不优秀(Y=0)优秀(Y=1)甲校(X=0)331043乙校(X=1)38745合计711788P(Y=1|X=0)>P(Y=1|X=1)故两个不同的学校对数学成绩是有影响的在统计中:构造适当的统计量,对成对的分类变量X和Y是否相互独立作出推断由条件概率的定义可知,零假设H0:P(Y=1|X=0)=P(Y=1|X=1)或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0)①P(X=0,Y=0)=P(X=0)P(Y=0);P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0);P(X=1,Y=1)=P(X=1)P(Y=1).②{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.由于分类变量之间结合列联表中的数据可得综合②中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:
反之,当这些量的取值较大时,就可以推断H0不成立.化简得将四个差的绝对值取平方后分别除以相应的期望值再求和
决定了卡方值的大小
小概率事件在一次试验中不大可能发生依据:独立性检验临界值表:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828独立性检验的基本思想:类似于数学的反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,①首先,假设该结论不成立,即假设结论“两个分类变量没有关系”成立。②其次,计算构造的随机变量K2,如果由观测数据计算得到的k很大,则在一定程度上说明假设不合理。③最后,根据随机变量K2的含义,利用P(K2≥k0)的值评价假设不合理的程度。(k0叫临界值)χ2独立性检验中几个常用的小概率值和相应的临界值.我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;(2)当χ2<x0.05=3.841时,我们没有充分证据推断H0不成立,可以认为X和Y独立,即两类变量没影响例如:对于小概率值α=0.05,我们有如下的具体检测规则:(1)当χ2≥x0.05=3.841时,α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.
学校数学成绩合计不优秀优秀甲校331043乙校38745合计711788由题意得2×2列联表由表中数据,计算得到:故可以认为H0成立即认为两校的数学成绩优秀率没有差异012×2列联表03
计算卡方04确定临界值,如:犯错误的概率不会超过0.01.独立性检验的一般步骤学校数学成绩合计不优秀优秀甲校乙校合计02
假
设05给出推断结果及其解释H0的反面成立】
解:
在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(
)A.平均数与方差 B.回归分析C.独立性检验 D.概率C分类变量X和Y的列表如下,则下列说法判断正确的是(
)A.ad-bc越小,说明X和Y关系越弱B.ad-bc越大,说明X和Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026六年级道德与法治上册 法律增强我们意识
- BBC人工智能纪录片
- 2024年公共安全第一课观后感主题作文范文5篇
- 儿童健康内容指南
- 2023年度事业单位笔试《公共基础知识》备考模拟题及答案
- 2023年中级经济师考试经济基础知识预习第一部分
- 药品经营质量管理规范附录检查内容
- 2023年职业技能实训行政组织学参考答案
- 物流企业财务管理分类练习题资本成本与资本结构有答案
- 2023年趣味化学知识竞赛选择题
- 2026春季四川成都环境投资集团有限公司下属成都市兴蓉环境股份有限公司校园招聘47人笔试参考题库及答案解析
- 2025年初中入团资格筛查考试题库及答案
- 2025年采购询价单格式模板
- 2025新疆立新能源股份有限公司招聘15人笔试参考题库附带答案详解
- 2026贵州南方乳业股份有限公司管理类岗位第一批次招聘33人考试参考题库及答案解析
- 2026江苏徐州丰县综合检验检测中心招聘编外工作人员10人笔试参考题库及答案解析
- 基坑工程监测专项技术方案
- 汉中职业技术学院2025年招聘辅导员试题及答案
- 社区卫生服务站统计信息管理制度
- 少年宫教师培训制度
- 社区规范升国旗制度
评论
0/150
提交评论