版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第20讲统计与成对数据的分析(3大考点+强化训练)[考情分析]高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.知识导图考点分类讲解考点一:统计图表、数字特征1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示eq\f(频率,组距),频率=组距×eq\f(频率,组距).2.在频率分布直方图中各小长方形的面积之和为1.3.利用频率分布直方图求众数、中位数与平均数.(1)最高的小长方形底边中点的横坐标即众数.(2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义.(2)频率分布直方图中纵坐标不要误以为是频率.【例1】(2024·陕西西安·二模)某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是(
)A.估计该学生每日完成作业的时间在2小时至2.5小时的有50天B.估计该学生每日完成作业时间超过3小时的概率为0.3C.估计该学生每日完成作业时间的平均数为2.75小时D.估计该学生每日完成作业时间的中位数与平均数相等【变式1】(23-24高三上·安徽亳州·期末)如图所示为某企业员工年龄(岁)的频率分布直方图,从左到右依次为第一组、第二组、……、第五组,若第五组的员工有80人,则第二组的员工人数为(
)A.140 B.240 C.280 D.320【变式2】(23-24高三下·内蒙古锡林郭勒盟·开学考试)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是(
)A.2023年“种植收入”和2022年“种植收入”一样多B.2023年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多C.2023年“外出务工收入”是2022年“外出务工收入”的D.2023年“其他收入”比2022年“其他收入”的2倍还多【变式3】(2024·甘肃·一模)小李一周的总开支分布如图(1)所示,其中一周的食品开支如图(2)所示,则以下判断错误的是(
)
A.小李这一周用于肉蛋奶的支出高于用于娱乐的支出B.小李这一周用于食品中其他类的支出在总支出中是最少的C.小李这一周用于主食的支出比用于通信的支出高D.小李这一周用于主食和蔬菜的总支出比日常支出高考点二:回归分析求经验回归方程的步骤(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).(2)计算出eq\x\to(x),eq\x\to(y),eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)).(3)写出经验回归方程.易错提醒(1)样本点不一定在经验回归直线上,但点(eq\x\to(x),eq\x\to(y))一定在经验回归直线上.(2)求eq\o(b,\s\up6(^))时,灵活选择公式,注意公式的推导和记忆.(3)利用样本相关系数判断相关性强弱时,看|r|的大小,而不是r的大小.(4)区分样本相关系数r与决定系数R2.(5)通过经验回归方程求的都是估计值,而不是真实值.【例2】(22-23高三下·浙江杭州·阶段练习)某公司在x年的销售额(万元)如下表,根据表中数据用最小二乘法得到的回归方程为,则当关于a,b的表达式取到最小值时,(
)x201720182019202020212022A.5 B.13C.8059 D.8077【变式1】(2023·上海奉贤·三模)已知两组数据和,其中且时,;且时,,,我们研究这两组数据的相关性,在集合中取一个元素作为a的值,使得相关性最强,则a=(
)A.8 B.11 C.12 D.13【变式2】(2024·河北·一模)集校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:身高(单位:167173175177178180181体重(单位:90545964677276由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是(
)A.B.C.D.【变式3】(22-23高三上·四川成都·阶段练习)以模型去拟合一组数据,设将其变换后得到线性回归方程,则原模型中的值分别是(
)A., B.,C., D.,考点三:独立性检验独立性检验的一般步骤(1)根据样本数据列2×2列联表.(2)根据公式χ2=eq\f(nad-bc2,a+bc+da+cb+d),计算χ2的值.(3)查表比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.易错提醒(1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.(2)在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.【例3】(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30合计附:P(K2≥k0)0.050.0250.0100.005k03.8415.0246.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是(
)A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”【变式1】(2024高三·全国·专题练习)下列命题中①散点图可以直观地判断两个变量是否具有线性相关关系;②回归直线就是散点图中经过样本数据点最多的那条直线;③回归分析和独立性检验没有什么区别;④回归直线一定经过样本中心点.其中正确的命题个数为()A. B. C. D.【变式2】(2024·广东广州·二模)根据分类变量与的成对样本数据,计算得到.依据的独立性检验,结论为(
)A.变量与独立B.变量与独立,这个结论犯错误的概率不超过C.变量与不独立D.变量与不独立,这个结论犯错误的概率不超过【变式3】(23-24高三上·四川成都·期末)在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下列联表(部分数据缺失):被某病毒感染未被某病毒感染合计注射疫苗1050未注射疫苗3050合计301000.10.050.010.0050.0012.7063.8416.6357.87910.828计算可知,根据小概率值______的独立性检验,分析“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”(
)附:,.A.0.001 B.0.05 C.0.01 D.0.005强化训练一、单选题1.(23-24高三下·四川绵阳·开学考试)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过(
)0.1000.0500.0250.0100.0012.7063.8415.0246.63510.828A. B. C. D.2.(2024·海南·模拟预测)某机构统计了1000名演员的学历情况,制作出如图所示的饼状图,其中本科学历的人数为630.现按比例用分层随机抽样的方法从中抽取200人,则抽取的硕士学历的人数为(
)
A.11 B.13 C.22 D.263.(21-22高二下·山东滨州·期末)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为()附:,附表:0.050.013.8416.635A.7 B.8 C.9 D.104.(23-24高三下·上海浦东新·阶段练习)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)不患肺癌患肺癌合计不吸烟24630吸烟61420合计302050根据表中数据,以下叙述正确的是:(
)A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关5.(2024·云南曲靖·一模)已知变量关于的回归方程为,若对两边取自然对数,可以发现与线性相关.现有一组数据如下表所示:12345则当时,预测的值为(
)A. B. C. D.6.(2024·四川成都·二模)高三某班学生每天完成作业所需的时间的频率分布直方图如图,为响应国家减负政策,若每天作业布置量在此基础上减少小时,则减负后完成作业的时间的说法中正确的是(
)A.减负后完成作业的时间的标准差减少B.减负后完成作业的时间的方差减少C.减负后完成作业的时间在小时以上的概率大于D.减负后完成作业的时间的中位数在至之间7.(23-24高三上·江西·期末)为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的为(
)A.的值为0.005 B.估计这组数据的众数为75分C.估计这组数据的第85百分位数为85分 D.估计成绩低于60分的有250人8.(23-24高三上·浙江绍兴·期末)平均数、中位数和众数都是刻画一组数据的集中趋势的信息,它们的大小关系和数据分布的形态有关.在下图分布形态中,分别对应这组数据的平均数、中位数和众数,则下列关系正确的是(
)A. B.C. D.二、多选题1.(23-24高三上·广东深圳·期末)为丰富优质旅游资源,释放旅游消费潜力,推动旅游业高质量发展,某地政府从2023年国庆期间到该地旅游的游客中,随机抽取部分游客进行调查,得到各年龄段游客的人数和对景区服务是否满意的数据,并绘制统计图如图所示,利用数据统计图估计,得到的结论正确的是(
)A.游客中,青年人是老年人的2倍多B.老年人的满意人数是青年人的2倍C.到该地旅游的游客中满意的中年人占总游客人数的24.5%D.到该地旅游的游客满意人数超过一半2.(2024·广西南宁·一模)下列说法中,正确的是(
)A.一组数据的第40百分位数为12B.若样本数据的方差为8,则数据的方差为2C.已知随机变量服从正态分布,若,则D.在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立3.(2024·云南·模拟预测)下列说法正确的是(
)A.设随机变量的均值为是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)B.若一组数据的方差为0,则所有数据都相同C.用决定系数比较两个回归模型的拟合效果时,越小,残差平方和越小,模型拟合效果越好D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变三、填空题1.(23-24高三下·北京海淀·开学考试)某直播间从参与购物的人群中随机选出200人,并将这200人按年龄分组,得到的频率分布直方图如图所示,则在这200人中年龄在的人数,直方图中.2.(23-24高三·天津滨海新·期末)下列说法中正确的有(填正确说法的序号).①回归直线恒过点,且至少过一个样本点;②若样本数据的方差为4,则数据的标准差为4;③已知随机变量,且,则;④若线性相关系数越接近1,则两个变量的线性相关性越弱;⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.3.(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30附:其中.0.100.050.0250.0100.00050.0012.7063.8415.0246.6357.87910.828已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是①列联表中c的值为30,b的值为35;②列联表中c的值为20,b的值为45;③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.四、解答题1.(2024·贵州毕节·二模)某地区工会利用“健步行APP”开展健步走活动.为了解会员的健步走情况,工会在某天从系统中抽取了100名会员,统计了当天他们的步数(千步为单位),并将样本数据分为,,,…,,九组,整理得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计样本数据的70%分位数;(2)据统计,在样本数据,,的会员中体检为“健康”的比例分别为,,,以频率作为概率,估计在该地区工会会员中任取一人,体检为“健康”的概率.2.(2024·宁夏吴忠·模拟预测)配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图1是一名马拉松跑者的心率(单位:次/分钟)和配速(单位:分钟/公里)的散点图,图2是一次马拉松比赛(全程约42公里)前3000名跑者成绩(单位:分钟)的频率分布直方图.(1)由散点图看出,可用线性回归模型拟合与的关系,求与的线性回归方程;(2)该跑者如果参加本次比赛,将心率控制在160次/分钟左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次,参考公式:线性回归方程中,,.3.(2024·黑龙江·二模)2023年是全面贯彻落实党的二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.某省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合产值如下:年份代码x,综合产值y(单位:亿元)年份20192020202120222023年份代码x12345综合产值y1.523.5815(1)请通过样本相关系数,推断y与x之间的相关程度;(若,则线性相关性程度很强;若,则线性相关性程度一般,若,则线性相关性程度很弱.)(2)求出y关于x的经验回归方程,并预测2024年该省刺梨产业的综合产值.参考公式:样本相关系数经验回归方程中斜率和截距的最小二乘法估计公式分别为,.参考数据:4.(2024·黑龙江齐齐哈尔·一模)睡眠是生命健康不可缺少的源泉,然而许多人被睡眠时长过短、质量不高等问题所困扰.2023年3月21日是第23个世界睡眠日,这一天某研究小组随机调查了某高校100名学生在某一天内的睡眠情况,将所得数据按照分成6组,制成如图所示的频率分布直方图:(1)求的值,并由频率分布直方图估计该校所有学生每一天的平均睡眠时长(同一组的数据用该组区间的中点值作代表);(2)每一天睡眠时长不低于7.75小时认定为睡眠充足,以频率代替概率,样本估计总体,在该高校学生中随机抽查3人,求至少有两人每一天睡眠时长充足的概率.5.(2024·安徽黄山·一模)某校高三年级名学生的高考适应性演练数学成绩频率分布直方图如图所示,其中成绩分组区间是、、、、、.(1)求图中的值,并根据频率分布直方图,估计这名学生的这次考试数学成绩的第百分位数;(2)从这次数学成绩位于、的学生中采用比例分配的分层随机抽样的方法抽取人,再从这人中随机抽取人,该人中成绩在区间的人数记为,求的分布列及数学期望.第20讲统计与成对数据的分析(3大考点+强化训练)[考情分析]高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.知识导图考点分类讲解考点一:统计图表、数字特征1.频率分布直方图中相邻两横坐标之差表示组距,纵坐标表示eq\f(频率,组距),频率=组距×eq\f(频率,组距).2.在频率分布直方图中各小长方形的面积之和为1.3.利用频率分布直方图求众数、中位数与平均数.(1)最高的小长方形底边中点的横坐标即众数.(2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义.(2)频率分布直方图中纵坐标不要误以为是频率.【例1】(2024·陕西西安·二模)某教育机构为调查中小学生每日完成作业的时间,收集了某位学生100天每天完成作业的时间,并绘制了如图所示的频率分布直方图(每个区间均为左闭右开),根据此直方图得出了下列结论,其中正确的是(
)A.估计该学生每日完成作业的时间在2小时至2.5小时的有50天B.估计该学生每日完成作业时间超过3小时的概率为0.3C.估计该学生每日完成作业时间的平均数为2.75小时D.估计该学生每日完成作业时间的中位数与平均数相等【答案】C【分析】直接根据直方图来计算判断每一个选项.【详解】对于A:估计该学生每日完成作业的时间在2小时至2.5小时的有天,A错误;对于B:估计该学生每日完成作业时间超过3小时的概率为,B错误;对于C:,C正确;对于D:估计该学生每日完成作业时间的中位数为,则,解得,D错误.故选:C.【变式1】(23-24高三上·安徽亳州·期末)如图所示为某企业员工年龄(岁)的频率分布直方图,从左到右依次为第一组、第二组、……、第五组,若第五组的员工有80人,则第二组的员工人数为(
)A.140 B.240 C.280 D.320【答案】C【分析】根据频率分布直方图的性质,求得的值,进一步计算即可
.【详解】由已知得,所以,因为第五组的员工人数为80,所以第二组的员工人数为.故选:C.【变式2】(23-24高三下·内蒙古锡林郭勒盟·开学考试)为了积极推进国家乡村振兴战略,某示范村不断自主创新,拓宽村民增收渠道,近年来取得了显著成效.据悉该村2023年经济总收入是2022年的2倍,为了更好地了解该村经济收入变化情况,统计了该村两年的经济收入构成比例,得到如图所示的条形图和饼图.则以下说法错误的是(
)A.2023年“种植收入”和2022年“种植收入”一样多B.2023年“养殖收入”与“第三产业收入”之和比2022年的全年总收入还多C.2023年“外出务工收入”是2022年“外出务工收入”的D.2023年“其他收入”比2022年“其他收入”的2倍还多【答案】C【分析】设2022年总收入为m,则2023年总收入为,A选项,分别计算出2022年和2023年种植收入,得到A正确;B选项,计算出,B正确;C选项,分别计算出2022年和2023年外出务工收入,得到C错误;D选项,分别计算出2022年和2023年其他收入,得到D正确.【详解】设2022年总收入为m,则2023年总收入为,对于A,2022年种植收入为,2023年种植收入为,A正确;对于B,2023年养殖收入和第三产业收入之和为,B正确;对于C,2022年外出务工收入为,2023年外出务工收入为,是2022年外出务工收入的,C不正确;对于D,2022年其他收入为,2023年其他收入为,由于,故2023年其他收入比2022年其他收入的2倍还多,D正确.故选:C.【变式3】(2024·甘肃·一模)小李一周的总开支分布如图(1)所示,其中一周的食品开支如图(2)所示,则以下判断错误的是(
)
A.小李这一周用于肉蛋奶的支出高于用于娱乐的支出B.小李这一周用于食品中其他类的支出在总支出中是最少的C.小李这一周用于主食的支出比用于通信的支出高D.小李这一周用于主食和蔬菜的总支出比日常支出高【答案】D【分析】条形图各支出占食品支出的比例乘以即是条形图各支出占总支出的比例,由此关系即可逐一判断每一个选项.【详解】对于A,肉蛋奶的支出占食品开支的,从而小李这一周用于肉蛋奶的支出占比(总开支是单位1)与用于娱乐的支出占比(总开支是单位1)大小关系为,故A描述正确,不符合题意;对于B,小李这一周用于食品中其他类的支出在总支出中占比为,对比其他类型的支出占比可知,B描述正确,不符合题意;对于C,小李这一周用于主食的支出占比(总开支是单位1)与通信的支出占比(总开支是单位1)的大小关系为,,故C描述正确,不符合题意;对于D,小李这一周用于主食和蔬菜的总支出占比(总开支是单位1)与日常支出占比(总开支是单位1)的大小关系为,,故D描述错误,符合题意.故选:D.考点二:回归分析求经验回归方程的步骤(1)依据成对样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).(2)计算出eq\x\to(x),eq\x\to(y),eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)).(3)写出经验回归方程.易错提醒(1)样本点不一定在经验回归直线上,但点(eq\x\to(x),eq\x\to(y))一定在经验回归直线上.(2)求eq\o(b,\s\up6(^))时,灵活选择公式,注意公式的推导和记忆.(3)利用样本相关系数判断相关性强弱时,看|r|的大小,而不是r的大小.(4)区分样本相关系数r与决定系数R2.(5)通过经验回归方程求的都是估计值,而不是真实值.【例2】(22-23高三下·浙江杭州·阶段练习)某公司在x年的销售额(万元)如下表,根据表中数据用最小二乘法得到的回归方程为,则当关于a,b的表达式取到最小值时,(
)x201720182019202020212022A.5 B.13C.8059 D.8077【答案】D【分析】表达式表示的是样本点与回归直线方程的整体接近程度,故可根据此意义逆向分析的意义,结合条件即可解决之.【详解】由题意得,,表示样本点与回归直线的整体接近程度,且由样本点构成的表为k123456对应的回归直线方程为:,由表知,所以,由题意可知:在散点图中,样本点是将样本点整体向左平移了2016个单位,故取到最小值时,回归直线与必平行,则有,所以,所以.故选:D.【变式1】(2023·上海奉贤·三模)已知两组数据和,其中且时,;且时,,,我们研究这两组数据的相关性,在集合中取一个元素作为a的值,使得相关性最强,则a=(
)A.8 B.11 C.12 D.13【答案】B【分析】根据相关性与线性回归方程的关系即可得到答案.【详解】设点坐标为,且,由题意得前9个点位于直线上,面,则要使相关性更强,应更接近10,四个选项中11更接近10,故选:B.【变式2】(2024·河北·一模)集校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:身高(单位:167173175177178180181体重(单位:90545964677276由表格制作成如图所示的散点图:
由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是(
)A.B.C.D.【答案】A【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.【详解】身高的平均数为,因为离群点的横坐标167小于平均值176,纵坐标90相对过大,所以去掉后经验回归直线的截距变小而斜率变大,故去掉后相关性更强,拟合效果也更好,且还是正相关,,故选:A.【变式3】(22-23高三上·四川成都·阶段练习)以模型去拟合一组数据,设将其变换后得到线性回归方程,则原模型中的值分别是(
)A., B.,C., D.,【答案】B【分析】根据已知条件,结合对数函数的公式可得,再结合线性回归方程即可求解.【详解】两边取对数,可得,令可得∵线性回归方程∴,解得.故选:B.考点三:独立性检验独立性检验的一般步骤(1)根据样本数据列2×2列联表.(2)根据公式χ2=eq\f(nad-bc2,a+bc+da+cb+d),计算χ2的值.(3)查表比较χ2与临界值的大小关系,作统计判断.χ2越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.易错提醒(1)χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.(2)在犯错误的概率不大于0.01的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.01.【例3】(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30合计附:P(K2≥k0)0.050.0250.0100.005k03.8415.0246.6357.879已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是(
)A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”【答案】C【分析】根据题中条件计算可判断选项A、B;根据列联表计算出的值,即可判断选项C,D.【详解】由题意知,成绩优秀的学生数是,成绩非优秀的学生数是75,所以,选项A、B错误;根据列联表中的数据,得到因此有97.5%的把握认为“成绩与班级有关系”.故C正确,D错误,故选:C.【变式1】(2024高三·全国·专题练习)下列命题中①散点图可以直观地判断两个变量是否具有线性相关关系;②回归直线就是散点图中经过样本数据点最多的那条直线;③回归分析和独立性检验没有什么区别;④回归直线一定经过样本中心点.其中正确的命题个数为()A. B. C. D.【答案】B【分析】利用散点图、回归直线、独立性检验的知识分析判断各个命题即得.【详解】散点图可以直观地判断两个变量是否具有线性相关关系,故①正确;回归直线可以不经过散点图中的任何一个点,故②错误;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,独立性检验是对两个变量是否具有某种关系的分析,故③错误;回归直线一定经过样本中心点,故④正确.所以正确的命题个数为个.故选:B.【变式2】(2024·广东广州·二模)根据分类变量与的成对样本数据,计算得到.依据的独立性检验,结论为(
)A.变量与独立B.变量与独立,这个结论犯错误的概率不超过C.变量与不独立D.变量与不独立,这个结论犯错误的概率不超过【答案】A【分析】根据独立性检验的基本思想可得结论.【详解】因为,所以,依据的独立性检验,我们认为变量与独立,故选:A.【变式3】(23-24高三上·四川成都·期末)在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下列联表(部分数据缺失):被某病毒感染未被某病毒感染合计注射疫苗1050未注射疫苗3050合计301000.10.050.010.0050.0012.7063.8416.6357.87910.828计算可知,根据小概率值______的独立性检验,分析“给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”(
)附:,.A.0.001 B.0.05 C.0.01 D.0.005【答案】B【分析】计算卡方,再根据独立性检验的概念判断即可.【详解】完善列联表如下:被某病毒感染未被某病毒感染合计注射疫苗104050未注射疫苗203050合计3070100假设:“给基因编辑小鼠注射该疫苗不能起到预防该病毒感染的效果”.因为:,而,所以根据小概率值的独立性检验,推断不成立.即认为“给基因编辑小鼠注射该疫苗能起到预防该病毒感染的效果”.故选:B强化训练一、单选题1.(23-24高三下·四川绵阳·开学考试)为研究高中生的性别与是否喜欢数学课程之间的关系,运用列联表进行检验,经计算,参考下表,则认为“性别与喜欢数学有关”犯错误的概率不超过(
)0.1000.0500.0250.0100.0012.7063.8415.0246.63510.828A. B. C. D.【答案】B【分析】根据与临界值的大小关系确定犯错误的概率的范围.【详解】因为,结合表格可知,所以认为“性别与喜欢数学有关”犯错误的概率不超过0.010.故选:B.2.(2024·海南·模拟预测)某机构统计了1000名演员的学历情况,制作出如图所示的饼状图,其中本科学历的人数为630.现按比例用分层随机抽样的方法从中抽取200人,则抽取的硕士学历的人数为(
)
A.11 B.13 C.22 D.26【答案】D【分析】由饼状图先算出硕士学历的人数与总人数1000之比,进一步结合分层抽样的方法即可求解.【详解】由题意硕士学历的人数与总人数1000之比为,现按比例用分层随机抽样的方法从中抽取200人,则抽取的硕士学历的人数为.故选:D.3.(21-22高二下·山东滨州·期末)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为()附:,附表:0.050.013.8416.635A.7 B.8 C.9 D.10【答案】C【分析】由已知数据计算,根据独立性检验的结论,列不等式求的取值范围,得最小值.【详解】根据题意,不妨设,于是,由于依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,于是最小值为.故选:C4.(23-24高三下·上海浦东新·阶段练习)为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了50人,得到如下结果(单位:人)不患肺癌患肺癌合计不吸烟24630吸烟61420合计302050根据表中数据,以下叙述正确的是:(
)A.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关B.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关C.可以通过计算,结合统计决断,判断:有的把握认为吸烟与患肺癌有关D.可以通过计算,结合统计决断,判断:不能否定吸烟与肺癌无关【答案】C【分析】利用卡方计算公式求得,再利用独立性检验中的意义即可得解.【详解】由题意,得,则,所以有的把握认为“吸烟与患肺癌有关有关”.故选:C.5.(2024·云南曲靖·一模)已知变量关于的回归方程为,若对两边取自然对数,可以发现与线性相关.现有一组数据如下表所示:12345则当时,预测的值为(
)A. B. C. D.【答案】C【分析】令,可得出,求出、的值,将、的值代入,求出的值,可得出变量关于的回归方程,然后令,可得出的值.【详解】令,由可得,如下表所示:由表格中的数据可得,,则有,解得,故,当时,.故选:C.6.(2024·四川成都·二模)高三某班学生每天完成作业所需的时间的频率分布直方图如图,为响应国家减负政策,若每天作业布置量在此基础上减少小时,则减负后完成作业的时间的说法中正确的是(
)A.减负后完成作业的时间的标准差减少B.减负后完成作业的时间的方差减少C.减负后完成作业的时间在小时以上的概率大于D.减负后完成作业的时间的中位数在至之间【答案】D【分析】根据方差、标准差的性质判断A、B,由频率分布直方图分析减负前完成作业的时间在小时以上的概率,即可判断C,分析减负前完成作业的时间的中位数位于之间,即可判断D.【详解】依题意若每天作业布置量在此基础上减少小时,则平均数减小小时,方差和标准差均不变,故A、B错误;减负前完成作业的时间在小时以上的概率为,所以减负后完成作业的时间在小时以上的概率为,故C错误;由频率分布直方图可得,,所以减负前完成作业的时间的中位数位于之间,所以减负后完成作业的时间的中位数在至之间,故D正确.故选:D7.(23-24高三上·江西·期末)为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化的党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法错误的为(
)A.的值为0.005 B.估计这组数据的众数为75分C.估计这组数据的第85百分位数为85分 D.估计成绩低于60分的有250人【答案】C【分析】由频率分布直方图面积之和为1可计算从而判断A,由众数定义可判断B,计算低于60(分)的人数即可判断D,根据百分位数的定义计算即可判断C.【详解】根据频率分布直方图可知:,即,故A正确;由图易得在区间,的人最多,故可估计这组数据的众数为75,故B正确;,故成绩低于60(分)的有250人,即D正确;由图中前四组面积之和为:,图中前五组面积之和为:,故这组数据的第85百分位数在第五组数据中,设这组数据的第85百分位数为,则有,故,即估计这组数据的第85百分位数为86分,故C错误.故选:C.8.(23-24高三上·浙江绍兴·期末)平均数、中位数和众数都是刻画一组数据的集中趋势的信息,它们的大小关系和数据分布的形态有关.在下图分布形态中,分别对应这组数据的平均数、中位数和众数,则下列关系正确的是(
)A. B.C. D.【答案】C【分析】根据直方图矩形高低以及数据的分布趋势,判断即可得出结论.【详解】众数是最高矩形的中点横坐标,因此众数在第二列的中点处.因为直方图第一、二、三、四列高矩形较多,且在右边拖尾低矩形有三列,所以中位数大于众数,右边拖尾的有三列,所以平均数大于中位数,因此有.故选:C.二、多选题1.(23-24高三上·广东深圳·期末)为丰富优质旅游资源,释放旅游消费潜力,推动旅游业高质量发展,某地政府从2023年国庆期间到该地旅游的游客中,随机抽取部分游客进行调查,得到各年龄段游客的人数和对景区服务是否满意的数据,并绘制统计图如图所示,利用数据统计图估计,得到的结论正确的是(
)A.游客中,青年人是老年人的2倍多B.老年人的满意人数是青年人的2倍C.到该地旅游的游客中满意的中年人占总游客人数的24.5%D.到该地旅游的游客满意人数超过一半【答案】ACD【分析】根据题意结合统计图表逐项分析判断.【详解】由扇形统计图可知青年人占比是老年人占比的2倍多,故A正确;其中满意的青年人占总人数的,满意的中年人占总人数的,满意的老年人占总人数的,故B错误,C正确;总满意率为,故D正确.故选:.2.(2024·广西南宁·一模)下列说法中,正确的是(
)A.一组数据的第40百分位数为12B.若样本数据的方差为8,则数据的方差为2C.已知随机变量服从正态分布,若,则D.在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立【答案】BC【分析】对A,根据百分位数的定义求解即可;对B,根据方差的公式推导数据的方差与的方差关系求解即可;对C,根据正态分布的对称性推导即可;对D,由独立性检验的性质判断即可.【详解】对A,由于共10个数据,且,故第40百分位数为第4,5个数据的平均数为,故A错误;对B,设数据的平均数为,方差为,则数据的平均数为,方差为,所以,故B正确;对C,则,即,由正态分布的性质可得,故C正确;对D,在独立性检验中,零假设为:分类变量和独立.基于小概率值的独立性检验规则是:当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,可以认为和独立.故D错误.故选:BC3.(2024·云南·模拟预测)下列说法正确的是(
)A.设随机变量的均值为是不等于的常数,则相对于的偏离程度小于相对于的偏离程度(偏离程度用差的平方表示)B.若一组数据的方差为0,则所有数据都相同C.用决定系数比较两个回归模型的拟合效果时,越小,残差平方和越小,模型拟合效果越好D.在对两个分类变量进行独立性检验时,如果列联表中所有数据都扩大为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论不会发生改变【答案】AB【分析】根据均值的性质,方差的公式及决定系数的含义可判断A,B,C;根据独立性检验的含义可判断D.【详解】对于:由均值的性质可知,由于是不等于的常数,故可得,即相对于的偏离程度小于相对于的偏离程度,A正确;对于:根据方差公式,可知若一组数据,的方差为0,则正确;对于:由决定系数的定义可知,错误;对于D:如果列联表中所有数据都扩大为原来的10倍,则的值变为原来的10倍,在相同的检验标准下,再去判断两变量的关联性时,结论可能发生改变,D错误,故选:AB.三、填空题1.(23-24高三下·北京海淀·开学考试)某直播间从参与购物的人群中随机选出200人,并将这200人按年龄分组,得到的频率分布直方图如图所示,则在这200人中年龄在的人数,直方图中.【答案】【分析】利用频率分布直方图求出年龄在的频率即可求出;由各小矩形面积和为1求出.【详解】由频率分布直方图知,年龄在的频率为,所以;由于,所以.故答案为:30;0.0352.(23-24高三·天津滨海新·期末)下列说法中正确的有(填正确说法的序号).①回归直线恒过点,且至少过一个样本点;②若样本数据的方差为4,则数据的标准差为4;③已知随机变量,且,则;④若线性相关系数越接近1,则两个变量的线性相关性越弱;⑤是用来判断两个分类变量是否相关的随机变量,当的值很小时可以推断两个变量不相关.【答案】②③【分析】根据线性回归方程的概念可以判断①,根据方差的性质可以判断②,根据正态分布的性质可以判断③,根据相关系数的概念可以判断④,根据独立性检验的基本概念可以判断⑤.【详解】因为回归直线可以不过样本点,所以①错误;由于,所以数据的方差为16,故标准差为4,因此②正确;根据正态分布的概念,,故,即,故,因此③正确;根据相关系数的概念,若线性相关系数越接近1,则两个变量的线性相关性越强,故④错误;的值很小时只能说明两个变量的相关性不强,故⑤错误.故答案为:②③3.(23-24高三上·宁夏银川·阶段练习)有甲、乙两个班级共计105人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10b乙班c30附:其中.0.100.050.0250.0100.00050.0012.7063.8415.0246.6357.87910.828已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是①列联表中c的值为30,b的值为35;②列联表中c的值为20,b的值为45;③根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”;④根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”.【答案】②③【分析】由成绩优秀的概率,可求的成绩优秀的人数,进而求出非优秀人数,得到的值,计算的观测值,对照题目中的表格,即可得到结论.【详解】由题意,在全部的105人中随机抽取1人,成绩优秀的概率为,所以成绩优秀的人数为人,非优秀的人数为人,所以,故①错误,②正确;则,若按的可靠性要求,能认为“成绩与班级有关系”,故③正确,④错误.故答案为:②③.【点睛】关键点睛:熟练掌握的计算方法是本题解决的关键.四、解答题1.(2024·贵州毕节·二模)某地区工会利用“健步行APP”开展健步走活动.为了解会员的健步走情况,工会在某天从系统中抽取了100名会员,统计了当天他们的步数(千步为单位),并将样本数据分为,,,…,,九组,整理得到如图所示的频率分布直方图.(1)根据频率分布直方图,估计样本数据的70%分位数;(2)据统计,在样本数据,,的会员中体检为“健康”的比例分别为,,,以频率作为概率,估计在该地区工会会员中任取一人,体检为“健康”的概率.【答案】(1)14.5(2)0.38【分析】(1)根据频率分布直方图和总体百分位数的定义直接求解即可.(2)设任取的会员数据在,,中分别为事件,,,先求出对应概率,即可求解体检为“健康”的概率.【详解】(1)解:(1)由于在的样本数据比例为:∴样本数据的70%分位数在内∴估计为:.(2)(2)设任取的会员数据在,,中分别为事件,,,∴,,设事件在该地区工会会员中任取一人体检为“健康”.2.(2024·宁夏吴忠·模拟预测)配速是马拉松运动中常使用的一个概念,是速度的一种,是指每公里所需要的时间,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 血液系统疾病患者的心理护理
- 四川省广福初级中学2025-2026学年初三第四次模拟数学试题试卷含解析
- 广东省汕尾市甲子镇瀛江校2026届初三年级第一次模拟考试(二)物理试题含解析
- 河南省新乡市延津县重点中学2026年下学期初三四月考物理试题试卷含解析
- 2026年浙江省丽水市级名校初三年级开学摸底考试物理试题试卷含解析
- 广西北流市重点名校2025-2026学年中考数学试题一轮复习模拟试题含解析
- 臭氧大自血护理中的护理伦理与法律问题
- 护理化妆师专业培训课程
- 腹部手术患者血糖监测与管理
- 审计人员派驻制度
- 2026年医院年度经济运营分析报告
- 2026广东中山市神湾镇神湾社区居民委员会招聘1人考试参考题库及答案解析
- (新教材)2026年春期教科版二年级下册科学教学计划及进度表
- 2025年贵州省中考物理试题【含答案、解析】
- 阳泉煤业集团兴峪煤业有限责任公司煤炭资源开发利用和矿山环境保护与土地复垦方案
- 周三多《管理学》笔记整理
- 首件确认制度
- 安徽绿沃循环能源科技有限公司12000t-a锂离子电池高值资源化回收利用项目(重新报批)环境影响报告书
- 东方汽轮机高低旁液压油站使用说明书
- 高等学校辅导员管理规定
- 高二心理健康教教育课完整版
评论
0/150
提交评论