第02讲 成对数据的统计分析(五大题型)(讲义)-2024年高考数学复习讲练测(新教材新高考)(解析版)_第1页
第02讲 成对数据的统计分析(五大题型)(讲义)-2024年高考数学复习讲练测(新教材新高考)(解析版)_第2页
第02讲 成对数据的统计分析(五大题型)(讲义)-2024年高考数学复习讲练测(新教材新高考)(解析版)_第3页
第02讲 成对数据的统计分析(五大题型)(讲义)-2024年高考数学复习讲练测(新教材新高考)(解析版)_第4页
第02讲 成对数据的统计分析(五大题型)(讲义)-2024年高考数学复习讲练测(新教材新高考)(解析版)_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第页第02讲成对数据的统计分析目录考点要求考题统计考情分析(1)了解样本相关系数的统计含义.(2)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.(3)会利用统计软件进行数据分析.2023年上海卷第14题,4分2023年天津卷第7题,5分2023年甲卷(文)第19题,12分2022年I卷第20题,12分从近五年的全国卷的考查情况来看,本节是高考的热点,主要以解答题形式出现,经常与概率综合出题,一般难度为中等.也可能以选择题、填空题形式出现,难度不大.主要以应用题的方式出现,多与经济、生活实际相联系,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题.知识点一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.(1)当时,表示两个变量正相关;当时,表示两个变量负相关.(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.(3)通常当时,认为两个变量具有很强的线性相关关系.知识点二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为其中,,,(,)称为样本点的中心.2、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.知识点三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.知识点四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.0.100.050.0100.0050.0012.7063.8416.6357.87910.828【解题方法总结】常见的非线性回归模型(1)指数函数型(且,)两边取自然对数,,即,令,原方程变为,然后按线性回归模型求出,.(2)对数函数型令,原方程变为,然后按线性回归模型求出,.(3)幂函数型两边取常用对数,,即,令,原方程变为,然后按线性回归模型求出,.(4)二次函数型令,原方程变为,然后按线性回归模型求出,.(5)反比例函数型型令,原方程变为,然后按线性回归模型求出,.题型一:变量间的相关关系例1.(2023·河北·高三校联考期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是(

)A.

B.

C.

D.

【答案】D【解析】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,显然D选项的拟合精度最高.故选:D.例2.(2023·天津蓟州·高三校考开学考试)对两个变量,进行线性相关检验,得线性相关系数,对两个变量,进行线性相关检验,得线性相关系数,则下列判断正确的是(

)A.变量与正相关,变量与负相关,变量与的线性相关性较强B.变量与负相关,变量与正相关,变量与的线性相关性较强C.变量与正相关,变量与负相关,变量与的线性相关性较强D.变量与负相关,变量与正相关,变量与的线性相关性较强【答案】C【解析】因为线性相关系数,所以,正相关,因为线性相关系数,所以,负相关,又因为,所以变量,的线性相关性比,的线性相关性强,故A、B、D错误,C正确.故选:C.例3.(2023·宁夏吴忠·高三盐池高级中学校考阶段练习)在如图所示的散点图中,若去掉点,则下列说法正确的是(

A.样本相关系数变大B.变量与变量的相关程度变弱C.变量与变量呈正相关D.变量与变量的相关程度变强【答案】D【解析】由散点图知,自变量与因变量呈负相关,即,故C错误;去掉点后,进一步接近1,所以变小,故A错误;去掉点后,与的线性相关加强,即相关程度变强,故B错误,D正确.故选:D.变式1.(2023·四川成都·高三统考阶段练习)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是(

)A.相关指数误差平方和均方根值0.9498.4910.499B.相关指数误差平方和均方根值0.9334.1790.436C.相关指数误差平方和均方根值0.9971.7010.141D.相关指数误差平方和均方根值0.9972.8990.326【答案】C【解析】相关指数越接近于1,拟合效果越好,比较相关指数知,可选C,D,误差平方和及均方根值都越小,拟合效果越好,观察误差平方和和均方根值,知C的拟合效果最好.故选:C.变式2.(2023·高三课时练习)甲、乙、丙、丁四位同学各自对,A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则能体现A,B两变量有更强的线性相关性的是(

)A.甲 B.乙 C.丙 D.丁【答案】D【解析】在验证两个变量之间的线性相关关系中,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大,残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现、两变量有更强的线性相关性,故选:D.变式3.(2023·河北石家庄·统考三模)观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是(

)A. B.C. D.【答案】B【解析】根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为的随机变量的观测值.对于A选项,残差与观测时间有线性关系,故A错;对于B选项,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内;故B正确;对于C选项,残差与观测时间有非线性关系,故C错;对于D选项,残差的方差不是一个常数,随着观测时间变大而变大,故D错.故选:B.变式4.(2023·全国·高三专题练习)甲、乙、丙、丁四位同学分别对一组变量进行线性相关试验,并分别计算出相关系数,则线性相关程度最高的是(

)甲乙丙丁0.870.910.580.83A.甲 B.乙 C.丙 D.丁【答案】B【解析】因为相关系数越大,线性相关程度越强,所以线性相关程度最高的是乙.故选:B变式5.(2023·全国·高三专题练习)给出下列有关线性回归分析的四个命题:①线性回归直线未必过样本数据点的中心;②回归直线就是散点图中经过样本数据点最多的那条直线;③当相关系数时,两个变量正相关;④如果两个变量的相关性越强,则相关系数就越接近于.其中真命题的个数为(

)A. B. C. D.【答案】A【解析】对于①,线性回归直线一定过样本数据点的中心,故①错误;对于②,回归直线在散点图中可能不经过任何一个样本数据点,故②错误;对于③,当相关系数时,两个变量正相关,故③正确;对于④,如果两个变量的相关性越强,则相关性系数就越接近于或,故④错误.故真命题的个数为1,故选:A.【解题方法总结】判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当时,正相关;当时,负相关.题型二:一元线性回归模型例4.(2023·天津蓟州·高三校考开学考试)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数天

繁殖个数千个

由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为(

)A. B. C. D.【答案】B【解析】由题中数据可得:,,因为回归直线必过样本中心,所以,所以,所以当时,,故选:B例5.(2023·湖南长沙·高三长郡中学校联考阶段练习)某社区为了丰富退休人员的业余文化生活,自2018年以来,始终坚持开展“悦读小屋读书活动”.下表是对2018年以来近5年该社区退休人员的年人均借阅量的数据统计:年份20182019202020212022年份代码12345年人均借阅量(册)162228(参考数据:)通过分析散点图的特征后,年人均借阅量关于年份代码的回归分析模型为,则2023年的年人均借阅量约为(

)A.31 B.32 C.33 D.34【答案】C【解析】因为,,所以,即.所以回归方程为,当时,.故选:C.例6.(2023·辽宁·辽宁实验中学校考模拟预测)已知x,y的对应值如下表所示:x02468y111若y与x线性相关,且回归直线方程为,则(

)A.2 B.3 C.4 D.5【答案】B【解析】,又回归直线方程为,所以,解得.故选:B.变式6.(2023·广西南宁·南宁二中校联考模拟预测)某单位在当地定点帮扶某村种植一种草莓,并把这种原本露天种植的草莓搬到了大棚里,获得了很好的经济效益.根据资料显示,产出的草莓的箱数x(单位:箱)与成本y(单位:千元)的关系如下:x102030406080y(1)根据散点图可以认为x与y之间存在线性相关关系,请用最小二乘法求出线性回归方程(,用分数表示)(2)某农户种植的草莓主要以300元/箱的价格给当地大型商超供货,多余的草莓全部以200元/箱的价格销售给当地小商贩.据统计,往年1月份当地大型商超草莓的需求量为50箱、100箱、150箱、200箱的概率分别为,,,,根据回归方程以及往年商超草莓的需求情况进行预测,求今年1月份农户草莓的种植量为200箱时所获得的利润情况.(最后结果精确到个位)附:,,在线性回归直线方程中,.【解析】(1)因为,,所以,由题意可知,所以,又因为,所以回归方程为.(2)由回归方程知,若农户草莓的种植量为200箱,则成本为(千元).设农户草莓的种植量为200箱时的收入为元,200箱草莓供给大型商超和小商贩分别箱和,显然,由题意,因此以及Y的可能取值如下表:5010015020015010050045000500005500060000所以Y的分布列为:Y45000500005500060000P所以,所以预测所获利润约为元.变式7.(2023·江西·高三统考开学考试)某新能源汽车销售部对今年1月至7月的销售量进行统计与分析,因不慎丢失一些数据,现整理出如下统计表与一些分析数据:月份1月2月3月4月5月6月7月月份代号1234567销售量(单位:万辆)15.637.739.644.5其中.(1)若,,成递增的等差数列,求从7个月的销售量中任取1个,月销售量不高于27万辆的概率;(2)若,与的样本相关系数,求关于的线性回归方程,并预测今年8月份的销售量(精确到0.1).附:相关系数,线性回归方程中斜率和截距的最小二乘估计公式分别为,.参考数据:,.【解析】(1)因为.所以,所以,又,,成递增的等差数列,所以且,所以,且,所以月销售量不高于27万辆的有15.6,,共3个,又基本事件总数为7,故所求概率为.(2)由表中数据可知,由和,得,所以,由,,得,故关于的线性回归方程为.当时,,所以预测今年8月份的销售量大约为50.4万辆.变式8.(2023·四川成都·高三石室中学校考开学考试)已知某绿豆新品种发芽的适宜温度在之间,一农学实验室研究人员为研究温度x()与绿豆新品种发芽数y(颗)之间的关系,每组选取了成熟种子50颗,分别在对应的的温度环境下进行实验,得到如下散点图:

其中,,.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合与的关系?(2)求出关于的线性回归方程,并预测在的温度下,种子的发芽的颗数.参考公式:相关系数,回归直线方程,其中,.参考数据:.【解析】(1)根据题意,得.,.因而相关系数.由于很接近1,∴可以用线性回归方程模型拟合y与x的关系.(2),,∴关于的回归方程为.若,则颗.∴在的温度下,预测种子的发芽颗数为44.变式9.(2023·安徽亳州·蒙城第一中学校联考模拟预测)为调查某地区植被覆盖面积x(单位:公顷)和野生动物数量y的关系,某研究小组将该地区等面积花分为400个区块,从中随机抽取40个区块,得到样本数据(),部分数据如下:x…2.73.63.23.9…y…50.663.752.154.3…经计算得:,,,.(1)利用最小二乘估计建立y关于x的线性回归方程;(2)该小组又利用这组数据建立了x关于y的线性回归方程,并把这两条拟合直线画在同一坐标系下,横坐标x,纵坐标y的意义与植被覆盖面积x和野生动物数量y一致.设前者与后者的斜率分别为,,比较,的大小关系,并证明.附:y关于x的回归方程中,斜率和截距的最小二乘估计公式分别为:,,

【解析】(1),,,,故回归方程为;(2)x关于y的线性回归方程为,,,则,r为y与x的相关系数,又,,,故,即,下证:,若,则,即恒成立,代入表格中的一组数据得:,矛盾,故.综上,y关于x的回归方程为.【解题方法总结】求经验回归方程的步骤题型三:非线性回归例7.(2023·湖南·校联考模拟预测)若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(,为自然对数的底数)(

)A. B. C. D.【答案】D【解析】对于A:因为在定义域内单调递增且,所以随着的增大而增大,不合题意,故A错误;对于B:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故B错误;对于C:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故C错误;对于D:因为在定义域内单调递减且,所以随着的增大而减小,当解释变量,,故D错误;故选:D.例8.(2023·全国·高三专题练习)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:年份2018年2019年2020年2021年2022年年份代码x12345云计算市场规模y/千万元7.4112036.666.722.433.64由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为(

)A. B. C. D.【答案】B【解析】因为,所以,即经验回归方程,当时,,所以,即2025年该科技公司云计算市场规模y的估计值为,故选:B例9.(多选题)(2023·福建厦门·厦门一中校考三模)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有(

)A. B.C. D.【答案】ABC【解析】对于选项A:,令则;对于选项B:令;对于选项C:即令则;对于选项D:令则此时斜率为,与最小二乘法不符.故选:ABC变式10.(2023·全国·高三专题练习)已知变量的关系可以用模型拟合,设,其变换后得到一组数据如下.由上表可得线性回归方程,则(

)x12345z2451014A. B. C. D.【答案】B【解析】由表格数据知,.即样本中心点为,由,得,即,所以,即,可得,故选:B.变式11.(2023·全国·高三专题练习)某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是(

)A. B.C. D.【答案】D【解析】由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.A中,是直线型,均匀增长,不符合要求;B中,是二次函数型,图象呈现下凸,增长也较快,不符合要求;C中,是指数型,爆炸式增长,增长快,不符合要求;D中,是对数型,增长缓慢,符合要求.故对数型最适宜该回归模型.故选:D.变式12.(2023·全国·高二专题练习)兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q元/千克)与上市时间t(单位:天)的数据如下表所示:时间t/(单位:天)102070销售价格Q(单位:元/千克)10050100根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q与上市时间t的变化关系:.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为(

)A.6月5日 B.6月15日 C.6月25日 D.7月5日【答案】C【解析】根据表中数据,描述杨梅销售价格Q与上市时间Q的变化关系不可能是常数函数、也不可能是单调函数,函数在时均为单调函数,这与表格中的数据不吻合,所以应选取进行描述,将表中数据代入可得,解得,所以,,所以当时杨梅销售价格最低,而6月5日时,6月15日时,6月25日时,7月5日时,所以时杨梅销售价格最低.故选:C.变式13.(2023·四川泸州·高三四川省泸县第四中学校考开学考试)抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:),体内抗体数量为y(单位:).29.2121634.4

(1)根据经验,我们选择作为体内抗体数量y关于抗体药物摄入量x的回归方程,将两边取对数,得,可以看出与具有线性相关关系,试根据参考数据建立关于的回归方程,并预测抗体药物摄入量为时,体内抗体数量的值;(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布,那这种抗体药物的有效率超过0.54的概率约为多少?附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,;②若随机变量,则有,,;③取.【解析】(1)将两边取对数,得,设,,则回归方程变为,由表中数据可知,,,所以,,所以,即,故y关于x的回归方程为,当时,.(2)因为z服从正态分布,其中,,所以,所以,故这种抗体药物的有效率z超过0.54的概率约为.变式14.(2023·江西赣州·高三校考阶段练习)为了研究某种细菌随天数变化的繁殖个数,收集数据如下:天数123456繁殖个数612254995190

(1)在图中作出繁殖个数关于天数变化的散点图,并由散点图判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数关于天数变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值.3.5062.833.5317.50596.5712.09(ⅰ)证明:“对于非线性回归方程,令,可以得到繁殖个数的对数关于天数具有线性关系(即为常数)”;(ⅱ)根据(ⅰ)的判断结果及表中数据,建立关于的回归方程(系数保留2位小数).附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为.【解析】(1)作出散点图如图所示.由散点图看出样本点分布在一条指数型曲线的周围,故选择为回归方程较宜.(2)(i)由已知:令,则,则,,即.所以繁殖个数的对数关于天数具有线性关系.(ii)由(i)知繁殖个数的对数关于天数可以用线性回归方程来拟合.由表中数据可得,,,得到关于的线性回归方程为,又,因此细菌的繁殖个数关于天数的非线性回归方程为.变式15.(2023·重庆沙坪坝·高三重庆八中校考阶段练习)在正常生产条件下,根据经验,可以认为化肥的有效利用率近似服从正态分布,而化肥施肥量因农作物的种类不同每亩也存在差异.(1)假设生产条件正常,记表示化肥的有效利用率,求;(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤)

参考数据:65091.552.51478.630.5151546.5,,2,,.(i)根据散点图判断,与,哪一个适宜作为该农作物亩产量关于每亩化肥施用量的回归方程(给出判断即可,不必说明理由);(ii)根据(i)的判断结果及表中数据,建立关于的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量的值.附:①对于一组数据,2,3,,,其回归直线的斜率和截距的最小二乘估计分别为,;②若随机变量,则,.【解析】(1)由,根据正态分布曲线的对称性,可得.(2)(i)由散点图可知与的关系不是线性关系,所以适宜作为粮食亩产量关于每亩化肥施用量的回归方程;(ii)因为,所以,令,则,由表可得,所以,所以,所以,所以,当时,(百公斤)变式16.(2023·重庆·高三校联考开学考试)某公司为了解年研发资金投入量x(单位:亿元)对年销售额y(单位:亿元)的影响.对公司近12年的年研发资金投入量xi和年销售额yi的数据,进行了对比分析,建立了两个模型:①,②,其中α,β,λ,t均为常数,e为自然对数的底数,并得到一些统计量的值.令,经计算得如下数据:20667724604.20312502153.0814(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)(ⅰ)根据分析及表中数据,建立y关于x的回归方程;(ⅱ)若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?附:①相关系数,回归直中公式分别为;②参考数据:.【解析】(1)设模型①和②的相关系数分别为r1,r2.由题意可得:,,所以,由相关系数的相关性质可得,模型②的拟合程度更好.(2)(ⅰ)由(1)知,选择模型②.先建立v关于x的线性回归方程,因为,可得,即,可得,所以v关于x的线性回归方程为,即;(ⅱ)下一年销售额需达到90亿元,即,代入,得,因为,则,所以,故预测下一年的研发资金投入量约是21.67亿元.变式17.(2023·江苏镇江·江苏省镇江中学校考三模)经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.360表中

(1)根据散点图判断,与哪一个适宜作为与之间的回归方程模型并求出关于回归方程;(给出判断即可,不必说明理由)(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.【解析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型;令,则,,关于的回归方程为.(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的取值为,设“所取两个鱼卵来自第批”,所以,设“所取两个鱼卵有个”“死卵”,由全概率公式,,,所以取出“死卵”个数的分布列为:012.所以取出“死卵”个数的数学期望.变式18.(2023·广西南宁·南宁三中校考一模)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.年份代码12345车载音乐市场规模2.83.97.312.017.0(1)由上表数据知,可用指数函数模型拟合与的关系,请建立关于的回归方程;(2)根据上述数据求得关于的回归方程后,预测2024年的中国车载音乐市场规模.参考数据:1.9433.821.71.626.84其中,.参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘法估计公式分别为,.【解析】(1)因为,所以两边同时取自然对数,得,设,所以,设,,则,因为,,所以,,所以,,所以,,所以(2)把2024年代码代入方程,得(十亿元)故预测2024年的中国车载音乐市场规模45.628(十亿元)变式19.(2023·安徽合肥·合肥市第八中学校考模拟预测)当前移动网络已融入社会生活的方方面面,深刻改变了人们的沟通、交流乃至整个生活方式.4G网络虽然解决了人与人随时随地通信的问题,但随着移动互联网快速发展,其已难以满足未来移动数据流量暴涨的需求,而5G作为一种新型移动通信网络,不但可以解决人与人的通信问题,而且还可以为用户提供增强现实、虚拟现实、超高清(3D)视频等更加身临其境的极致业务体验,更重要的是还可以解决人与物、物与物的通信问题,从而满足移动医疗、车联网、智能家居、工业控制、环境监测等物联网应用需求,为更好的满足消费者对5G网络的需求,中国电信在某地区推出了六款不同价位的流量套餐,每款套餐的月资费x(单位:元)与购买人数y(单位:万人)的数据如下表:套餐ABCDEF月资费x(元)384858687888购买人数y(万人)16.818.820.722.424.025.5对数据作初步的处理,相关统计量的值如下表:75.324.618.3101.4其中,且绘图发现,散点集中在一条直线附近.(1)根据所给数据,求出关于的回归方程;(2)已知流量套餐受关注度通过指标来测定,当时相应的流量套餐受大众的欢迎程度更高,被指定为“主打套餐”.现有一家四口从这六款套餐中,购买不同的四款各自使用.记四人中使用“主打套督”的人数为,求随机变量的分布列和期望.附:对于一组数据,其回归方程的斜率和截距的最小二乘估计值分别为.【解析】(1)因为散点集中在一条直线附近,设回归方程为,由,则,,故变量关于的回归方程为.又,故,综上,关于的回归方程为;(2)由,解得,而,所以即为“主打套餐”.则四人中使用“主打套餐”的人数服从超几何分布,又:一共只有6种套餐,一家4口选择不同的套餐,所以X的取值只能是,且,分布列为234期望.【解题方法总结】换元法变成一元线性回归模型题型四:列联表与独立性检验例10.(2023·广东佛山·华南师大附中南海实验高中校考模拟预测)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是(

)A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数C.样本中选择物理学科的人数较多D.样本中男生人数少于女生人数【答案】C【解析】根据等高条形图图1可知样本中选择物理学科的人数较多,故C正确;根据等高条形图图2可知样本中男生人数多于女生人数,故D错误;样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.故选:C.例11.(2023·全国·高三专题练习)在新高考改革中,浙江省新高考实行的是7选3的模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)选物理不选物理总计男生340110450女生140210350总计480320800表一选生物不选生物总计男生150300450女生150200350总计300500800表二试根据小概率值的独立性检验,分析物理和生物选课与性别是否有关(

)附:A.选物理与性别有关,选生物与性别有关B.选物理与性别无关,选生物与性别有关C.选物理与性别有关,选生物与性别无关D.选物理与性别无关,选生物与性别无关【答案】C【解析】由题意,先分析物理课是否与性别有关:根据表格数据,结合题干表格数据,,因此,有充分证据推断选择物理学科与性别有关再分析生物课是否与性别有关:根据表格数据,结合题干表格数据,,因此,没有充分证据推断选择生物学科与性别有关故选:C例12.(2023·全国·高三专题练习)通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为(

)A.150 B.170 C.240 D.175【答案】C【解析】设男女大学生各有m人,根据题意画出2×2列联表,如下图:看不看合计男m女m合计2m所以,因为有99%的把握认为性别与对产品是否满意有关,所以,解得,所以总人数2m可能为240.故选:C.变式20.(2023·全国·高三专题练习)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为(

)附:,附表:0.050.013.8416.635A.7 B.8 C.9 D.10【答案】C【解析】根据题意,不妨设,于是,由于依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,于是最小值为.故选:C变式21.(2023·全国·高三专题练习)在一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀,统计成绩后,得到如下2×2列联表:优秀非优秀合计甲班人数50乙班人数20合计30110附:,其中.根据独立性检验,可以认为数学考试成绩与班级有关系的把握为(

)A. B. C. D.【答案】D【解析】优秀非优秀合计甲班人数50乙班人数20合计30110由题表中的数据可得:,因为,所以可以认为数学考试成绩与班级有失系的把握为.故选:D变式22.(2023·全国·高三专题练习)2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为(

)附:,其中.0.10.050.010.0012.7063.8416.63510.828A.130 B.190 C.240 D.250【答案】B【解析】依题意,设男、女学生的人数都为,则男、女学生的总人数为,建立列联表如下,喜欢网络课程不喜欢网络课程总计男生女生总计故,由题意可得,所以,结合选项可知,只有B符合题意.故选:B.变式23.(2023·全国·高三专题练习)观察下列各图,其中两个分类变量x,y之间关系最强的是(

)A. B.C. D.【答案】D【解析】观察等高条形图发现与相差很大,就判断两个分类变量之量关系最强.故选:D变式24.(2023·重庆沙坪坝·高三重庆八中校考开学考试)2022年卡塔尔世界杯决赛圈共有32支球队参加,欧洲球队有13支:其中有5支欧洲球队闯入8强.比赛进入淘汰赛阶段后,必须要分出胜负.淘汰赛规则如下:在比赛常规时间90分钟内分出胜负;比赛结束,若比分相同.则进入30分钟的加时赛.在加时赛分出胜负,比赛结束,若加时赛比分依然相同,就要通过点球大战来分出最后的胜负.点球大战分为2个阶段,第一阶段:共5轮,双方每轮各派1名球员,依次踢点球,以5轮的总进球数作为标准,5轮合计踢进点球数更多的球队获得比赛的胜利.如果第一阶段的5轮还是平局,则进入第二阶段:在该阶段双方每轮各派1名球员,依次踢点球,如果在一轮里,双方都进球或者双方都不进球,则继续下一轮,直到某一轮里,一方罚进点球,另一方没罚进,比赛结束,罚进点球的一方获得最终的胜利.(1)根据题意填写下面的列联表,并根据小概率值的独立性检验,判断32支决赛圈球队“闯入8强”与“是欧洲球队”是否有关.欧洲球队其他球队合计闯入强未闯入强合计(2)甲、乙两队在淘汰赛相遇,经过120分钟比赛未分出胜负,双方进入点球大战.已知甲队球员每轮踢进点球的概率为,乙队球员每轮踢进点球的概率为,每轮每队是否进球相互独立,在点球大战中,两队前3轮比分为,试求出甲队在第二阶段第一轮结束后获得最终胜利的概率.参考公式:.【解析】(1)下面为列联表:欧洲球队其他球队合计进入强未进入强合计零假设支决赛圈球队闯入8强与是否为欧洲球队无关,,根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为“闯入8强”与“是欧洲球队”无关.(2)记“双方进入第二阶段比赛”为事件,“第二阶段第一轮甲队进球乙队未进球”为事件,则“甲队在第二阶段第一轮结束后获得最终胜利”为事件,有,要进入第二阶段比赛,即第一阶段五轮为平局,比分可能为,则,,故.变式25.(2023·广东东莞·高三校联考阶段练习)在“双减”政策背景之下,某校就推进学校、家庭、社会体育教育的“一体化”,实现“教会、勤练、常赛”的核心任务.学校组织人员对在校学生“是否喜爱运动”做了一次随机调查.共随机调查了18名男生和12名女生,调查发现,男、女生中分别有12人和6人喜爱运动,其余不喜爱.喜欢运动不喜欢运动总计男女总计(1)根据以上数据完成以下列联表:0.400.250.100.0100.7081.3232.7066.635根据小概率值的独立性检验,能否据此推断性别与喜爱运动有关?(2)从被调查的女生中抽取3人,若其中喜爱运动的人数为,求的分布列及数学期望.附参考公式及参考数据:,其中.【解析】(1)由已知数据完成列联表如图,喜爱运动不喜爱运动总计男12618女6612总计181230假设是否喜爱运动与性别无关,由已知数据可求得:,

因此,没有充分的把握判断喜爱运动与性别有关.(2)喜爱运动的人数为的取值分别为:0,1,2,3,

则有:;;;.

所以喜爱运动的人数为的分布列为:0123故数学期望.变式26.(2023·辽宁·高三校联考开学考试)第31届世界大学生夏季运动会,是中国西部第一次举办世界性综合运动会,共设篮球、排球、田径、游泳等18个大项、269个小项.该届赛事约有来自170个国家和地区的1万余名运动员及官员赴蓉参加,该届赛事于2023年7月28日至8月8日在中国四川省成都市举行.为了了解关注该赛事是否与性别有关,某体育台随机抽取2000名观众进行统计,得到如下2×2列联表.男女合计关注该赛事600300900不关注该赛事4007001100合计100010002000(1)在所有女观众中,试估计她们关注该赛事的概率(结果用百分数表示);(2)根据小概率值的独立性检验,能否认为是否关注该赛事与性别有关联?附:,其中.0.10.050.010.0050.0012.7063.8416.6357.87910.828【解析】(1)女观众关注该赛事的概率约为:.(2)零假设为:是否关注该赛事与性别无关联.根据列联表中的数据,经计算得到,根据小概率值的独立性检验,推断不成立,即认为是否关注该赛事与性别有关联.变式27.(2023·安徽滁州·校考二模)为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.数学成绩优秀数学成绩不优秀合计经常整理不经常整理合计(1)求图1中的值以及学生期中考试数学成绩的上四分位数;(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关?(3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.附:【解析】(1)由题意可得,解得,学生期中考试数学成绩的上四分位数为:分;(2)数学成绩优秀的有人,不优秀的人人,经常整理错题的有人,不经常整理错题的是人,经常整理错题且成绩优秀的有人,则数学成绩优秀数学成绩不优秀合计经常整理352560不经常整理152540合计5050100零假设为:数学成绩优秀与经常整理数学错题无关,根据列联表中的数据,经计算得到可得,根据小概率值的独立性检验,我们推断不成立,即认为数学成绩优秀与经常整理数学错题有关联,此推断犯错误的概率不大于;(3)由分层抽样知,随机抽取的5名学生中经常整理错题的有3人,不经常整理错题的有2人,则可能取为0,1,2,经常整理错题的3名学生中,恰抽到k人记为事件,则参与座谈的2名学生中经常整理错题且数学成绩优秀的恰好抽到人记为事件则,,,,,,,,,故X的分布列如下:X012P则可得X的数学期望为变式28.(2023·全国·高三专题练习)2022年11月20日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物都是中国制造,为卡塔尔世界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余比赛,该足球队教练组为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的比赛均分出了输赢):球队输球球队赢球总计甲参加23032甲未参加81018总计104050(1)根据小概率值的独立性检验,能否认为该球队赢球与甲球员参赛有关联;(2)从该球队中任选一人,A表示事件“选中的球员参赛”,B表示事件“球队输球”.与的比值是选中的球员参赛对球队贡献程度的一项度量指标,记该指标为R.①证明:;②利用球员甲数据统计,给出,的估计值,并求出R的估计值.附:.参考数据:a0.050.010.0050.0013.8416.6357.87910.828【解析】(1)零假设为:该球队胜利与甲球员参赛无关.,因为,所以依据的独立性检验,我们推断不成立,所以认为该球队胜利与甲球员参赛有关,此推断犯错误的概率不大于0.005.(2)①证明:②,,.【解题方法总结】独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式计算.(3)比较与临界值的大小关系,作统计推断.题型五:误差分析例13.(2023·河北衡水·河北衡水中学校考一模)某新能源汽车生产公司,为了研究某生产环节中两个变量之间的相关关系,统计样本数据得到如下表格:由表格中的数据可以得到与的经验回归方程为,据此计算,下列选项中残差的绝对值最小的样本数据是(

)A. B.C. D.【答案】C【解析】由表格数据知:,,,经验回归方程为;对于A,残差的绝对值为;对于B,残差的绝对值为;对于C,残差的绝对值为;对于D,残差的绝对值为;残差绝对值最小的样本数据是.故选:C.例14.(2023·云南保山·高三统考期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下表:研发投入(亿元)12345产品收益(亿元)3791011用最小二乘法求得关于的经验回归直线方程是,相关系数(若,则线性相关程度一般,若,则线性相关程度较高),下列说法不正确的有(

)A.变量与正相关且相关性较强B.C.当时,的估计值为40.3D.相应于点的残差为0.8【答案】D【解析】对于A,由相关系数可知变量与正相关且相关性较强,故A正确;对于B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论