专题50 变量间的相关关系及回归模型(菁讲)-2026版高考数学一轮复习讲优练_第1页
专题50 变量间的相关关系及回归模型(菁讲)-2026版高考数学一轮复习讲优练_第2页
专题50 变量间的相关关系及回归模型(菁讲)-2026版高考数学一轮复习讲优练_第3页
专题50 变量间的相关关系及回归模型(菁讲)-2026版高考数学一轮复习讲优练_第4页
专题50 变量间的相关关系及回归模型(菁讲)-2026版高考数学一轮复习讲优练_第5页
已阅读5页,还剩26页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7页(共7页)专题专题50变量间的相关关系及回归模型

1.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.(3)正相关和负相关①当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.②负相关:当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.(4)线性相关①一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.②一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:r=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)\r(\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2))=eq\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2)\r(\o(∑,\s\up6(n),\s\do4(i=1))yeq\o\al(2,i)-n\o(y,\s\up6(-))2)).(2)相关系数r的性质①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[-1,1].当|r|=1时,成对样本数据的两个分量之间满足一种线性关系;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型经验回归方程与最小二乘法我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的eq\o(b,\s\up6(^)),eq\o(a,\s\up6(^))叫做b,a的最小二乘估计,其中eq\b\lc\{(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(n),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)=\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do4(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2),,\o(a,\s\up6(^))=\o(y,\s\up6(-))-\o(b,\s\up6(^))\o(x,\s\up6(-)).))4.残差与残差分析(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的eq\o(y,\s\up6(^))称为预测值,观测值减去预测值称为残差.(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(3)刻画回归效果的方式①残差图法作图时纵坐标为残差,横坐标为自变量x,这样作出的图形称为残差图.在残差图中,残差点比较均匀地分布在以取值为0的横轴为对称轴的水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.②残差平方和法残差平方和为eq\o(∑,\s\up6(n),\s\do4(i=1))(yi-eq\o(y,\s\up6(^))i)2,残差平方和越小,模型拟合效果越好.③利用决定系数R2刻画回归效果R2=1-eq\f(\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(^))i)2,\o(∑,\s\up6(n),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2),R2越大,模型拟合效果越好;R2越小,模型拟合效果越差.常见结论:1.求解经验回归方程的关键是确定回归系数eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^)),应充分利用经验回归直线过点(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-))).2.根据经验回归方程计算的eq\o(y,\s\up6(^))值,仅是一个预测值,不是真实发生的值.►考点01变量间相关关系的判断▼▼▼▼▼▼▼▼▼▼▼▼判断相关关系的方法(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当eq\o(b,\s\up6(^))>0时,正相关;当eq\o(b,\s\up6(^))<0时,负相关.【例1】(2025•香坊区四模)对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是A.图1、图2两组数据都具有线性相关关系 B.图1数据正相关,图2数据负相关 C.图1相关系数小于图2相关系数 D.图1相关系数和图2相关系数之和小于0【答案】【分析】根据相关系数的性质求解.【解答】解:对于选项,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,故正确;对于选项,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故正确;对于选项,图1正相关,图2负相关,所以,故错误;对于选项,因为图2相关程度更强,所以,故正确.故选:.【例2】(2025春•南阳月考)有一散点图如图所示,在六组数据,,2,,中去掉点后重新进行回归分析,则下列说法正确的是A.样本数据的两变量,正相关 B.相关系数的绝对值更接近于0 C.去掉点后,回归直线的效果变弱 D.变量与变量相关性变强【答案】【分析】根据散点图分析回归直线的拟合效果.【解答】解:对:由散点图走势可知,样本数据的两变量,负相关,故错误;对:由图可知,点相对于其它点,偏离直线更远,相关系数的绝对值更接近于1,故错误;对,:去掉点后,回归直线的拟合效果变强,故错误,正确.故选:.【例3】(2025春•洛阳期末)变量与的成对样本数据的散点图如图所示,据此可以推断变量与之间A.很可能存在负相关 B.一定存在负相关 C.很可能存在正相关 D.一定不存在正相关【答案】【分析】根据变量间相关关系可解.【解答】解:根据变量与的成对样本数据的散点图,可以推断变量与之间很可能存在负相关.故选:.【例4】(2025•天津模拟)为研究某奶茶店每日的热奶茶销售量和气温之间是否具有线性相关关系,统计该店年2月6日至3月24日)每天的热奶茶销售量及当天气温得到如图所示的散点图轴表示气温,轴表示热奶茶销售量),由散点图可知与的相关关系为A.正相关,相关系数的值为0.8 B.负相关,相关系数的值为0.8 C.正相关,相关系数的值为 D.负相关,相关系数的值为【答案】【分析】由散点图可知,与负相关,则相关系数,进而可判断正确.【解答】解:由散点图可知,与负相关,所以相关系数,所以相关系数.故选:.【例5】(2025春•葫芦岛月考)观察下列散点图,其中两个变量的相关关系判断一定正确的是A.图1中与呈正相关 B.图2中与不相关 C.图3中与的线性相关系数小于0 D.图1中与的线性相关系数小于图2中与的线性相关系数【答案】【分析】根据给定的散点图,利用正负相关的意义、相关系数的意义逐项判断.【解答】解:对于选项,图1中随增大而减小,与呈负相关,故错误;对于选项,图2中各点较分散,与的相关性不强,不能肯定不相关,故错误;对于选项,图3中随增大而增大,与呈正相关,相关系数大于0,故错误;对于选项,图1与图2,与都呈负相关,所以相关系数为负,而图1中与的线性相关性较强,所以图1中与的线性相关系数小于图2中与的线性相关系数,故正确.故选:.►考点02样本相关系数、决定系数的应用▼▼▼▼▼▼▼▼▼▼▼▼经验回归方程的拟合效果,可以利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.或利用决定系数R2判断,R2越大,拟合效果越好.【例6】(2025•宁夏一模)有一散点图如图所示,在5个数据中去掉后,下列说法错误的是A.残差平方和变小 B.相关系数变大 C.决定系数变大 D.解释变量与响应变量的相关性变弱【答案】【分析】利用散点图分析数据,判断相关系数,相关指数,残差的平方和的变化情况.【解答】解:由散点图可知,若去掉点,则与的线性相关性变强,且是正相关,所以相关系数变大,决定系数变大,残差平方和变小.故选:.【例7】(2025•滨海新区三模)如图所示,5个数据,去掉后,下列说法正确的是A.相关系数变小 B.决定系数变小 C.残差平方和变小 D.解释变量与预报变量的相关性变弱【答案】【分析】由散点图知,去掉离群点后,与的相关性变强,且为正相关,由此判断即可.【解答】解:由散点图知,去掉离群点后,与的相关性变强,且为正相关,故错误;所以相关系数的值变大,决定系数的值变大,残差平方和变小,故错误,错误,正确.故选:.【例8】(2025春•重庆月考)某公司收集了某商品销售收入(单位:万元)与相应的广告支出(单位:万元)共10组数据,,2,3,,,绘制出散点图,如图,并利用线性回归模型进行拟合.若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法错误的是①③④.①决定系数变小②残差平方和变小③相关系数的值变小④自变量与因变量相关性变弱【答案】①③④.【分析】回归效果越好,则决定系数越大,相关系数的绝对值越大,残差平方和越小.【解答】解:从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,故决定系数会变大,残差平方和变小,故①错误,②正确,相关系数的绝对值会更接近于1,由图可得与正相关,故会更接近于1,即相关系数的值变大,自变量与因变量相关性变强,故③错误,④错误.故答案为:①③④.【例9】(2025春•库尔勒市期末)关于回归分析,下列说法正确的是A.若变量与的线性回归方程为,则这两个变量负相关 B.若一组样本数据的线性相关系数,则这组数据的两个变量线性相关程度很强 C.样本相关系数的绝对值越大,成对数据的线性相关程度越强 D.决定系数越小,模型的拟合效果越好【答案】【分析】对于,由回归方程斜率与相关关系知识可判断选项正误;对于,由相关系数概念可判断选项正误;对于,由决定系数概念可判断选项正误.【解答】解:对于选项,因线性回归方程斜率为,则这两个变量正相关,故错误;对于选项,因为,则这组数据的两个变量线性相关程度很强,故正确;对于选项,样本相关系数的绝对值越大,成对数据的线性相关程度越强,故正确;对于选项,决定系数越小,模型的拟合效果越差,故错误.故选:.【例10】(2025•蕲春县二模)为研究光照时长(小时)和种子发芽数量(颗之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点后,下列说法正确的是A.决定系数变大 B.相关系数变小 C.残差平方和变小 D.这些数据中的的平均值变小,的平均值变大【答案】【分析】根据样本相关系数知识可解.【解答】解:对于,去掉点后,拟合效果越好,决定系数越接近于1,故变大,故正确;对于,去掉点后,相关性越强,相关系数的绝对值越接近于1,故变大,故错误;对于,去掉点后,残差平方和变小,拟合效果越好,故正确;对于,通过点的位置可知,去掉点后的平均值变大,的平均值变小,故错误.故选:.►考点03一元线性回归模型▼▼▼▼▼▼▼▼▼▼▼▼求经验回归方程的步骤【例11】(2025春•南阳期末)为促进消费,助力经济发展,某市持续开展了共8期政府消费券发放活动,记第,2,,期活动发放的消费券总额为百万元,带动的消费为百万元,根据这8期活动的数据,可得,,且和的样本方差分别为,,用最小二乘法得到关于的线性回归方程为.(Ⅰ)求;(Ⅱ)若下一期活动政府计划发放10.8百万元的消费券,预计可以带动多少消费;(Ⅲ)求相关系数.(结果保留2位小数)参考公式:相关系数,线性回归方程中,.参考数据:.【答案】(Ⅰ)3.45;(Ⅱ)38.01;(Ⅲ)0.97.【分析】(Ⅰ)根据题意,求得样本中心点,,再将其代入回归方程,即可求得的值;(Ⅱ)由(1)可得回归直线方程,令时,即可得到预测值;(Ⅲ)根据方差的计算公式可求得,再利用回归系数的计算公式,求得,然后代入相关系数的计算公式,即可得解.【解答】解:(Ⅰ)因为,,所以,,所以数据的样本中心点为,代入回归方程,得,解得.(Ⅱ)由(Ⅰ)知回归直线方程为,当时,百万元,故预计可以带动消费38.01百万元.(Ⅲ)因为,,所以,,由,得,所以,所以.【例12】(2025春•荆州期末)某商店为调查某种商品销售单价对销售量的影响,统计了5天的销售单价(元千克)和销售量(千克)之间的一组数据如表所示:第天12345销售单价1819202122销售量2218161410(1)试根据这5天的销售数据,建立关于的回归直线方程;(2)若该商品进货单价为15元千克,试确定销售单价,使每天销售该商品的利润最大.(精确到0.1元千克)参考公式:经验回归直线方程,其中.【答案】(1);(2)销售单价为20.4元千克时,每天销售该商品的利润最大.【分析】(1)利用最小二乘法公式求解;(2)设每天销售该商品的利润为,则,再结合二次函数的性质求解.【解答】解:(1)由题意可知,,,,,所以,所以,所以关于的回归直线方程为;(2)设每天销售该商品的利润为,则,所以当时,取得最大值,即销售单价为20.4元千克时,每天销售该商品的利润最大.【例13】(2025春•襄阳期末)新能源汽车发展非常迅速,某地区2017年至2024年(年份代码分别记为:1,2,3,4,5,6,7,某品牌新能源汽车的科研经费投入和销售量统计如下:年份代码12345678科研经费(单位:百亿元)2361013151821销售量(单位:百万辆)1122.53.53.54.56参考数据:,,,.参考公式:相关系数(1)根据样本数据,计算科研经费与销售量之间的样本相关系数,并推断它们的线性相关程度(结果精确到;(2)根据样本数据,求销售量关于科研经费的线性回归方程,用分数表达).【答案】(1)0.98,两个变量线性相关且线性相关程度很强;(2).【分析】(1)计算出,并对相关系数的公式变形,代入求值,得到,得到结论;(2)代入公式计算出,,得到线性回归方程.【解答】解:(1)由题意可知,,,因为,且,,,所以,因为,且,,所以,因为,且,,所以,故,由于接近1,所以两个变量线性相关且线性相关程度很强;(2)因为,,,,,所以,又因为,,所以,所以关于的回归直线方程为.【例14】(2025春•泉州期末)是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与的数据如表:时间周一周二周三周四周五车流量(万辆)5051545758的浓度(微克立方米)6970747879(1)根据表格数据,请在坐标系中画出散点图;(2)根据表格数据,用最小二乘法求出关于的线性回归方程;若周六同一时间段车流量是25万辆,预测此时的浓度为多少(保留整数)?参考公式:,.【答案】(1)作图见解析;(2),37.【分析】(1)将表中数据描出即可;(2)求出关于的线性回归方程,代入,求解即可.【解答】解:(1)散点图如图所示:(2)根据题意可知,,,所以,,所以,所以,所以关于的线性回归方程是:;当时,,所以可以预测此时的浓度约为37.【例15】(2025春•雅安期末)某超市为销售一种商品,派人统计了去年该商品的每日广告费用(百元)与当日销售量(百件)的关系,以便对今年广告方案的制定提供相关的数据参考,得到的数据如下:日广告费用(百元)23456日销售量(百件)1.51.72.02.22.6已知与线性相关.(1)根据表中的数据,求关于的经验回归方程;(2)利用(1)中的经验回归方程,估计当日广告费用为1000元时,日销售量为多少件?附:参考公式:经验回归方程斜率和截距的最小二乘估计公式分别为:,.【答案】(1);(2)362件.【分析】(1)由统计表格中的数据,利用回归系数的公式,求得,即可得到回归方程;(2)由(1)知,当时,求得(百件),即可得到结论.【解答】解:(1)由统计表格中的数据,可得,,且,,可得,则,所以关于的经验回归方程是;(2)由(1)知回归方程是,当时,(百件),所以估计当日广告费用为1000元时,日销售量为362件.►考点04非线性回归模型▼▼▼▼▼▼▼▼▼▼▼▼非线性回归分析的步骤【例16】(2025春•市北区期末)随着国内人均消费水平的提高,居民的运动健身意识不断增强,加之健康与解压需求的增长,使得健身器材行业发展趋势强劲,如表为年中国健身器材市场规模(单位:百亿元),其中2019年年对应的代码依次为.年份代码12345中国健身器材市场规模4.14.44.85.56.3(1)由如表数据可知,可用指数型函数模型,拟合与的关系,请建立关于的回归方程,的值精确到;(2)数据显示2023年购买过体育用品类的中国消费者中购买过运动防护类的占比为,用频率估计概率,现从2023年购买过体育用品类的中国消费者中随机抽取4人,记购买过运动防护类的消费者人数为,求的分布列及数学期望.参考数据:1.60225.1073.5901.114其中.参考公式:对于一组数据,,,,,,,其回归直线的斜率和截距的最小二乘估计公式分别为.【答案】(1);(2)分布列请见解答,.【分析】(1)设,可得,结合参考数据及公式求出,的值,即可得解;(2)先确定的可能取值,并判断服从二项分布,再根据二项分布的概率计算公式求得每个的取值所对应的概率即可得分布列,然后利用二项分布期望公式求期望即可.【解答】解:(1)对两边同时取自然对数,得,设,则,由表中数据得,,,,所以,所以把样本中心点代入,得,所以,,所以,即关于的回归方程为.(2)由题意得,的所有可能取值为0,1,2,3,4,且,,,,,,所以的分布列为01234故数学期望.【例17】(2025春•阳泉期末)自2020年以来,某地区新能源产值规模呈快速增长态势,如表给出了近5年该地区的新能源产值(单位:亿元).年份20202021202220232024年份编号12345产值1.52.53.44.97.8(1)若用作为回归模型,且,求此模型的方程及其决定系数(精确到;(2)若用作为回归模型,求此模型的方程;(3)已知回归模型的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的新能源的产值(精确到.参考数据:34.021.2475.3104.9116.1622.541.11.511.4附:(1)表中;(2)对于一组数据,,,,,,,其经验回归方程为,;决定系数.【答案】(1),0.93;(2);(3)的拟合效果更好,12.54亿元.【分析】(1)由最小二乘法求出回归系数与截距,即可得回归模型的方程;由决定系数的计算公式代入求解即可;(2)结合对数的运算得,再利用最小二乘法求解回归系数与截距即可得解;(3)比较决定系数的大小即可作出判断,再把代入模型方程求解即可.【解答】解:(1)由题意知,,,故此模型的方程为;,.(2)将两边同时取对数,得,令,则,,,,,故此模型的方程为.(3),的拟合效果更好,当时,,即预测2025年该地区的新能源的产值为12.54亿元.【例18】(2025•庄河市模拟)众所周知,乒乓球被称为中国的“国球”,是一种世界流行的球类体育项目,包括进攻、对抗和防守.某学校为了丰富学生的课后活动内容,增强学生体质,决定组织乒乓球活动社.以下是接下来7个星期(用表示第1个星期,用表示第二个星期,以此类推)参加活动的累计人数(人的统计数据.1234567614203774108203(1)根据表中数据可以判断与大致满足回归模型,试建立与的回归方程(精确到;(2)为了更好地开展体育类型活动,学校继续调查全校同学的身高情况.采用按比例分层抽样抽取了男生30人,其身高的平均数和方差分别为171.5和13.0;抽取了女生20人,其身高的平均数和方差分别为161.5和27.0,试求全体学生身高的平均数和方差.参考数据:,其中;参考公式:对于一组数据,,,,,,,其回归直线的斜率和截距的最小二乘估计公式分别为,.【答案】(1),(2)平均数为167.5,方差为42.6.【分析】(1)利用对数变换将非线性回归模型转化为线性回归模型,再根据给定的参考公式求出线性回归方程的系数,进而得到与的回归方程;(2)根据分层抽样的性质,利用平均数和方差的计算公式来求解全体学生身高的平均数和方差.【解答】解:(1)根据题意可知,,两边取常用对数可得,设,,,则回归方程变为,,,,根据参考公式,,,则,因为,,所以,则,,则,所以与的回归方程为,即;(2)全体学生身高的平均数,根据方差公式(其中,为各层人数,为各层方差,为各层平均数,为总平均数),将,,,,,,代入可得:,则全体学生身高的平均数为167.5,方差为42.6.【例19】(2025春•五华区期中)随着科技的进步及人民生活水平的提高,人们对于智能化生活的需求逐渐增加.李明统计了他在2011年至2020年的年收入与他购买电子产品的花销的数据之后,画

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论