2026年高二数学寒假自学课(人教B版)第06讲 回归方程与独立性检验(3知识点+9大题型)(解析版)_第1页
2026年高二数学寒假自学课(人教B版)第06讲 回归方程与独立性检验(3知识点+9大题型)(解析版)_第2页
2026年高二数学寒假自学课(人教B版)第06讲 回归方程与独立性检验(3知识点+9大题型)(解析版)_第3页
2026年高二数学寒假自学课(人教B版)第06讲 回归方程与独立性检验(3知识点+9大题型)(解析版)_第4页
2026年高二数学寒假自学课(人教B版)第06讲 回归方程与独立性检验(3知识点+9大题型)(解析版)_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第06讲回归方程与独立性检验内容导航——预习三步曲第一步:学析教材·学知识:教材精讲精析、全方位预习练题型·强知识:核心题型举一反三精准练【题型01:相关关系的概念和判断】【题型02:相关系数的比较和计算】【题型03:线性回归方程与样本中心】【题型04:求线性回归方程】【题型05:残差及相关指数的应用】【题型06:非线性回归方程】【题型07:独立性检验的理解】【题型08:独立性检验的实际应用】【题型09:独立性检验的最值】第二步:记串知识·识框架:思维导图助力掌握知识框架、学习目标复核内容掌握第三步:测过关测·稳提升:小试牛刀检测预习效果、查漏补缺快速提升知识点1:相关关系1.变量的相关关系相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度正相关与负相关如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关线性相关如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关非线性相关如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关2.样本相关系数①样本相关系数r的计算公式:.②样本相关系数r的性质:当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关|r|越接近于1,表明两个变量的线性相关性越强;|r|越接近于0,表明两个变量的线性相关性越弱.通常|r|大于0.75时,认为两个变量有很强的线性相关关系知识点2:回归模型1.一元线性回归模型①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.其中,称为样本点的中心.②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量2.判断回归模型的拟合效果方法决定系数法残差图残差平方和公式称为相应于点的残差,刻画效果越接近于1,表示回归的效果越好残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高.残差平方和越小,模型的拟合效果越好知识点3:独立性检验1.2×2列联表设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:总计aba+bcdc+d总计a+cb+d2.独立性检验①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;②基于小概率值的检验规则:当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;【题型01:相关关系的概念和判断】1.如图是某调查小组收集的全国近十个月新能源汽车与燃油车销量的折线图,根据该折线图,下列说法错误的是(

)nnA.新能源汽车销量与月份呈现正相关B.可预测燃油车销量仍呈下降趋势C.新能源汽车销量逐月增长率大致相同D.燃油车销量与月份的相关系数接近1【答案】D【详解】对于A,新能源汽车销量与月份呈现上升趋势,所以新能源汽车销量与月份正相关,故A正确;对于B,燃油车销量与月份呈现下降趋势,且比较均匀的分布在直线的两侧,可预测燃油车销量仍呈现下降趋势,故B正确;对于C,新能源汽车销量与月份呈现上升趋势,且比较均匀的分布在直线的两侧,所以新能源汽车销量逐月增长率大致相同,故C正确;对于D,燃油车销量与月份呈现下降趋势,且比较均匀的分布在直线的两侧,所以燃油车销量与月份的相关系数接近,故D错误.故选:D.2.观察下列散点图,关于两个变量的相关关系推断正确的是(

)A.(1)为正相关,(2)不相关,(3)负相关B.(1)为正相关,(2)负相关,(3)不相关C.(1)为负相关,(2)不相关,(3)正相关D.(1)为负相关,(2)正相关,(3)不相关【答案】A【详解】第一个图点的分布比较集中,且随的增加,而增加,是正相关.第二个图点的分布比较分散,不相关.第三个图点的分布比较集中,且随的增加,而减少,是负相关.故选:A.3.在一次试验中,测得的五组数据分别为,,,,,去掉一组数据后,下列说法正确的是(

)A.样本数据由正相关变成负相关 B.样本的相关系数不变C.样本的相关性变弱 D.样本的相关系数变大【答案】D【详解】由题意,去掉离群点后,仍然为正相关,相关性变强,相关系数变大,故A、B、C错误,D正确.故选:D.4.对两组数据进行统计后得到如图所示的散点图,下列结论不正确的是(

)A.图1、图2两组数据都具有线性相关关系B.图1数据正相关,图2数据负相关C.图1相关系数小于图2相关系数D.图1相关系数和图2相关系数之和小于0【答案】C【详解】对A,因为散点图都呈直线型,所以图1、图2两组数据都具有线性相关关系,A正确;对B,图1散点从左至右呈上升趋势,所以数据正相关,图2散点从左至右呈下降趋势,所以数据负相关,故B正确;对C,图1正相关,图2负相关,所以C不正确;对D,因为图2相关程度更强,所以D正确.故选:C.【题型02:相关系数的比较和计算】5.在研究线性回归模型时,样本数据所对应的点均在直线上,则这组样本数据的样本相关系数为.【答案】【详解】因为样本数据所对应的点都在直线上,所以,又样本数据负相关,所以.故答案为:.6.某市环保部门研究近十年空气质量数据,得到以下结论:结论一:PM2.5浓度与机动车保有量的样本相关系数;结论二:绿化覆盖率与呼吸道疾病发病率的样本相关系数;结论三:工业能耗与近地面臭氧浓度的样本相关系数.下列说法正确的是(

)A.由结论一可知,机动车保有量增加是PM2.5浓度升高的直接原因B.由结论二可知,绿化覆盖率与呼吸道疾病发病率无关联C.结论三表明工业能耗与近地面臭氧浓度呈正相关,且线性相关性比结论一更强D.结论一中接近1,说明PM2.5浓度与机动车保有量存在极强的线性相关关系【答案】D【详解】由,可知PM2.5浓度与机动车保有量存在极强的线性相关关系,但并不能说明机动车保有量增加是PM2.5浓度升高的直接原因,故A错误,D正确;由于,,则表明工业能耗与近地面臭氧浓度呈正相关,但线性相关性没有结论一的强,故C错误,由,可知绿化覆盖率与呼吸道疾病发病率呈负相关,相关性不是很强,但不能说绿化覆盖率与呼吸道疾病发病率无关联,故B错误,故选:D7.已知四组成对样本数据对应的线性相关系数分别为,,则线性相关程度最强的是(

)A.A组 B.B组 C.C组 D.D组【答案】A【详解】由,即,所以线性相关程度最强的是组.故选:A8.以下是标号分别为①、②、③、④的四幅散点图,它们的样本相关系数分别为,那么相关系数的大小关系为(按由小到大的顺序排列).【答案】【详解】根据散点图可知,图①③成正相关,图②④成负相关,∴,又图①②的散点图近似在一条直线上,则图①②两变量的线性相关程度比较高,图③④的散点图比较分散,故图③④两变量的线性相关程度比较低,即与比较大,与比较小,∴,故答案为:.9.为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2022年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型.其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①:(决定系数)和模型②:=152.4+16.3t(相关系数0.97,决定系数).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(相关系数0.99,决定系数).(1)可以根据模型①得到2022年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2022年全国普通本科招生数的预测值;(2)你认为用哪个模型得到的预测值更可靠?说明理由(写出一个即可).【答案】(1)利用模型②预测值为511(万人);利用模型③预测值为461(万人)(2)利用模型③得到的预测值更可靠,理由见解析【分析】【详解】(1)利用模型②得2022年全国普通本科招生数的预测值为=152.4+16.3×22=511(万人);利用模型③得2022年全国普通本科招生数的预测值为=372.8+9.8×9=461(万人).(2)利用模型③得到的预测值更可靠,理由如下(以下理由任选一个作答即可).理由一:从计算结果可以看出,模型③的决定系数最大,说明其拟合效果最好,因此利用模型③得到的预测值更可靠.理由二:模型①的决定系数比模型②③小很多,说明其拟合效果最差.对于模型②③,模型③的相关系数0.99比模型②的相关系数0.97大,说明模型③的两变量的线性相关性比模型②更强.因此利用模型③得到的预测值更可靠.10.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:x(年龄/岁)26563949615327584160y(脂肪含量/%)14.531.421.226.334.629.617.833.525.935.2根据上表中的样本数据:(1)求和;(2)计算样本相关系数(精确到0.01),并推断它们的相关关系及相关程度.参考数据及公式:,,,,,相关系数【答案】(1),(2),人体脂肪含量和年龄的相关程度很强,理由见解析.【详解】(1),(2)因为,,所以,由样本相关系数,可以推断人体脂肪含量和年龄的相关程度很强.【题型03:线性回归方程与样本中心】11.2025年11月,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”完成搭建,该量子计算系统具备“量子计算优越性”能力.下表记录了8个团队在特定年度的研发资金投入x(单位:亿元)与芯片性能提升评估指数y,且研发资金投入x/亿元210性能提升评估指数y212已知y与x具有较强的线性关系,通过最小二乘估计得到的经验回归方程为如果去掉样本点后,得到的新样本的经验回归方程为则(

)A.0.1 B.0.3 C.0.5 D.0.7【答案】B【详解】由及,得,则在新样本中,,所以.故选:B12.某店日盈利(单位:百元)与当天平均气温(单位:)之间有如下数据:-2-1012百元54221小明对上述数据进行分析,发现与之间具有线性相关关系,则关于的经验回归方程为(

)A. B. C. D.【答案】B【详解】由题意可知,,样本中心点为,由样本数据可知,随着的增大而减小,所以符合条件.故选:B.13.某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:x568912y17a252835已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是(

)A. B.C. D.时,【答案】C【详解】由题,所以,所以回归直线方程,所以当时,.故ABD正确,C错误.故选:C14.已知变量x,y线性相关,其一组样本数据(,2,3,4,5),满足,用最小二乘法得到的线性回归方程是.现增加一个数据,重新计算得到的回归直线斜率是,时,y的估计值是(

)A.3 B. C. D.【答案】B【详解】由题设,则,增加数据后,,且回归直线为,所以,得,则,所以时,有故选:B.15.已知变量的一组对应数据如下表所示:123450325且关于的经验回归方程为,则()A.B.C.当时,预测的值为7.4D.从这5组数据中任取2组,均满足的情况有3种【答案】ACD【详解】对于,由点在直线上,可得,故A正确;对于,由,可得,故B错误;对于,当时,,故C正确;对于,满足的情况有3种,所以从这5组数据中任取2组,均满足的情况有种,故D正确.故选:ACD.16.(多选)对于变量和变量,经过随机抽样获得成对样本数据,,且,样本数据对应的散点大致分布在一条直线附近.利用最小二乘法求得线性回归方程为,分析发现样本数据对应的散点远离回归直线,将其剔除后得到新的线性回归方程,则(

)A.变量与变量的样本相关系数为1.8B.剔除后,变量与变量的样本相关系数变大C.新的回归直线经过点D.若新的回归直线经过点,则其方程为【答案】BD【详解】对于A,样本相关系数绝对值的最大值为1,故A错误.对于B,由剔除的是偏离直线较大的异常点,得剔除该点后,新样本数据的线性相关程度变强,即样本相关系数的绝对值变大,易知变量与变量正相关,所以剔除后,样本相关系数变大,故B正确.对于C,原样本中,,剔除一个偏离直线较大的异常点后,新样本中,,,因此剔除该异常点后的回归直线经过点,故C错误.对于D,由新的回归直线经过点,得新的回归直线斜率为,设,将点代入,得,所以其方程为,故D正确.故选:BD.【题型04:求线性回归方程】17.如图是某机构统计的某地区2016年至2022年生活垃圾无害化处理量y(单位:万吨)的折线图.注:年份代码1-7分别对应年份2016-2022.求y关于t的回归直线方程(系数精确到0.01),并预测2024年该地区生活垃圾无害化处理量.参考数据:,,,参考公式:回归方程中斜率和截距的最小乘估计公式分别为,.【答案】回归方程为,预测2024年该地区生活垃圾无害化处理量将约万吨【详解】,,,得,又,,y关于t的回归方程为.,将2024对应的代入回归方程得:,预测2024年该地区生活垃圾无害化处理量将约万吨.18.某种产品2014年到2018年的年投资金额(万元)与年利润(万元)的数据统计如下,由散点图知,与之间的关系可以用线性回归模型拟合,已知5年利润的平均值是4.7.年份20142015201620172018年投资金额万元12345年利润万元2.42.76.47.9(1)求表中实数的值;(2)求关于的线性回归方程.参考公式:回归直线方程中的斜率和截距的最小二乘估计公式分别为,.【答案】(1);(2).【分析】【详解】(1)由题意得,,解得(2)由题意得,,,,故,则,故所求线性回归方程为.19.两个具有相关关系的变量的一组统计数据为,,….其样本中心点为,且由统计知,,样本相关系数.(1)求;(2)根据样本相关系数以及下面所附公式,建立关于的经验回归方程.附:,,.【答案】(1)138(2)【分析】【详解】(1),代入数据可得.(2)由已知得,,∵,∴,,∴关于的经验回归方程为.20.如图是某采矿厂的污水排放量单位:吨与矿产品年产量单位:吨的折线图:(1)依据折线图计算相关系数精确到,并据此判断是否可用线性回归模型拟合y与x的关系?若,则线性相关程度很高,可用线性回归模型拟合(2)若可用线性回归模型拟合与的关系,请建立关于的线性回归方程,并预测年产量为10吨时的污水排放量.相关公式:,参考数据:.回归方程中,【答案】(1)相关系数,可用线性回归模型拟合y与x的关系(2),吨【分析】【详解】(1)由折线图得如下数据计算得:,,,所以相关系数,因为,所以可用线性回归模型拟合y与x的关系(2),所以回归方程为,当时,,所以预测年产量为10吨时的污水排放量为吨21.防疫抗疫,人人有责,随着奥密克戎的全球肆虐,防疫形势越来越严峻,防疫物资需求量急增.下表是某口罩厂今年的月份与订单(单位:万元)的几组对应数据:月份12345订单20244352(1)求关于的线性回归方程,并估计6月份该厂的订单数;(2)求相关系数(精确到0.01),说明与之间具有怎样的相关关系.参考数据:,,.,.参考公式:相关系数;回归直线的方程是,其中.【答案】(1),6月份该厂的订单数为59.9万元;(2),与之间具有很强的正相关关系.【分析】【详解】(1)解:由题可得:,,,关于的线性回归方程为,2022年6月对应的变量为6,将代入,得,估计6月份该厂的订单数为59.9万元.(2)相关系数.与之间具有很强的正相关关系.22.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)年份2014201520162017201820192020年份代号x1234567该种产品的宣传费用y59.364.168.874.082.190.099.1以x为解释变量,y为预报变量,若以为回归方程,则相关指数;若以为回归方程,则相关指数.(1)判断与,哪一个更适合作为该种产品的宣传费用的近似值y关于年份代号x的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程(系数精确到0.1).参考数据:.参考公式:.【答案】(1)更适合,理由见解析;(2).【分析】【详解】(1)更适合作为该种产品的宣传费用的近似值y关于年份代号x的回归方程.因为越大,说明模型的拟合效果越好.(2)由表格中数据有,,则.【题型05:残差及相关指数的应用】23.如果散点图中所有的散点都落在一条斜率不为0的直线上,则下列结论错误的是(

)A.解释变量和响应变量线性相关 B.相关系数C.决定系数 D.残差平方和等于1【答案】D【详解】直线对应的函数为一次函数,故解释变量和响应变量是一次函数关系,故A正确.因为样本点都落在直线上,所以样本相关系数,所以,所以B正确。决定系数和残差平方和都能反映模型的拟合程度,故决定系数,残差平方和为0,故C正确,D错误故选:D24.已知变量线性相关,其一组样本数据,满足,用最小二乘法得到的经验回归方程为.若增加一个数据后,得到修正后的回归直线的斜率为2.1,则数据的残差为(

)A.0.1 B.0.2 C.-0.2 D.-0.1【答案】A【详解】因,则,则,则新增数据后,,,因新的回归直线过点,且修正后的回归直线的斜率为2.1,则,则修正后的回归直线为:,则的估计值为,则数据的残差为.故选:A25.将收集到的6组数据对制作如图所示的散点图(点旁数据为该点坐标),由最小二乘法计算得回归直线方程:,相关系数为,相关指数为;残差分析确定点对应残差过大,把它去掉后,再用剩下的5组数据计算得回归直线方程:,相关系数为,相关指数为.则以下结论中,不正确的是(

)A. B.C. D.【答案】D【详解】从散点图可以看出,两个变量是正相关,故A正确;从散点图可以看出,回归直线的斜率是正数,且的斜率大于的斜率,故B和C正确;从散点图可以看出,去掉“离群点”后,相关性更强,拟合的效果更好,值越大,模型的拟合效果越好,所以,故D错误;故选:D.26.(多选)下列说法正确的有(

)A.在经验回归方程中,当解释变量x每增加1时,响应变量y平均减少2.3B.在经验回归方程中,相对于样本点的残差为C.在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好D.若两个变量的决定系数越大,表示残差平方和越大,即拟合效果越好【答案】BC【详解】对于A,因为,当解释变量x每增加1时,响应变量y平均减少0.85,故A错误;对于B,因为,,所以相对于样本点的残差为,故B正确;对于C,在残差图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好,故C正确;对于D,由决定系数的意义可知,越大,表示残差平方和越小,即模型的拟合效果越好,故D错误.故选:BC27.(多选)[多选]根据变量和的成对样本数据,由一元线性回归模型①,得到经验回归模型,对应的残差如图1所示.根据变量和的成对样本数据,由一元线性回归模型②,得到经验回归模型,对应的残差如图2所示,则(

A.模型①的误差满足一元线性回归模型的的假设,不满足的假设B.模型①的误差不满足一元线性回归模型的的假设,满足的假设C.模型②的误差满足一元线性回归模型的的假设,不满足的假设D.模型②的误差满足一元线性回归模型的的假设,满足的假设【答案】AD【详解】对于模型①对应的散点,可以看出残差大致绕着0值分布,没有明显的趋势或系统偏差,因此随机误差满足的假设,但是方差随着的变化而变化,不满足的假设;对于模型②对应的散点,均匀分布在水平带状区域内,随机误差满足的假设,方差不随的变化而变化,满足的假设.故选:AD.28.某种产品的广告支出费(单位:万元)与销售量(单位:万件)之间的对应关系如下表.广告支出x/万元1.22.645.46.8销售量y/万件1.467.311.813.5根据表中的数据可得回归直线方程,则以下说法中正确的是(

)A.第三个样本点对应的残差B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中C.销售量的变化有97%是由广告支出费引起的D.用该回归方程可以比较准确地预测广告支出费为20万元时的销售量【答案】AC【详解】,,将其代入回归方程中得,得,故回归直线方程为,所以,A正确;由于,所以该回归模型拟合的效果比较好,故对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,B错误;在线性回归模型中,表示解释变量对于预报变量的贡献率,,则销售量的变化有97%是由广告支出费引起的,C正确;由于样本的取值范围会影响回归方程的使用范围,而20万元远大于表格中广告支出费的值,故用该回归方程不能准确地预测广告支出费为20万元时的销售量,故D错误.故选:AC【题型06:非线性回归方程】29.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:万元)对年销售量y(单位:吨)和年利润z(单位:万元)的影响.对近8年的年宣传费和年销售量数据进行初步处理后,得到下面的散点图及一些统计量的值.有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量y关于年宣传费x的回归方程的是(

)A.①② B.②③ C.②④ D.③⑤【答案】B【详解】从散点图知,样本点分布在抛物线上或对数型曲线上,结合所给5个的曲线类型,所以或较适宜.故选:B30.下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为(

)第个月123繁殖数量A.百只 B.百只 C.百只 D.百只【答案】B【详解】由两边取自然对数得,令,则,即与呈线性相关关系,,,回归直线必过样本点的中心,,解得,,则,当时,.故选:B31.台州是全国三大电动车生产基地之一,拥有完整的产业链和突出的设计优势某电动车公司为了抢占更多的市场份额,计划加大广告投入、该公司近5年的年广告费(单位:百万元)和年销售量(单位:百万辆)关系如图所示:令,数据经过初步处理得:,,,,,,.现有①和②两种方案作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)根据(1)的分析选取拟合程度更好的回归分析模型及表中数据,求出y关于x的回归方程,并预测年广告费为6(百万元)时,产品的年销售量是多少?附:①相关系数,回归直线中公式分别为,;②参考数据:,,,【答案】(1)模型②的拟合程度更好(2)13(百万辆)【分析】【详解】(1)设模型①和②的相关系数分别为,由题意可得:,,所以,由相关系数的意义可得,模型②的拟合程度更好.(2)因为,又由,,得,所以,即回归方程为,当时,,因此当年广告费为6(百万元)时,产品的销售量大概是13(百万辆).32.近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.

(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.线性回归方程:,其中,.1.8458.556.9【答案】(1)选.(2);690【分析】【详解】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.(2)因为表示活动推出的天数,,则..因为,所以.所以,所以.又,所以.所以.当时,.所以预测活动推出第8天售楼部来访的人次为690.33.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.根据收集到的数据,计算得到下表数据,其中.7.52.2582.504.5012.142.88(1)根据残差图,判断应选择哪个模型;(无需说明理由)(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)【答案】(1)选择模型②(2);10人【分析】【详解】(1)选择模型②,理由如下:由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以选模型②比较合适;(2)根据模型②,令与可用线性回归来拟合,有,则,所以,则关于的经验回归方程为.所以关于的经验回归方程为,由题意,,解得,又为整数,所以,所以,要使年收益增量超过8亿元,研发人员增量至少为10人.34.近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2019年至2023年的利润(单位:亿元),得到如图所示的散点图.其中2019年至2023年对应的年份代码依次为1,2,3,4,5.(1)根据散点图判断,和哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)中的判断结果,建立y关于x的回归方程;(3)根据(2)的结果,估计2024年的企业利润.参考公式及数据;,,,,,,【答案】(1)适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型(2)(3)估计2024年的企业利润为93.3亿元【分析】【详解】(1)由散点图的变化趋势,知适宜作为企业利润y(单位:亿元)关于年份代码x的回归方程类型;(2)由题意得:,,,,所以;(3)令,,估计2024年的企业利润为99.25亿元.【题型07:独立性检验的理解】35.某公司男、女职工人数相等,该公司为了了解职工是否接受去外地长时间出差,在男、女职工中各随机抽取了100人进行调查,数据显示男职工和女职工接受去外地长时间出差的人数分别为40和20.下列结论正确的是(

)附表:0.10.050.010.0050.0012.7063.8416.6357.87910.828附:,其中.A.依据小概率值的独立性检验,不能认为是否接受去外地长时间出差与性别有关B.依据小概率值的独立性检验,可以认为是否接受去外地长时间出差与性别有关C.有的把握认为是否接受去外地长时间出差与性别有关D.是否接受去外地长时间出差与性别无关【答案】B【详解】由题意,列出列联表:接受不接受合计男4060100女2080100合计60140200零假设为:是否接受去外地长时间出差与性别相互独立,即是否接受去外地长时间出差与性别无关,所以,根据小概率值的独立性检验,我们推断不成立,即认为是否接受去外地长时间出差与性别有关,此推断犯错误的概率不大于0.005.故选:B.36.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:运动性别总计男女爱好402060不爱好203050总计6050110下列结论正确的是(

)A.认为“爱好该项运用与性别有关”,犯错误的概率不超过0.01B.认为“爱好该项运用与性别无关”,犯错误的概率不超过0.01C.认为“爱好该项运动与性别有关”,犯错误的概率不超过0.001D.认为“爱好该项运动与性别无关”,犯错误的概率不超过0.001【答案】A【详解】由公式,由可知,认为“爱好该项运动与性别有关”,犯错误的概率不超过0.01.故选:A37.某医疗研究机构为了解打鼾与患心脏病的关系,运用列联表进行独立性检验,经计算,则所得到的统计学结论是认为打鼾与患心脏病有关系的把握约为(

)0.100.050.010.0050.0012.7063.8416.6357.87910.828A. B. C. D.【答案】B【详解】因为,所以有的把握认为打鼾与患心脏病有关系.故选:B.38.某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据如表.免疫不免疫合计注射疫苗101020未注射疫苗63440合计164460则下列说法中正确的是()(多选)A.B.C.我们有99%以上的把握认为免疫与注射疫苗有关系D.我们有99.9%以上的把握认为免疫与注射疫苗有关系【答案】AC【详解】A选项,由表中数据,得,故A正确;B选项,,,故B错误;CD选项,,所以有99%以上的把握认为免疫与注射疫苗有关系,但没有99.9%以上的把握认为免疫与注射疫苗有关系,所以C正确,D错误.故选:AC39.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:手术心脏病合计又发作过未发作过心脏搭桥39157196血管清障29167196合计68324392试根据上述数据计算,能否根据小概率值的独立性检验作出这两种手术对病人又发作心脏病的影响有差别的结论(填“能”或“不能”).【答案】1.779不能【详解】零假设为:这两种手术对病人又发作心脏病的影响无差别.根据列联表中的数据,可以求得,根据小概率值的独立性检验,我们没有充分的证据推断不成立,即认为这两种手术对病人又发作心脏病的影响无差别.故答案为:1.779;不能40.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是(填序号).①若,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.【答案】③【详解】的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.故答案为:③【题型08:独立性检验的实际应用】41.某农业科研团队为探究不同的施肥种植方式对作物产量的影响,在一片试验田里,对采用有机肥料种植的作物和化学肥料种植的作物进行研究.经统计,试验田里采用有机肥料种植的作物有800株,采用化学肥料种植的作物有400株.现按分层随机抽样的方法,从两类施肥种植的作物中一共抽取120株进行产量检测,以每株作物产量达到500克作为达标标准,得到以下部分列联表:单位:株施肥种植方式产量达标情况合计产量达标产量不达标有机肥料种植60化学肥料种植20合计120(1)请完成上述列联表;(2)依据的独立性检验,能否认为不同的施肥种植方式与作物产量达标情况有关联?附:,其中附表:0.10.050.010.0050.0012.7063.8416.6357.87910.828【答案】(1)列联表见解析(2)能【分析】【详解】(1)解:采用有机肥料种植的作物抽取株数为(株),因为抽取的有机肥料种植的作物中产量达标的有60株,所以产量不达标的有20株.采用化学肥料种植的作物抽取株数为(株),因为抽取的化学肥料种植的作物中产量不达标的有20株,所以产量达标的有20株.完成后的列联表如下:单位:株施肥种植方式产量达标情况合计产量达标产量不达标有机肥料种植602080化学肥料种植202040合计8040120(2)解:零假设为:不同的施肥种植方式与作物产量达标情况无关联.根据公式,根据小概率值的独立性检验,我们推断不成立,即认为不同的施肥种植方式与作物产量达标情况有关联,此推断犯错误的概率不大于0.05.42.2025年7月15日,搭载天舟九号货运飞船的长征七号遥十运载火箭成功发射,标志着我国航天事业又迈上了一个新台阶.某中学为了解学生对我国航天事业发展的关注度,随机地从该校学生中抽取一个容量为200的样本进行调查,调查结果如下表:性别关注情况高度关注非高度关注女学生30男学生90以频率估计概率,若在这200名学生中随机抽取1人,该学生高度关注我国航天事业发展的概率为.(1)求的值;(2)根据小概率值的独立性检验,判断该校学生对航天事业发展的高度关注是否与学生性别有关.参考公式:,其中.临界值表:0.10.050.010.0050.0012.7063.8416.6357.87910.828【答案】(1)(2)该校学生高度关注我国航天事业发展与学生性别有关,【分析】【详解】(1)因为在这200名学生中随机抽取1人,该学生高度关注我国航天事业发展的概率为,所以,解得.又,解得,所以(2)由(1)得,列联表如下:性别关注情况合计高度关注非高度关注女学生7030100男学生9010100合计16040200零假设为;该校学生高度关注我国航天事业发展与学生性别无关.,因为依据小概率值的独立性检验,判断不成立,即认为该校学生高度关注我国航天事业发展与学生性别有关,此推断犯错误的概率不大于.43.为研究中学生的专注力与阅读时长是否有关系,调查小组随机抽取了某城市部分中学生进行调查,所得数据统计如下表(单位:人):每日阅读时长≥30分钟每日阅读时长<30分钟专注力达标17080专注力不达标100150(1)记“每日阅读时长≥30分钟”为事件A,“专注力达标”为事件B,求和;(2)根据的独立性检验,能否认为中学生的专注力与阅读时长有关系?附:.0.0500.0100.001k3.8416.63510.828【答案】(1),(2)根据的独立性检验,可以认为中学生的专注力与阅读时长有关系【分析】【详解】(1),,.(2)零假设:中学生的专注力与阅读时长没有关系,由表中数据可得,根据的独立性检验,推断零假设不成立,即认为中学生的专注力与阅读时长有关系,所以,根据的独立性检验,可以认为中学生的专注力与阅读时长有关系.44.某市为了研究学生身体素质与课外体育锻炼时间的关系,在某个区随机调查了1000名学生,得到如下列联表:课外体育锻炼时间组别达标不达标合计身体素质强86040900身体素质弱4060100合计9001001000(1)根据小概率值的独立性检验,分析课外体育锻炼时间与身体素质是否有关;(2)如果用该区学生达标成绩的情况来估计全市学生的达标情况,现从全市学生中随机抽取3名,求恰有1人课外体育锻炼时间达标的概率.附0.0500.0100.0013.8416.63510.828【答案】(1)有关(2)【分析】【详解】(1)课外体育锻炼时间与身体素质无关,,根据小概率值的独立性检验,推断不成立,所以有的把握认为课外体育锻炼时间与身体素质有关;(2)由题意在某个区随机调查了1000名学生,有900人达标,达标率为,利用频率估计概率可知该区任抽一名学生,这名学生课外体育锻炼时间达标的概率为.记“恰有1人课外体育锻炼时间达标”为事件,则,所以恰有1人课外体育锻炼时间达标的概率.45.某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.(1)根据图中数据,估计强化训练前的成绩的平均数(同一组中的数据用该组区间的中点值作代表);并求强化训练后的成绩的60%分位数.(2)规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.强化训练是否优秀合计优秀非优秀强化训练前强化训练后合计将上面的表格补充完整,依据小概率值的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?附:,.0.050.0100.0050.0013.8416.6357.87910.828【答案】(1)平均数为,分位数为;(2)表格见解析,认为跳水运动员是否优秀与强化训练有关.【分析】【详解】(1)因为强化训练前的各组频率分别为,,,,,;强化训练前的成绩的平均数,强化训练后的各组频率分别为,,,,,又因为前三组频率之和为,前四组频率之和为,可知分位数在内,设分位数为,则,解得,所以分位数约为;(2)零假设为:跳水运动员是否优秀与强化训练无关,补充完整的表格为优秀人数非优秀人数合计强化训练前4060100强化训练后6040100合计100100200则,根据小概率值的独立性检验,我们推断不成立,所以认为跳水运动员是否优秀与强化训练有关.【题型09:独立性检验的最值】46.某校对“学生性别和喜欢刷视频是否有关”作了一次调查,得到如下列联表:不喜欢刷视频喜欢刷视频总计男生女生总计若通过计算,可得根据小概率值的独立性检验,认为学生是否喜欢刷视频与性别有关联,则正整数的最小值为(

)附:,.0.050.010.0050.0013.8416.6357.87910.828A.80 B.100 C.120 D.150【答案】B【详解】完成列联表如下:不喜欢刷视频喜欢刷视频总计男生女生总计则,解得.又为正整数,且是5的倍数,可得的最小值为100.故选:B.47.2025年7月22日是二十四节气中的第十二个节气——大暑.受今年气候等多因素的影响,全国各地高温天气持续不断.某校以“预防中暑,防止脱水”为主题举行活动.为了解男女同学对该活动的兴趣程度,对多位该校同学进行了调查,并将结果整理成如下列联表.性别兴趣程度合计感兴趣不感兴趣男生女生合计(1)当m足够大时,估计从该校任选一名对该活动不感兴趣的学生是男生的概率;(2)若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,求正整数m的最小值.附:,其中.0.10.050.0250.0100.0012.7063.8415.0246.63510.828【答案】(1)(2)10【分析】【详解】(1)由调查数据可知当m足够大时,以频率估计概率可知,从该校任选一名对该活动不感兴趣的学生是男生的概率为.(2)由题意可得,若根据小概率值的独立性检验,认为对该活动是否感兴趣与性别有关,则,解得因为m为正整数,所以m的最小值为10.48.为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了若干人,得到如下列联表:超声波检查结果组别正常不正常合计患该疾病未患该疾病合计(1)记超声波检查结果不正常者患该疾病的概率为,求关系;(2)在(1)的条件下,根据小概率值的独立性检验,分析得出超声波检查结果与患该疾病有关.求的最小值.(保留整数)附,0.0500.0100.0013.8416.63510.828【答案】(1)(2)【分析】【详解】(1)因为超声波检查结果不正常者患该疾病的概率为,所以,解得;(2)将代入列联表可得:超声波检查结果组别正常不正常合计患该疾病未患该疾病合计则,因为根据小概率值的独立性检验,所以,解得,因为,所以n的最小值为45,所以,所以m的最小值为180一、单选题1.有一散点图如图所示,在5个数据中去掉后,下列说法正确的是(

)A.解释变量与响应变量的线性相关性变弱 B.方差变大C.决定系数变小 D.残差平方和变小【答案】D【详解】从散点图可分析出,若去掉点,则剩下的点更能集中在一条直线附近,所以解释变量与响应变量的线性相关性变强,数据的离散程度减小,所以方差变小,决定系数越接近1,会变大,因为拟合效果越好,所以残差平方和变小.故选:D2.为了研究经常使用手机是否对数学学习成绩有影响,某校高二数学研究性学习小组进行了调查,随机抽取高二年级50名学生的一次数学单元测试成绩,并制成下面的2×2列联表:使用手机情况成绩合计及格不及格很少20525经常101525合计302050参考公式:,其中.附表:0.050.0250.0100.0050.0013.8415.0246.6357.87910.828参照附表,得到的正确结论是(

)A.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”B.依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”C.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩无关”D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”【答案】D【详解】由题中数据可得,,所以有99.5%的把握认为“经常使用手机与数学学习成绩有关”,即在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”.所以C错误,D正确;因为,所以依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩有关”,A错误;因为,所以依据小概率值的独立性检验,认为“经常使用手机与数学学习成绩无关”,B错误.故选:D3.AI模型正在改变着我们的工作和生活方法,某机构为了了解对DeepSeek的使用情况与性别的关系,随机调查了人,得到如下列联表(单位:人):性别使用情况合计经常使用不经常使用男性女性合计依据小概率值的独立性检验认为对DeepSeek的使用情况与性别有关系,则的最小值为(

)(附:,,)A.48 B.49 C.50 D.51【答案】D【详解】将列联表中的数据代入公式计算得,解得48.726,又,所以的最小值为51.故选:D.4.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取100名学生.通过测验得到如下的列联表:单位:人学校数学成绩合计不优秀优秀甲401050乙302050合计7030100附:,其中.0.10.050.010.0050.0012.7063.8416.6357.87910.828下列结论正确的是(

)A.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率无差异B.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异C.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异D.依据小概率值的独立性检验,认为两校学生的数学成绩优秀率有差异【答案】B【详解】零假设为:两校学生的数学成绩优秀率无差异,A,若,因为,故有充分的证据推断不成立,即两校学生的数学成绩优秀率有差异,故A错误;B,若,因为,故有充分的证据推断不成立,即两校学生的数学成绩优秀率有差异,故B正确;C,若,因为,故没有充分的证据推断不成立,即两校学生的数学成绩优秀率无差异,故C错误;D,若,因为,故没有充分的证据推断不成立,即两校学生的数学成绩优秀率无差异,故D错误.故选:B5.已知两个变是x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,利用最小二乘法求得的回归方程是,其相关系数是由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示:x12345ym若去掉数据后,剩下的数据也成线性相关关系,其相关系数是,则(

)A. B.C. D.的大小关系无法确定【答案】A【分析】【详解】由题可得原数据,因过点,则,从而.设去掉数据后,新数据为,则,又因,,则,,从而.故选:A6.已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有()A.最大值为 B.最小值为 C.最大值为 D.最小值为【答案】C【详解】已知,把,代入可得:,即.因为对数函数在上单调递增,且,所以,即有最大值为.故选:C.二、多选题7.中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关.为了建立茶水温度随时间变化的回归模型,小明每隔1分钟测量一次茶水温度,得到若干组数据,,…,(其中,),绘制了如图所示的散点图.小明选择了如下2个回归模型来拟合茶水温度随时间的变化情况,回归模型一:;回归模型二:,下列说法正确的是(

).

A.茶水温度与时间这两个变量负相关B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况C.若选择回归模型二,利用最小二乘法求得到的图象一定经过点D.当时,通过回归模型二计算得,用温度计测得实际茶水温度为65.2,则残差为【答案】AB【详解】由散点图可知随时间增加,温度逐渐降低,且变化趋势趋于平缓,故为负相关且模型二拟合更好,即A、B正确;根据非线性回归模型的拟合方法,先令,则,此时拟合为线性回归方程,对应的回归直线过点,原曲线不一定经过,故C错误;残差为真实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论