2025届新高考数学精准突破复习统计与成对数据的统计分析_第1页
2025届新高考数学精准突破复习统计与成对数据的统计分析_第2页
2025届新高考数学精准突破复习统计与成对数据的统计分析_第3页
2025届新高考数学精准突破复习统计与成对数据的统计分析_第4页
2025届新高考数学精准突破复习统计与成对数据的统计分析_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025届新高考数学精准突破复习统计与成对数据的统计分析高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.考情分析思维导图内容索引典型例题热点突破典例1

(1)(多选)(2023·南京模拟)新能源汽车包括纯电动汽车、增程式电动汽车、混合动力汽车、燃料电池电动汽车、氢发动机汽车等.我国的新能源汽车发展开始于21世纪初,近年来发展迅速,连续8年产销量位居世界第一.考点一图表、数字特征下面两图分别是2017年至2022年我国新能源汽车年产量和占比(占我国汽车年总产量的比例)情况,则A.2017~2022年我国新能源汽车年产量逐年增加B.2017~2022年我国新能源汽车年产量的极差为626.4万辆C.2022年我国汽车年总产量超过2700万辆D.2019年我国汽车年总产量低于2018年我国汽车年总产量√√√对于A,由图可知,从2018年到2019年,我国新能源汽车年产量在下降,故A错误;对于B,2017~2022年我国新能源汽车年产量的极差为705.8-79.4=626.4(万辆),故B正确;所以2019年我国汽车年总产量低于2018年我国汽车年总产量,故D正确.(2)(多选)(2023·新高考全国Ⅰ)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差√√取x1=1,x2=x3=x4=x5=2,x6=9,根据中位数的定义,将x1,x2,…,x6按从小到大的顺序进行排列,中位数是中间两个数的算术平均数,由于x1是最小值,x6是最大值,故x2,x3,x4,x5的中位数是将x2,x3,x4,x5按从小到大的顺序排列后中间两个数的算术平均数,与x1,x2,…,x6的中位数相等,故B正确;根据极差的定义,知x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差,故D正确.跟踪训练1

(1)(多选)(2023·菏泽模拟)在某次数学竞赛活动中,学生得分在

之间,满分100分,随机调查了200位学生的成绩,得到样本数据的频率分布直方图,则A.图中x的值为0.029B.参赛学生分数位于区间

上的概率

约为0.85C.样本数据的75%分位数约为79D.参赛学生的平均分数约为69.4√√对于A,由(0.005+0.015+0.016+x+0.025+0.01)×10=1,解得x=0.029,A正确;对于B,分数位于区间

上的频率为(0.015+0.016+0.029)×10=0.6,估计概率为0.60,B错误;对于C,由选项B知,样本数据的75%分位数m∈(75,85),由(m-75)×0.025=0.75-0.65,解得m=79,C正确;对于D,由频率分布直方图知,各小矩形面积从左到右依次为0.05,0.15,0.16,0.29,0.25,0.1,平均分数

=40×0.05+50×0.15+60×0.16+70×0.29+80×0.25+90×0.1=68.4,D错误.(2)(多选)有一组样本甲的数据xi,一组样本乙的数据2xi+1,其中xi(i=1,2,3,4,5,6,7,8)为不完全相等的正数,则下列说法正确的是A.样本甲的极差一定小于样本乙的极差B.样本甲的方差一定大于样本乙的方差C.若样本甲的中位数是m,则样本乙的中位数是2m+1D.若样本甲的平均数是n,则样本乙的平均数是2n+1√√√不妨设样本甲的数据为0<x1≤x2≤…≤x8,且x1<x8,则样本乙的数据为2x1+1≤2x2+1≤…≤2x8+1,且2x1+1<2x8+1.对于选项A,样本甲的极差为x8-x1>0,样本乙的极差为(2x8+1)-(2x1+1)=2(x8-x1),因为2(x8-x1)-(x8-x1)=x8-x1>0,即2(x8-x1)>x8-x1,所以样本甲的极差一定小于样本乙的极差,故A正确;所以样本甲的方差一定小于样本乙的方差,故B错误;对于选项D,若样本甲的平均数是n,则样本乙的平均数是2n+1,故D正确.典例2

(2023·辽阳模拟)2022年12月份以来,全国多个地区纷纷采取不同的形式发放多轮消费券,助力消费复苏.记发放的消费券额度为x(百万元),带动的消费为y(百万元).某省随机抽查的一些城市的数据如表所示.考点二回归分析x33455668y1012131819212427(1)根据表中的数据,请用样本相关系数说明y与x有很强的线性相关关系,并求出y关于x的经验回归方程;(2)①若该省A城市在2023年2月份准备发放一轮额度为10百万元的消费券,利用(1)中求得的线性回归方程,预计可以带动多少消费?当x=10时,=3.45×10+0.75=35.25,所以预计能带动的消费达35.25百万元.②当实际值与估计值的差的绝对值与估计值的比值不超过10%时,认为发放的该轮消费券助力消费复苏是理想的.若该省A城市2023年2月份发放额度为10百万元的消费券后,经过一个月的统计,发现实际带动的消费为30百万元,请问发放的该轮消费券助力消费复苏是否理想?若不理想,请分析可能存在的原因.因为

≈15%>10%,所以发放的该轮消费券助力消费复苏不是理想的.发放消费券只是影响消费的其中一个因素,还有其他重要因素.比如:A城市经济发展水平不高,居民的收入水平直接影响了居民的消费水平;A城市人口数量有限、商品价格水平、消费者偏好、消费者年龄构成等因素一定程度上影响了消费总量.跟踪训练2

(2023·承德模拟)某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度x(mol/L)与灭死率y的数据,得下表:浓度x(mol/L)10-1210-1010-810-610-4灭死率y0.10.240.460.760.94根据表格数据可知解释变量x呈指数增长,而响应变量y增长幅度不大,且相应的增加量大约相等,浓度x(mol/L)10-1210-1010-810-610-4灭死率y0.10.240.460.760.94浓度x(mol/L)10-1210-1010-810-610-4灭死率y0.10.240.460.760.94(2)①根据(1)的选择结果及表中数据,求出所选经验回归方程;所以可得如下数据:u-12-10-8-6-4y0.10.240.460.760.94u-12-10-8-6-4y0.10.240.460.760.94②依据①中所求经验回归方程,要使灭死率不低于0.8,估计该灭草剂的浓度至少要达到多少mol/L?所以x≥,即要使灭死率不低于0.8,则该灭草剂的浓度至少要达到

mol/L.典例3

(2023·长春模拟)某学校号召学生参加“每天锻炼1小时”活动,为了了解学生参与活动的情况,随机调查了100名学生一个月(30天)完成锻炼活动的天数,制成如下频数分布表:考点三独立性检验天数[0,5)[5,10)[10,15)[15,20)[20,25)[25,30]人数4153331116(1)由频数分布表可以认为,学生参加体育锻炼天数X近似服从正态分布N(μ,σ2),其中μ近似为样本的平均数(每组数据取区间的中间值),且σ=6.1,若全校有3000名学生,求参加“每天锻炼1小时”活动超过21天的人数(精确到1);参考数据:若随机变量X服从正态分布N(μ,σ2),则P(μ-σ≤X≤μ+σ)≈0.6827;P(μ-2σ≤X≤μ+2σ)≈0.9545;P(μ-3σ≤X≤μ+3σ)≈0.9973.由频数分布表知μ=天数[0,5)[5,10)[10,15)[15,20)[20,25)[25,30]人数4153331116=14.9,则X~N(14.9,6.12),∵P(μ-σ≤X≤μ+σ)≈0.6827,∴3000×0.15865=475.95≈476,∴参加“每天锻炼1小时”活动超过21天的人数约为476.(2)调查数据表明,参加“每天锻炼1小时”活动的天数在[15,30]的学生中有30名男生,天数在[0,15)的学生中有20名男生,学校对当月参加“每天锻炼1小时”活动超过15天的学生授予“运动达人”称号.请填写下面列联表:性别活动天数合计[0,15)[15,30]男生

女生

合计

并依据小概率值α=0.05的独立性检验,能否认为学生性别与获得“运动达人”称号有关联?如果有关联,请解释它们之间如何相互影响.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828由频数分布表知,锻炼活动的天数在[0,15)的人数为4+15+33=52,∵参加“每天锻炼1小时”活动的天数在[0,15)的学生中有20名男生,∴参加“每天锻炼1小时”活动的天数在[0,15)的学生中女生人数为52-20=32,由频数分布表知,锻炼活动的天数在[15,30]的人数为31+11+6=48,∵参加“每天锻炼1小时”活动的天数在[15,30]的学生中有30名男生,∴参加“每天锻炼1小时”活动的天数在[15,30]的学生中女生人数为48-30=18.天数[0,5)[5,10)[10,15)[15,20)[20,25)[25,30]人数4153331116∴列联表为性别活动天数合计[0,15)[15,30]男生203050女生321850合计5248100零假设为H0:学生性别与获得“运动达人”称号无关,依据α=0.05的独立性检验,我们推断H0不成立,即可以认为学生性别与获得“运动达人”称号有关,而且此推断犯错误的概率不大于0.05.跟踪训练3

(2023·福州模拟)国内某大学为了了解本校学生的运动状况,采用简单随机抽样的方法从全校学生中抽取2000人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[0,3],记平均每天运动的时间不少于2小时的学生为“运动达人”,少于2小时的学生为“非运动达人”.整理分析数据得到下面的列联表:性别运动时间合计运动达人非运动达人男生11003001400女生400200600合假设为H0:运动时间与性别之间无关联.根据列联表中的数据,算得χ2≈31.746,根据小概率值α=0.001的χ2独立性检验,则认为运动时间与性别有关,此推断犯错误的概率不大于0.001.(1)如果将表中所有数据都缩小为原来的

在相同的检验标准下,再用独立性检验推断运动时间与性别之间的关联性,结论还一样吗?请用统计语言解释其中的原因;性别运动时间合计运动达人非运动达人男生11003001400女生400200600合界值表:α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828方法一改变数据之后的列联表为性别运动时间合计运动达人非运动达人男生11030140女生402060合计15050200方法二调整后的≈3.175<10.828=x0.001,(2)采用按样本性别比例分配的分层随机抽样方法抽取20名同学,并统计每位同学的运动时间,统计数据为:男生运动时间的平均数为2.5,方差为1;女生运动时间的平均数为1.5,方差为0.5,求这20名同学运动时间的均值与方差.性别运动时间合计运动达人非运动达人男生11003001400女生400200600合样本方差为s2,则s2=所以这20名同学运动时间的均值为2.2,方差为1.06.总结提升1.对于回归分析主要考查求经验回归方程(非线性经验回归方程)和对变量值预测,用最小二乘法来求解经验回归方程,对非线性经验回归方程选择恰当的拟合函数,作恰当的变换,将其转化为线性函数.2.对变量的预测,若已知经验回归方程(方程中无参数),可以直接将数值代入求得特定要求下的预测值;若经验回归方程中有参数,则根据经验回归直线一定经过点

求出参数值,得到经验回归方程,进而完成预测.1.(2023·桂林模拟)某学校组建了演讲、舞蹈、航模、合唱、机器人五个社团,全校3000名学生每人都参加且只参加其中一个社团,校团委从这3000名学生中随机选取部分学生进行调查,并将调查结果绘制了如下不完整的两个统计图.12345678910则选取的学生中参加机器人社团的学生人数为A.50

B.75

C.100

D.12512345678910√12345678910由题意,本次调查的人数为50÷10%=500,所以机器人所占的比例为1-10%-20%-15%-40%=15%,所以选取的学生中参加机器人社团的学生人数为500×15%=75.2.(2023·潍坊质检)甲、乙两名篮球运动员在8场比赛中的单场得分用茎叶图表示(图1),茎叶图中甲的得分有部分数据丢失,但甲得分的折线图(图2)完好,则A.甲的单场平均得分比乙低B.乙的60%分位数为19C.甲、乙的极差均为11D.乙得分的中位数是16.512345678910√1234567891012345678910对于B,由8×60%=4.8,故乙的60%分位数为17,故B错误;对于C,甲的极差为28-9=19,乙的极差为20-9=11,故C错误;3.(2023·杭州模拟)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉D(10,2)后,下列说法正确的是A.样本相关系数r变小B.决定系数R2变小C.残差平方和变大D.解释变量x与响应变量y的相关性变强12345678910√12345678910对于B,决定系数R2越接近于1,模型的拟合效果越好,若去掉D(10,2)后,决定系数R2变大,故B错误;从图中可以看出D(10,2)较其他点,偏离直线远,故去掉D(10,2)后,回归效果更好,对于A,样本相关系数

越接近于1,模型的拟合效果越好,若去掉D(10,2)后,样本相关系数r变大,故A错误;12345678910对于C,残差平方和越小,模型的拟合效果越好,若去掉D(10,2)后,残差平方和变小,故C错误;对于D,若去掉D(10,2)后,解释变量x与响应变量y的相关性变强,且是正相关,故D正确.123456789104.(2023·杭州模拟)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据x1+k,x2+k,…,xn+k,k为非零常数.则下列说法不正确的是A.两组样本数据的极差相同B.两组样本数据的标准差相同C.两组样本数据的方差相同D.两组样本数据的平均数相同√12345678910对于A选项,不妨设x1≤x2≤…≤xn,则样本数据x1,x2,…,xn的极差为xn-x1,对于样本数据x1+k,x2+k,…,xn+k(k为非零常数),则x1+k≤x2+k≤…≤xn+k,所以样本数据x1+k,x2+k,…,xn+k(k为非零常数)的极差为(xn+k)-(x1+k)=xn-x1,所以两组样本数据的极差相同,A正确;12345678910所以两组样本数据的平均数不相同,D错误;所以两组样本数据的方差相同,这两组数据的标准差也相同,B,C正确.123456789105.(多选)(2023·广州模拟)某校随机抽取了100名学生测量体重,经统计,这些学生的体重数据(单位:kg)全部介于45至70之间,将数据整理得到如图所示的频率分布直方图,则A.频率分布直方图中a的值为0.07B.这100名学生中体重低于60kg的人数为60C.据此可以估计该校学生体重的第78百分位

数约为62D.据此可以估计该校学生体重的平均数约为62.5√√12345678910对于A,因为5×(0.01+a+0.06+0.04+0.02)=1,解得a=0.07,故A正确;对于B,(0.01+0.07+0.06)×5×100=70(人),故B错误;对于C,因为0.01×5+0.07×5+0.06×5=0.7,0.01×5+0.07×5+0.06×5+0.04×5=0.9,0.7<0.78<0.9,所以第78百分位数位于

之间,12345678910设第78百分位数为x,则0.01×5+0.07×5+0.06×5+(x-60)×0.04=0.78,解得x=62,故C正确;对于D,因为0.01×5×47.5+0.07×5×52.5+0.06×5×57.5+0.04×5×62.5+0.02×5×67.5=57.25,即估计该校学生体重的平均数约为57.25,故D错误.据(x1,y1),(x2,y2),…,(xn,yn)(其中

绘制了如图所示的散点图.小明选择了如下2个回归模型来拟合茶水温度y随时间x的变化情况,回归模型一:y=kx+b(k<0,x≥0);回归模型二:y=kax+b(k>0,0<a<1,x≥0),下列说法正确的是123456789106.(多选)(2023·华南师大附中模拟)中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关.为了建立茶水温度y随时间x变化的回归模型,小明每隔1分钟测量一次茶水温度,得到若干组数C.若选择回归模型二,利用最小二乘法求得y=kax+b的图象一定经过点

(

)D.当x=5时,通过回归模型二计算得y=65.1,用温度计测得实际茶水温

度为65.2,则残差为-0.112345678910A.茶水温度与时间这两个变量负相关B.由于水温开始降得快,后面降得慢,最后趋于

平缓,因此模型二能更好的拟合茶水温度随时

间的变化情况√√12345678910由散点图可知随时间增加,温度逐渐降低,且变化趋势趋于平缓,故为负相关且模型二拟合效果更好,故A,B正确;根据非线性回归模型的拟合方法,先令t=ax,则y=kt+b,此时拟合为一元线性回归模型,残差为观测值减估计值,即为65.2-65.1=0.1,故D错误.123456789107.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,蟋蟀鸣叫的频率x(单位:次数/分钟)与气温y(单位:℃)有较强的线性相关关系.某同学在当地通过观测,得到如下数据,并利用最小二乘法建立了y关于x的经验回归方程

当蟋蟀每分钟鸣叫52次时,该地当时的气温预测值为___.x(次数/分钟)24364060y(℃)2628.63035.433123456789108.某学校有高中学生500人,其中男生320人,女生180人.为了获得全体高中生身高的信息,按照比例分配分层随机抽样原则抽取样本,男生样本量为32,女生样本量为18,通过计算得男生身高样本平均数为173.5cm,方差为17,女生身高样本平均数为163.83cm,方差为30.03,则所有数据的样本平均数为________cm,方差为______.12345678910170.02

43.249.(2023·滁州模拟)大气污染物PM2.5(大气中直径小于或等于2.5μm的颗粒物)的浓度超过一定的限度会影响人的身体健康.为了研究PM2.5的浓度是否受到汽车流量等因素的影响,研究人员选择了20个社会经济发展水平相近的城市,在每个城市选择一个交通点建立监测点,统计每个监测点24h内过往的汽车流量(单位:千辆),同时在低空相同的高度测定每个监测点空气中PM2.5的平均浓度(单位:μg/m3),得到的数据如下表:1234567891012345678910城市编号汽车流量PM2.5浓度城市编号汽车流量PM2.5浓度11.3066111.8213521.4476121.439930.7821130.923541.65170141.445851.75156151.102961.75120161.8414071.2072171.114381.51120181.656991.20100191.5387101.47129200.9145(1)根据上表,若24h内过往的汽车流量大于等于1500辆属于车流量大,PM2.5大于等于75μg/m3属于空气污染.请结合表中的数据,依据小概率值α=0.05的独立性检验,能否认为车流量大小与空气污染有关联?12345678910α0.1000.0500.010xα2.7063.8416.63512345678910由表格,可得如下列联表,零假设为H0:车流量大小与空气污染无关,

车流量小车流量大合计空气无污染819空气污染4711合计12820故依据小概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论