微专题16 统计与成对数据的统计分析_第1页
微专题16 统计与成对数据的统计分析_第2页
微专题16 统计与成对数据的统计分析_第3页
微专题16 统计与成对数据的统计分析_第4页
微专题16 统计与成对数据的统计分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微专题16统计与成对数据的统计分析高考定位高考对本专题内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体、经验回归方程的求解与运用、独立性检验问题,常与概率综合考查,中等难度.【真题体验】1.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9并计算得eq\o(∑,\s\up6(10),\s\do4(i=1))xeq\o\al(2,i)=0.038,eq\o(∑,\s\up6(10),\s\do4(i=1))yeq\o\al(2,i)=1.6158,eq\o(∑,\s\up6(10),\s\do4(i=1))xiyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=eq\f(\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up10(n),\s\do8(i=1))(yi-\o(y,\s\up6(-)))2)),eq\r(1.896)≈1.377.解(1)样本中10棵这种树木的根部横截面积的平均值eq\o(x,\s\up6(-))=eq\f(0.6,10)=0.06(m2),样本中10棵这种树木的材积量的平均值eq\o(y,\s\up6(-))=eq\f(3.9,10)=0.39(m3),据此可估计该林区这种树木平均一棵的根部横截面积为0.06m2,平均一棵的材积量为0.39m3.(2)r=eq\f(\o(∑,\s\up6(10),\s\do4(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up6(10),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up6(10),\s\do4(i=1))(yi-\o(y,\s\up6(-)))2))=eq\f(\o(∑,\s\up6(10),\s\do4(i=1))xiyi-10\o(x,\s\up6(-))\o(y,\s\up6(-)),\r((\o(∑,\s\up6(10),\s\do4(i=1))xeq\o\al(2,i)-10\o(x,\s\up6(-))2)(\o(∑,\s\up6(10),\s\do4(i=1))yeq\o\al(2,i)-10\o(y,\s\up6(-))2)))=eq\f(0.2474-10×0.06×0.39,\r((0.038-10×0.062)(1.6158-10×0.392)))=eq\f(0.0134,\r(0.0001896))≈eq\f(0.0134,0.01377)≈0.97.(3)设该林区这种树木的总材积量的估计值为Ym3,又已知树木的材积量与其根部横截面积近似成正比,可得eq\f(0.06,0.39)=eq\f(186,Y),解得Y=1209(m3).则该林区这种树木的总材积量估计为1209m3.2.(2024·全国甲卷)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品合格品不合格品合计甲车间2624050乙车间70282100合计96522150(1)填写如下列联表:优级品非优级品甲车间乙车间能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率p=0.5.设eq\o(p,\s\up6(-))为升级改造后抽取的n件产品的优级品率.如果eq\o(p,\s\up6(-))>p+1.65eq\r(\f(p(1-p),n)),则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(eq\r(150)≈12.247)附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),n=a+b+c+d.解(1)填写如下列联表:优级品非优级品甲车间2624乙车间7030则完整的2×2列联表如下:优级品非优级品合计甲车间262450乙车间7030100合计9654150K2=eq\f(150×(26×30-70×24)2,96×54×50×100)=4.6875.因为K2=4.6875>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;因为K2=4.6875<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.(2)由题意可知eq\o(p,\s\up6(-))=eq\f(96,150)=0.64,又p+1.65eq\r(\f(p(1-p),n))=0.5+1.65×eq\r(\f(0.5×(1-0.5),150))≈0.5+1.65×eq\f(0.5,12.247)≈0.57,所以eq\o(p,\s\up6(-))>p+1.65eq\r(\f(p(1-p),n)),所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.【热点突破】热点一用样本估计总体考向1统计图表与数字特征的应用例1(1)(多选)(2024·湛江二模)广东省湛江市2017年到2022年常住人口变化图如图所示,则()A.湛江市2017年到2022年这6年的常住人口的极差约为38万B.湛江市2017年到2022年这6年的常住人口呈递增趋势C.湛江市2017年到2022年这6年的常住人口的第60百分位数为730.50万D.湛江市2017年到2022年这6年的常住人口的中位数为717.02万(2)(2024·新乡模拟)已知甲、乙两名篮球运动员在四场小组赛中的得分(单位:分)如表:甲612913乙811714则对于这两组数据,不相同的数字特征是()A.平均数 B.中位数C.方差 D.极差答案(1)ACD(2)B解析(1)由图可知,湛江市2017年到2022年这6年的常住人口的极差约为736.00-698.12≈38(万),A正确;这6年的常住人口前3年呈递增趋势,后三年也递增,但后三年的常住人口低于前3年,B错误;湛江市2017年到2022年这6年的常住人口按照从小到大的顺序排列为698.12,703.09,703.54,730.50,732.20,736.00,6×0.6=3.6,所以第60百分位数为730.50万,中位数为eq\f(703.54+730.50,2)=717.02(万),C,D均正确.(2)对于A,甲的平均数为eq\f(6+12+9+13,4)=10,乙的平均数为eq\f(8+11+7+14,4)=10,故A错误;对于B,将甲从小到大排列为:6,9,12,23,所以中位数为eq\f(9+12,2)=10.5;将乙从小到大排列为:7,8,11,14,所以中位数为eq\f(8+11,2)=9.5,故B正确;对于C,甲的方差为eq\f(1,4)[(6-10)2+(9-10)2+(12-10)2+(13-10)2]=7.5,乙的方差为eq\f(1,4)[(8-10)2+(11-10)2+(7-10)2+(14-10)2]=7.5,故C错误;对于D,甲的极差为13-6=7,乙的极差为14-7=7,故D错误.故选B.考向2用样本的频率分布估计总体分布例2(多选)(2024·温州模拟)在一次数学考试中,某班成绩的频率分布直方图如图所示,则下列说法正确的是()A.图中所有小长方形的面积之和等于1B.中位数的估计值介于100和105之间C.该班成绩众数的估计值为97.5D.该班成绩的极差一定等于40答案ABC解析对于A,由频率分布直方图的性质可知,图中所有小长方形的面积之和等于1,A正确;对于B,易知组距为5,前两组成绩所占的频率为(0.01+0.06)×5=0.35<0.5,前三组成绩所占的频率为(0.01+0.06+0.05)×5=0.6>0.5,由中位数定义可得其估计值介于100和105之间,B正确;对于C,由图可知频率最高的成绩区间为[95,100),取中间值为代表可知该班成绩众数的估计值为97.5,C正确;对于D,由图可知成绩最高区间为[125,130],最低区间为[90,95),但最高分和最低分不一定分别为130,90,所以其成绩极差不一定为40,D错误.易错提醒1.对于给出的统计图表,一定要结合问题背景理解图表意义.2.频率分布直方图中纵坐标不要误以为是频率.训练1某工厂A,B两条生产线生产同款产品,若产品按照一、二、三等级分类,则每件可分别获利10元、8元、6元,现从A,B生产线生产的产品中各随机抽取100件进行检测,结果统计如图:(1)分别计算两条生产线抽样产品获利的方差,以此作为判断依据,说明哪条生产线的获利更稳定;(2)估计该厂产品产量为2000件时的利润以及一等级产品的利润.解(1)从A生产线随机抽取的100件产品获利的平均数eq\o(x,\s\up6(-))1=eq\f(1,100)×(10×20+8×60+6×20)=8(元),方差为seq\o\al(2,1)=eq\f(1,100)×[(10-8)2×20+(8-8)2×60+(6-8)2×20]=1.6,从B生产线随机抽取的100件产品获利的平均数为eq\o(x,\s\up6(-))2=eq\f(1,100)×(10×35+8×40+6×25)=8.2(元),方差为seq\o\al(2,2)=eq\f(1,100)×[(10-8.2)2×35+(8-8.2)2×40+(6-8.2)2×25]=2.36,所以seq\o\al(2,1)<seq\o\al(2,2),则A生产线的获利更稳定.(2)从A,B生产线共随机抽取的200件产品获利的平均数为eq\f(1,200)×[10×(20+35)+8×(60+40)+6×(20+25)]=8.1(元),由样本估计总体,当产品产量为2000件时,估计该工厂获利2000×8.1=16200(元).因为从A,B生产线共随机抽取的200件产品中,A生产线生产的一等级产品有20件,B生产线生产的一等级产品有35件,由样本频率估计总体概率,得该工厂生产产品为一等级产品的概率估计值为eq\f(20+35,200)=eq\f(11,40),当产品产量为2000件时,估计该工厂一等级产品获利2000×eq\f(11,40)×10=5500(元).热点二回归分析例3(2024·邯郸模拟)某民营学校为增强实力与影响力,大力招揽名师、建设校园硬件设施,近5年该校招生人数的数据如表:年份序号x12345招生人数y/千人0.811.31.72.2(1)由表中数据可看出,可用线性回归模型拟合y与x的关系,请用相关系数加以证明;(2)求y关于x的经验回归方程,并预测当年份序号为7时该校的招生人数.参考数据:eq\o(∑,\s\up10(5),\s\do8(i=1))xiyi=24.5,eq\o(∑,\s\up10(5),\s\do8(i=1))(yi-eq\o(y,\s\up6(-)))2=1.26,eq\r(12.6)≈3.55.参考公式:相关系数r=eq\f(\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\r(\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up10(n),\s\do8(i=1))(yi-\o(y,\s\up6(-)))2)),经验回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))中斜率和截距的最小二乘估计公式分别为eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))(yi-\o(y,\s\up6(-))),\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).解(1)由题意知eq\o(x,\s\up6(-))=eq\f(1,5)(1+2+3+4+5)=3,eq\o(y,\s\up6(-))=eq\f(1,5)(0.8+1+1.3+1.7+2.2)=1.4,eq\o(∑,\s\up10(5),\s\do8(i=1))(xi-eq\o(x,\s\up6(-)))2=4+1+0+1+4=10,所以r=eq\f(\o(∑,\s\up10(5),\s\do8(i=1))xiyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up10(5),\s\do8(i=1))(xi-\o(x,\s\up6(-)))2\o(∑,\s\up10(5),\s\do8(i=1))(yi-\o(y,\s\up6(-)))2))=eq\f(24.5-5×3×1.4,\r(10×1.26))=eq\f(3.5,\r(12.6))≈eq\f(3.5,3.55)≈0.986,因为r与1非常接近,故可用线性回归模型拟合y与x的关系.(2)eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up10(5),\s\do8(i=1))xiyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up10(5),\s\do8(i=1))(xi-\o(x,\s\up6(-)))2)=eq\f(3.5,10)=0.35,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))=1.4-0.35×3=0.35,所以y关于x的经验回归方程为eq\o(y,\s\up6(^))=0.35x+0.35.当x=7时,eq\o(y,\s\up6(^))=0.35×7+0.35=2.8,由此预测当年份序号为7时该校的招生人数为2.8千人.易错提醒1.样本点不一定在经验回归直线上,但点(eq\o(x,\s\up6(-)),eq\o(y,\s\up6(-)))一定在经验回归直线上.2.求eq\o(b,\s\up6(^))时,灵活选择公式,注意公式的推导和记忆.3.利用样本相关系数判断相关性强弱时,看|r|的大小,而不是r的大小.4.区分样本相关系数r与决定系数R2.5.通过经验回归方程求的都是估计值,而不是真实值.训练2(2024·重庆诊断)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如表:年份201820192020202120222023编号x123456企业总数量y/百个5078124121137352(1)若用模型y=aebx拟合y与x的关系,根据提供的数据,求出y与x的经验回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化技术比赛的“优胜公司”称号.已知在每场比赛中,甲胜乙的概率为eq\f(1,2),甲胜丙的概率为eq\f(1,3),乙胜丙的概率为eq\f(3,5),若首场由甲乙比赛,求甲公司获得“优胜公司”称号的概率.参考数据:eq\o(∑,\s\up10(6),\s\do8(i=1))ui=28.5,eq\o(∑,\s\up10(6),\s\do8(i=1))xiui=106.05,其中,ui=lnyi.参考公式:对于一组数据(xi,yi)(i=1,2,3,…,n),其经验回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))的斜率和截距的最小二乘估计分别为eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up10(n),\s\do8(i=1))xiyi-n\o(x,\s\up6(-))·\o(y,\s\up6(-)),\o(∑,\s\up10(n),\s\do8(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)).解(1)令eq\o(u,\s\up6(^))=lneq\o(y,\s\up6(^))=ln(eq\o(a,\s\up6(^))eeq\o(b,\s\up6(^))x)=eq\o(b,\s\up6(^))x+lneq\o(a,\s\up6(^)),eq\o(x,\s\up6(-))=eq\f(1+2+3+4+5+6,6)=3.5,eq\o(u,\s\up6(-))=eq\f(28.5,6)=4.75,则eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up10(6),\s\do8(i=1))xiui-n\o(x,\s\up6(-))·\o(u,\s\up6(-)),\o(∑,\s\up10(6),\s\do8(i=1))xeq\o\al(2,i)-n\o(x,\s\up6(-))2)=eq\f(106.05-6×3.5×4.75,12+22+32+42+52+62-6×3.52)=0.36,lneq\o(a,\s\up6(^))=4.75-0.36×3.5=3.49,所以eq\o(a,\s\up6(^))=e3.49,所以y=e3.49·e0.36x=e0.36x+3.49.(2)设甲公司获得“优胜公司”称号为事件A,则P(A)=eq\f(1,2)×eq\f(1,3)+eq\f(1,2)×eq\f(2,3)×eq\f(3,5)×eq\f(1,2)+eq\f(1,2)×eq\f(2,5)×eq\f(1,3)×eq\f(1,2)=eq\f(3,10),所以甲公司获得“优胜公司”称号的概率为eq\f(3,10).热点三独立性检验例4(2024·徐州模拟)某中学对该校学生的学习兴趣和预习情况进行长期调查,学习兴趣分为兴趣高和兴趣一般两类,预习分为主动预习和不太主动预习两类,设事件A:学习兴趣高,事件B:主动预习.据统计显示,P(eq\o(A,\s\up6(-))|eq\o(B,\s\up6(-)))=eq\f(3,4),P(eq\o(A,\s\up6(-))|B)=eq\f(1,4),P(B)=eq\f(4,5).(1)计算P(A)和P(A|B)的值,并判断A与B是否为独立事件;(2)为验证学习兴趣与主动预习是否有关,该校用分层随机抽样的方法抽取了一个容量为m(m∈N*)的样本,利用独立性检验,计算得χ2=1.350.为提高检验结论的可靠性,现将样本容量调整为原来的t(t∈N*)倍,使得能有99.5%的把握认为学习兴趣与主动预习有关,试确定t的最小值.附:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.α0.100.050.0100.0050.001xα2.7063.8416.6357.87910.828解(1)由已知P(A|B)=1-P(eq\o(A,\s\up6(-))|B)=1-eq\f(1,4)=eq\f(3,4),P(A|eq\o(B,\s\up6(-)))=1-P(eq\o(A,\s\up6(-))|eq\o(B,\s\up6(-)))=1-eq\f(3,4)=eq\f(1,4),又因为P(B)=eq\f(4,5),所以P(eq\o(B,\s\up6(-)))=1-P(B)=1-eq\f(4,5)=eq\f(1,5),所以P(A)=P(B)·P(A|B)+P(eq\o(B,\s\up6(-)))·P(A|eq\o(B,\s\up6(-)))=eq\f(4,5)×eq\f(3,4)+eq\f(1,5)×eq\f(1,4)=eq\f(13,20),又P(AB)=P(A|B)·P(B)=eq\f(3,4)×eq\f(4,5)=eq\f(3,5),所以P(AB)≠P(A)P(B),所以A与B不为独立事件.(2)假设原列联表为预习兴趣合计高不高主动aba+b不太主动cdc+d合计a+cb+da+b+c+d根据原数据有eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))=1.35.若将样本容量调整为原来的t(t∈N*)倍,则新的列联表为:预习兴趣合计高不高主动tatbt(a+b)不太主动tctdt(c+d)合计t(a+c)t(b+d)t(a+b+c+d)则χ2=eq\f(t(a+b+c+d)(t2ad-t2bc)2,t(a+b)·t(c+d)·t(a+c)·t(b+d))=eq\f(t(a+b+c+d)(ad-bc)2,(a+b)(c+d)(a+c)(b+d))=1.35t≥7.879,解得t≥5.84,又t∈N*,所以t的最小值为6.易错提醒1.χ2越大两分类变量无关的可能性越小,推断犯错误的概率越小,通过表格查得无关的可能性.2.有99.5%的把握认两个变量有关,就是在犯错误的概率不超过0.005的前提下认为两个变量有关,并不是指两个变量无关的可能性为0.005.训练3(2024·济南质检)人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查不同年龄阶段的人对人工智能所持的态度,某机构从所在地区随机调查了100人,所得结果统计如图表所示:年龄/岁[20,30)[30,40)[40,50)[50,60)[60,70]频数2416152520持支持态度2013121510(1)完成下列2×2列联表,并依据小概率值α=0.010的独立性检验,判断对人工智能所持态度是否与年龄有关;对人工智能的态度年龄在50岁以上(含50岁)以下支持不支持合计(2)以频率估计概率,若在该地区所在年龄在50岁以上(含50岁)的人中随机抽取3人,记X为3人中持支持态度的人数,求X的分布列以及数学期望.附:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),n=a+b+c+d.α0.0500.0100.001xα3.8416.63510.828解(1)由题可得如下2×2列联表对人工智能的态度年龄在50岁合计以上(含50岁)以下支持254570不支持201030合计4555100零假设为H0:对人工智能所持态度与年龄无关.χ2=eq\f(100×(25×10-45×20)2,70×30×45×55)≈8.129,因为8.129>6.635,所以依据小概率值α=0.010的独立性检验,有充分证据推断H0不成立,即对人工智能所持态度与年龄有关.(2)依题意可知,年龄在50岁以上(含50岁)的人中对人工智能持支持态度的频率为eq\f(25,45)=eq\f(5,9).由题意可得X~Beq\b\lc\(\rc\)(\a\vs4\al\co1(3,\f(5,9))),则X的所有可能取值为0,1,2,3.又P(X=0)=Ceq\o\al(0,3)×eq\b\lc\(\rc\)(\a\vs4\al\co1(\f(4,9)))eq\s\up12(3)=eq\f(64,729),P(X=1)=Ceq\o\al(1,3)×eq\f(5,9)×eq\b\lc\(\rc\)(\a\vs4\al\co1(\f(4,9)))eq\s\up12(2)=eq\f(80,243),P(X=2)=Ceq\o\al(2,3)×eq\b\lc\(\rc\)(\a\vs4\al\co1(\f(5,9)))eq\s\up12(2)×eq\f(4,9)=eq\f(100,243),P(X=3)=Ceq\o\al(3,3)×eq\b\lc\(\rc\)(\a\vs4\al\co1(\f(5,9)))eq\s\up12(3)=eq\f(125,729),所以X的分布列为X0123Peq\f(64,729)eq\f(80,243)eq\f(100,243)eq\f(125,729)所以X的数学期望E(X)=0×eq\f(64,729)+1×eq\f(80,243)+2×eq\f(100,243)+3×eq\f(125,729)=eq\f(5,3).【精准强化练】一、单选题1.(2024·成都调研)一组数据按从小到大的顺序排列为2,4,m,13,16,17,若该组数据的中位数是极差的eq\f(3,5),则该组数据的第40百分位数是()A.4 B.4.5C.5 D.9答案C解析极差为17-2=15,故该组数据的中位数是15×eq\f(3,5)=9,共有6个数据,故中位数为eq\f(m+13,2)=9,解得m=5,6×40%=2.4,故该组数据的第40百分位数为5.故选C.2.(2024·山西部分学校质检)已知一组正数x1,x2,x3,x4,x5的方差为s2=eq\f(1,5)eq\o(∑,\s\up6(5),\s\do4(i=1))xeq\o\al(2,i)-9,则另一组数据2x1-1,2x2-1,2x3-1,2x4-1,2x5-1的平均数为()A.4 B.5C.6 D.7答案B解析由s2=eq\f(1,5)eq\o(∑,\s\up6(5),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))2=eq\f(1,5)(eq\o(∑,\s\up6(5),\s\do4(i=1))xeq\o\al(2,i)-5eq\o(x,\s\up6(-))2)=eq\f(1,5)eq\o(∑,\s\up6(5),\s\do4(i=1))xeq\o\al(2,i)-eq\o(x,\s\up6(-))2,可得eq\o(x,\s\up6(-))2=9,由eq\o(x,\s\up6(-))>0,解得eq\o(x,\s\up6(-))=3,故数据2x1-1,2x2-1,2x3-1,2x4-1,2x5-1的平均数为2×3-1=5.故选B.3.(2024·湖南名校联考)某校数学兴趣小组在某座山测得海拔高度x(单位:千米)与气压y(单位:千帕)的六组数据(xi,yi)(i=1,2,…,6),并将其绘制成如图所示的散点图,分析研究发现B点相关数据不符合实际,删除B点后重新进行回归分析,则下列说法正确的是()A.删除点B后,样本数据的两变量x,y正相关B.删除点B后,相关系数r的绝对值更接近于1C.删除点B后,新样本的残差平方和变大D.删除点B后,解释变量x与响应变量y相关性变弱答案B解析从题中散点图可知,删除点B后,样本数据的两变量x,y负相关,所以A错误;由于B点较其他点偏离程度大,故删除B点后,回归效果更好,从而相关系数r的绝对值更接近于1,所以B正确;同理删除后决定系数R2更接近于1,所以新样本的残差平方和变小,所以C错误;由B,C分析知解释变量x与响应变量y相关性增强,所以D错误.故选B.4.(2024·赣州模拟)若一组样本数据x1,x2,…,x8的方差为3,eq\o(∑,\s\up6(8),\s\do4(i=1))(-1)ixi=-2,yi=xi+(-1)i(i=1,2,…,8),则样本数据y1,y2,…,y8的方差为()A.1 B.2C.2.5 D.2.75答案C解析设样本数据x1,x2,…,x8的平均数为eq\o(x,\s\up6(-)),则eq\f(1,8)eq\o(∑,\s\up6(8),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))2=2,设样本数据y1,y2,…,y8的平均数为eq\o(y,\s\up6(-)),由yi=xi+(-1)i(i=1,2,…,8),则eq\o(y,\s\up6(-))=eq\o(x,\s\up6(-)),所以eq\f(1,8)eq\o(∑,\s\up6(8),\s\do4(i=1))(yi-eq\o(y,\s\up6(-)))2=eq\f(1,8)eq\o(∑,\s\up6(8),\s\do4(i=1))[xi+(-1)i-eq\o(x,\s\up6(-))]2=eq\f(1,8)eq\o(∑,\s\up6(8),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))2+eq\f(1,4)eq\o(∑,\s\up6(8),\s\do4(i=1))(-1)i(xi-eq\o(x,\s\up6(-)))+1=3+eq\f(1,4)eq\o(∑,\s\up6(8),\s\do4(i=1))(-1)ixi=3+eq\f(1,4)×(-2)=2.5.5.2024年4月,国内鲜菜、食用油、粮食、禽肉、鲜果、鸡蛋、猪肉价格同比(与去年同期相比)的变化情况如图所示,则下列说法正确的是()A.食用油、粮食、禽肉、鲜果、鸡蛋、猪肉这6种食品中,食用油价格同比涨幅最小B.猪肉价格同比涨幅超过禽肉价格同比涨幅的5倍C.2023年4月鲜菜价格要比2024年4月高D.这7种食品价格同比涨幅的平均数超过10%答案C解析由图可知,粮食价格同比涨幅比食用油价格同比涨幅小,故A错误;猪肉价格同比涨幅为34.4%,禽肉价格同比涨幅为8.5%,34.4%-5×8.5%<0,故B错误;因为鲜菜价格同比涨幅为-21.2%,说明2023年4月鲜菜价格要比2024年4月高,故C正确;这7种食品价格同比涨幅的平均数为eq\f(34.4%+10.4%+9.6%+8.5%+3%+7.6%-21.2%,7)≈7.47%<10%,故D错误.6.(2024·厦门模拟)已知甲、乙两组数据分别为:20,21,22,23,24,25和a,23,24,25,26,27,若乙组数据的平均数比甲组数据的平均数大3,则()A.甲组数据的第70百分位数为23 B.甲、乙两组数据的极差不相同C.乙组数据的中位数为24.5 D.甲、乙两组数据的方差相同答案D解析由题设得eq\f(20+21+22+23+24+25,6)=eq\f(a+23+24+25+26+27,6)-3,解得a=28,甲组数据中6×70%=4.2,故70百分位数为24,A错误;甲组数据的极差为25-20=5,乙组数据的极差为28-23=5,所以甲、乙两组数据的极差相同,故B错误;乙组数据从小到大为23,24,25,26,27,28,故其中位数为eq\f(25+26,2)=25.5,C错误;甲的平均数为eq\f(20+21+22+23+24+25,6)=22.5,乙的平均数为eq\f(28+23+24+25+26+27,6)=25.5,所以甲的方差为eq\f(1,6)×(2.52+1.52+0.52+0.52+1.52+2.52)=eq\f(35,12),乙的方差为eq\f(1,6)×(2.52+2.52+1.52+0.52+0.52+1.52)=eq\f(35,12),故两组数据的方差相同,D正确.7.(2024·新高考Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:亩产量[900,950)[950,1000)[1000,1050)频数61218亩产量[1050,1100)[1100,1150)[1150,1200)频数302410根据表中数据,下列结论中正确的是()A.100块稻田亩产量的中位数小于1050kgB.100块稻田中亩产量低于1100kg的稻田所占比例超过80%C.100块稻田亩产量的极差介于200kg至300kg之间D.100块稻田亩产量的平均值介于900kg至1000kg之间答案C解析对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1050,1100),故A不正确;对于B,100块稻田中亩产量低于1100kg的稻田所占比例为eq\f(6+12+18+30,100)×100%=66%,故B不正确;对于C,因为1200-900=300,1150-950=200,所以100块稻田亩产量的极差介于200kg至300kg之间,故C正确;对于D,100块稻田亩产量的平均值为eq\f(1,100)×(925×6+975×12+1025×18+1075×30+1125×24+1175×10)=1067(kg),故D不正确.8.(2024·西安调研)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商场统计了最近5个月手机的实际销量,如表所示:时间x12345销量y/千只0.50.81.01.21.5若y与x线性相关,且经验回归方程为eq\o(y,\s\up6(^))=0.24x+eq\o(a,\s\up6(^)),则下列说法不正确的是()A.由题中数据可知,变量y与x正相关B.eq\o(a,\s\up6(^))=0.28C.可以预测x=6时该商场5G手机销量为1.72千只D.x=5时,残差为-0.02答案D解析对于A,从数据看,y随x的增加而增加,所以变量y与x正相关,故A正确;对于B,由表中数据知,eq\o(x,\s\up6(-))=eq\f(1+2+3+4+5,5)=3,eq\o(y,\s\up6(-))=eq\f(0.5+0.8+1.0+1.2+1.5,5)=1,所以样本点的中心为(3,1),将(3,1)代入eq\o(y,\s\up6(^))=0.24x+eq\o(a,\s\up6(^))中得eq\o(a,\s\up6(^))=1-3×0.24=0.28,故B正确;对于C,由B项可知eq\o(y,\s\up6(^))=0.24x+0.28,所以当x=6时该商场5G手机销量约为eq\o(y,\s\up6(^))=0.24×6+0.28=1.72(千只),故C正确;对于D,将x=5代入经验回归方程eq\o(y,\s\up6(^))=0.24x+0.28,得eq\o(y,\s\up6(^))=0.24×5+0.28=1.48,则eq\o(e,\s\up6(^))=1.5-1.48=0.02,故D错误.二、多选题9.(2024·开封二模)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下列结论中正确的是()A.该地农户家庭年收入的极差为12B.估计该地农户家庭年收入的75%分位数约为9C.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间D.估计该地农户家庭年收入的平均值超过6.5万元答案BCD解析观察频率分布直方图,对于A,该地农户家庭年收入的极差约为14-3=11,故A错误;对于B,数据在[2.5,8.5)的频率为0.02+0.04+0.1+0.14+0.2+0.2=0.7,数据在[2.5,9.5)的频率为0.8,因此75%分位数m∈(8.5,9.5),(m-8.5)×0.1=0.05,解得m=9,故B正确;对于C,数据在[4.5,8.5)内的频率为0.1+0.14+0.2+0.2=0.64>0.5,C正确;对于D,家庭年收入的平均值eq\o(x,\s\up6(-))=3×0.02+4×0.04+5×0.1+6×0.14+7×0.2+8×0.2+9×0.1+10×0.1+11×0.04+(12+13+14)×0.02=7.68(万元),D正确.10.(2024·合肥模拟)现有甲、乙两家检测机构对某品牌的一款智能手机进行拆解测评,具体打分如表(满分100分).设事件M表示“从甲机构测评分数中任取3个,至多1个超过平均分”,事件N表示“从甲机构测评分数中任取3个,恰有2个超过平均分”.下列说法正确的是()机构名称甲乙分值90989092959395929194A.甲机构测评分数的平均分小于乙机构测评分数的平均分B.甲机构测评分数的方差大于乙机构测评分数的方差C.乙机构测评分数的第一四分位数为91.5D.事件M,N互为对立事件答案BD解析对于A,甲机构测评分数的平均分eq\o(x,\s\up6(-))甲=eq\f(90+98+90+92+95,5)=93,乙机构测评分数的平均分eq\o(x,\s\up6(-))乙=eq\f(93+95+92+91+94,5)=93,A错误;对于B,甲机构测评分数的方差seq\o\al(2,1)=eq\f(1,5)×[(90-93)2+(98-93)2+(90-93)2+(92-93)2+(95-93)2]=9.6,乙机构测评分数的方差seq\o\al(2,2)=eq\f(1,5)×[(93-93)2+(95-93)2+(92-93)2+(91-93)2+(94-93)2]=2,B正确;对于C,乙机构测评分数从小到大排列为:91,92,93,94,95,又i=np=5×0.25=1.25,所以乙机构构测评分数的第一四分位数为92,C错误;对于D,因为甲机构测评分数中有且仅有2个测评分数超过平均分,由对立事件的定义知,事件M,N互为对立事件,D正确.11.(2024·杭州调研)已知数据x1<x2<x3<x4<x5<x6<x7,若去掉x4后剩余6个数的平均数比7个数的平均数大,记x1,x2,x3,x4的平均数与方差为eq\o(x,\s\up6(-))1,seq\o\al(2,1),记x4,x5,x6,x7的平均数与方差为eq\o(x,\s\up6(-))2,seq\o\al(2,2),则()A.eq\o(x,\s\up6(-))1+eq\o(x,\s\up6(-))2>2x4B.eq\o(x,\s\up6(-))1+eq\o(x,\s\up6(-))2<2x4C.seq\o\al(2,1)-seq\o\al(2,2)>eq\f(1,4)eq\b\lc\[\rc\](\a\vs4\al\co1(\o(∑,\s\up6(4),\s\do4(k=1))(xk-x4)2-\o(∑,\s\up6(7),\s\do4(k=4))(xk-x4)2))D.seq\o\al(2,1)-seq\o\al(2,2)<eq\f(1,4)eq\b\lc\[\rc\](\a\vs4\al\co1(\o(∑,\s\up6(4),\s\do4(k=1))(xk-x4)2-\o(∑,\s\up6(7),\s\do4(k=4))(xk-x4)2))答案AC解析因为eq\f(x1+x2+x3+x5+x6+x7,6)>eq\f(x1+x2+x3+x4+x5+x6+x7,7),所以x1+x2+x3+x5+x6+x7>6x4,所以(x1+x2+x3+x4)+(x4+x5+x6+x7)>8x4,所以eq\o(x,\s\up6(-))1+eq\o(x,\s\up6(-))2>2x4,故A正确,B错误;seq\o\al(2,1)-seq\o\al(2,2)=eq\b\lc\[\rc\](\a\vs4\al\co1(\f(xeq\o\al(2,1)+xeq\o\al(2,2)+xeq\o\al(2,3)+xeq\o\al(2,4),4)-\b\lc\(\rc\)(\a\vs4\al\co1(\f(x1+x2+x3+x4,4)))\s\up12(2)))-eq\b\lc\[\rc\](\a\vs4\al\co1(\f(xeq\o\al(2,4)+xeq\o\al(2,5)+xeq\o\al(2,6)+xeq\o\al(2,7),4)-\b\lc\(\rc\)(\a\vs4\al\co1(\f(x4+x5+x6+x7,4)))\s\up12(2)))=eq\f(1,4)eq\b\lc\[\rc\](\a\vs4\al\co1(\b\lc\(\rc\)(\a\vs4\al\co1(xeq\o\al(2,1)+xeq\o\al(2,2)+xeq\o\al(2,3)))-\b\lc\(\rc\)(\a\vs4\al\co1(xeq\o\al(2,5)+xeq\o\al(2,6)+xeq\o\al(2,7)))+4\b\lc\(\rc\)(\a\vs4\al\co1(\o(x,\s\up6(-))eq\o\al(2,2)-\o(x,\s\up6(-))eq\o\al(2,1)))))=eq\f(1,4)eq\b\lc\[(\a\vs4\al\co1((xeq\o\al(2,1)+xeq\o\al(2,2)+xeq\o\al(2,3))-(xeq\o\al(2,5)+xeq\o\al(2,6)+xeq\o\al(2,7))+))>eq\f(1,4)[(xeq\o\al(2,1)+xeq\o\al(2,2)+xeq\o\al(2,3))-(xeq\o\al(2,5)+xeq\o\al(2,6)+xeq\o\al(2,7))+8x4(eq\o(x,\s\up6(-))2-eq\o(x,\s\up6(-))1)]=eq\f(1,4)eq\b\lc\[\rc\](\a\vs4\al\co1(\o(∑,\s\up6(4),\s\do4(k=1))(xk-x4)2-\o(∑,\s\up6(7),\s\do4(k=4))(xk-x4)2)),故C正确,D错误.故选AC.三、填空题12.某校抽取100名学生做体能测试,其中百米测试中,成绩全部介于13秒与18秒之间,将测试结果分成五组:第一组[13,14),第二组[14,15),…,第五组[17,18].如图是按上述分组方法得到的频率分布直方图,若成绩低于a即为优秀,如果优秀的人数为14,则a的估计值是________.答案14.5解析优秀人数所占的频率为eq\f(14,100)=0.14,测试结果位于[13,14)的频率为0.06<0.14,测试结果位于[13,15)的频率为0.06+0.16=0.22>0.14,所以a∈(14,15),由题意可得0.06+(a-14)×0.16=0.14,解得a=14.5.13.某学校有男生400人,女生600人.为了调查该校全体学生每天睡眠时间,采用分层随机抽样的方法抽取样本,计算得男生每天睡眠时间均值为7.5小时,方差为1,女生每天睡眠时间均值为7小时,方差为0.5.若男、女样本量按比例分配,则可估计总体方差为________.答案0.76解析由题意,总体的均值为eq\f(400,1000)×7.5+eq\f(600,1000)×7=7.2,根据分层随机抽样的性质,则总体的方差为eq\f(400,1000)×[1+(7.5-7.2)2]+eq\f(600,1000)×[0.5+(7.2-7)2]=0.436+0.324=0.76.14.足球是一项大众喜爱的运动,某校足球社通过调查并进行科学的统计分析,对学校学生喜爱足球是否与性别有关的问题,得出了结论:喜爱足球与性别有关,此推断犯错误的概率不大于0.005.据足球社透露,他们随机抽取了若干人进行调查,抽取女生人数是男生人数的2倍,男生喜爱足球的人数占男生人数的eq\f(5,6),女生喜爱足球的人数占女生人数的eq\f(1,3).通过以上信息,可以确定本次足球社所调查的男生至少有________人.附:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).α0.100.050.010.0050.001xa2.7063.8416.6357.87910.828答案12解析设被调查的男生为x人,则女生为2x人,依题意可得到列联表如下:足球性别合计男生女生喜爱eq\f(5x,6)eq\f(2x,3)eq\f(3x,2)不喜爱eq\f(x,6)eq\f(4x,3)eq\f(3x,2)合计x2x3x所以χ2=eq\f(3x\b\lc\(\rc\)(\a\vs4\al\co1(\f(5x,6)·\f(4x,3)-\f(2x,3)·\f(x,6)))\s\up12(2),\f(3x,2)·\f(3x,2)·x·2x)=eq\f(2x,3),因此本次调查得出“在犯错误的概率不超过0.005的前提下认为喜爱足球与性别有关”的结论,所以有χ2≥7.879,即eq\f(2x,3)≥7.879,解得x≥11.8185,又因为上述列联表中的所有数字均为整数,故x的最小值为12.四、解答题15.(2024·台州模拟)为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据(表一).表一编号12345学习时间x3040506070数学成绩y65788599108(1)请根据所给数据求出x,y的经验回归方程,并由此预测每天课后自主学习数学时间为100分钟时的数学成绩;(参考数据:eq\o(∑,\s\up6(5),\s\do4(i=1))xiyi=22820,eq\o(∑,\s\up6(5),\s\do4(i=1))yi=435,xi的方差为200)(2)基于上述调查,某校提倡学生周末在校自主学习.经过一学期的实施后,抽样调查了220位学生.按照是否参与周末在校自主学习以及成绩是否有进步统计,得到2×2列联表(表二).依据表中数据及小概率值α=0.001的独立性检验,分析“周末在校自主学习与成绩进步”是否有关.表二周末在校自主学习成绩进步没有有合计参与35130165未参与253055合计60160220附:eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))·(yi-\o(y,\s\up6(-))),\o(∑,\s\up10(n),\s\do8(i=1))(xi-\o(x,\s\up6(-)))2),eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-)),χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).α0.100.050.0100.0050.001χα2.7063.8416.6357.87910.828解(1)eq\o(x,\s\up6(-))=eq\f(30+40+50+60+70,5)=50,eq\o(y,\s\up6(-))=eq\f(435,5)=87,又xi(i=1,2,3,…,5)的方差为eq\f(1,5)eq\o(∑,\s\up6(5),\s\do4(i=1))(xi-eq\o(x,\s\up6(-)))2=200,所以eq\o(b,\s\up6(^))=eq\f(\o(∑,\s\up6(5),\s\do4(i=1))(xi-\o(x,\s\up6(-)))·(yi-\o(y,\s\up6(-))),\o(∑,\s\up6(5),\s\do4(i=1))(xi-\o(x,\s\up6(-)))2)=eq\f(\o(∑,\s\up6(5),\s\do4(i=1))xi·yi-5\o(x,\s\up6(-))·\o(y,\s\up6(-)),5×200)=eq\f(22820-5×50×87,1000)=1.07,eq\o(a,\s\up6(^))=eq\o(y,\s\up6(-))-eq\o(b,\s\up6(^))eq\o(x,\s\up6(-))=87-1.07×50=33.5,故eq\o(y,\s\up6(^))=1.07x+33.5,当x=100时,y=140.5,故预测每天课后自主学习数学时间达到100分钟时的数学成绩为140.5分.(2)零假设为H0:学生周末在校自主学习与成绩进步无关.根据数据,计算得到:χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))=eq\f(220×(35×30-25×130)2,165×55×60×160)=eq\f(110,9)≈12.22,因为12.22>10.828,所以依据α=0.001的独立性检验,可以认为“周末自主学习与成绩进步”有关.16.某高科技公司对其产品研发投资额x(单位:百万元)与其年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.x123456y0.511.53612z=lny-0.700.41.11.82.5(1)该公司科研团队通过分析散点图的特征后,计划分别用①eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))和②eq\o(y,\s\up6(^))=eeq\o(d,\s\up6(^))x+eq\o(c,\s\up6(^))两种方案作为年销售量y关于年投资额x的回归分析模型,请根据统计表的数据,确定方案①和②的经验回归方程;(注:系数b,a,d,c按四舍五入保留一位小数)(2)根据下表中数据,用决定系数R2(不必计算,只比较大小)比较两种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测当研发年投资额

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论