2022年全国版高考数学必刷题第十八单元统计初步_第1页
2022年全国版高考数学必刷题第十八单元统计初步_第2页
2022年全国版高考数学必刷题第十八单元统计初步_第3页
2022年全国版高考数学必刷题第十八单元统计初步_第4页
免费预览已结束,剩余27页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十八单元统计初步考点一数据分析1.(2017年全国卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是().a.月接待游客量逐月增加b.年接待游客量逐年增加c.各年的月接待游客量高峰期大致在7,8月d.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳【解析】对于选项a,由图易知月接待游客量每年7,8月份明显高于12月份,故a错;对于选项b,观察折线图的变化趋势可知年接待游客量逐年增加,故b正确;对于选项c,d,由图可知显然正确.故选a.

2、【答案】a2.(2017年山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y=bx+a.已知i=110xi=225,i=110yi=1600,b=4.该班某学生的脚长为24,据此估计其身高为().a.160b.163c.166d.170【解析】i=110xi=225,x-=110i=110xi=22.5.i=110yi=1600,y-=110i=110yi=160.又b=4,a=y-bx-=160-4×22.5=70.回归直线方程为y=4x+70.将x=24代

3、入上式得y=4×24+70=166.故选c.【答案】c3.(2016年全国卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中a点表示十月的平均最高气温约为15 ,b点表示四月的平均最低气温约为5 .下面叙述不正确的是().a.各月的平均最低气温都在0 以上b.七月的平均温差比一月的平均温差大c.三月和十一月的平均最高气温基本相同d.平均最高气温高于20 的月份有5个【解析】对于选项a,由图易知各月的平均最低气温都在0 以上,故正确;对于选项b,七月的平均最高气温点与平均最低气温点间的距离大于一月的平均最高气温点与平均最低气温点间的距离,

4、所以七月的平均温差比一月的平均温差大,故正确;对于选项c,三月和十一月的平均最高气温均为10 ,故正确;对于选项d,平均最高气温高于20 的月份有七月、八月,共2个月份,故错误.【答案】d4.(2016年山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30.根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是().a.56b.60c.120d.140【解析】由直方图可知每周自习时间不少于22.5小时的频

5、率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.故选d.【答案】d5.(2015年山东卷)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:)制成如图所示的茎叶图.考虑以下结论:甲地该月14时的平均气温低于乙地该月14时的平均气温;甲地该月14时的平均气温高于乙地该月14时的平均气温;甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.a.b.c.d.【解析】甲地该月14时的气温数据分布在2

6、6和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论正确,故选b.【答案】b考点二统计案例6.(2017年全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记a表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计a的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量50 kg旧养殖法新养殖法

7、(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:p(k2k0)0.0500.0100.001k03.8416.63510.828, k2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【解析】(1)记b表示事件“旧养殖法的箱产量低于50 kg”,c表示事件“新养殖法的箱产量不低于50 kg”.由题意知p(a)=p(bc)=p(b)p(c).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故p(b)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为故p(

8、c)的估计值为0.66.因此,事件a的概率估计值为0.62×0.66=0.4092.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量50 kg旧养殖法6238新养殖法3466k2的观测值k=200×(62×66-34×38)2100×100×96×10415.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量

9、低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,所以新养殖法箱产量的中位数的估计值为50+0.5-0.340.06852.35(kg).7.(2016年全国卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:i=17yi=9.32,i=17tiyi=40.17,i=17(y

10、i-y-)2=0.55,72.646.参考公式:相关系数r=i=1n(ti-t-)(yi-y-)i=1n(ti-t-)2i=1n(yi-y-)2,回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为b=i=1n(ti-t-)(yi-y-)i=1n(ti-t-)2,a=y-bt-.【解析】(1)由折线图中的数据和附注中的参考数据得t-=4,i=17(ti-t-)2=28,i=17(yi-y-)2=0.55,i=17(ti-t-)(yi-y-)=i=17tiyi-t-i=17yi=40.17-4×9.32=2.89,故r2.890.55×2×2.6460.99.因

11、为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.(2)由y-=9.3271.331及(1)得b=i=17(ti-t-)(yi-y-)i=17(ti-t-)2=2.89280.103.a=y-bt-1.331-0.103×40.92.所以y关于t的回归方程为y=0.92+0.10t.将2016年对应的t=9代入回归方程得y=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.高频考点:抽样方法的应用、频率分布直方图的认识、茎叶图、频率分布折线图、样本的数字特征、回归方程的求解及

12、应用、独立性检验的应用与判断.命题特点:1.主要考查分层抽样的定义,频率分布直方图,平均数、方差的计算,识图能力及借助概率知识分析问题、解决问题的能力;2.在频率分布直方图中,注意小矩形的高=频率组距,小矩形的面积=组距×频率组距=频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中的分值约为17分,难度中等.§18.1随机抽样与样本分布一随机抽样1.简单随机抽样(1)定义:设一个总体含有n个个体,从中地抽取n个个体作为样本(nn),如果每次抽取时总体内的各个个体被抽到的机会都,就把这种抽样方法叫作简单随机抽样.

13、 (2)最常用的简单随机抽样方法:和. 2.系统抽样在抽样时,将总体分成的若干部分,然后按照的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫作系统抽样(也称为机械抽样或等距抽样). 3.分层抽样在抽样时,将总体分成的层,然后按照,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫作分层抽样.  左学右考a.8b.13c.15 d.182 (2014年天津卷)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年

14、级、三年级、四年级的本科生人数之比为4556,则应从一年级本科生中抽取名学生. 3 (2015年湖北卷)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间0.3,0.9内,其频率分布直方图如图所示.(1)直方图中的a=; (2)在这些购物者中,消费金额在区间0.5,0.9内的购物者的人数为. 二样本分布1.作频率分布直方图的步骤求(即一组数据中最大值与最小值的差);决定与;将数据分组;列频率分布表;画频率分布直方图. 2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形

15、上端的,就得到频率分布折线图. (2)总体密度曲线:随着样本容量的增加,作图时增加,减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线. 3.茎叶图的优点茎叶图的优点是不仅可以原始数据,而且可以记录,这对数据的记录和表示都能带来方便. 4 (2017郑州模拟)已知甲、乙两组数据的茎叶图如图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值mn=().a.1 b.13 c.18 d.38知识清单一、 1.(1)逐个不放回相等(2)抽签法随机数法2.均衡预先制定3.互不交叉一定的比例二、1.极差组距组数2.(1)中点(2)所

16、分的组数组距3.保留随时基础训练【答案】d2.【解析】44+5+5+6×300=60.【答案】603.【解析】(1)由0.1×(1.5+2.5+a+2.0+0.8+0.2)=1,解得a=3.(2)区间0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故区间0.5,0.9内的频率为1-0.4=0.6.因此,消费金额在区间0.5,0.9内的购物者的人数为0.6×10000=6000.【答案】(1)3(2)60004.【解析】由茎叶图得乙组的中位数是33,则甲组的中位数也是33,即m=3.又x-甲=13×(27+39+33)

17、=33,所以x-乙=14×(20+n+32+34+38)=33,解得n=8,所以mn=38.【答案】d题型一抽样方法【例1】(2017豫南九校模拟)淘宝网站对购物情况做了一项调查,收回的有效问卷共500000份,其中购买“服饰鞋帽”的人数为198000;购买“家居用品”的人数为94000;购买“化妆品”的人数为116000;购买“家用电器”的人数为92000.为了解消费者对商品的满意度,淘宝网站用分层抽样的方法从中选出部分问卷进行调查,已知在购买“化妆品”这一类中抽取了116份,则在购买“家居用品”这一类中应抽取的问卷份数为().a.92b.94c.116d.198【解析】设在购买“

18、家居用品”这一类中应抽取的问卷份数为x,则116116000=x94000,解得x=94,故选b.【答案】b1.为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即nini=nn.分层抽样的有关计算,可转化为按比例列方程或算式求解.【变式训练1】在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.【答案】4 题型二统计图表【例2】(2014年全国卷)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:甲部门乙部门3594

19、404489759766533211060112346889887776655555444333210070011344966552008123345632220901145610000(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.【解析】(1)由所给的茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,第26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值为75.50位市民对乙部门的评分由小到大排序,排在第25,第26位的是66,68,

20、故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值为67.(2)由所给的茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表

21、是否正确;(2)频率分布直方图的纵坐标是频率组距,而不是频率.2.茎叶图通常被用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个“茎”,数据是否关于该“茎”对称,数据分布是否均匀等.【变式训练2】在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩(单位:分)进行整理后分为五组,绘制出如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80,100内的学生人数是().a.15b.18c.20d. 25【解析】第二组的频率是0.04×10=0.4,故所有参赛

22、的学生人数为400.4=100.因为80,100的频率是(0.01+0.005)×10=0.15,所以成绩在80,100内的学生人数为0.15×100=15,故选a.【答案】a题型三样本的数字特征【例3】(2017西安模拟)已知样本数据x1,x2,x10的平均数和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,10),则y1,y2,y10的平均数和方差分别为().a.1+a和4b.1+a和4+ac.1和4d.1和4+a【解析】x1,x2,x10的平均数x-=1,方差s12=4,且yi=xi+a(i=1,2,10),y1,y2,y10的平均数为y-=110

23、15;(y1+y2+y10)=110×(x1+x2+x10+10a)=110×(x1+x2+x10)+a=x-+a=1+a,方差为s22=110×(y1-y-)2+(y2-y-)2+(y10-y-)2=110×(x1-1)2+(x2-1)2+(x10-1)2=s12=4.故选a.【答案】a(1)若数据x1,x2,xn的平均数为x-,方差为s2,则数据mx1+a,mx2+a,mxn+a的平均数为mx-+a,方差为m2s2.(2)s2=1n􀰐i=1n(xi-x-)2=1n􀰐i=1nxi2-x-2.【变式训练3】甲、乙两名射

24、击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有一人入选,那么入选的最佳人选应是. 【解析】x-甲=x-乙=9,s甲2=15×(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2=25,s乙2=15×(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2=65>s甲2,故甲更稳定.【答案】甲方法一用比例法求解分层抽样中各层抽取的个体数进行分层抽样的相关计算时,常利用以下关系式巧解:(1)样本容量n总体的个数n=该层抽取的个体数该层的个体数;(2

25、)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.【突破训练1】(2017唐山调研)甲、乙两套设备生产的同类型产品共4800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总件数为. 【解析】由题意知,抽样比为804800=160.设甲设备生产的产品有x件,则x60=50,x=3000.故乙设备生产的产品总件数为4800-3000=1800.【答案】1800方法二用等距法抽取系统抽样中的样本系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式

26、就可以确定每一组内所要抽取的样本号码.a.7b.9c.10d.15【解析】由系统抽样的特点,知抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,939.落入区间451,750内的有459,489,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷b的有10人.【答案】c方法三用估值法提取频率分布直方图中的数据频率分布直方图与众数、中位数、平均数的关系:(1)频率组距×组距=频率;(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数;(3)最高

27、的小矩形底边中点的横坐标为众数的估计值;(4)中位数左边和右边的小矩形的面积和是相等的;(5)平均数是频率分布直方图的“重心”,其估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.【突破训练3】(2017南宁模拟)某校为指导学生合理选择文理科的学习,根据数理综合测评成绩,按6分为满分进行折算后,若学生成绩小于m分,则建议选择文科,若不低于m分,则建议选择理科(这部分学生称为候选理科生).现从该校高一年级随机抽取500名学生的数理综合测评成绩作为样本,整理得到分数的频率分布直方图如图所示.(1)求频率分布直方图中的t值.(2)根据此次测评,为使80%以上的学生选择理科,整

28、数m至多应定为多少?(3)若m=4,试估计该校高一年级的学生中候选理科生的平均成绩.(精确到0.01)【解析】(1)根据频率分布直方图中的频率之和为1,得0.15×1+t×1+0.30×1+t×1+0.15×1=1,解得t=0.2.(2)要使80%以上的学生选择理科,又0.15+0.2+0.3<0.8<0.15+0.2+0.3+0.2,则整数m至多应定为2.(3)当m=4时,抽取的500名学生中候选理科生的平均成绩为4.5×0.2×1×500+5.5×0.15×1×5000

29、.2×1×500+0.15×1×5004.93分,因此,估计该校高一年级的学生中候选理科生的平均成绩为4.93分.方法四用定量分析法识别图表的变化【突破训练4】(2015年全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是().a.逐年比较,2008年减少二氧化硫排放量的效果最显著b.2007年我国治理二氧化硫排放显现成效c.2006年以来我国二氧化硫年排放量呈减少趋势d.2006年以来我国二氧化硫年排放量与年份正相关【解析】由柱形图得,2006年以来我国二氧化硫年排放量呈下降趋势(除2011年稍有

30、上升外),故年排放量与年份负相关,故选d.【答案】d1.(2017大同期末)在一个容量为n的总体中抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同的方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2和p3,则().a.p1=p2<p3b.p2=p3<p1c.p1=p3<p2d.p1=p2=p3【解析】由随机抽样的知识知,三种抽样方法中,每个个体被抽中的概率都相等,故选d.【答案】d2.(2017锦州期末)某工厂生产甲、乙、丙三种型号的产品,产品的数量之比为357,现用分层抽样的方法抽出容量为n的样本,其中甲种型号的产品有18件,则样本容量n=().a

31、.54b.90c.45d.126【解析】依题意得33+5+7×n=18,解得n=90,即样本容量为90.【答案】b3.(2017山东省肥城模拟)如图所示的是某居民小区年龄在20岁到45岁的居民上网情况的频率分布直方图,现已知年龄在30,35),35,40),40,45内的上网人数呈现递减的等差数列,则年龄在35,40)内的频率是().a.0.04b.0.06c.0.2d.0.3【解析】年龄在30,35),35,40),40,45内的频率之和为1-(0.01+0.07)×5=0.6.由题意知,年龄在30,35),35,40),40,45内的频率依次成等差数列,所以35,40)

32、内的频率为0.63=0.2,故选c.【答案】c4.(2017东北四校模拟)某仪器厂从新生产的一批零件中随机抽取40个检测,如图所示的是根据抽样检测后零件的质量(单位:克)绘制的频率分布直方图,样本数据分8组,分别为80,82),82,84),84,86),86,88),88,90),90,92),92,94),94,96,则样本的中位数在().a.第3组b.第4组c.第5组d.第6组【解析】由频率分布直方图可知,前四组的频率为(0.0375+0.0625+0.075+0.1)×2=0.55,则其频数为40×0.55=22.又第四组的频数为40×0.1×2

33、=8,故样本的中位数落在第4组,故选b.【答案】b5.(2017百校联考)如图所示的是某校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为().a.84和4.84b.84和1.6c.85和1.6d.85和4【解析】由题意知,所剩数据的平均数为80+15×(4×3+6+7)=85,所剩数据的方差为15×3×(84-85)2+(86-85)2+(87-85)2=1.6.【答案】c6.(2017邢台模拟)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均数为1,则其方差为().a

34、.105b.305c.2d.2【解析】由题意得m=5×1-(0+1+2+3)=-1,样本方差s2=15×(12+02+12+22+22)=2,故选d.【答案】d7.(2017忻州模拟)某班学生一次数学考试成绩的频率分布直方图如图所示,数据分组依次为70,90),90,110),110,130),130,150.若成绩大于等于90分的学生人数为36,则成绩在110,130)内的学生人数为().a.12b.9c.15d.18【解析】由频率分布直方图可知,数学成绩在70,90),90,110),110,130),130,150内的频率分别为0.1,0.4,0.3,0.2.成绩在7

35、0,90),90,110),110,130),130,150内的学生人数之比为1432,而成绩大于等于90分的学生人数为36,成绩在110,130)的学生人数为34+3+2×36=12,故选a.【答案】a【答案】57a.700b.669c.695d.676【答案】c10.(2017马鞍山一模)我国古代数学名著数书九章有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为().a.134石b.169石c.338石d.1365石【解析】设1534石米内夹谷x石,则由题意知x1534=28254,解得x169.故这批米

36、内夹谷约为169石.【答案】b11.(2016绵阳模拟)某校高三(1)班在某次单元测试中,每位同学的考试分数都在区间100,128内,将该班所有同学的考试分数分为七个组:100,104),104,108),108,112),112,116),116,120),120,124),124,128.绘制出频率分布直方图如图所示,已知分数低于112分的同学有18人,则分数不低于120分的人数为().a.10b.12c.20d.40【解析】分数低于112分的同学对应的频率组距为0.09,分数不低于120分的同学对应的频率组距为0.05,故其人数为180.09×0.05=10.【答案】a12.(

37、2017商丘模拟)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x+y的值为. 【解析】由茎叶图及已知得x=5.又乙组数据的平均数为16.8,即9+15+10+y+18+245=16.8,解得y=8,因此x+y=13.【答案】131号2号3号4号5号甲班67787乙班67679若以上两组数据的方差中较小的一个为s2,则s2=. 【解析】由表可得出乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,则其方差较小.又甲班数据的平均数为7,所以其方差s2=15×(1+0+

38、0+1+0)=25.【答案】2514.(2017海淀区期末)为了研究某种农作物在特定温度下(要求最高温度t满足:27 t30 )的生长状况,某农学家计划在10月份去某地进行为期10天的连续观察试验.现有关于该地区历年10月份日平均最高温度和日平均最低温度(单位:)的记录如下:(1)根据本次试验目的和试验周期,写出农学家观察试验的起始日期.(2)设该地区今年10月上旬(10月1日至10月10日)的日平均最高温度的方差和日平均最低温度的方差分别为d1和d2,估计d1,d2的大小关系.(直接写出结论即可)(3)从10月份31天中随机选择连续3天,求所选3天每天日平均最高温度值都在27,30之间的概率

39、.【解析】(1)农学家观察试验的起始日期为7日或8日.(2)日平均最高温度的方差大,即d1>d2.(3)设“连续3天日平均最高温度值都在27,30之间”为事件a,基本事件空间可以设为,则=(1,2,3),(2,3,4),(3,4,5),(29,30,31),共29个基本事件.由图表可以看出,事件a中包含10个基本事件,所以p(a)=1029,故所选3天每天日平均最高温度值都在27,30之间的概率为1029.15.(2017长沙检测)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,b-),(a,b),(a-,b),(a-,

40、b-),(a,b),(a,b),(a,b-),(a-,b),(a-,b-),(a,b-),(a,b),(a,b-),(a-,b),(a,b).其中a和a-分别表示甲组研发成功和失败;b和b-分别表示乙组研发成功和失败.(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试分别计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平.(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.【解析】(1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,0,1,1,1,0,1,其平均数为x-甲=1015=23,方差为s甲2=115×1

41、-232×10+0-232×5=29.乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为x-乙=915=35,方差为s乙2=115×1-352×9+0-352×6=625.因为x-甲>x-乙,s甲2<s乙2,所以甲组的研发水平优于乙组.(2)记e=恰有一组研发成功.在所抽得的15个结果中,恰有一组研发成功的结果是(a,b-),(a-,b),(a,b-),(a-,b),(a,b-),(a,b-),(a-,b),共7个.因此事件e发生的频率为715.用频率估计概率,即得所求概率为p(e)=715

42、.§18.2相关关系与统计案例一相关关系与回归分析1.利用散点图判断相关性(1)在散点图中,点散布在从到的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从到的区域,对于两个变量的这种相关关系,我们将它称为负相关. (3)如果散点图中点的分布从整体上看大致在附近,就称这两个变量之间具有线性相关关系. 2.利用相关系数判断相关性当r>0时,表明两个变量;当r<0时,表明两个变量.r的绝对值越接近于1,表明两个变量的线性相关性;r的绝对值越接近于0,表明两个变量之间.通常|r|大于时,认为两个变量有很强的线性相关

43、关系. 3.线性回归方程(回归直线方程)(1)最小二乘法:使得样本数据的点到回归直线的最小的方法叫作最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn),其回归方程为y=bx+a,则b=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2=i=1nxiyi-nx-y-i=1nxi2-nx-2,a=y-bx-.其中,b是回归方程的,a是在y轴上的截距.  回归直线一定过样本点的中心. 4.残差分析相关指数:r2=.其中i=1n(yi-yi)2是残差平方和,其值越小,则r2,模型的拟合效果越

44、好. 二独立性检验1.利用随机变量k2来判断“两个分类变量”的方法称为独立性检验. 2.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量x和y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(2×2列联表)为y1y2总计x1ab x2cdc+d总计a+c a+b+c+d则随机变量k2=,其中n=为样本容量. 可利用独立性检验的临界值表来判断“x与y有关系”的可信度. 左学右考1 (2015年湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是().a.x与y正相关,x与z负

45、相关 b.x与y正相关,x与z正相关c.x与y负相关,x与z负相关 d.x与y负相关,x与z正相关2 某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263958根据上表可得回归直线方程y=bx+a中的b=10.6,据此模型预测该产品的广告费用为10万元时销售额为().a.112.1万元b.113.1万元c.111.9万元d.113.9万元3 通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下所示的2×2列联表:男女总计走人行天桥402060走斑马线203050总计605011

46、0计算得k2=110×(40×30-20×20)260×50×60×507.822.附表:p(k2k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是().a.有99%以上的把握认为“选择过马路的方式与性别有关”b.有99%以上的把握认为“选择过马路的方式与性别无关”c.在犯错误的概率不超过0.1%的前提下认为“选择过马路的方式与性别有关”d.在犯错误的概率不超过0.1%的前提下认为“选择过马路的方式与性别无关”知识清单 一、1.(1)左下角右上角(2)左上角右下角(3)一条直线2.正相关

47、负相关越强几乎不存在线性相关关系0.753.(1)距离的平方和(2)斜率(x-,y-)4.1-i=1n(yi-yi)2i=1n(yi-y-)2越大(接近1)二、1.有关系2.a+bb+dn(ad-bc)2(a+b)(a+c)(b+d)(c+d)a+b+c+d基础训练1.【解析】因为y=-0.1x+1的斜率小于0,所以x与y负相关.因为y与z正相关,可设z=by+a,b>0,所以z=by+a=-0.1bx+b+a,故x与z负相关.【答案】c2.【解析】由题意知x-=4+2+3+54=3.5,y-=49+26+39+584=43.将(x-,y-)代入y=10.6x+a中,得43=10.6&#

48、215;3.5+a,解得a=5.9,所以y=10.6x+5.9,当x=10时,y=111.9.【答案】c3.【解析】由k27.822,得p(k26.635)=0.01=1-99%,所以有99%以上的把握认为“选择过马路的方式与性别有关”.【答案】a题型一相关关系的判断【例1】两个变量x和y的散点图如图所示,则下列说法中所有正确命题的序号为. x,y是负相关关系;在该相关关系中,若用y=c1ec2x拟合时的相关指数为r12,用y=bx+a拟合时的相关指数为r22,则r12>r22;x,y之间不能建立线性回归方程.【解析】在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相

49、关关系,故正确;由散点图知,用y=c1ec2x拟合比用y=bx+a拟合效果要好,所以r12>r22,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误.【答案】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.(2)利用相关系数判定,当|r|越趋近于1时,相关性越强.当残差平方和越小,相关指数r2越大,模型拟合效果越好.【变式训练1】观察下列散点图,其中两个变量的相关关系判断正确的是().a.a为正相关,b为负相关,c为不相关b.a为负相关,b为不相关,c为正相关c.a为负相关,b为正相关,c为不相关d.a为正相关,b为不相关,c为负相关【解析】根据散点图,由相

50、关性可知,图a中各点散布在从左下角到右上角的区域内,是正相关;图b中各点散布不成带状,相关性不明确,是不相关;图c中各点散布在从左上角到右下角的区域内,是负相关.故选d.【答案】d题型二线性回归方程及其应用【例2】(2014年全国卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015

51、年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘法估计公式分别为b=i=1n(ti-t-)(yi-y-)i=1n(ti-t-)2,a=y-bt-.【解析】(1)由所给数据计算得t-=17×(1+2+3+4+5+6+7)=4,y-=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,i=17(ti-t-)2=9+4+1+0+1+4+9=28,i=17(ti-t-)(yi-y-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3

52、×1.6=14,b=i=17(ti-t-)(yi-y-)i=17(ti-t-)2=1428=0.5,a=y-bt-=4.3-0.5×4=2.3,故所求回归方程为y=0.5t+2.3.(2)由(1)知b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t=9代入(1)中的回归方程,得y=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.(1)根据样本数据作出散点图或计算相关系数r来判断两个变量之间是否具有相关关系.(2)正确运用计算b,a的公式并准确的计

53、算,是求线性回归方程的关键.充分利用回归直线y=bx+a必过样本点的中心(x-,y-)进行求值.【变式训练2】(2017福州模拟)下表数据为某地区某种农产品的年产量x(单位:吨)及对应销售价格y(单位:千元/吨). x12345y7065553822(1)若y与x有较强的线性相关关系,根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a.(2)若该农产品每吨的成本为13.1千元,假设该农产品可全部卖出,预测当年产量为多少吨时,年利润z最大?参考公式:b=i=1nxiyi-nx-y-i=1nxi2-nx-2=i=1n(xi-x-)(yi-y-)i=1n(xi-x-)2,a=y-

54、bx-.【解析】(1)由所给数据计算得x-=3,y-=50,i=15xiyi =627,i=15xi2=55,代入公式,解得b=-12.3,a=86.9,所以y=-12.3x+86.9.(2)因为年利润z=x(86.9-12.3x)-13.1x=-12.3x2+73.8x=-12.3×(x-3)2+110.7,所以当x=3时,年利润z取得最大值.故预测当年产量为3吨时,年利润z最大.题型三非线性回归方程及其应用【例3】(2015年全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x

55、i和年销售量yi(i=1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x-y-w-i=18(xi-x-)2i=18(wi-w-)2i=18(xi-x-)(yi-y-)i=18(wi-w-)(yi-y-)46.65636.8289.81.61469108.8表中wi=xi,w-=18i=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:年宣传费x=49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线v=+u的斜率和截距的最小二乘估计分别为=i=1n(ui-u-)(vi-v-)i=1n(ui-u-)2,=v-u-.【解析】(1)由散点图可以判断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论