2021版高考数学第十一章统计与统计案例第3讲变量间的相关关系、统计案例教学案理北师大版.docx_第1页
2021版高考数学第十一章统计与统计案例第3讲变量间的相关关系、统计案例教学案理北师大版.docx_第2页
2021版高考数学第十一章统计与统计案例第3讲变量间的相关关系、统计案例教学案理北师大版.docx_第3页
2021版高考数学第十一章统计与统计案例第3讲变量间的相关关系、统计案例教学案理北师大版.docx_第4页
2021版高考数学第十一章统计与统计案例第3讲变量间的相关关系、统计案例教学案理北师大版.docx_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3讲变量间的相关关系、统计案例一、知识梳理1相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,此时可用一条直线来拟合(2)非线性相关若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关,此时可用一条曲线来拟合(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的2最小二乘法(1)最小二乘法如果有n个点(x1,y1),(x2,y2),(xn,yn),可以用下面的表达式来刻画这些点与直线yabx的接近程度:y1(abx1)2y2(abx2)2yn(abxn)2,使得上式达到最小值的直线yabx即为所求直线,这种方法称为最小二乘法(2)线性回归方程线性回归方程为ybxa,其中b,ab3相关系数r (1)r.(2)当r0时,称两个变量正相关当r0时,称两个变量负相关当r0时,称两个变量线性不相关r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近0,表明两个变量之间的线性相关程度越低4独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2A1;变量B:B1,B2B1,通过观察得到下表所示数据:B AB1B2总 计A1ababA2cdcd总 计acbdnabcd 则2,用它的大小来检验变量之间是否独立当22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当22.706时,有90%的把握判定变量A,B有关联;当23.841时,有95%的把握判定变量A,B有关联;当26.635时,有99%的把握判定变量A,B有关联常用结论1求解线性回归方程的关键是确定回归系数a,b,应充分利用线性回归直线过样本中心点(,)2根据2的值可以判断两个分类变量有关的可信程度,若2越大,则两分类变量有关的把握越大3根据线性回归方程计算的y值,仅是一个预报值,不是真实发生的值二、教材衍化1为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A回归分析B均值与方差C独立性检验 D概率解析:选C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断2下面是22列联表:y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为()A94,72 B52,50C52,74 D74,52解析:选C.因为a2173,所以a52.又a22b,所以b74.3某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:x681012y2356则y对x的线性回归直线方程为()Ay2.3x0.7 By2.3x0.7Cy0.7x2.3 Dy0.7x2.3解析:选C.因为xiyi6283105126158,9,4.所以b0.7,a40.792.3.故线性回归直线方程为y0.7x2.3.故选C.一、思考辨析判断正误(正确的打“”,错误的打“”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系()(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值()(4)事件X,Y的关系越密切,由观测数据计算得到的2的观测值越大()(5)通过线性回归方程ybxa可以估计和观测变量的取值和变化趋势()答案:(1)(2)(3)(4)(5)二、易错纠偏(1)混淆相关关系与函数关系;(2)对独立性检验2值的意义不清楚;(3)不知道线性回归直线必过样本点中心1两个变量的相关关系有正相关,负相关,不相关,则下列散点图从左到右分别反映的变量间的相关关系是()ABC D解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是.2某医疗机构通过抽样调查(样本容量n1 000),利用22列联表和2统计量研究患肺病是否与吸烟有关计算得24.453,经查阅临界值表知P(23.841)0.05,现给出四个结论,其中正确的是()A在100个吸烟的人中约有95个人患肺病B若某人吸烟,那么他有95%的可能性患肺病C有95%的把握认为“患肺病与吸烟有关”D只有5%的把握认为“患肺病与吸烟有关”解析:选C.由已知数据可得,有10.0595%的把握认为“患肺病与吸烟有关”故选C.3某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y0.67x54.9.零件数x/个1020304050加工时间y/min62758189现发现表中有一个数据模糊看不清,则该数据为_解析:设表中那个模糊看不清的数据为m.由表中数据得30,所以样本点的中心为,因为样本点的中心在线性回归直线上,所以0.673054.9,解得m68.答案:68相关关系的判断(自主练透)1对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图如图,对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图如图.由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且图的线性回归方程斜率为负,图的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关2某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x12.314.515.017.019.820.6支出y5.635.755.825.896.116.18根据统计资料,则()A月收入的中位数是15,x与y有正线性相关关系B月收入的中位数是17,x与y有负线性相关关系C月收入的中位数是16,x与y有正线性相关关系D月收入的中位数是16,x与y有负线性相关关系解析:选C.月收入的中位数是16,收入增加,支出增加,故x与y有正线性相关关系3变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()Ar2r10B0r2r1Cr200;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,故选C. 判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系(2)相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强 回归分析(多维探究)角度一线性回归方程及其应用 (2020福建福州模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多每年春暖以后至寒冬前,是昆虫大量活动与繁殖的季节,易于采集各种药用昆虫已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如表:日期2日7日15日22日30日温度x/101113128产卵数y/个2325302616(1)从这5天中任选2天,记这两天药用昆虫的产卵数分别为m,n,求事件“m,n均不小于25”的概率;(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验(i)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;(ii)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(i)中所得的线性回归方程是否可靠?附:线性回归直线的斜率和截距的最小二乘估计公式分别为b,ab【解】(1)依题意得,m,n的所有情况有23,25,23,30,23,26,23,16,25,30,25,26,25,16,30,26,30,16,26,16,共10个设“m,n均不小于25”为事件A,则事件A包含的基本事件有25,30,25,26,30,26,共3个所以P(A),即事件A的概率为.(2)(i)由数据得12,27,(xi)(yi)5,(xi)22,ab27123,所以y关于x的线性回归方程为yx3.(ii)由(i)知,y关于x的线性回归方程为yx3,当x10时,y10322,且|2223|2,当x8时,y8317,且|1716|0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X/小时30X70光照控制仪运行台数321对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值相关系数公式:r,参考数据:0.55,0.95.【解】(1)由已知数据可得5,4.因为(xi)(yi)(3)(1)000316,2,所以相关系数r0.95.因为|r|0.75,所以可用线性回归模型拟合y与x的关系(2)由条件可得在过去50周里,当X70时,共有10周,此时只有1台光照控制仪运行,每周的周总利润为13 00021 0001 000(元)当50X70时,共有35周,此时有2台光照控制仪运行,每周的周总利润为23 00011 0005 000(元)当30X50时,共有5周,此时3台光照控制仪都运行,每周的周总利润为33 0009 000(元)所以过去50周的周总利润的平均值为4 600(元),所以商家在过去50周的周总利润的平均值为4 600元线性回归分析问题的类型及解题方法(1)求线性回归方程利用公式,求出回归系数b,a;待定系数法:利用线性回归直线过样本点的中心求系数(2)利用线性回归方程进行预测,把线性回归方程看作一次函数,求函数值(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强 (2020江西南昌模拟)统计学中经常用环比、同比来进行数据比较环比是指本期统计数据与上期比较,如2017年7月与2017年6月相比环比增长率100%,同比增长率100%.下表是某地区近17个月来的消费者信心指数的统计数据:(1)求该地区2018年5月消费者信心指数的同比增长率(百分比形式下保留整数);除2017年1月外,该地区消费者信心指数月环比增长率为负数的有几个月?(2)由以上数据可判断,序号x与该地区消费者信心指数y具有线性相关关系,求出y关于x的线性回归方程ybxa(a,b保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数)参考数据与公式: y115,b aybx.解:(1)该地区2018年5月消费者信心指数的同比增长率为100%10%.若月环比增长率为负数,则本期数10.828.故有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关(3)依题意知,抽取的5台电视机中使用寿命在0,4)内的有1台,使用寿命在4,20内的有4台,则从5台电视机中随机抽取2台,所有的情况有C10(种),其中满足条件的有C6(种),故所求概率P.(1)独立性检验的一般步骤根据样本数据制成22列联表;根据公式2计算K2的值;查表比较2与临界值的大小关系,作出统计判断(2)解独立性检验的应用问题的关注点两个明确:()明确两类主体;()明确研究的两个问题;两个准确:()准确画出22列联表;()准确理解2. 某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人第一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:2,P(2k)0.0500.0100.001k3.8416.63510.828解:(1)第二种生产方式的效率更高理由如下:()由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟因此第二种生产方式的效率更高()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少因此第二种生产方式的效率更高(2)由茎叶图知m80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于2106.635,所以有99%的把握认为两种生产方式的效率有差异化非线性回归分析为线性回归分析某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值表中ui,i.(1)根据散点图判断:yabx与yc哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出结果精确到1)附:对于一组数据(1,1),(2,2),(n,n),其线性回归直线的斜率和截距的最小二乘估计分别为,.【解】(1)由散点图判断,yc更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的线性回归方程(2)令u,先建立y关于u的线性回归方程,由于d所以cd3.638.960.2691.22,所以y关于u的线性回归方程为y1.228.96u,所以y关于x的线性回归方程为y1.22.(3)假设印刷x千册,依题意得10x(1.22)x78.840,所以x10,所以至少印刷10 000册才能使销售利润不低于78 840元对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解 某市一中学课外活动小组为了研究经济走势,对该市19962018年的GDP(国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值其中ziln yi,wiln xi.e6.42614.003,e6.63757.482,e6.84934.489,ln 243.18,ln 253.22,ln 263.26.(1)根据散点图判断,yabx,yecdx与ymnln x哪一个适合作为该市GDP值y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程;(3)试预测该市2020年的GDP值解:(1)由散点图可以判断,yecdx适宜作为该市GDP值y关于年份代码x的回归方程类型(2)令zln y,则zcdx,由参考数据得,所以z关于x的线性回归方程为z1.380.21x,所以y关于x的线性回归方程为ye1.380.21x.(3)由(2)可知,当x25时,ye1.380.2125e6.63757.482.所以预测2020年该市GDP值约为757.482亿元 基础题组练1根据如下样本数据:x345678y4.02.50.50.50.40.1得到的线性回归方程为ybxa,则()A.a0,b0Ba0,b0C.a0 Da0,b0解析:选B.根据给出的数据可发现:整体上y与x呈现负相关,所以b0,故选B.2在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为()A1 B0C. D1解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.3(2020山东德州模拟)已知某产品连续4个月的广告费xi(千元)与销售额yi(万元)(i1,2,3,4)满足xi15, yi12.若广告费用x和销售额y之间具有线性相关关系,且回归直线方程为ybxa,b0.6,当广告费用为5千元时,可预测销售额为(),A.3万元 B.3.15万元C.3.5万元 D.3.75万元,解析:选D.由已知xi15,y i12,得3.75,3,所以33.750.6a,解得a0.75.所以回归直线方程为y0.6x0.75.则当x5时,y3.75万元故选D.4千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计年份(届)2014201520162017学科竞赛获省级一等奖及以上的学生人数x51495557被清华、北大等世界名校录取的学生人数y10396108107根据上表可得回归方程ybxa中的b为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为()A111 B117C118 D123解析:选B.因为53,103.5,所以a103.51.355331.95,所以回归直线方程为y1.35x31.95.当x63时,代入解得y117,故选B.5随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表非一线一线总计愿生452065不愿生132235总计5842100由2,得29.616.参照下表,P(2k0)0.0500.0100.001k03.8416.63510.828下列结论正确的是()A在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C有99%以上的把握认为“生育意愿与城市级别有关”D有99%以上的把握认为“生育意愿与城市级别无关”解析:选C.因为K29.6166.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.6某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为y0.6x1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为_解析:因为y与x具有线性相关关系,满足回归方程y0.6x1.2,该城市居民人均工资为x5,所以可以估计该城市的职工人均消费水平y0.651.24.2,所以可以估计该城市人均消费额占人均工资收入的百分比为84%.答案:84%7已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号12345678数学成绩6065707580859095物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高其中正确的个数为_解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故正确,错误;若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故错误综上,正确的个数为1.答案:18在一组样本数据(x1,y1),(x2,y2),(x6,y6)的散点图中,若所有样本点(xi,yi)(i1,2,6)都在曲线ybx2附近波动经计算xi11,yi13,x21,则实数b的值为_解析:令tx2,则曲线的回归方程变为线性的回归方程,即ybt,此时,代入ybt,得b,解得b.答案:9(2020云南昆明诊断)某公司准备派出选手代表公司参加某职业技能挑战赛经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间t(单位:秒)及挑战失败(用“”表示)的情况如表1:序号x123456789101112131415t甲96939290868380787775t乙95939288838280807473据表1中的数据,应用统计软件得表2:均值(单位:秒)方差线性回归方程甲8550.2t甲1.59x99.31乙8454t乙1.73x100.26(1)根据上述回归方程,预测甲、乙分别在下一次完成该项关键技能挑战所用的时间;(2)若该公司只有一个参赛名额,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由解:(1)当x16时,t甲1.591699.3173.87(秒),t乙1.7316100.2672.58(秒)(2)甲、乙两位选手完成关键技能挑战成功的次数都为10次,失败次数都为5次,所以,只需要比较他们完成关键技能挑战成功的情况即可,根据所给信息,结合(1)中预测结果,综合分析,选手乙代表公司参加技能挑战赛更合适,理由如下:因为在相同次数的挑战练习中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,x甲x乙,乙选手用时更短;由于SS,虽然甲选手的发挥更稳定,但稳定在较大的平均数上,随着训练次数增加,甲、乙用时都在逐步减少,乙的方差大,说明乙进步更大;从(1)的计算结果t乙6.635,所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关(2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为,设备改造后产品为合格品的概率为,显然设备改造后产品合格率更高,因此设备改造后性能更优综合题组练1中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研人社部从网上年龄在1565岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论