2020版高考数学第十章统计与统计案例、概率第3节相关性、最小二乘估计、统计案例教案文(含解析)北师大版.docx_第1页
2020版高考数学第十章统计与统计案例、概率第3节相关性、最小二乘估计、统计案例教案文(含解析)北师大版.docx_第2页
2020版高考数学第十章统计与统计案例、概率第3节相关性、最小二乘估计、统计案例教案文(含解析)北师大版.docx_第3页
2020版高考数学第十章统计与统计案例、概率第3节相关性、最小二乘估计、统计案例教案文(含解析)北师大版.docx_第4页
2020版高考数学第十章统计与统计案例、概率第3节相关性、最小二乘估计、统计案例教案文(含解析)北师大版.docx_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3节相关性、最小二乘估计、统计案例最新考纲1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.知 识 梳 理1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.回归分析对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:()画散点图;()求回归直线方程;()用回归直线方程作预报.(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.(2)回归直线方程的求法最小二乘法.设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i1,2,n),则回归直线方程yabx的系数为:其中i,yi,(x,y)称为样本点的中心.(3)相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=;变量B:B1,B2=.22列联表BAB1B2总计A1ababA2cdcd总计acbdabcd构造一个随机变量2,其中nabcd为样本容量.(2)独立性检验利用随机变量来判断“两个变量有关联”的方法称为独立性检验.(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断当22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当22.706时,有90%的把握判定变量A,B有关联;当23.841时,有95%的把握判定变量A,B有关联;当26.635时,有99%的把握判定变量A,B有关联.微点提醒1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(,).2.根据2的值可以判断两个分类变量有关的可信程度,若2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.基 础 自 测1.判断下列结论正误(在括号内打“”或“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)通过回归直线方程ybxa可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的2越大.()答案(1)(2)(3)(4)2.(选修12P21问题提出改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析 B.均值与方差C.独立性检验 D.概率解析“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.答案C3.(选修12P7讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.模型1的相关系数r为0.98B.模型2的相关系数r为0.80C.模型3的相关系数r为0.50D.模型4的相关系数r为0.25解析在两个变量y与x的回归模型中,它们的相关系数r越近于1,模拟效果越好,在四个选项中A的相关系数最大,所以拟合效果最好的是模型1.答案A4.(2019焦作模拟)已知变量x和y的统计数据如下表:x34567y2.5344.56根据上表可得回归直线方程为ybx0.25,据此可以预测当x8时,y()A.6.4 B.6.25 C.6.55 D.6.45解析由题意知5,4,将点(5,4)代入ybx0.25,解得b0.85,则y0.85x0.25,所以当x8时,y0.8580.256.55,故选C.答案C5.(2015全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.答案D6.(2019丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22列联表进行独立性检验,经计算26.705,则所得到的统计学结论是:有_的把握认为“学生性别与支持该活动有关系”()A.99% B.95% C.1% D.5%解析因为6.7056.635,因此有99%的把握认为“学生性别与支持该活动有关系”,故选A.答案A考点一相关关系的判断【例1】 (1)观察下列各图形,其中两个变量x,y具有相关关系的图是()A. B. C. D.(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲 B.乙 C.丙 D.丁解析(1)由散点图知中的点都分布在一条直线附近.中的点都分布在一条曲线附近,所以中的两个变量具有相关关系.(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.答案(1)C(2)D规律方法1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关系数r越大,相关性越强.若r0,则正相关;r0时,正相关;b r2;x,y之间不能建立线性回归方程.解析(1)由y0.1x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用yc1ec2x拟合比用ybxa拟合效果要好,则r1 r2,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误.答案(1)C(2)考点二线性回归方程及应用【例2】 (2018西安调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x20132014201520162017储蓄存款y(千亿元)567810表1为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表2:时间代号t12345z01235表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程ybxa,其中b,ab)解(1)3,2.2,tizi45,t55,b1.2,ab2.231.21.4,所以z1.2t1.4.(2)将tx2 012,zy5,代入z1.2t1.4,得y51.2(x2 012)1.4,即y1.2x2 410.8.(3)因为y1.22 0222 410.815.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.规律方法1.(1)正确理解计算b,a的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程ybxa必过样本点中心(,).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】 (2018全国卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:y30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:y9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解(1)利用模型,该地区2018年的环境基础设施投资额的预测值为y30.413.519226.1(亿元).利用模型,该地区2018年的环境基础设施投资额的预测值为y9917.59256.5(亿元).(2)利用模型得到的预测值更可靠.理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠.()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.考点三独立性检验【例3】 (2019湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50(50,100(100,150(150,200(200,300(300,)空气质量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数112711731根据限行前6年180天与限行后60天的数据,计算并填写22列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计解(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气重度污染和严重污染的概率应为0.0520.1,由频率分布直方图可知(0.0040.0060.005m)500.11,解得m0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.30.1521,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个,记事件A为“至少有一天空气质量是中度污染”,则事件A所包含的事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,故P(A),即至少有一天空气质量是中度污染的概率为.(3)22列联表如下:空气质量优、良空气质量污染总计限行前9090180限行后382260总计128112240由表中数据可得,23.2142.706,所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.规律方法1.在22列联表中,如果两个变量没有关系,则应满足adbc0.|adbc|越小,说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成22列联表:(2)根据公式2计算2的值;(3)比较2的值与临界值的大小关系,作统计推断.【训练3】 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720根据表中数据,得到24.844.则有_的把握认为是否选修文科与性别有关系解析24.8443.841,则有95%的把握认为是否选修文科与性别之间有关系答案95%思维升华1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.独立性检验是根据K2的值判断两个分类变量有关的可信程度.易错防范1.求回归方程,关键在于正确求出系数a,b ,由于a ,b 的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误.2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.独立性检验中统计量2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.基础巩固题组(建议用时:40分钟)一、选择题1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2r40r3r1 B.r4r20r1r3C.r4r20r3r1 D.r2r40r10,r30,图(2)与图(4)是负相关,故r20,r40,且图(1)与图(2)的样本点集中在一条直线附近,因此r2r40r3r1,故选A.答案A2.有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.用相关系数r来刻画回归的效果,r值越接近于1,说明模型的拟合效果越好.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是()A. B. C. D.答案D3.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎不说谎总计男6713女8917总计141630根据表中数据,得到如下结论正确的一项是()A.在此次调查中有95%的把握认为是否说谎与性别有关B.在此次调查中有99%的把握认为是否说谎与性别有关C.在此次调查中有90%的把握认为是否说谎与性别有关D.在此调查中没有充分的证据显示说谎与性别有关解析由已知得20.0022.702,所以在此调查中没有充分的证据显示说谎与性别有关.答案D4.(2019衡水中学调研)已知变量x,y之间的线性回归方程为y0.7x10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是()x681012y6m32A.变量x,y之间呈负相关关系B.可以预测,当x20时,y3.7C.m4D.该回归直线必过点(9,4)解析由0.76.635,可知我们有99%的把握认为“爱好该项运动与性别有关”.答案A二、填空题6.某单位为了了解用电量y(度)与气温x()之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温()1813101用电量(度)24343864由表中数据得回归直线方程ybxa中的b2,预测当气温为4 时,用电量约为_度.解析根据题意知10,40.所以a40(2)1060,y2x60.所以当x4时,y(2)(4)6068,所以用电量约为68度.答案687.(2018赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)几何题代数题总计男同学22830女同学81220总计302050根据上述数据,有_的把握可推断视觉和空间想象能力与性别有关系解析由列联表计算25.5563.841.有95%的把握可推断视觉和空间想象能力与性别有关系.答案95%8.(2019广东深中、华附、省实、广雅四校联考)如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回归方程为ybx1,则b_.解析由题图知2,2.6,将(2,2.6)代入ybx1中,解得b0.8.答案0.8三、解答题9.(2018重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:满意不满意男用户3010女用户2020(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.解(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为.所以在满意产品的用户中应抽取女用户202(人),男用户303(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.故所求的概率为P0.6.(2)由题意,25.3333.841.故有95%的把握认为“产品用户是否满意与性别有关”.10.调查某公司的五名推销员,其工作年限与年推销金额如下表:推销员ABCDE工作年限x(年)23578年推销金额y(万元)33.546.58(1)在图中画出年推销金额关于工作年限的散点图,并从散点图中发现工作年限与年推销金额之间关系的一般规律;(2)利用最小二乘法求年推销金额关于工作年限的回归直线方程;(3)利用(2)中的回归方程,预测工作年限为10年的推销员的年推销金额.附:b,ab.解(1)年推销金额关于工作年限的散点图如图:从散点图可以看出,各点散布在从左下角到右上角的区域里,因此, 工作年限与年推销金额正相关,即工作年限越长,年推销金额越大.(2)由表中数据可得:(23578)5,(33.546.58)5,b,ab55,年推销金额关于工作年限的回归直线方程为yx.(3)当x10时,y10,预测工作年限为10年的推销员的年推销金额为万元.能力提升题组(建议用时:20分钟)11.(2019黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是()A.若26.678,则有99%的把握认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在有99%的把握认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确D.以上三种说法都不正确解析独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若有99%的把握认为吸烟与患肺癌有关系,是指有99%的可能性使得判断正确.故选C.答案C12.(2019承德期末)某城市收集并整理了该市2018年1月份至10月份各月最低气温与最高气温(单位:)的数据,绘制了下面的折线图.已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是()A.最低气温与最高气温为正相关B.10月的最高气温不低于5月的最高气温C.月温差(最高气温减最低气温)的最大值出现在1月D.最低气温低于0 的月份有4个解析在A中,最低气温与最高气温为正相关,故A正确;在B中,10月的最高气温不低于5月的最高气温,故B正确;在C中,月温差(最高气温减最低气温)的最大值出现在1月,故C正确;在D中,最低气温低于0 的月份有3个,故D错误.故选D.答案D13.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:价格x99.5m10.511销售量y11n865由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是y3.2x40,且mn20,则其中的n_.解析8,6.回归直线一定经过样本中心(,),即63.240,即3.2mn42.又因为mn20,即解得故n10.答案1014.(2018山东、湖北部分重点中学模拟)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论