高考数学总复习第八章计数原理、概率与统计第52讲变量的相关性、统计案例练习理新人教A版.docx_第1页
高考数学总复习第八章计数原理、概率与统计第52讲变量的相关性、统计案例练习理新人教A版.docx_第2页
高考数学总复习第八章计数原理、概率与统计第52讲变量的相关性、统计案例练习理新人教A版.docx_第3页
高考数学总复习第八章计数原理、概率与统计第52讲变量的相关性、统计案例练习理新人教A版.docx_第4页
高考数学总复习第八章计数原理、概率与统计第52讲变量的相关性、统计案例练习理新人教A版.docx_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第52讲变量的相关性、统计案例夯实基础【p116】【学习目标】1会收集现实问题中两个有关联变量的数据并作出散点图,会利用散点图直观认识变量间的相关关系;2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用;4了解回归的基本思想、方法及简单应用【基础检测】1已知下表所示数据的回归直线方程为y4x4,则实数a的值为()x23456y3711a21A.16 B18 C20 D22【解析】由表中数据可知x4,y,回归直线方程过样本中心(x,y),所以12,解得a18.【答案】B2以下四个命题中是真命题的是()A对随机变量K2的观测值k来说,k越小,判断“分类变量X与Y有关系”的把握程度越大B两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C若数据x1,x2,x3,xn的方差为1,则2x1,2x2,2x3,2xn的方差为2D在回归分析中,可用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好【解析】依据线性相关及相关指数的有关知识可以推断,选项D是正确的【答案】D3下面是22列联表:y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为()A94,72 B52,50 C74,52 D52,74【解析】a2173,a52.又a22b,b74.【答案】D4通过随机咨询110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2算得,K27.8.附表:P(K2k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是()A在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C有99%以上的把握认为“爱好该项运动与性别有关”D有99%以上的把握认为“爱好该项运动与性别无关”【解析】因为K27.86.635,而P(K26.635)0.010 ,故由独立性检验的意义可知,相关的概率大于10.0100.99.【答案】C5某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:cm),图1为选取的15名志愿者身高与臂展的折线图,图2为身高与臂展所对应的散点图,并求得其回归方程为1.16x30.75,以下结论中不正确的为()A15名志愿者身高的极差小于臂展的极差B15名志愿者身高和臂展成正相关关系C可估计身高为190 cm的人臂展大约为189.65 cmD身高相差10 cm的两人臂展都相差11.6 cm【解析】A.身高极差大约为18 cm,臂展极差大约为23 cm,故正确;B很明显根据散点图象以及回归直线得到,身高矮臂展就会短一些,身高高一些,臂展就长一些,故正确;C身高为190 cm,代入回归方程可得到臂展估计值等于189.65 cm,但是不是准确值,故正确;D身高相差10 cm的两人臂展的估计值相差11.6 cm,但并不是准确值,回归方程上的点并不都是准确的样本点,故说法不正确【答案】D【知识要点】1相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称之为_正相关_;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为_负相关_2线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫_回归直线_3回归方程(1)最小二乘法:使得样本数据的点到回归直线的_距离的平方和_最小的方法叫最小二乘法(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为x,则其中是回归方程的_斜率_,是在y轴上的截距4样本相关系数r,用来衡量两个变量间的线性相关关系(1)当r0时,表示两个变量_正相关_;(2)当r0.75时,认为两个变量有很强的线性相关关系5线性回归模型(1)ybxae中,a,b称为模型的未知参数,e称为随机误差(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R21,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果_越好_在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好6独立性检验(1)用变量的不同“值”表示个体所需的不同类别,这种变量称为分类变量(2)列出的两个分类变量的频数表,称为列联表(3)一般地,假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为:y1y2总计x1ababx2cdcd总计acbdabcdK2(其中nabcd为样本容量),可利用独立性检验判断表来判断“X与Y的关系”这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验典例剖析【p117】考点1相关关系的判断(1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()Ar2r40r3r1 Br4r20r1r3Cr4r20r3r1 Dr2r40r1r3【解析】由相关系数的定义,以及散点图所表达的含义可知r2r40r3r1.【答案】A(2)已知变量x和y满足关系y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关【解析】因为y0.1x1的斜率小于0,故x与y负相关因为y与z正相关,可设zy,0,则zy0.1x,故x与z负相关【答案】C【点评】相关关系的判断的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系若点散布在从左下角到右上角的区域,则正相关(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强考点2回归分析某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子停下所需要的距离),无酒状态与酒后状态下的试验数据分别列于表1和表2中表1停车距离d(米)(10,20(20,30(30,40(40,50(50,60频数26ab82表2平均每毫升血液酒精含量x毫克1030507090平均停车距离y米3050607090已知表1数据的中位数估计值为26,回答以下问题(1)求a,b的值,并估计驾驶员无酒状态下停车距离的平均数;(2)根据最小二乘法,由表2的数据计算y关于x的回归方程x;(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?(附:回归方程x中,yx.)【解析】(1)依题意,得a5026,解得a40,又ab36100,解得b24;故停车距离的平均数为152535455527.(2)依题意,可知x50,y60,605025,所以回归方程为0.7x25.(3)由(1)知当y81时认定驾驶员是“醉驾”,令81,得0.7x2581,解得x80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”【点评】1.回归直线方程中系数的2种求法(1)利用公式,求出回归系数b,a.(2)待定系数法:利用回归直线过样本点中心求系数2回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b.考点3独立性检验某中学对“学生性别和是否喜欢看NBA比赛”作了一次调查,其中男生人数是女生人数的2倍,男生喜欢看NBA的人数占男生人数的,女生喜欢看NBA的人数占女生人数的.(1)若被调查的男生人数为n,根据题意建立一个22列联表;(2)若有95%的把握认为是否喜欢看NBA和性别有关,问男生至少有多少人?附:K2P(K2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828【解析】(1)由已知,得喜欢NBA不喜欢NBA总计男生n女生总计n(2)K2n.若有95%的把握认为是否喜欢看NBA和性别有关则K23.841,即n3.841,n10.24.,为整数,n最小值为12,即男生至少12人【点评】1.独立性检验的关键是准确的计算K2,在计算时,要充分利用22列联表2独立性检验的步骤:(1)根据样本数据制成22列联表(2)根据公式K2计算K2的观测值k.(3)比较k与临界值的大小关系作统计推断考点4概率与统计的综合问题为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,各组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积60,65)65,70)70,75)75,80)80,85)频数1025203015完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数的大小;注射药物A后皮肤疱疹面积的频率分布直方图注射药物B后皮肤疱疹面积的频率分布直方图完成下面22列联表,并回答是否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”表3:疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aab注射药物Bcd合计n附:K2P(K2k)0.1000.0500.0250.0100.001k2.7063.8415.0246.63510.828【解析】(1)甲、乙两只家兔分在不同组的概率为P.(2)如下图所示注射药物A后皮肤疱疹面积的频率分布直方图注射药物B后皮肤疱疹面积的频率分布直方图可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数表3疱疹面积小于70mm2疱疹面积不小于70mm2合计注射药物Aa70b30100注射药物Bc35d65100合计10595n200K224.56.由于K210.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”【点评】本题主要考查概率,频率分布直方图,中位数,22列联表等知识,同时也考查了绘图能力及运算求解能力方法总结【p119】1现实世界中存在不能用函数模型描述的变量关系,这种与函数关系不同的变量间的相关关系,常常通过散点图加以直观认识,然后再寻求这两个变量之间的相关性2两个变量的线性相关:假设两个具有线性相关关系的变量的一组数据为:(x1,y1),(x2,y2),(xn,yn),所求的回归方程是x,其中.3通过求Q(y1bx1a)2(y2bx2a)2(ynbxna)2的最小值而得到,并进而得到回归直线的方法叫做最小二乘法走进高考【p119】1(2018全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由【解析】(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.519226.1(亿元)利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元)(2)利用模型得到的预测值更可靠理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠2(2017全国卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件:“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量50 kg箱产量50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01)附:P(K2k)0.0500.0100.001k3.8416.63510.828【解析】(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”,由题意知P(A)P(BC)P(B)P(C),旧养殖法的箱产量低于50 kg的频率为(0.0120.0140.0240.0340.040)50.62,故P(B)的估计值为0.62,新养殖法的箱产量不低于50 kg的频率为(0.0680.0460.0100.008)50.66,故P(C)的估计值为0.66,因此,事件A的概率估计值为0.620.660.409 2.(2)根据箱产量的频率分布直方图得列联表箱产量6.635,故有99%的把握认为箱产量与养殖方法有关(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.0040.0200.044)50.340.5,故新养殖法箱产量的中位数的估计值为5052.35(kg)考点集训【p238】A组题1四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且2.347x6.423;y与x负相关且3.476x5.648;y与x正相关且5.437x8.493;y与x正相关且4.326x4.578.其中一定不正确的结论的序号是()A B C D【解析】正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为.【答案】D2已知某产品连续4个月的广告费用为xi(i1,2,3,4)千元,销售额为yi(i1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:x1x2x3x418,y1y2y3y414;广告费用x和销售额y之间具有较强的线性相关关系;回归直线方程bxa中的b0.8(用最小二乘法求得),那么,当广告费用为6千元时,可预测销售额约为()A3.5万元B4.7万元C4.9万元D6.5万元【解析】依题意得x4.5,y3.5,由回归直线必过样本中心点得a3.50.84.50.1.当x6时,0.860.14.7.【答案】B3某医疗机构通过抽样调查(样本容量n1 000),利用22列联表和K2统计量研究患肺病是否与吸烟有关计算得K24.453,经查对临界值表知P(K23.841)0.05,现给出四个结论,其中正确的是()A在100个吸烟的人中约有95个人患肺病B若某人吸烟,那么他有95%的可能性患肺病C有95%的把握认为“患肺病与吸烟有关”D只有5%的把握认为“患肺病与吸烟有关”【解析】由已知数据可得有10.0595%的把握认为“患肺病与吸烟有关”【答案】C4某社区为了了解本社区居民的受教育程度与年收入的关系,随机调查了100位居民,得到如下表所示的22列联表(单位:位):分类年收入5万元以下年收入5万元及以上总计高中文化以上104555高中文化及以下153045总计2575100若推断“受教育程度与年收入有关系”,则这种推断犯错误的概率不超过()A2.5% B1% C5% D10%【解析】由表中的数据可得K23.030,由于3.0302.706,所以推断“受教育程度与年收入有关系”,犯错误的概率不超过10%.【答案】D5如图所示,有5组数据:A(1,3),B(2,4),C(3,8),D(7,10),E(10,12),去掉_组数据后剩下的4组数据的线性相关系数最大【解析】仔细观察点A(1,3),B(2,4),C(3,8),D(7,10),E(10,12),可知点A,B,D,E在一条直线附近,而C点明显偏离此直线上,由此可知去掉点C后,使剩下的四点组成的数组相关关系数最大【答案】C6物价部门对本市的5家商场的某商品一天的销售量和价格进行调查,得到5家商场的售价x(元)和销售量y(件)之间的一组数据如下表所示:价格x99.5m10.511销售量y11n865由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是3.2x40,且mn20,则n_【解析】x(99.5m10.511)(40m),y(11n865)(30n)因为其线性回归方程是3.2x40,所以有(30n)3.2(40m)40,即30n3.2(40m)200.又mn20,所以mn10.【答案】107炼钢是一个氧化降碳的过程,由于钢水含碳量的多少直接影响冶炼时间的长短,因此必须掌握钢水含碳量和冶炼时间的关系现已测得炉料熔化完毕时钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一组数据,如下表所示:i12345678910xi/001%104180190177147134150191204121yi/min100200210185155135170205235125xiyi10400360003990032745227851809025500391554794015125(1)据统计表明,y与x之间具有线性相关关系,请用相关系数r加以说明(|r|0.75,则认为y与x有较强的线性相关关系,否则认为没有较强的线性相关关系,r精确到0.001);(2)建立y关于x的回归方程(回归系数的结果精确到0.01);(3)根据(2)中的结论,预测钢水含碳量为160个0.01%的冶炼时间参考公式:回归方程x中斜率和截距的最小二乘估计分别为,yx,相关系数r.参考数据:x159.8,y172,x265 448,y312 350,xiyi287 640,12 905.【解析】(1)由题得r0.991,r0.75,可以认为y与x有较强的线性相关关系(2)1.27,yx30.95,所以回归方程为1.27x30.95.(3)当x160时,1.2716030.95172(min),即大约需要冶炼172 min.8某高校共有学生15 000人,其中男生10 500人,女生4 500人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879附:K2.【解析】(1)30090,所以应收集90位女生的样本数据(2)由频率分布直方图得每周平均体育运动超过4小时的频率为12(0.1000.025)0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知300位学生中有3000.75225(位)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时又因为样本数据中有210个是关于男生的,90个是关于女生的,所以每周平均体育运动时间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论