




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE1第四节变量间的相关关系、统计案例2024考纲考题考情1.两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关。(2)负相关在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关。(3)线性相关关系、回来直线假如散点图中点的分布从整体上看大致在一条直线旁边,我们就称这两个变量之间具有线性相关关系,这条直线叫做回来直线。2.回来方程(1)最小二乘法使得样本数据的点到回来直线的距离的平方和最小的方法叫做最小二乘法。(2)回来方程方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回来方程,其中,是待定参数。eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up10(^))=\f(\o(∑,\s\up10(n),\s\do10(i=1))(xi-\x\to(x))(yi-\x\to(y)),\o(∑,\s\up10(n),\s\do10(i=1))(xi-\x\to(x))2)=\f(\o(∑,\s\up10(n),\s\do10(i=1))xiyi-n\o(x,\s\up10(—))\o(y,\s\up10(—)),\o(∑,\s\up10(n),\s\do10(i=1))x\o\al(2,i)-n\x\to(x)2)。,\o(a,\s\up10(^))=\x\to(y)-\o(b,\s\up10(^))\x\to(x)。))3.回来分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法。(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中(eq\x\to(x),eq\x\to(y))称为样本点的中心。(3)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关。r的肯定值越接近于1,表明两个变量的线性相关性越强。r的肯定值越接近于0,表明两个变量之间几乎不存在线性相关关系。通常|r|大于0.75时,认为两个变量有很强的线性相关性。4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量。(2)列联表:列出两个分类变量的频数表,称为列联表。假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d构造一个随机变量K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d为样本容量。(3)独立性检验利用随机变量K2来推断“两个分类变量有关系”的方法称为独立性检验。1.求解回来方程的关键是确定回来系数,,应充分利用回来直线过样本中心点(,)。2.依据K2的值可以推断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大。3.依据回来方程计算的值,仅是一个预报值,不是真实发生的值。一、走进教材1.(必修3P90例题改编)某探讨机构对高三学生的记忆力x和推断力y进行统计分析,所得数据如表:x681012y2356则y对x的线性回来直线方程为()A.=2.3x-0.7 B.=2.3x+0.7C.=0.7x-2.3 D.=0.7x+2.3eq\b\lc\(\rc\)(\a\vs4\al\co1(相关公式:\o(b,\s\up10(^))=\f(\o(∑,\s\up10(n),\s\do10(i=1))xiyi-n\x\to(x)·\x\to(y),\o(∑,\s\up10(n),\s\do10(i=1))x\o\al(2,i)-n\x\to(x)2),\o(a,\s\up10(^))=\x\to(y)-\o(b,\s\up10(^))\x\to(x)))解析因为eq\i\su(i=1,4,x)iyi=6×2+8×3+10×5+12×6=158,eq\x\to(x)=eq\f(6+8+10+12,4)=9,eq\x\to(y)=eq\f(2+3+5+6,4)=4。所以=eq\f(158-4×9×4,36+64+100+144-4×81)=0.7,=4-0.7×9=-2.3。故线性回来直线方程为=0.7x-2.3。故选C。答案C2.(选修1-2P16习题1.2T2改编)为了推断中学三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025。依据表中数据,得到K2的观测值k=eq\f(50×(13×20-10×7)2,23×27×20×30)≈4.844。则认为选修文科与性别有关系出错的可能性为________。解析K2的观测值k≈4.844>3.841,这表明小概率事务发生。依据假设检验的基本原理,应当断定“是否选修文科与性别之间有关系”成立,并且这种推断出错的可能性约为5%。答案5%二、走近高考3.(2024·山东高考)为了探讨某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,依据测量数据的散点图可以看出y与x之间有线性相关关系,设其回来直线方程为=x+。已知eq\i\su(i=1,10,x)i=225,eq\i\su(i=1,10,y)i=1600,=4。该班某学生的脚长为24,据此估计其身高为()A.160 B.163C.166 D.170解析易知=eq\f(225,10)=22.5,=eq\f(1600,10)=160。因为=4,所以160=4×22.5+,解得=70,所以回来直线方程为=4x+70,当x=24时,=96+70=166。故选C。答案C三、走出误区微提示:①混淆相关关系与函数关系;②不知道回来直线必过样本点中心;③对独立性检验K2值的意义不清晰。4.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③ B.②③①C.②①③ D.①③②解析第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;其次个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应当是①③②。答案D5.某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和K2统计量探讨患肺病是否与吸烟有关。计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是()A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”解析由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”。故选C。答案C6.某车间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了5次试验。依据收集到的数据(如下表),由最小二乘法求得回来方程为=0.67x+54.9。零件数x/个1020304050加工时间y/min62758189现发觉表中有一个数据模糊看不清,则该数据为________。解析设表中那个模糊看不清的数据为m。由表中数据得eq\x\to(x)=30,eq\x\to(y)=eq\f(m+307,5),所以样本点的中心为eq\b\lc\(\rc\)(\a\vs4\al\co1(30,\f(m+307,5))),因为样本点的中心在回来直线上,所以eq\f(m+307,5)=0.67×30+54.9,解得m=68。答案68考点一变量相关关系的推断【例1】(1)下列四个散点图中,变量x与y之间具有负的线性相关关系的是()(2)为探讨语文成果和英语成果之间是否具有线性相关关系,统计某班学生的两科成果得到如图所示的散点图(x轴、y轴的单位长度相同),用回来直线方程=x+近似地刻画其相关关系,依据图形,以下结论最有可能成立的是()A.线性相关关系较强,的值为1.25B.线性相关关系较强,的值为0.83C.线性相关关系较强,的值为-0.87D.线性相关关系较弱,无探讨价值解析(1)视察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系。故选D。(2)由散点图可以看出两个变量所构成的点在一条直线旁边,所以线性相关关系较强,且应为正相关,所以回来直线方程的斜率应为正数,且从散点图视察,回来直线方程的斜率应当比y=x的斜率要小一些,综上可知应选B。答案(1)D(2)B相关关系的直观推断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有肯定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性。【变式训练】(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若全部样本点(xi,yi)(i=1,2,…,n)都在直线y=-eq\f(1,2)x+1上,则这组样本数据的样本相关系数为()A.-1 B.0C.-eq\f(1,2) D.1(2)已知变量x和y满意关系y=-0.1x+1,变量y与z正相关。下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析(1)完全的线性关系,且为负相关,故其相关系数为-1。故选A。(2)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C。答案(1)A(2)C考点二线性回来分析【例2】改革开放40年来,全国居民人均可支配收入由171元增加到2.6万元,中等收入群体持续扩大。我国贫困人口累计削减7.4亿人,贫困发生率下降94.4个百分点,谱写了人类反贫困史上的辉煌篇章。某地级市共有200000名中学生,其中有7%的学生在2024年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特殊困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教化基金”,对这三个等次的困难学生每年每人分别补助1000元、1500元、2000元。经济学家调查发觉,当地人均可支配年收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“精准扶贫”政策,很困难的学生中有2n%转为一般困难学生,特殊困难的学生中有n%转为很困难学生。现统计了该地级市2013年到2024年共5年的人均可支配年收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x取14时代表2014年,…依此类推,且x与y(单位:万元)近似满意关系式=x+,(2013年至2024年该市中学生人数大致保持不变)eq\i\su(i=1,5,)(yi-)2eq\i\su(i=1,5,)(xi-)(yi-)0.83.11(1)估计该市2024年人均可支配年收入为多少万元?(2)试问该市2024年的“专项教化基金”的财政预算大约为多少万元?附:对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回来直线方程=u+的斜率和截距的最小二乘估计分别为=,=-。解(1)因为=eq\f(1,5)(13+14+15+16+17)=15,所以eq\i\su(i=1,5,)(xi-)2=(-2)2+(-1)2+12+22=10,所以==0.1,=-=0.8-0.1×15=-0.7,所以=0.1x-0.7。当x=18时,2024年人均可支配年收入y=0.1×18-0.7=1.1(万元)。(2)由题意知2024年时该市享受“国家精准扶贫”政策的学生共200000×7%=14000人。一般困难、很困难、特殊困难的中学生依次有7000人、4200人、2800人,2024年人均可支配年收入比2024年增长eq\f((0.1×18-0.7)-(0.1×17-0.7),0.1×17-0.7)=0.1=10%。故2024年该市特殊困难的中学生有2800×(1-10%)=2520人,很困难的学生有4200×(1-20%)+2800×10%=3640人,一般困难的学生有7000×(1-30%)+4200×20%=5740人。所以2024年的“专项教化基金”的财政预算大约为5740×0.1+3640×0.15+2520×0.2=1624(万元)。1.对变量值的预料主要是由给出的变量的值预料与其有相关关系的变量的值,一般方法是:若已知回来直线方程,则干脆将数值代入求得预料值。2.回来模型的拟合效果主要有两种途径推断(1)利用数据的散点图,视察数据对应的点与回来直线的位置关系进行分析;(2)利用残差进行分析,最简洁的作法是选择数据中的具有代表性的点进行预报,比较预报值与真实值的差距进行分析。【变式训练】(2024·全国卷Ⅱ)如图是某地区2000年至2024年环境基础设施投资额y(单位:亿元)的折线图。为了预料该地区2024年的环境基础设施投资额,建立了y与时间变量t的两个线性回来模型。依据2000年至2024年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;依据2010年至2024年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t。(1)分别利用这两个模型,求该地区2024年的环境基础设施投资额的预料值;(2)你认为用哪个模型得到的预料值更牢靠?并说明理由。解(1)利用模型①,该地区2024年的环境基础设施投资额的预料值为=-30.4+13.5×19=226.1(亿元)。利用模型②,该地区2024年的环境基础设施投资额的预料值为=99+17.5×9=256.5(亿元)。(2)利用模型②得到的预料值更牢靠。理由如下:a.从折线图可以看出,2000年至2024年的数据对应的点没有随机散布在直线=-30.4+13.5t上下,这说明利用2000年至2024年的数据建立的线性模型①不能很好地描述环境基础设施投资额的改变趋势。2010年相对2009年的环境基础设施投资额有明显增加,2010年至2024年的数据对应的点位于一条直线的旁边,这说明从2010年起先环境基础设施投资额的改变规律呈线性增长趋势,利用2010年至2024年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的改变趋势,因此利用模型②得到的预料值更牢靠。b.从计算结果看,相对于2024年的环境基础设施投资额220亿元,由模型①得到的预料值226.1亿元的增幅明显偏低,而利用模型②得到的预料值的增幅比较合理,说明利用模型②得到的预料值更牢靠。以上2种理由,答出其中一种或其他合理理由均可。考点三独立性检验【例3】(2024·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式。为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人。第一组工人用第一种生产方式,其次组工人用其次种生产方式。依据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)依据茎叶图推断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式其次种生产方式(3)依据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),P(K2≥k)0.0500.0100.001k3.8416.63510.828解(1)其次种生产方式的效率更高。理由如下:①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用其次种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟。因此其次种生产方式的效率更高。②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用其次种生产方式的工人完成生产任务所需时间的中位数为73.5分钟。因此其次种生产方式的效率更高。③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用其次种生产方式的工人完成生产任务平均所需时间低于80分钟,因此其次种生产方式的效率更高。④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用其次种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布。又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用其次种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此其次种生产方式的效率更高。以上4种理由,答出其中一种或其他合理理由均可。(2)由茎叶图知m=eq\f(79+81,2)=80。列联表如下:超过m不超过m第一种生产方式155其次种生产方式515(3)由于K2=eq\f(40(15×15-5×5)2,20×20×20×20)=10>6.635,所以有99%的把握认为两种生产方式的效率有差异。1.在2×2列联表中,假如两个变量没有关系,则应满意ad-bc≈0。|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强。2.解决独立性检验的应用问题,肯定要依据独立性检验的步骤得出结论。独立性检验的一般步骤:(1)依据样本数据制成2×2列联表;(2)依据公式K2=eq\f(n(ad-bc)2,(a+b)(a+c)(b+d)(c+d))计算K2的观测值k;(3)比较观测值k与临界值的大小关系,作统计推断。【变式训练】某省会城市地铁将于2024年6月起先运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与看法如下:月收入(单位:百元)[15,25)[25,35)[35,45)[45,55)[55,65)[65,75]赞成定价者人数123534认为价格偏高者人数4812521(1)若以区间的中点值为该区间内的人均月收入,求参加调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的看法有差异”。月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者赞成定价者总计附:K2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))。P(K2≥k0)0.050.01k03.8416.635解(1)“赞成定价者”的月平均收入为x1=eq\f(20×1+30×2+40×3+50×5+60×3+70×4,1+2+3+5+3+4)≈50.56。“认为价格偏高者”的月平均收入为x2=eq\f(20×4+30×8+40×12+50×5+60×2+70×1,4+8+12+5+2+1)=38.75,所以“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元)。(2)依据条件可得2×2列联表如下:月收入不低于55百元的人数月收入低于55百元的人数总计认为价格偏高者32932赞成定价者71118总计104050K2=eq\f(50×(3×11-7×29)2,10×40×18×32)≈6.272<6.635,所以没有99%的把握认为“月收入以55百元为分界点对地铁定价的看法有差异”。eq\b\lc\\rc\(\a\vs4\al\co1(老师备用题))1.(协作例2运用)如图是某企业2012年至2024年的污水净化量(单位:吨)的折线图。注:年份代码1~7分别对应年份2012~2024。(1)由折线图看出,可用线性回来模型拟合y和t的关系,请用相关系数加以说明;(2)建立y关于t的回来方程,预料2024年该企业的污水净化量;(3)请用数据说明回来方程预报的效果。参考数据:=54,eq\i\su(i=1,7,)(ti-)(yi-)=21,eq\r(14)≈3.74,eq\i\su(i=1,7,)(yi-i)2=eq\f(9,4)。参考公式:相关系数r=,线性回来方程=+t,=,=-。反映回来效果的公式为:R2=1-,其中R2越接近于1,表示回来的效果越好。解(1)由折线图中的数据得,=4,eq\i\su(i=1,7,)(ti-)2=28,eq\i\su(i=1,7,)(yi-)2=18,所以r=eq\f(21,\r(28×18))≈0.935。因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回来模型拟合y与t的关系。(2)因为=54,==eq\f(21,28)=eq\f(3,4),所以=-=54-eq\f(3,4)×4=51,所以y关于t的线性回来方程为=t+=eq\f(3,4)t+51。将2024年对应的t=8代入得=eq\f(3,4)×8+51=57,所以预料2024年该企业污水净化量约为57吨。(3)因为R2=1-=1-eq\f(9,4)×eq\f(1,18)=1-eq\f(1,8)=eq\f(7,8)=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回来方程预报的效果是良好
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度医疗不良事件总结模版
- 苏教版五年级下册语文教学总结模版
- 临时广告牌合同范例
- 医疗设备与地产开发融合的未来趋势分析
- 供应链金融中区块链技术的对公服务优化策略
- 代办房屋过户服务合同范例
- 办公自动化与区块链技术的销售融合
- 书籍采购协议合同范例
- 2025年幼儿园教学总结模版
- 储备管理合同范例
- 2022年大连市西岗区社区工作者招聘考试笔试试题及答案解析
- 上海市律师事务所内部管理制度大全【2017完整版】
- MAM860螺杆式空压机控制器
- 六年级上册英语课件-Unit4 January is the first month. Lesson 19 人教精通版(共31张PPT)
- 项目积分制绩效管理办法优秀资料
- DB31∕696-2020 蒸压加气混凝土砌块(板)单位产品综合能源消耗限额
- 认识分式 课件
- 大商业结构拆改加固专项施工方案(44页)
- 给排水专业ppt课件
- 四年级数学家长会ppt
- 应急预案演练记录表范例
评论
0/150
提交评论