




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§9.3成对数据的统计分析考试要求1.了解样本相关系数的统计含义.2.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.知识梳理1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.2.样本相关系数(1)r=eq\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\r(\i\su(i=1,n,)xi-\x\to(x)2)\r(\i\su(i=1,n,)yi-\x\to(y)2)).(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))称为Y关于x的经验回归方程,其中eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\i\su(i=1,n,)xi-\x\to(x)yi-\x\to(y),\i\su(i=1,n,)xi-\x\to(x)2),,\o(a,\s\up6(^))=\x\to(y)-\o(b,\s\up6(^))\x\to(x).))(2)残差:观测值减去预测值,称为残差.4.列联表与独立性检验(1)关于分类变量X和Y的抽样数据的2×2列联表:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d(2)计算随机变量χ2=eq\f(nad-bc2,a+bc+da+cb+d),利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.α0.100.050.0100.0050.001xα2.7063.8416.6357.87910.828常用结论1.经验回归直线过点(eq\x\to(x),eq\x\to(y)).2.求eq\o(b,\s\up6(^))时,常用公式eq\o(b,\s\up6(^))=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2).3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.思考辨析判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.()(2)经验回归直线eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.()(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.()(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.()教材改编题1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的经验回归方程为()A.eq\o(y,\s\up6(^))=x+1 B.eq\o(y,\s\up6(^))=x+2C.eq\o(y,\s\up6(^))=2x+1 D.eq\o(y,\s\up6(^))=x﹣12.(多选)下列关于成对样本数据的统计分析的判断中正确的有()A.若样本相关系数r=0,则说明成对样本数据没有相关性B.样本相关系数r越大,成对样本数据的线性相关性越强C.用最小二乘法求得的一元线性回归模型的残差和一定是0D.决定系数R2越大,残差平方和越小,模型的拟合效果越好3.(多选)为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):幸福感强幸福感弱合计阅读量多m1872阅读量少36n78合计9060150计算得:χ2≈12.981,参照下表:α0.100.050.0250.0100.0050.001xα2.7063.8415.0246.6357.87910.828对于下面的选项,正确的为()A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=52题型一成对数据的相关性例1(1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图1,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图2.由这两个散点图可以判断()图1图2A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关(2)(多选)下列有关经验回归分析的说法中正确的有()A.经验回归直线必过点(eq\x\to(x),eq\x\to(y))B.经验回归直线就是散点图中经过样本数据点最多的那条直线C.当样本相关系数r>0时,两个变量正相关D.如果两个变量的相关性越弱,则|r|就越接近于0教师备选1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=eq\f(1,2)x+1上,则这组样本数据的样本相关系数为()A.﹣1B.0C.eq\f(1,2)D.12.(多选)下列选项中正确的是()A.经验回归分析中,R2的值越大,说明残差平方和越小B.若一组观测数据(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2=1C.经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法D.画残差图时,纵坐标为残差,横坐标一定是编号思维升华判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当eq\o(b,\s\up6(^))>0时,正相关;当eq\o(b,\s\up6(^))<0时,负相关.跟踪训练1(1)已知变量x和y满足关系y=﹣0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关(2)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是()A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3题型二回归模型命题点1一元线性回归模型例22021年2月25日,在全国脱贫攻坚总结表彰大会上,习近平总书记庄严宣告:我国脱贫攻坚战取得全面胜利.目前,河南省53个贫困县已经全部脱贫摘帽,退出贫困县序列.2016年起,我省某贫困地区创新开展产业扶贫,响应第三产业的扶贫攻坚政策,经济收入逐年增加.该地的经济收入变化及构成比例如图所示:年份2016年2017年2018年2019年2020年年份代号x12345经济收入y(单位:百万元)59141720(1)根据以上图表,试分析:与2016年相比,2020年第三产业与种植业收入变化情况;(2)求经济收入y关于x的经验回归方程,并预测2025年该地区的经济收入.命题点2非线性回归模型例3全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:科技投入x1234567收益y19202231405070根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:eq\x\to(z)eq\i\su(i=1,7,x)eq\o\al(2,i)eq\i\su(i=1,7,x)iyieq\i\su(i=1,7,x)izieq\i\su(i=1,7,)(yi﹣eq\x\to(y))2eq\i\su(i=1,7,)(yi﹣eq\o(yi,\s\up6(^)))2514012391492134130其中zi=log2yi,eq\x\to(z)=eq\f(1,7)eq\i\su(i=1,7,z)i.(1)请根据表中数据,建立y关于x的经验回归方程(系数精确到0.1);(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为eq\o(y,\s\up6(^))=8.25x+3,以及该回归模型的决定系数Req\o\al(2,乙)=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:决定系数:R2=1﹣eq\f(\i\su(i=1,n,)vi-\o(v,\s\up6(^))i2,\i\su(i=1,n,)vi-\x\to(v)2).参考数据:log25≈2.3.教师备选1.下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的统计表.x23456y3.44.25.15.56.8由上表可得经验回归方程eq\o(y,\s\up6(^))=0.81x+eq\o(a,\s\up6(^)),若规定:维修费用y不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为()A.7B.8C.9D.102.用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=lny,其变换后得到经验回归方程为z=0.5x+2,则c等于()A.0.5B.e0.5C.2D.e2思维升华求经验回归方程的步骤跟踪训练2为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下.x(千克)24568y(千克)300400400400500(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用经验回归模型拟合);(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?参考数据:eq\r(10)≈3.16.题型三列联表与独立性检验例4甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)依据小概率值α=0.01的独立性检验,能否以此推断甲机床的产品质量与乙机床的产品质量有差异?教师备选1.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:男女合计爱好ab73不爱好c25合计74则a﹣b﹣c等于()A.7B.8C.9D.102.(多选)某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据如表1.免疫不免疫合计注射疫苗101020未注射疫苗63440合计164460(表1)α0.100.0500.0100.001xα2.7063.8416.63510.828(表2)则下列说法中正确的是()A.χ2≈8.35B.P(χ2≥6.635)≈0.001C.依据小概率值α=0.01的独立性检验,我们认为免疫与注射疫苗有关系D.依据小概率值α=0.001的独立性检验,我们认为免疫与注射疫苗有关系思维升华独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=eq\f(nad-bc2,a+ba+cb+dc+d)计算.(3)比较χ2与临界值的大小关系,作统计推断.跟踪训练3为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:SO2的浓度空气质量等级[0,50](50,150](150,475]1(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的2×2列联表,SO2的浓度空气质量[0,150](150,475]合计空气质量好空气质量不好合计(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?课时精练1.如表是2×2列联表,则表中的a,b的值分别为()y1y2合计x1a835x2113445合计b4280A.27,38B.28,38C.27,37D.28,372.根据如表样本数据:x23456y42.5﹣0.5﹣2﹣3得到的经验回归方程为eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),则()A.eq\o(a,\s\up6(^))>0,eq\o(b,\s\up6(^))>0B.eq\o(a,\s\up6(^))>0,eq\o(b,\s\up6(^))<0C.eq\o(a,\s\up6(^))<0,eq\o(b,\s\up6(^))>0D.eq\o(a,\s\up6(^))<0,eq\o(b,\s\up6(^))<03.某种产品的广告费支出x与销售额y(单位:万元)之间的关系如表:x24568y3040605070y与x的经验回归方程为eq\o(y,\s\up6(^))=6.5x+17.5,当广告支出6万元时,随机误差的残差为()A.﹣5 B.﹣5.5C.﹣6 D.﹣6.54.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了y关于x的经验回归方程eq\o(y,\s\up6(^))=0.25x+k,则下列说法不正确的是()x(次数/分钟)2030405060y(℃)2527.52932.536A.k的值是20B.变量x,y呈正相关关系C.若x的值增加1,则y的值约增加0.25D.当蟋蟀52次/分鸣叫时,该地当时的气温预测值为33.5℃5.(多选)下列说法正确的是()A.设有一个经验回归方程eq\o(y,\s\up6(^))=3﹣5x,变量x增加一个单位时,y平均增加5个单位B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值越接近于1C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好6.(多选)2021年5月18日,《佛山市第七次全国人口普查公报》发布.公报显示,佛山市常住人口为9498863人.为了进一步分析数据特征,某数学兴趣小组先将近五次人口普查数据作出散点图(横坐标为人口普查的序号,第三次普查记为1,…,第七次普查记为5,纵坐标为当次人口普查佛山市人口数(单位:万人),再利用不同的函数模型作出回归分析,如图,以下说法正确的是()A.佛山市人口数与普查序号呈正相关关系B.散点的分布呈现出很弱的线性相关特征C.经验回归方程2的拟合效果更好D.应用经验回归方程1可以预测第八次人口普查时佛山市人口会超过1400万人7.某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x(个)1020304050加工时间y(min)62a758189若用最小二乘法求得经验回归方程为eq\o(y,\s\up6(^))=0.67x+54.9,则a的值为________.8.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.附:χ2=eq\f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d;α0.050.0250.0100.001xα3.8415.0246.63510.8289.机动车行经人行横道时,应当减速慢行:遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.如表是某市一主干路口监控设备所抓拍的1﹣5月份驾驶员不“礼让行人”行为统计数据:月份12345违章驾驶员人数1201051009580(1)请利用所给数据求违章人数y与月份x之间的经验回归方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^)),并预测该路口10月份的不“礼让行人”违章驾驶员人数;(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示:不礼让行人礼让行人驾龄不超过1年2416驾龄1年以上1614依据小概率值α=0.1的独立性检验,能否据此判断“礼让行人”行为与驾龄有关?10.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:月份12345678物流成本x8383.58086.58984.57986.5利润y114116106122132114m132残差eq\o(ei,\s\up6(^))=yi﹣eq\o(yi,\s\up6(^))0.20.61.8﹣3﹣1﹣4.6﹣1根据最小二乘法估计公式求得经验回归方程为eq\o(y,\s\up6(^))=3.2x﹣151.8.(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值eq\o(e,\s\up6(^))8;(2)请先求出一元线性回归模型eq\o(y,\s\up6(^))=3.2x﹣151.8的决定系数R2(精确到0.0001);若根据非线性回归模型y=267.76lnx﹣1069.2求得解释变量(物流成本)对于响应变量(利润)的决定系数Req\o\al(2,0)=0.9057,请说明以上两种模型哪种模型拟合效果更好?(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的经验回归方程.附(修正前的参考数据):eq\i\su(i=1,8,x)iyi=78880,eq\i\su(i=1,8,x)eq\o\al(2,i)=56528,eq\x\to(x)=84,eq\i\su(i=1,8,)(yi﹣eq\x\to(y))2=904.11.某中学调查了高一年级学生的选科倾向,随机抽取300人,其中选考物理的有220人,选考历史的有80人,统计各选科人数如表,则下列说法正确的是()选择科目选考类别思想政治地理化学生物物理类80100145115历史类50453035α0.100.050.0250.0100.0050.001xα2.7063.8415.0246.6357.87910.828A.物理类的学生中选择政治的比例比历史类的学生中选择政治的比例高B.物理类的学生中选择地理的比例比历史类的学生中选择地理的比例高C.根据小概率值α=0.1的独立性检验,我们认为选择生物与选考类别无关D.根据小概率值α=0.1的独立性检验,我们认为选择生物与选考类别有关12.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为eq\o(y,\s\up6(^))=ebx﹣1.x1234ye2e3e5e6若eq\o(y,\s\up6(^))=e13,则x等于()A.6B.7C.8D.913.(多选)下列选项中,正确的是()A.对于回归分析,样本相关系数r的绝对值越小,说明拟合效果越好B.以模型y=c·ekx去拟合一组数据时,为了求出经验回归方程,设z=lny,将其变换后得到经验回归方程eq\o(z,\s\up6(^))=0.3x+4,则c,k的值分别是e4和0.3C.经验回归方程eq\o(y,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 介绍考试形式的2025年网络规划设计师试题及答案
- 初级社会工作者考试强化练习试题及答案
- 高考语文模拟试题及答案
- 多媒体应用设计师考试的新方法试题及答案
- 电梯维修证考试题及答案
- 云南数学中考试题及答案
- 多媒体应用设计师考试的多样性试题及答案
- 备考周期2025年网络规划设计师考试试题及答案
- 2025年设计师考试联系试题解析
- 开发前期部门管理制度
- 上海高中自招简历模板范文
- 第三方支付对农行双塔山支行业务影响研究
- 内部创业基础智慧树知到期末考试答案章节答案2024年湖南大学
- 2024年南通市海门区名小六年级毕业考试语文模拟试卷
- 公司注销银行账户授权委托书
- 高考前在学校高三班主任对学生的最后一课教育课件
- 摩托车交通事故分析报告
- JC/T 929-2003叶腊石行业标准
- 国家职业技术技能标准 6-18-01-01 车工 人社厅发2018145号
- 人教版小学五年级数学下册第三单元测试卷(含答案)
- 小儿急乳蛾的护理查房
评论
0/150
提交评论