版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
欢迎阅读本文档,希望本文档能对您有所帮助!欢迎阅读本文档,希望本文档能对您有所帮助!欢迎阅读本文档,希望本文档能对您有所帮助!欢迎阅读本文档,希望本文档能对您有所帮助!欢迎阅读本文档,希望本文档能对您有所帮助!欢迎阅读本文档,希望本文档能对您有所帮助!第三节成对数据的统计分析考试要求:掌握散点图、最小二乘法思想、回归分析以及独立性检验.一、教材概念·结论·性质重现1.相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.2.散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的统计图叫做散点图.利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.3.正相关和负相关(1)正相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.(2)负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.相关关系与函数关系的区别与联系(1)相同点:两者均是指两个变量的关系.(2)不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.4.线性相关和非线性相关(1)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.(2)一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.5.样本相关系数r变量x和变量y的样本相关系数r的计算公式如下:r(1)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,称成对样本数据间没有线性相关关系.(2)样本相关系数r的取值范围为[-1,1];当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.6.一元线性回归模型我们称eq\b\lc\{\rc\(\a\vs4\al\co1(Y=bx+a+e,,E(e)=0,D(e)=σ2))为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.7.线性回归方程与最小二乘法回归直线方程过样本点的中心(eq\x\to(x),eq\x\to(y)),是回归直线方程最常用的一个特征.我们将eq\o(y,\s\up7(^))=eq\o(b,\s\up7(^))x+eq\o(a,\s\up7(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的eq\o(b,\s\up7(^)),eq\o(a,\s\up7(^))叫做b,a的最小二乘估计,8.刻画回归效果的方式(1)残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(2)残差平方和法:残差平方和(yi-eq\o(y,\s\up7(^))i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.9.独立性检验(1)临界值χ2统计量也可以用来作相关性的度量,χ2越小说明变量之间越独立,χ2越大说明变量之间越相关,χ2=eq\f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.(2)基于概率值α的检验规则:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.二、基本技能·思想·活动经验1.判断下列说法的正误,对的打“√”,错的打“×”.(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. (√)(2)通过经验回归方程eq\o(y,\s\up7(^))=eq\o(b,\s\up7(^))x+eq\o(a,\s\up7(^))可以估计预报变量的取值和变化趋势. (√)(3)经验回归方程eq\o(y,\s\up7(^))=eq\o(b,\s\up7(^))x+eq\o(a,\s\up7(^))中,若eq\o(a,\s\up7(^))<0,则变量x和y负相关. (×)(4)因为由任何一组观测值都可以求得一个经验回归方程,所以没有必要进行相关性检验. (×)2.(多选题)关于回归分析,下列说法正确的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1)ABC解析:选项D中,样本的相关系数应满足-1≤r≤1,故D错误,ABC都正确.3.以下四幅散点图所对应的样本相关系数的大小关系是()A.r1>r2>r3>r4B.r4>r3>r2>r1C.r1>r3>r4>r2D.r1>r2>r4>r3C解析:由散点图的特征可知,(1)(3)为正相关,(2)(4)为负相关,所以r1>0,r3>0,r2<0,r4<0.又(1)(2)中的散点更为集中,更接近于一条直线,故r1>r3,r2<r4,所以r2<r4<0<r3<r1.4.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:优秀及格合计甲班113445乙班83745合计197190则随机变量χ2的值约为()A.0.600 B.0.828C.2.712 D.6.004A解析:根据列联表中的数据,可得χ2=eq\f(90×(11×37-34×8)2,45×45×19×71)≈0.600.故选A.5.若变量y与x的非线性回归方程是eq\o(y,\s\up7(^))=2eq\r(x)-1,则当eq\o(y,\s\up7(^))的值为2时,x的估计值为________.eq\f(9,4)解析:由2eq\r(x)-1=2,得x=eq\f(9,4),即x的估计值为eq\f(9,4).考点1相关关系的判断——基础性1.有以下五组变量:①某商品的销售价格与销售量;②学生的学籍号与学生的数学成绩;③坚持每天吃早餐的人数与患胃病的人数;④气温与冷饮销售量;⑤电瓶车的重量和行驶每千米的耗电量.其中两个变量成正相关的是()A.①③ B.②④C.②⑤ D.④⑤D解析:对于①,一般情况下,某商品的销售价格与销售量成负相关关系;对于②,学生的学籍号与学生的数学成绩没有相关关系;对于③,一般情况下,坚持每天吃早餐的人数与患胃病的人数成负相关关系;对于④,一般情况下,气温与冷饮销售量成正相关关系;对于⑤,一般情况下,电瓶车的重量和行驶每千米的耗电量成正相关关系.综上所述,其中两个变量成正相关的序号是④⑤.2.两个变量的相关关系有①正相关、②负相关、③不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.①②③ B.②③①C.②①③ D.①③②D解析:对于(1),图中的点成带状分布,且从左到右上升,是正相关关系;对于(2),图中的点没有明显的带状分布,是不相关的;对于(3),图中的点成带状分布,且从左到右是下降的,是负相关关系.忽视散点图的结构特点导致错误(1)两个变量具有正相关关系时,其散点图是从左下方到右上方的直线附近;(2)两个变量具有负相关关系时,其散点图是左上方到右下方的直线附近.考点2一元线性回归模型及其应用——基础性考向1线性回归分析维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能也越好.而甲醛浓度是影响缩醛化度y(克分子%)的重要因素,在生产中常用甲醛浓度x(g/L)去控制这一指标,为此必须找出它们之间的关系.现安排一批实验,获得如下数据:甲醛浓度x(g/L)18202224262830缩醛化度y(克分子%)26.8628.3528.7528.8729.7530.0030.36(1)画散点图,并判断成对样本数据是否线性相关;(2)求样本相关系数r(精确到0.01),并通过样本相关系数判断甲醛浓度与缩醛化度的相关程度和变化趋势的异同.解:(1)画出散点图如图所示.由散点图可以看出,成对数据呈现出相关关系.解这类问题先画出散点图,利用散点图观察两个变量之间的关系,若两个变量具有相关关系,再利用样本相关系数r进行进一步的判断.考向2非线性回归分析(2021·郑州高三期末)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①y=a·bx(a>0,b>0),②y=cx2+d分别进行拟合,由此得到相应的非线性回归方程并进行残差分析,进一步得到图2所示的残差图.根据收集到的数据,计算得到如下值:(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?请说明理由.(2)根据(1)中所选择的模型,求出y关于x的非线性经验回归方程(计算过程中四舍五入保留两位小数),并求温度为35℃时,产卵数y的预报值.参考数据:e5.61≈273,e5.70≈299,e5.79≈327.解:(1)应该选择模型①.理由:模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高.故选模型①比较合适.(2)由(1)知,选用模型①,y=a·bx,将两边取对数,得lny=(lnb)x+lna.令z=lny,z与温度x可以用经验回归方程来拟合,则z=(lnb)x+lna,lnb==eq\f(48.48,168)≈0.29,非线性回归分析的解题步骤某种昆虫的日产卵数和时间变化有关,现收集了该昆虫第1天到第5天的日产卵数据:第x天12345日产卵数y(个)612254995对数据初步处理后得到了如图所示的散点图和表中的统计量的值.(1)根据散点图,利用计算机模拟出该种昆虫日产卵数y关于x的经验回归方程为y=ea+bx(其中e为自然对数的底数),求实数a,b的值(精确到0.1).(2)根据某项指标测定,若日产卵数在区间(e6,e8)上的时段为优质产卵期.利用(1)的结论,估计在第6天到第10天中任取2天,其中恰有1天为优质产卵期的概率.解:(1)因为y=ea+bx,两边取自然对数,得lny=a+bx.令m=x,n=lny,得n=a+bm.因为eq\o(b,\s\up7(^))=eq\f(54.75-5×\f(15,5)×\f(15.94,5),55-5×32)=eq\f(6.93,10)=0.693,所以b≈0.7.因为eq\o(a,\s\up7(^))=eq\x\to(n)-eq\o(b,\s\up7(^))eq\x\to(m)=eq\f(15.94,5)-0.7×3=1.088,所以a≈1.1,即a≈1.1,b≈0.7.(2)根据(1)得y=e1.1+0.7x.由e6<e1.1+0.7x<e8,得7<x<eq\f(69,7).所以在第6天到第10天中,第8,9天为优质产卵期.从第6天到第10天中任取2天的所有可能结果有(6,7),(6,8),(6,9),(6,10),(7,8),(7,9),(7,10),(8,9),(8,10),(9,10),共10种.其中恰有1天为优质产卵期的有(6,8),(6,9),(7,8),(7,9),(8,10),(9,10),共6种.设从第6天到第10天中任取2天,其中恰有1天为优质产卵期的事件为A,则P(A)=eq\f(6,10)=eq\f(3,5).所以从第6天到第10天中任取2天,其中恰有1天为优质产卵期的概率为eq\f(3,5).考点3残差分析——应用性近年来,中国电影市场蓬勃发展,连创票房奇迹,各地陆续新增了许多影院.某市新开业的一家影院借助舒适的环境和较好的观影体验吸引越来越多的人前来观影,该影院的相关负责人统计了刚开业7天内每一天前来观影的人次,用x表示影院开业的天数,y表示每天前来观影的人次.(1)该影院的相关负责人分别用两种模型①y=a+bx,②y=c·dx(c,d为大于零的常数)进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图.根据残差图,比较模型①、②的拟合效果,应选择哪个模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果求y关于x的经验回归方程,并预测该影院开业第8天前来观影的人次.参考数据:(3)根据(1)选择的模型按照某项指标测定,当残差eq\o(e,\s\up7(^))∈eq\b\lc\(\rc\)(\a\vs4\al\co1(-\f(1,2),\f(1,2)))时,则称当天为观影正常日,反之则称为“非观影正常日”.若从该影院开业的这7天中任选3天进行进一步的数据分析,求这3天中含“非观影正常日”的概率.解:(1)应该选择模型①.把样本数据中心点(4,135)代入eq\o(y,\s\up7(^))=eq\o(a,\s\up7(^))+eq\o(b,\s\up7(^))x,得eq\o(a,\s\up7(^))=3,所以y关于x的经验回归方程为eq\o(y,\s\up7(^))=3+33x,把x=8代入上式得eq\o(y,\s\up7(^))=3+33×8=267,故该影院开业第8天前来观影的人次为267.(3)从残差图易知,7天中有5天为“观影正常日”,记这5天为1,2,3,4,5,2天“非观影正常日”为a,b,所以从7天中选出3天的种数分三类:①(1,2,a),(1,2,b),(1,3,a),(1,3,b),…,(4,5,a),(4,5,b),共(4+3+2+1)×2=20种;②(1,2,3),(1,2,4),…,(3,4,5),共10种;③(a,b,1),(a,b,2)…,(a,b,5),共5种,故总种数为35种,含“非观影正常日”的种数为25种,所以这3天中含“非观影正常日”的概率为p=eq\f(25,35)=eq\f(5,7).利用R2刻画回归效果:,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.如表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.日期代码x12345678累计确诊人数y481631517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两种模型:①eq\o(y,\s\up7(^))=bx2+a,②eq\o(y,\s\up7(^))=dx+c对变量x和y的关系进行拟合,得到相应的经验回归方程并进行残差分析,残差图如下(注:残差eq\o(e,\s\up7(^))i=yi-eq\o(y,\s\up7(^))i):经过计算得:(xi-eq\x\to(x))(yi-eq\x\to(y))=728,(xi-eq\x\to(x))2=42,(zi-eq\x\to(z))(yi-eq\x\to(y))=6868,(zi-eq\x\to(z))2=3570,其中zi=xeq\o\al(2,i),eq\x\to(z)=eq\f(1,8)zi.(1)根据残差图,比较模型①、②的拟合效果,应该选择哪个模型?请简要说明理由.(2)根据(1)问选定的模型求出相应的经验回归方程(系数均保留两位小数).(3)由于时差,该国截至第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在第(2)问求出的经验回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?解:(1)选择模型①,理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对比较大,所以模型①的拟合效果相对较好.(2)由(1)可知y关于x的非线性经验回归方程为eq\o(y,\s\up7(^))=bx2+a.令z=x2,则eq\o(y,\s\up7(^))=bz+a,由所给的数据可得eq\x\to(z)=eq\f(1,8)×(1+4+9+16+25+36+49+64)=25.5,eq\x\to(y)=eq\f(1,8)×(4+8+16+31+51+71+97+122)=50,则eq\o(a,\s\up7(^))=eq\x\to(y)-eq\o(b,\s\up7(^))eq\x\to(z)≈50-1.92×25.5=1.04,所以y关于x的非线性经验回归方程为eq\o(y,\s\up7(^))=1.92x2+1.04.(3)将x=9代入非线性经验回归方程,可得eq\o(y,\s\up7(^))=1.92×92+1.04=156.56≈157(人),所以预测该地区第9天新型冠状病毒感染确诊的累计人数约为157人.,考点4列联表与独立性检验——综合性某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查.共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表.(2)依据小概率值α=0.001,能否认为青年教师和老教师在新课程教学模式的使用上态度有差异?解:(1)2×2列联表如下所示.赞同不赞同合计老教师101020青年教师24630合计341650(2)零假设为H0:青年教师和老教师在新课程教学模式的使用上态度没有差异.由公式得χ2=eq\f(50×(10×6-24×10)2,20×30×34×16)≈4.963<10.828=x0.001,根据小概率值α=0.001的独立性检验,没有充分证据推断H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 疏风再造丸在抗肿瘤治疗中的潜力研究
- 移动应用中的用户数据保护机制
- 2025-2030智慧医疗信息服务体系建设应用推广市场发展数据分析报告
- 2025-2030智慧农业大数据分析行业市场现状供需分析及投资评估规划分析研究报告
- 舞蹈教育创新模式-第1篇
- 2026年移动互联网对过程装备的影响
- 2026年机械设计中的设计思维与创新实践
- 2026年太阳能利用在建筑中的创新
- 2026年电气工程在雨水收集系统中的应用
- 装配式建筑混凝土运输优化方案
- 《油气管道地质灾害风险管理技术规范》SYT 6828-2024
- 2026年宁夏工业职业学院单招职业技能考试题库含答案详解(完整版)
- IMPA船舶物料指南(电子版)
- GB/T 554-2023船舶和海上技术船舶系泊和拖带设备海船用钢质焊接带缆桩
- 历年中考真题分类汇编数学
- 二元二次方程组的解法(第1课时)(课件)八年级数学下册(沪教版)
- 外科学课件:第36章 阑尾疾病
- FZ/T 54131-2021弹性涤纶牵伸丝/涤纶预取向丝空气变形丝(EDY/POY ATY)
- 最新人教版七年级数学下册课件:算术平方根
- 篮球场改造工程施工组织设计方案
- 地理科学专业教育实习研习报告1
评论
0/150
提交评论