




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、10.410.4相关性、最小二乘估计与统计案例相关性、最小二乘估计与统计案例第十章第十章 2022 内 容 索 引 必备知识必备知识 预案自诊预案自诊 关键能力关键能力 学案突破学案突破 必备知识必备知识 预案自诊预案自诊 【知识梳理知识梳理】 1.相关性 (1)散点图:在考虑两个量的关系时,为了对变量之间的关系有一个大致的 了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个 图,通常称这种图为变量之间的. (2)线性相关:若两个变量x和y的散点图中,所有点看上去都在_ 附近波动,则称变量间是线性相关的,此时,我们可以用来近似. (3)非线性相关:在两个变量x和y的散点图中,若
2、所有点看上去都在某条 附近波动,则称此相关为非线性相关的.此时,可以用一条_来拟 合.如果所有的点在散点图中没有显示任何关系,则称变量间是. 散点图 一条直线 一条直线 曲线曲线 不相关的 2.最小二乘法与线性回归方程 (1)最小二乘法:如果有n个点:(x1,y1),(x2,y2),(xn,yn),可以用下面的表达式来 刻画这些点与直线y=a+bx的接近程度: y1-(a+bx1)2+y2-(a+bx2)2+yn-(a+bxn)2. 使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为 . 最小二乘法 a=.这样得到的直线方程称为线性回归方程,a,b是线 性回归方程的系数.
3、3.独立性检验 (1)22列联表 构造一个随机变量2= , 其中n=为样本容量. ABB1B2总计 A1aba+b A2cdc+d 总计a+cb+da+b+c+d a+b+c+d (2)独立性检验 利用随机变量来判断“两个变量”的方法称为独立性检验. (3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断 当22.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是 没有关联的; 当22.706时,有90%的把握判定变量A,B有关联; 当23.841时,有95%的把握判定变量A,B有关联; 当26.635时,有99%的把握判定变量A,B有关联. 有关联 【考点自诊考点自
4、诊】 1.判断下列结论是否正确,正确的画“”,错误的画“”. (1)样本相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量是否具有线性相关关系.() (3)事件X,Y关系越密切,则由观测数据计算得到的2越大.() (4)回归直线y=bx+a至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点.() (5)两个变量的样本相关系数的绝对值越接近于1,它们的线性相关程度越 强.() 2. 银川市食品研究部门为了解一种酒品的储藏年份与芳香度之间的相关 关系,在市场上收集了一部分不同年份的该酒品,并测定了其芳香度如下表. 由最小二乘法得到
5、回归方程y =1.03x+1.13,但不小心在检测后滴到表格上 一滴检测液,污损了一个数据,请你推测该数据为() A.6.8B.6.28 C.6.5D.6.1 年份x014568 芳香度y 1.31.85.6 7.49.3 答案 D 性别爱好不爱好合计 男生20525 女生101525 合计302050 P(2k)0.10.050.01 k2.7063.8416.635 A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认
6、为“爱好该项运动与性别无关” 答案 A 解析 因为8.3337.879,由上表知7.879对应0.005,所以,有99.5%以上的把握 认为“爱好该项运动与性别有关”,或在犯错误的概率不超过0.5%的前提下, 认为“爱好该项运动与性别有关”,故选A. 4.(2020全国1,文5)某校 一个课外学习小组为研 究某作物种子的发芽率y 和温度x(单位:)的关系, 在20个不同的温度条件 下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,20)得到下面的散点图: 由此散点图,在10 至40 之间,下面四个回归方程类型中最适宜作为发 芽率y和温度x的回归方程类型的是() A.y=a+bxB.y=
7、a+bx2 C.y=a+bexD.y=a+bln x 答案 D 解析 结合题中散点图,由图像的大致走向判断,此函数应该是对数函数模 型,故应该选用的函数模型为y=a+bln x. 5.(2019黑龙江牡丹江一中一模)已知下列命题: 回归直线y=bx+a恒过样本点的中心 ,且至少过一个样本点; 两个变量相关性越强,则相关系数r就越接近于1; 将一组数据的每个数据都加一个相同的常数后,方差不变; 在回归方程y=2-0.5x中,当解释变量x增加一个单位时,预报变量 y平均减少0.5; 在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近 于1,表示回归效果越好; 对分类变量X与Y,
8、它们的随机变量2值来说,2值越小,“X与Y有关系”的把 握程度越大; 两个模型中残差平方和越小的模型拟合的效果越好. 则正确命题是.(把你认为正确的结论都写在横线上) 答案 对于,两个数据的每个数据都加一个相同的常数后,由方差的性质可得方 差不变,故变量相关性越强,则相关系数r的绝对值就越接近于1,故错误; 对于,将一组正确; 对于,在回归方程y=2-0.5x中,当解释变量x每增加一个单位时,预报变量y 平均减少0.5个单位,故正确; 对于,在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越 接近于1,表示回归效果越好,故正确; 对于,对分类变量X与Y,它们的随机变量2的值来说
9、,值越大, “X与Y有关系”的把握程度越大,故错误; 对于,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟 合效果越好,故正确. 其中正确的为. 关键能力关键能力 学案突破学案突破 考点考点1 1相关关系的判断相关关系的判断 【例1】 (1)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确 的是() A.r2r40r3r1 B.r4r20r1r3 C.r4r20r3r1 D.r2r40r1r3 (2)右图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去 掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的 点是() A.D B.E C.F D.A
10、 答案 (1)A(2)B 解析 (1)题中图1和图3是正相关,相关系数大于0;图2和图4是负相关,相关 系数小于0;图1和图2的点相对更加集中,所以相关性要强,所以r1接近于1,r2 接近于-1,由此可得r2r4r30时, 正相关;当r0时,正相关;当b0时,负相关. A.0r1r21 B.0r2r11 C.-1r1r20 D.-1r2r10 对点训练1(1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相 关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数 为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归方程:y=b2x+a2,相 关系数为r2
11、.则() (2)某市国庆节7天假期的楼房认购量(单位:套)与成交量(单位:套)的折线图 如图所示,小明同学根据折线图对这7天的认购量与成交量作出如下判 断:日成交量的中位数是16;日成交量超过日平均成交量的有2天;认 购量与日期正相关;10月7日认购量的增量大于10月7日成交量的增量.上 述判断中错误的个数为() A.1 B.2 C.3 D.4 答案 (1)D(2)C 解析 (1)由散点图得负相关,所以r1,r20,因为剔除点(10,21)后,剩下点数据 更具有线性相关性,|r2|更接近1,所以-1r2r10.选D. (2)将成交量数据按由大到小顺序排列,中位数为26,所以错;平均成交量 为
12、42.7,超过42.7的只有一天,所以错;由图 中可以看出,数据点并不是从左下分布至右上,所以错;10月7日认购量增 量为276-112=164,成交量增量为166-38=128,所以对,故选C. 考点考点2 2回归分析回归分析(多考向探究多考向探究) 考向1线性回归方程及应用 【例2】 (2020陕西宝鸡质检)某地随着经济的发展,居民收入逐年增长,下 表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1: 表1 年份x20152016201720182019 储蓄存款y/千亿元567810 为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 014,z=y-5 得到下表2:
13、 表2 时间代号t 12345 z01235 (1)求z关于t的线性回归方程; (2)通过(1)中的方程,求出y关于x的回归方程; (3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? 所以z=1.2t-1.4. (2)将t=x-2 014,z=y-5,代入z=1.2t-1.4, 得y-5=1.2(x-2 014)-1.4,即y=1.2x-2 413.2. (3)因为y=1.22 022-2 413.2=13.2, 所以预测到2022年年底,该地储蓄存款额可达13.2千亿元. 解题心得回归分析问题的类型及解题方法 (1)求回归方程 根据散点图判断两变量是否线性相关,如不是,应通过
14、换元构造线性相关. 利用公式,求出回归系数b. 待定系数法:利用回归直线过 求系数a. (2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. 对点训练2下表是某市一主干路口监控设备所抓拍的5个月内驾驶员违章 行为统计数据: 月份12345 违章驾驶员人数1201051009085 (1)请利用所给数据求违章人数y与月份x之间的回归方程; (2)预测该路口9月份的违章驾驶员人数. 所求回归方程为y=-8.5x+125.5. (2)令x=9,则y=-8.59+125.5=49.故预测该路口9月份的违章驾驶员人数为 49. 考向2非线性回归方程 【例3】 (2020山东青岛高三模拟)近
15、期,某公交公司分别推出支付宝和微 信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力 度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活 动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表 示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示: x1234567 y/十人次 611213466101196 根据以上数据,绘制了如图所示的散点图. (1)根据散点图判断,在推广期内,y=a+bx与 y=cdx(c,d均为大于零的常数)哪一个适宜作 为扫码支付的人次y关于活动推出天数x的回 归方程类型;(给出判断即可,不必说明理由) (2)根
16、据(1)的判断结果及表1中的数据,建立y 关于x的回归方程,并预测活动推出第8天使用 扫码支付的人次. 参考数据: 解 (1)根据散点图判断,y=cdx适宜作为扫码支付的人次y关于活动推出天 数x的回归方程类型. (2)y=cdx,两边同时取常用对数得lg y=lg(cdx)=lg c+xlg d.设lg y=v, v=0.54+0.25x,lg y=0.54+0.25x,y关于x的回归方程为 y=100.54+0.25x=100.54100.25x=3.47100.25x.把x=8代入上式,得 y=3.47102=347.预测活动推出第8天使用扫码支付的人次为3 470. 解题心得1.根据样
17、本画出散点图.观察散点图中散点的分布,从整体看,如果 散点没有在某一条直线附近,称这两个变量具有相关性,但不是线性相关, 即这两个变量非线性相关. 2.借助于散点图,与已学过的函数(如指数函数、对数函数、幂函数等)的 图像相比较,找到合适的函数模型. 3.通过变量转换,把非线性回归问题化成线性回归问题,并求出线性回归方 程. 4.再利用变量代换,可得非线性回归方程. 对点训练3(2020山东淄博高三 一模)根据国家统计局数据,1978 年至2018年我国GDP总量从0.37 万亿元跃升至90万亿元,实际增 长了243倍多,综合国力大幅提升. 将年份1978,1988,1998,2008,201
18、8分别用1,2,3,4,5代替,并表示为t;y表示全 国GDP总量,表中zi=ln yi(i=1,2,3,4,5), (1)根据数据及统计图表,判断y=bt+a与y=cedt(其中e=2.718为自然对数 的底数)哪一个更适宜作为全国GDP总量y关于t的回归方程类型(给出判断 即可,不必说明理由),并求出y关于t的回归方程. (2)使用参考数据,估计2020年的全国GDP总量. 附:线性回归方程y=bx+a中斜率和截距的最小二乘法估计公式分别为 n45678 en的近似值 551484031 0972 981 解 (1)根据数据及图表可以判断,y=cedt更适宜作为全国GDP总量y关于t的 回
19、归方程. 对y=cedt两边取自然对数得ln y=ln c+dt,令z=ln y,a=ln c,b=d,得z=a+bt. 所以z关于t的线性回归方程为z=1.405t-2.312, 所以y关于t的回归方程为y=e1.405t-2.312=(e-2.312)e1.405t. (2)将t=5.2代入y=e1.405t-2.312,其中1.4055.2-2.312=4.994,则y=e4.994148. 于是2020年的全国GDP总量约为148万亿元. 考点考点3 3独立性检验独立性检验 【例4】 (2020海南三亚模拟)自2017年起,部分省、市陆续实施了新高考, 某省采用了“3+3”的选科模式,
20、即考试除必考的语文、数学、外语三科外, 再从物理、化学、生物、历史、地理、思想政治六个学科中,任意选取三 科参加高考,为了调查新高考中考生的选科情况,某地区调查小组进行了一 次调查,研究考生选择化学与选择物理是否有关系.已知在调查数据中,选 物理的考生与不选物理的考生人数相同,其中选物理且选化学的人数占选 物理人数的 ,在不选物理的考生中,选化学与不选化学的人数比为1 4. (1)若在此次调查中,选物理未选化学的考生有100人,试完成下面的列联表. 选科情况选化学不选化学合计 选物理 不选物理 合计 (2)根据第(1)问的数据,能否有99%把握认为选择化学与选择物理有关系? (3)若研究得到在
21、犯错误概率不超过0.01的前提下,认为选化学与选物理有 关系,则选物理又选化学的人数至少有多少?(单位:千人;精确到0.001) P(2k0)0.10.050.01 k02.7063.8416.635 解 (1)列联表如下: 选科情况选化学不选化学合计 选物理150100250 不选物理50200250 合计200300500 (3)设选物理又选化学的有x千人,则列联表如下: 解题心得 1. 2个明确 (1)明确两类主体; (2)明确研究的两个问题 2个关键 (1)准确画出22列联表; (2)准确求解2 3个步骤 (1)根据样本数据制成22列联表; (2)根据公式 2 ,计算2的观测值; (3)查表比较2与临界值的大小关系,作统计判断 2.用2的值可以决定是否拒绝原来的统计假设H0,若2值较大,就拒绝H0,即 拒绝事件A与事件B无关;换一种说法,计算随机变量的2越大,说明“两个变 量有关系”的可能性越大,根据临界表判断2大于的临界值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村组清扫保洁协议书
- 消防安装分包协议书
- 油轮出售转让协议书
- 母亲儿女分房协议书
- 未婚房屋更名协议书
- 混凝土厂转让协议书
- 毗邻单位用电协议书
- 校园路面整修协议书
- 房间清洗合作协议书
- 旧屋改造合同协议书
- 玻璃清洁机器人的研发-吸附机构设计
- 艺术留学作品集合同模板
- 2024-2025年上海中考英语真题及答案解析
- GB/T 19510.213-2023光源控制装置第2-13部分:LED模块用直流或交流电子控制装置的特殊要求
- 2024年桥式起重机司机(中级)职业技能考试题库(职校培训)
- 工程建设公司QC小组道路沥青混凝土面层裂缝的控制成果汇报书
- 提升教师专业素养与综合能力的培训
- 人教版小学道德与法治《众志成城》教学设计
- 12、口腔科诊疗指南及技术操作规范
- JB-T 4149-2022 臂式斗轮堆取料机
- 文创产品设计-第四章-文创产品设计的基本流程
评论
0/150
提交评论