版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022/9/23郑平正 制作3.1回归分析的基本思想及其初步应用高二数学 选修1-22022/9/23郑平正 制作3.1回归分析的基本思想及 比数学3中“回归”增加的内容数学统计画散点图了解最小二乘法的思想求回归直线方程ybxa用回归直线方程解决应用问题选修-统计案例引入线性回归模型ybxae了解模型中随机误差项e产生的原因了解相关指数 R2 和模型拟合的效果之间的关系了解残差图的作用利用线性回归模型解决一类非线性回归问题正确理解分析方法与结果 比数学3中“回归”增加的内容数学统计选修-问题1:正方形的面积y与正方形的边长x之间 的函数关系是y = x2确定性关系问题2:某水田水稻产量y与施
2、肥量x之间是否 有一个确定性的关系?例如:在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:施化肥量x 15 20 25 30 35 40 45水稻产量y 330 345 365 405 445 450 455复习、变量之间的两种关系问题1:正方形的面积y与正方形的边长x之间y = x2确定10 20 30 40 50500450400350300施化肥量x 15 20 25 30 35 40 45水稻产量y 330 345 365 405 445 450 455xy施化肥量水稻产量10 20 30 自变量取值一定时,因变量的取值带有一定随机性的
3、两个变量之间的关系叫做相关关系。1、定义: 1):相关关系是一种不确定性关系;注对具有相关关系的两个变量进行统计分析的方法叫回归分析。2): 自变量取值一定时,因变量的取值带有一定随机性的两2、现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等2、现实生活中存在着大量的相关关系。例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报
4、一名身高为172cm的女大学生的体重。案例1:女大学生的身高与体重解:1、选取身高为自变量x,体重为因变量y,作散点图:2、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,体重为因变量2.回归方程:1. 散点图;探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?分析:由于问题中要求根据身高预报体重,因此选取身高为自变量,例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。编号
5、12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。案例1:女大学生的身高与体重解:1、选取身高为自变量x,体重为因变量y,作散点图:2、由散点图知道身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。3、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系。例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1我们可以用下面的线性回归模型来表示:y=bx
6、+a+e, 其中a和b为模型的未知参数,e称为随机误差。线性回归模型:我们可以用下面的线性回归模型来表示:线性回归模型:思考:产生随机误差项e的原因是什么?随机误差e的来源(可以推广到一般):1、忽略了其它因素的影响:影响体重y的因素不只是身高x ,可能还包括遗传基因、饮食习惯、生长环境等因素;2、用线性回归模型近似真实模型所引起的误差;3、身高 y 的观测误差。 以上三项误差越小,说明我们的回归模型的拟合效果越好。思考:随机误差e的来源(可以推广到一般):函数模型与回归模型之间的差别函数模型:回归模型: 线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和随机误差项e共同
7、确定,即自变量x只能解析部分y的变化。 在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。函数模型与回归模型之间的差别函数模型:回归模型: 探究:在线性回归模型中,应该怎样研究随机误差呢? 本节课的重点:理解模型拟合效果的分析工具残差和相关指数探究:在线性回归模型中,应该 本节课的重点:理解模残差平方和越小精确度越高残差平方和越小精确度越高表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用回归模型来拟合数据。残差分析与残差图的定义: 然后,我们可以通过残差 来判断模型拟合的效果,判断原始数
8、据中是否存在可疑数据,这方面的分析工作称为残差分析。编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据-8-6-4-22468O21346578910编号残差.残差点比较均匀地落在(以x轴为中心)水平带状区域内.模型较合适带状区域的宽度越窄,模型拟
9、合精度越高,回归方程的预报精度越高-8-6-4-22468O21346578910编号残差.2022/9/23郑平正 制作残差图的制作及作用。坐标纵轴为残差变量,横轴可以有不同的选择;若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;对于远离横轴的点,要特别注意。身高与体重残差图异常点 错误数据 模型问题 几点说明: 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带
10、状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。2022/9/23郑平正 制作残差图的制作及作用。身高与.43210-1-2-3-40 100 200 300 400 500 600 700 800 900 1000 454035302520151050-50 10 20 30 40 50 60 70 80 90 100 25002000150010005000-500-10000 10 20 30 40 50 60 70 80 90 100200150100500-50-100-1500 10 20 30 40 50 60 70 80 90 100 .() 分析下列残差图,所
11、选用的回归模型效果最好的是()牛刀小试.43210-1-2-3-40 100 200 显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。 R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。另外,我们可以用相关指数R2来刻画回归的效果,其计算公式是R2=0.64,表明女大学生的身高解释了64%的体重变化。显然,R2的值越大,说明残差平方和越小,也就是说在线
12、性回归模相关指数R21.反映回归直线的拟合程度2.取值范围在 0 , 1 之间3. R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差相关指数R21.反映回归直线的拟合程度(2)有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适。相关指数R2来刻画回归的效果,R2 值越大,说明模型的拟合效果越好。比较两个模型的拟和效果,可以比较残差平方的大小,残差平方和越小的模型,拟合效果越好。 正确的是( ) (2)有下列说法:在残差图中,残差点比较均匀地落在水平的带被害棉花 红铃 虫喜高温高湿,适宜各虫态发育的温度为 25 一32 ,相对湿度为80一100,
13、低于 20 和高于35 卵不能孵化,相对湿度60 以下成虫不产卵。冬季月平均气温低于一48 时,红铃虫就不能越冬而被冻死。 创设情景 1953年,18省发生红铃虫大灾害,受灾面积300万公顷,损失皮棉约二十万吨。 因材施教被害棉花 红铃 虫喜高温高湿,适宜各虫态发育的温温度xoC21232527293235产卵数y/个711212466115325例2 现收集了一只红铃虫的产卵数y和温度xoC之间的7组观测数据列于下表:(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。(2)你所建立的模型中温度在多大程度上解释了产卵数的变化? 问题呈现:温度xoC2123252729
14、3235产卵数y/个71121画散点图假设线性回归方程为 :选 模 型分析和预测当x=28时,y =19.8728-463.73 93选变量 解:选取气温为解释变量x,产卵数 为预报变量y。合作探究050100150200250300350036912151821242730333639方案1当x=28时,y =19.8728-463.73 93估计参数由计算器得:线性回归方程为画散点图假设线性回归方程为 :选 模 型分析和预测当x=28残差编号12345671020304050607080-10-20-30-40-50-6090100 xy残差217231125212724296632115
15、35325线性模型53.4617.72-12.02-48.76-46.5-57.1193.2819818.9 相关指数R20.7464所以,一次函数模型中温度解释了74.64%的产卵数变化。残差编号12345671020304050607080-10 y=bx2+a 变换 y=bx+a非线性关系 线性关系方案2问题2 产卵数气温问题1如何求a、b ?合作探究 t=x2 y=bx2+a 变温度xoC21232527293235产卵数y/个711212466115325方案2解答平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=b
16、t+a作散点图,并由计算器得:将t=x2代入线性回归方程得:y=0.367x2 -202.54tt温度21232527293235温度的平方t44152962572984110241225产卵数y/个711212466115325y和t之间的线性回归方程为y=0.367t-202.54,当x=28时,y=0.367282-202.5485温度xoC21232527293235产卵数y/个71121残差编号12345671020304050607080-10-20-30-40-50-6090100 xy残差21723112521272429663211535325二次函数模型47.69619.4
17、00-5.832-41.000-40.104-58.26577.96815448.4相关指数R2=0.802所以二次函数模型中温度解释了80.2%的产卵数变化。残差编号12345671020304050607080-10问题 变换 y=bx+a非线性关系 线性关系问题如何选取指数函数的底?产卵数气温指数函数模型方案3合作探究对数问题 方案3解答xz当x=28oC 时,y 44 温度xoC21232527293235产卵数y/个711212466115325温度xoC21232527293235z=lgy0.851.041.321.381.822.062.51产卵数y/个711212466115
18、325方案3解答xz当x=28oC 时,y 44 温度xoC21残差编号12345671020304050607080-10-20-30-40-50-6090100 xy残差21723112521272429663211535325指数函数模型-0.19441.7248-9.18948.8521-14.121933.25731471.5指数回归模型中温度解释了98.5%的产卵数的变化0.4987残差编号12345671020304050607080-10最好的模型是哪个? 产卵数气温产卵数气温线性模型二次函数模型指数函数模型最好的模型是哪个? 产卵数气温产卵数气温线性模型二次比一比函数模型相关
19、指数R2残差平方和线性回归模型二次函数模型指数函数模型最好的模型是哪个?0.74640.8020.98519818154481471比一比函数模型相关指数R2残差平方和线性回归模型二次函数模型1.在画两个变量的散点图时,下面叙述正确的事( ) (A) 预报变量在x轴上,解释变量在y轴上(B)解释变量在x轴上,预报变量在y轴上(C)可以选择两个变量中任意一个变量在x轴上(D) 可以选择两个变量中任意一个变量在y轴上2.一位母亲记录了她儿子3到9岁的身高,数据如下表。年龄/岁3456789身高/cm94.8104.2108.7117.8124.3130.8139.0由此她建立了身高与年龄的回归模型
20、 ,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是( )(A)身高一定是145.83cm (B)身高在145.83CM以上(C)身高在145.83cm左右 (D)身高在145.83cm以下学以致用3456789身高/cm94.8104.2108.7117.3.在建立两个变量x与y的回归模型中,分别选择了4个不同模型,它们的相关指数 如下,其中拟和得最好的模型是( )(A) 模型1的相关指数为0.98为0.80为0.504.如果发现散点图中所有的样本点都在一条直线上,请回答下列问题: (1)解释变量和预报变量的关系是 ,残差平方和是_ (2)解释变量和预报变量之间的相关系数是_ (B)模型2的相关指数 (C)模型3的相关指数(D)模型4的相关指数为0.253.在建立两个变量x与y的回归模型中,分别选择了4个不同模型例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:求出Y对的回归直线方程,并说明拟合效果的好坏。价格x1416182022需求量Y1210753解:例2、在一段时间内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家长学生安全教育培训课件
- 2026年合作协议与退出机制合同
- 2026年电梯远程监控合同协议
- 2026年医院安保服务质量合同协议
- 2026年铁路货运代理合同范本规范详细
- 2026年剧本评审合同协议
- 演出合同协议2026年保密责任条款
- 2026年风力发电场投资合同协议
- 商铺买卖合同2026年付款方式
- 2026年矿石加工供应链管理合同协议
- 充电桩及充换电场站体系建设项目可行性研究报告
- DB37-T 4440.2-2021 城市轨道交通互联互通体系规范 信号系统 第2部分:ATS系统工作站人机界面
- 韩语topik所有历届考试真题及答案
- 2025年国家开放大学《农业经济学》期末考试备考试题及答案解析
- 2025蚌埠市城市投资控股集团有限公司所属公司招聘9人笔试备考题库及答案解析
- 高压电工操作证培训课件
- 2025年新版劳动合同模板(北京版)
- 2025年事业单位工勤技能-河南-河南防疫员三级(高级工)历年参考题库含答案解析
- 数智企业经营沙盘模拟实训教程-人力规则
- 2025年海南省直及地市、县事业单位招聘考试自然科学专技类(综合应用能力·C类)历年参考题库含答案详解(5卷)
- 2025年同等学力申硕-同等学力(动力工程及工程热物理)历年参考题库含答案解析(5套典型题)
评论
0/150
提交评论