回归分析的基本思想及其初步应用第二第三课时ppt课件_第1页
回归分析的基本思想及其初步应用第二第三课时ppt课件_第2页
回归分析的基本思想及其初步应用第二第三课时ppt课件_第3页
回归分析的基本思想及其初步应用第二第三课时ppt课件_第4页
回归分析的基本思想及其初步应用第二第三课时ppt课件_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1相关分析的基本思想 及其初步应用(2,1:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系,复习回顾,3:最小二乘法,样本点的中心,回归方程,4:思考产生随机误差项e的原因,随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重y 的因素不只是身高 x,可能还包括遗传基因、饮食习惯、是否喜欢运动、生长环境、度量误差等因素; 2、用线性回归模型近似真实模型所引起的误差; 3、身高 x 的观测误差,函数模型与回归模型之间的差别,函数模型,回归模型,线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和随机误差项e共同确定,即自变量x只

2、能解释部分y的变化,在统计中,我们也把自变量x称为解释变量,因变量y称为预报变量,1.用相关系数 r 来衡量,2.公式,求出线性相关方程后, 说明身高x每增加一个单位,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱呢,当 时,x与y为完全线性相关,它们之间存在确定的函数关系。 、当 时,表示x与y存在着一定的线性相关,r的绝对值越大,越接近于1,表示x与y直线相关程度越高,反之越低,3.性质,相关系数,相关系数的性质: (1)|r|1 (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱,如何描述两个变量之间线性相关关系

3、的强弱,问题:达到怎样程度,x、y线性相关呢? 它们的相关程度怎样呢,显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好,在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强,如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型,总的来说: 相关指数R2是度量模型拟合效果的一种指标。 在线性模型中,它代表自变量刻画预报变量的能力,表1-3,从表3-1中可以看出,解释变量对总效应约贡献了64%,即R20.64,可以叙述

4、为“身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。所以,身高对体重的效应比随机误差的效应大得多,为了回归的准确和计算的方便我们引入残差平方和(residual sum of squares)它代表随机误差的效应,求出了随机误差的效应后,我们就比较容易得到解释变量的效应了。同学们知道怎样求吗,解释变量的效应总体偏差平方和残差平方和,回归平方和 (regression sun of squares,我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图,表1-4列出了女大学生身高和体重的原始数据以及相应的残差数

5、据,使用公式 计算残差,残差图的制作及作用。 坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域; 对于远离横轴的点,要特别注意,身高与体重残差图,几点说明: 第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高,一般地,建立回归模型的基本步骤为,1)确定研究对象,明

6、确哪个变量是解释变量,哪个变量是预报变量,2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等,3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a,4)按一定规则估计回归方程中的参数(如最小二乘法,5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等,基本步骤,抽取样本,采集数据,作出散点图,确定类型,求回归方程,残差分析,相关指数,判定拟合程度,某大学中随机选取8名女大学生,其身高和体重数据如下表所示,求根据女大学生的身高预报体重的回归

7、方程,并预报一名身高为172cm的女大学生的体重.并求相关指数的值,案例1:女大学生的身高与体重,样本点呈条状分布,身高和体重有较好的线性相关关系,因此可以用线性回归方程来近似的刻画它们之间的关系,解:选取身高为自变量x,体重为因变量y, 作散点图,由,得,故所求线性回归方程为,因此,对于身高172cm的女大学生,由线性回归方程可以预报其体重为,是斜率的估计值,说明身高x每增加1个单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系,一般方法,1.利用散点图观察两个变量是否线性相关,2.利用残差来判断模型拟合的效果(残差分析,利用残差图来分析数据,对可疑数据(残差较大的数

8、据)进行重新调查,有错误就更正,然后重新利用回归模型拟合,如果没有错误,则需要找其他原因,非线性回归,红铃虫喜高温高湿,适宜各虫态发育的温度为 25 一32 ,相对湿度为80一100,低于 20 和高于35 卵不能孵化,相对湿度60 以下成虫不产卵。冬季月平均气温低于一48 时,红铃虫就不能越冬而被冻死,1953年,18省发生红铃虫大灾害,受灾面积300万公顷,损失皮棉约二十万吨,例2一只红蛉虫的产卵数y与温度x有关,现收集了7组数据,请建立y与x建德回归方程,解,1.制作散点图,2.观察模拟,样本点不能直接利用线性回归,根据我们的函数知识,它应该是一个指数模型:y=c1ec2x其中c1c2为参数或二次函数模型,根据对数回归知识我们知道:令z=lny将其变换到样本点的分布直线z=a+bx,z=0272x-3.843,会求着条直线吗,则:y=e0.272x-3.843,2.我们认为样本点集中在某二次函数y=c3x2+c4附近,c3c4为参数,则,令tx2则:y=c5t+c6其中c5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论