环境统计学第四章 回归分析.ppt_第1页
环境统计学第四章 回归分析.ppt_第2页
环境统计学第四章 回归分析.ppt_第3页
环境统计学第四章 回归分析.ppt_第4页
环境统计学第四章 回归分析.ppt_第5页
免费预览已结束,剩余65页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、环境统计学,第四章 回归与相关分析,学习要点:本章详细讲述了相关分析的概念、相关关系的测定、回归方程的建立和应用等内容。通过本章的学习,要理解相关分析的有关概念,掌握计算相关系数和回归方程的方法,并能够结合实际资料对变量进行相关分析。,1.函数关系 客观现象之间相互依存的确定性的数量关系是函数关系,它是变量之间客观存在的一种对应关系。在这个关系中,当中一个或多个表述现象的数量(自变量)发生变化时,另一个表述现象的数量(因变量)按照一定的规律有确定的值与之对应,可以用数学表达式描述这种关系。 y=f(x),2.相关关系 (1)概念:相关关系是指现象之间客观存在的在数量上不是确定性的对应关系。 (

2、2)特征:某一现象或多个现象与另一有联系的现象之间在数量上存在着一定的依存关系,但不是确定和严格的数学函数关系。 (3)举例:居民的月可支配收入和消费支出的关系。,函数关系:反映变量间的严格依存性。当因素标志的数量确定之后,结果标志的数量也随之完全确定,以y=f(x)表现 相关关系:不能用一个简单而确定的关系表达出来,此时两变量间的关系不是严格的确定关系,而是一种相关关系。不完全确定的随机关系。,函数关系与相关关系的联系,对具有相关关系的现象进行分析时,则必须利用相应的函数关系数学表达式,来表明现象之间的相关方程式。 相关关系是相关分析的研究对象,函数关系是相关分析的工具。 例:圆的面积与半径

3、的关系;计件工资总额与零件数量;看书时间和学习成绩。,二、相关关系的分类,(一)按相关关系涉及的因素多少划分 1.单相关:是两个变量的相关,即一个因变量对一个自变量的相关关系。 2.复相关:是三个或三个以上变量的相关,即一个因变量对两个或两个以上自变量的相关关系。 (二)按现象之间相关关系的方向划分 1.正相关:是当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。 2.负相关:是当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。,(三) 按现象之间相关关系的程度分 1.完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,称

4、这两种现象间的关系为完全相关。例如在价格不变的条件下,商品销售额与销售量之间成正比例关系。 2.完全不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。 3.不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。如人的身高和体重之间的关系。,(四)按现象之间相关的形式分 1.线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关,即直线相关。如产品总成本和单位成本之间的关系、职工工资总额和职工平均工资之间的关系等。 2.非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则

5、这种相关关系称为非线性相关,即曲线相关。如产品单位成本和产量之间的关系。,相关分析的类型,根据相关关系的类型和程度可以有以下分类:,一元线性回归分析,一元线性回归模型的估计 一元线性回归模型的检验,趋向中间高度的回归,回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。 Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数

6、值变量的方法称为回归分析。,Regression 的原始释义,回归分析,一、回归分析的意义: 1、回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个一直量来推测另一个未知量,为估算预测提供一个重要的方法。 2、回归分析和相关分析是互相补充、密切联系的,相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。,3、回归的种类,按自变量的个数分: 一元回归:只有一个自变量,又称简单回归 多元回归:有两个或两个以上自变量,又称复回归 按回归线的形状分: 线性回归直线回归 非线性回归曲线回归,回归模型的类

7、型,回归模型,多元回归,一元回归,线性回归,非线性回归,线性回归,非线性回归,回归分析法,是处理变量间相关关系的有力工具,它提供了建立变量间数学表达式的方法。即在研究两个变量关系基础上,还可以由一变量的变化去推断另一变量变化情况。,变量,变量,推测,估计,散点图 Scatter Diagram,散点图是观察两个变量之间的相关程度和类型最直观的方法。 散点图是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。,用散点图观察变量之间的相关关系,散点图,简单线性回归方程:,1、简单线性方程式:y=a+bx 2、变量y不仅受x的影响,还受其他随机因素的影响,因此通过相关图

8、,可以直观地发现各个相关点并不都落在一条直线上,而是在直线上下波动,只呈现线性相关的趋势。 3、我们试图在相关图的散点中引出一条模拟的回归直线,以表明两变量x与y的关系,称为估计回归线,回归方程: =a+bx y的估计值 a纵轴截距 b回归系数,b代表自变量x变动一个单位时因变量y平均变动b个单位。,计算a、b值,当实际值y与估计值 的离差平方和为最小值时,则此直线为最优的理想直线。 即:,最小二乘法:由于Q是n个平方之和,所以“使Q最小”的原则称为平方和最小原则,根据最小二乘原则去求得a、b的方法叫最小二乘法。,一元线性回归模型的估计,总体回归直线是未知的,它只有一条;而样本回归直线则是根据

9、样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归直线。 在总体参数未知的情况下,如何保证样本回归系数尽可能接近总体参数的真实值? 在回归分析中最常用的估计方法是最小二乘法。,的意义,为残差:点到直线的纵向距离。,最小二乘估计,x,y,(xn , yn),(x1 , y1),(x2 , y2),(xi , yi),通过使残差平方和 达到最小来求得,最小二乘估计,将Q对和求偏导数并令其等于零,可以得到正规方程组(Normal Equations)。,解这个方程组可得:,注意的符号与相关系数r是一致的。,最小二乘回归直线的性质,(1) 直线通过均点 (2) (3) 取得最小值,计算a、b值,当

10、实际值y与估计值 的离差平方和为最小值时,则此直线为最优的理想直线。 即:,lxx lyy lxy,性质,b0 b0 当x= , 直线回归方程的图示,例题4-1,估计标准误,1、当 (估计值)与y(实际值)有偏差的时候,产生估计值代表性问题。 2、估计标准误是用来说明回归方程代表性大小的统计分析指标,计算公式为,估计标准误的性质,估计误差最小为0,即y- =0,所有y点落在 线上,Y与x为完全的相关关系。(函数关系) 估计误差最大为总误差,y与x不相关。,直线回归的统计检验,何为“离差”?,因变量 y 相对于其均值的差异称为离差,用 来表示。 离差来源于两个方面 由于自变量 x 的取值不同造成

11、的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响,离差分解图,两端平方后求和有,离差平方和的分解 (三个平方和的意义),总平方和(S总) 反映因变量的 n 个实际观察值与其均值的总离差 S总,回归平方和(U),反映自变量 x 的变化对因变量 y 取值变化的影响,也即因变量的理论值与其样本均值的离差,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。 U,残差平方和(Q),不能由回归直线加以解释的残差平方和。 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和 Q,决定系数,定义:相关系数r的平方值为决定系数

12、 由变量x的不同而引起变量y的离差平方和U占变量y的总平方和S总的比率。,决定系数的取值,r2的取值范围是0,1。 r2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。 在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。,第1步:提出假设。在一元回归为 第2步:确定检验统计量: U称为均方回归,Q称为均方残差。 自由度(1,n-2),统计检验步骤,第3步:计算检验统计量的样本观测值 第4步:进行决策: 根据显著性水平a和自由度(1,n2)确定检验统计量的临界值Fa ,FF时拒绝H0

13、; 如果不能拒绝零假设,则说明所有自变量作为一个整体对因变量都没有解释能力。 注意这里F检验是右侧检验!,作线性回归分析注意事项,相关系数的计算及其检验,相关系数(Coefficient of Correlation)是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。 衡量两个定量变量之间线性相关程度的常用指标是皮尔逊( Pearson)相关系数。 通常以表示总体的相关系数,以r表示样本的相关系数。,相关系数的定义公式是:,相关系数的计算及其检验,相关系数的计算,相关系数r 的特征,当r0时,X与Y为正相关;当r0时,X与Y为负相关。 没有单位,取值介于1与1之间

14、。 绝对值越接近1说明关系越密切。r1为完全正相关,而r1为完全负相关。 注意:当r=0时,只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的相关关系。,相关系数的显著性检验,样本相关系数r受到抽样波动的影响,是一个随机变量。 相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。,样本能代表总体吗?,如果红色的点碰巧为你的样本,则样本相关系数为0.907,总体相关系数为0.00005,例4-1,相关系数的显著性检验,相关分析时应注意的问题,注意:相关关系因果关系!,典型的错误推断: 统计分析表明,庆祝生日次数越多的人越长寿。因

15、此,庆祝生日有利于健康。 调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命越长。 对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。,相关与回归的显著性检验,可化成线性回归的曲线回归,如果y 与 x 之间不是线性关系,通常也可以可通过变量代换使其转换成线性模型,然后再对线性模型进行估计。 但并非所有的曲线模型都可以化为线性模型。,几种常见的曲线回归模型,指数函数,线性化方法 两端取对数得:lny = ln + x 令:y = lny,则有y = ln + x,基本形式:,图像,几种

16、常见的曲线回归模型,幂函数,线性化方法 两端取对数得:lg y = lg + lg x 令:y = lgy,x= lg x,则y = lg + x,基本形式:,图像,几种常见的曲线回归模型, 双曲线函数,线性化方法 令:y = 1/y,x= 1/x, 则有y = + x,基本形式:,图像,几种常见的曲线回归模型,对数函数,线性化方法 x= lgx , 则有y = + x,基本形式:,图像,几种常见的曲线回归模型,S 型曲线,线性化方法 令:y = 1/y,x= e-x, 则有y = + x,基本形式:,图像,作业,1 简述作线性回归分析时应该注意的问题,作业,2 某城市19751984年人口数(X)和城市垃圾产生量(Y)的数据列于表1中。试求人口数(万人)和城市垃圾产生量(10kt)之间的回归方程,作业,3. 某单位对饮水中含氟量与氟斑牙发病率的关系进行了调查,取得下面几组数据(如表2): 表2 饮水含氟量与氟斑牙发病率的关系调查表,(1) 请做出散点图。 (2) 建立x与y的一元线性回归方程,并作直线回归的假设检验;( ,小数点后保留

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论