第8章相关与回归_第1页
第8章相关与回归_第2页
第8章相关与回归_第3页
第8章相关与回归_第4页
第8章相关与回归_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章

相关分析与回归分析

本章重点与难点(1)相关分析的意义、作用和种类;(2)相关关系的判断及相关系数的计算;(3)回归分析与一元线性回归。这是本章重点中的重点,同时也是一个难点;

(4)相关系数与回归系数的假设检验。第一节相关分析的一般问题

一、相关关系的概念

(一)函数关系

它反映着现象之间存在着严格的数量依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。

例y=f(x)

一般来说,现象之间的相互关系可以分为两种,一种是函数关系,一种是相关关系。

(二)相关关系

相关关系是两个现象之间确实存在的、而关系数值不确定的相互依存关系。理解这一概念须把握两个要点:1.现象之间确实存在着数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;2.现象之间的这种依存关系的数值是不严格的。可用数学公式表示为:

y=f(x)+ε

其中,ε为随机变量商品价格和商品销售量之间,存在着一定的依存关系,即商品价格发生变动,商品的销售量也会随之发生变动。但二者在数量上的变动影响又是不严格的。例(三)函数关系与相关关系的区别与联系1.区别:(1)相关关系现象中变量关系完全对等;函数关系现象中变量关系不是对等的。(2)相关关系是统计学的研究范畴,函数关系是数学的研究范畴。2.联系:(1)函数关系往往通过相关关系表现出来。(2)相关关系通常可以用一定的函数关系表达式去近似地描述。二、相关关系的种类

现象之间的相关关系是复杂的,它们各以不同的方向、不同的程度相互作用着,并表现出不同的类型和形态。1.按涉及因素的多少来分,可分为:

在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为单相关。单相关:两个因素之间的相关关系,即只涉及一个自变量和一个因变量。复相关:三个或三个以上因素之间的相关关系,即涉及二个或二个以上的自变量和因变量。2.按相关的表现形式,可分为:线性相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,称其为直线相关关系。非线性相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。3.按相关的方向来分,可分为:正相关:指两相关现象变化的方向一致;

负相关:是指两相关现象变化的方向相反。4.

按相关的程度分,可分为:完全相关:就是相关现象之间的关系是完全确定的关系,即函数关系。不完全相关:就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。不相关:是指两现象之间在数量上的变化上各自独立,互不影响。

三、相关分析的概念、特点及内容

(二)相关分析的特点:

1、相关分析中,两个变量关系呈现对等,可根据具体情况进行统计函数的设定。

2、相关分析中,两个变量均为随机变量。(一)相关分析的概念:

研究一个变量与另一个变量或另一组变量之间的相关方向和相关密切程度的统计分析方法。相关分析的内容主要包括以下几点:

1、确定现象之间有无关系。

2、确定相关关系的表现形式。

3、确定相关关系的密切程度和方向。(三)相关分析的内容第二节相关表、相关图与相关系数

一、相关表与相关图2、相关图:也称散布图(或散点图)。1、相关表:

某市1998年-2005年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。

序号年份工资性

现金支出(万元)x城镇储蓄存款余额(万元)y119985001202199954014032000620150420017302005200290028062003970350720041050450820051170510例1企业按销售额分组(万元)流通费用率(%)4以下9.654~

87.688~

127.2512~

167.0016~

206.8620~

246.7324~

286.6428~

326.6032~

366.58例2二、相关系数

相关系数是反映变量间相关关系密切程度的统计分析指标。一般用符号表示。根据线性相关变量的多少与分析问题的角度不同,相关系数可分为:

简单相关系数偏相关系数复相关系数(一)相关系数的概念(二)相关系数的测定方法:仍以上例1资料计算:序号年份x(万元)y(万元)11998500120-310-15596100240254805021999540140-270-13572900182253645032000620150-190-12536100156252375042001730200-80-75640056256000520029002809058100254506200397035016075256005625120007200410504502401755760030625420008200511705103602351296005522584600合计64802200--432400155000253300

经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关。2.简捷法

若令:

-==

-资料计算如下:序号年份x(万元)y(万元)x2y2xy119985001202500001440060000219995401402916001960075000320006201503844002250093000420017302005329004000014600052002900280810000784002520006200397035094090012250033950072004105045011025002025004725008200511705101368900260100596700合计6480220056812007600002035300(三)相关系数的性质

①相关系数是一个抽象化的相对指标,其本身不表示任何经济含义;②相关系数的取值范围:-1≦γ≦1③计算结果带负号表示负相关,带正号表示正相关;④相关系数的绝对值越接近于1,表示相关关系越强;越接近于0,表示相关关系越弱。;等于0,表示变量间无线性相关关系。具体标准:

0.3≦γ﹤0.5,低度相关

0.5≦γ﹤0.8,显著相关0.8≦γ≦1,高度相关(四)相关系数的特点

(1)参与相关分析的两个变量是对等的,不分自变量和因变量,因此,相关系数只有一个。(2)相关系数有正负号,反映相关关系的方向;正号反映正相关,负号反映负相关。(3)计算相关系数的两个变量都是随机变量。(五)相关系数的显著性检验

1、检验两个变量之间是否存在线性相关关系;

2、采用t检验;

3、检验的步骤为:

提出假设:H0:;H1:0

计算检验的统计量:

确定显著性水平,并作出决策若t>t,拒绝H0

若t<t,接受H0第三节回归分析概述

一、回归分析的概念与内容

(一)回归分析的概念回归这个统计术语,最早采用者是英国遗传学家高尔登,他把这种统计分析方法应用于研究生物学的遗传问题,指出生物后代有回复或回归到其上代原有特性的倾向。高尔登的学生皮尔逊继续研究,把回归的概念和数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。回归分析——是对具有相关关系的两个或两个以上变量之间的数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。(二)回归分析的特点

1、回归分析中,两个变量之间的关系不是对等的。在分析时,必须根据研究目的确定哪个是自变量,哪个是因变量。

2、回归分析中的两个变量,自变量是确定性变量,因变量是随机变量。(三)回归分析的分类1、按自变量的多少可分为一元回归和多元回归。

2、按回归的表现形式可分为线性回归和非线性回归。(四)回归分析的主要内容1、拟合回归模型。

2、测定和控制误差。

3、显著性检验。二、回归分析与相关分析的区别和联系

二者的区别是:(1)相关分析仅能观察相关的方向与密切程度,但不能指出两变量间相关的具体形式。回归分析可以根据回归方程用自变量的数值推算因变量的估计值。(2)相关分析中两变量是对等的,都是随机变量,不需区分自变量与因变量;而回归分析中两变量不是对等的,要区分自变量与因变量,且因变量是随机变量,自变量是给定的变量。联系:相关分析需要回归分析来说明现象数量关系的具体形式,而回归分析是建立在相关分析基础之上的。一、一元线性回归方程的拟合一元线性回归方程的基本形式为:

yc=a+bx

yc——因变量的估计值;

x——自变量;

a——回归直线在y轴上的截距;

b——回归直线的斜率,称回归系数,表明x每增加一个单位,因变量yc的平均变化值。

b>0,x与y为正相关

b<0,x与y为负相关第四节一元线性回归分析

参数a、b的确定:

在简单直线回归方程中,a、b为待定系数,常用最小平方法来确定,即∑(y-yc)2=最小值。

若令

则有

一元线性回归方程建立的步骤为:

①确定自变量x和因变量y;②计算Σx、Σy、Σx2、∑xy;③代入公式,先求b,再求a;④建立简单直线回归方程yc=a+bx,并据此进行预测。

某企业上半年产品产量与单位成本资料如下:

月份产量(千件)单位成本(元)

x2y2xy

127345329146237295184216347116504128443739532921954691647612766568254624340

合计2142679302681481求:(1)计算相关系数,说明两个变量相关的密切程度;(2)配合回归方程,指出产量每增加1000件时,单位成本平均变动多少?(3)假定产量为6000件时,单位成本为多少?

计算相关系数时,两变量都是随机变量,不需区分自变量和因变量。考虑到要配合回归方程,所以,这里设产量为自变量x,单位成本为因变量y。根据题意计算:解:=-10=55=22(1)

说明产量和单位成本之间存在着高度负相关。

=-0.9091(2)拟合直线回归方程yc=a+bx,计算回归参数

=-1.82

(3)当产量为6000件时,即x=6,代入回归方程,得

yc=77.37-1.82×6=66.45(元)b=a=-b

=77.37所以,回归方程为:yc=77.37-1.82x二、线性回归方程的基本性质

性质l:最小值性质2:性质3:回归直线必须通过点(,)三、判定系数R2

回归平方和占总误差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差判定系数等于相关系数的平方,即R2=r2

四、估计标准误差

(一)估计标准误差的概念和作用

估计标准误差就是用来说明回归方程推算结果的准确程度的统计分析指标。以绝对值表示,其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。用Syx表示,也可用Sy表示。(二)估计标准误差的计算方法

1.定义公式:(三)相关系数与估计标准误差的关系

相关系数和估计标准误差在数值上表现为相反的关系:γ值越大,Syx值越小;γ值越小,Syx值越大。Sy和r的异同点:相同点:都具有说明相关关系密切程度的作用;不同点:

(1)r越大越好,而Sy越小越好;

(2)r用相对数表现,密切程度的概念比较明确;Sy用绝对数表现,关系密切的程度表示得不那么明显;

(3)r能说明正、负相关,Sy不能说明。

五、一元线性回归方程的显著性检验

(一)回归方程的显著性检验

1、检验自变量和因变量之间的线性关系是否显著;2、具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著:如果是显著的,两个变量之间存在线性关系;

如果不显著,两个变量之间不存在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论