统计学-在经济管理中的应用 课件 第6章 相关与回归分析_第1页
统计学-在经济管理中的应用 课件 第6章 相关与回归分析_第2页
统计学-在经济管理中的应用 课件 第6章 相关与回归分析_第3页
统计学-在经济管理中的应用 课件 第6章 相关与回归分析_第4页
统计学-在经济管理中的应用 课件 第6章 相关与回归分析_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章相关与回归分析第一节相关分析与回归分析的概念第二节相关表、相关图与相关系数第三节一元线性回归分析第四节可线性化的曲线回归学习目标1、理解变量间的相关关系与相关系数的计算2、理解总体回归函数与样本回归函数3、了解一元线性回归的基本假定4、了解一元线性回归参数的估计与检验5、了解一元线性回归参数的简单应用6、了解常用的可以转换为线性回归的非线性函数科学主要是要建立模型,并不是试图去说明,而且也很少解释什么。这里所说的模型是一种数学结构,再加上某种特定语言的解释来描述所观察到的现象。建立这种数学结构的理由唯一而且明确地由人们所期待的它的机能来决定。

——“电脑之父”冯·诺依曼第一节相关分析与回归分析的概念一、相关与相关分析的概念与类型

1、相关分析的概念

2、相关关系的类型

1、相关分析的概念相关分析就是通过对现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。即对现象(变量)之间是否相关及其相关的程度、方向进行分析的统计分析方法。

变量间的相互关系◆确定性的函数关系Y=f(X)如:某种商品的销售额Y与该商品的销售量X、销售单价P之间的关系:Y=X*P◆不确定性的统计关系—相关关系

Y=f(X)+ε(ε为随机变量)如:企业成本的高低与利润的多少之间的关系

◆没有关系变量间关系的图形描述:坐标图(散点图)注意:相关关系和函数关系既有区别,又有联系,它们可以相互转化

2、相关关系的类型1)从变量相关的程度看完全相关(A)不完全相关(B)

不相关(C)2)从变量相关关系变化的方向看正相关—变量同方向变化同增同减(B)负相关—变量反方向变化一增一减(A)

A

B

C3)从涉及的变量数量看简单相关多重相关(复相关)4)从变量相关关系的表现形式看线性相关——散布图接近一条直线(下左图)

非线性相关——散布图接近一条曲线(下右图)5)根据变量间相互关系所反映的内容,可分为真实相关和虚假相关。教师薪金的提高和酒价的上涨做了相关分析美国经济学学位越高的人,收入越低注意不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持。例如,下雨与农作物生长在具体应用过程中,一定要始终注意把定性分析和定量分析结合起来,在准确进行定性分析的基础上展开定量分析。3、相关分析的内容(1)确定现象之间是否存在相关关系及其表现形式(2)确定相关关系的密切程度(3)确定相关关系的数学表达式(4)确定变量估计值与实际值之间的差异程度二、回归分析的概念与类型1、回归分析的概念“回归”一词由英国生物学家高尔顿(F.Galton)在研究人体身高的遗传问题时首先提出的。“回归”的古典意义:子辈身高与父辈身高之间存在着一种相关关系。子辈的身高有向人的平均身高(即中心)回归的趋势。高尔顿与回归分析的起源“回归”是由英国著名生物学家兼统计学家高尔顿(FrancisGalton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。1855年,高尔顿发表《遗传的身高向平均数方向的回归》论文。高尔顿和他的学生K.Pearson通过观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为:

y^=33.73+0.516x

这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高也平均增加0.516个单位。

回归的现代意义一个因变量对一个或若干解释变量依存关系的研究回归的目的(实质)由固定的自变量去估计因变量的平均值样本总体自变量固定值估计因变量平均值现代回归分析已成为一种广泛应用的分析研究方法,在经济理论研究和实证研究中发挥着重要的作用。2、回归分析的类型按照自变量的个数划分,有一元回归和多元回归。按照回归曲线的形态或根据变量或参数之间的关系来分,有线性(直线)回归和非线性(曲线)回归;根据解释变量的性质来分,可以分为方差分析、协方差分析和Logistic回归。按模型中方程数目的多少,分为单一方程模型和联立方程模型。三、相关分析与回归分析的关系相关分析与回归分析的联系:1)具有共同的研究对象,即两者都是对变量间相关关系的分析。理论和方法具有一致性;2)相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。3)相关系数和回归系数方向一致,可以互相推算相关分析与回归分析的区别:1)在相关分析中,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,把变量划分为自变量和因变量。因此,在回归分析中,变量之间的关系是不对等的。2)在相关分析中所有的变量都是随机变量;而在回归分析中,自变量是给定的,因变量是随机的。3)相关分析主要是通过一个指标即相关系数来反映变量之间线性相关程度的大小和方向,由于变量之间是对等的,因此相关系数是惟一确定的。相关分析中相关系数的确定是建立在回归分析基础上的。而回归分析是根据相关关系的具体形态,选择合适的数学模型,来分析自变量与因变量间的平均变化关系。回归分析的内容从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度19单选题下面现象间的关系属于相关关系的是()。

A.圆的周长和它的半径之间的关系

B.价格不变条件下,商品销售额与销售量之间的关系

C.家庭收入愈多,其消费支出也有增长的趋势

D.正方形面积和它的边长之间的关系20多选题下列哪些关系是相关关系()A.球的半径长度和体积的关系B.农作物收获和施肥量的关系C.商品销售额和利润率的关系D.产品产量与单位成品成本的关系E.家庭收入多少与消费支出增长的关系21多选题下列属于正相关的现象是()A.家庭收入越多,其消费支出也越多B.某产品产量随工人劳动生产率提高而增加C.流通费用率随商品销售额的增加而减少D.生产单位产品所耗工时随劳动生产率的提高而减少E.产品产量随生产用固定资产价值的减少而减少第二节相关表、相关图与相关系数一、相关表二、相关图三、相关系数一、相关表相关表是一种统计表。它是根据现象之间的原始资料,将一个变量的若干变量值按一定的顺序进行排列,并将另一个变量的值与之对应排列形成的统计表。相关表(例题)[例6.1]成都市某公司想了解其广告投入与销售收入之间的关系,以便决定第二年是否要增加广告费的投入,该公司把2008年1-12月每月的广告费用与销售收入数据按月进行排列(表6.1)。

表6.1成都市某公司广告费与月销售收入相关表单位:万元月份123456789101112广告费32123.51.52.82.32.41.82.52.5销售收入908576981108212090908095100二、相关图相关图又称散点图,它是用直角坐标系的x轴代表一个变量,y轴代表另一个变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。根据表6.1的资料可以绘制相关图(见图5.1)。图6.1成都市某公司广告费投入与销售收入的相关图三、相关系数相关系数是用于测定变量间的相关程度的统计量。依据相关现象之间的不同特征,相关系数的名称和计算方法有所不同。将反映两个变量间线性相关关系的统计指标称为简单相关系数;将反映两个变量间曲线相关关系的统计指标称为非线性相关系数;将反映多元线性相关关系的统计指标称为复相关系数等。总体相关系数

对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数

样本相关系数

通过X和Y的样本观测值x和y去估计样本相关系数。变量X和Y的样本相关系数通常用r表示

特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。29相关系数的简化式相关系数的特点:

相关系数的取值在-1与1之间。当r=0时,表明X与Y没有线性相关关系。当0<<1时,表明X与Y存在一定的线性相关关系:

若r>0,表明X与Y为正相关;

若r<0,表明X与Y为负相关。当=1时,表明X与Y完全线性相关:

若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。对两个变量之间的相关关系的密切程度,可根据计算出的相关系数的大小进行判断。一般可按四级划分:|r|<0.3为弱线性相关;0.3≤|r|<0.5为低度线性相关,0.5≤|r|<0.8为显著线性相关;0.8≤|r|<1为极强线性相关。

使用相关系数的注意事项:▲X和Y都是相互对称的随机变量,所以▲相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。▲相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。相关系数有一个明显的缺点,即接近于1的程度与数据组数n相关,这容易给人一种假象。因为当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此,在样本容量n较小时,仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。相关系数是根据样本数据计算的,对同一个总体,抽取不同的样本所得到的相关系数值是不同的。因此,相关系数是一个随机变量,需要对其进行统计显著性检验。相关系数的检验

为什么要检验?样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:

如果X和Y都服从正态分布,在总体相关系数的假设下,与样本相关系数r有关的t统计量服从自由度为n-2的t分布:

~tα/2(n-2)

相关系数的检验方法给定显著性水平α,查自由度为n-2的临界值tα/2若>tα/2,表明相关系数r在统计上是显著的,应否定,而接受的假设;反之,若≤tα/2,应接受的假设。

据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。

(引自《光明日报》刘军/文)问题:肥胖症和体重超常与死亡人数真有显著的数量关系吗?该问题应该运用什么方法去解决?全球吃死的人比饿死的人多?第三节一元线性回归分析一元线性回归(SimpleLinearRegression)方程,又称简单直线回归方程。一元线性回归分析中只涉及一个因变量和一个自变量,而且两个变量的增量按一定的比例变化,或者说两个变量的增长比率为常数。一元线性回归分析是变量最少、最简单的一种回归分析,但也是一种最基本、最重要的回归分析。●

的条件分布

当解释变量

取某固定值时(条件),

的值不确定,

的不同取值形成一定的分布,即

的条件分布。●

的条件期望

对于

的每一个取值,对

所形成的分布确定其期望或均值,称为

的条件期望或条件均值1、回归线与回归函数40

3)回归线。对不同的Xi,都有一个确定的E(Y/Xi)与之相对应。在二维坐标图上,所有的E(Y/Xi)的点随X的不同而变化的轨迹所形成的直线或曲线,称为回归线。一、一元线性回归模型1、回归线与回归函数在一元线性回归分析中,变量X为自变量,变量Y为因变量。1)条件分布。当X取某一固定值时,变量Y的取值并不确定,Y的不同取值就会形成一定的分布,即Y在X取某一固定值时的条件分布。2)条件期望。对X的每一个取值,可以对Y的条件分布确定其期望值,即为Y的条件期望,可表示为E(Yi/Xi);3)回归函数。如果E(Y/Xi)随X的变化而表现出某种规律,可以把E(Y/Xi)表示为X的某种函数,记为E(Y/Xi)=f(Xi),这就是回归函数。如果回归函数是涉及一个自变量的线性函数,如E(Y/Xi)=,则该函数被称为一元线性回归函数,也称为简单线性回归函数。

2、总体回归函数(PRF)

概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:(1)条件均值表现形式(2)个别值表现形式(随机设定形式)在实际经济问题中,一般来说,总体是未知的,对一个总体现象,要获得总体的所有观测值或获得总体中Y的条件期望值,都是很难作到的。因此,对总体回归函数,一般是根据经济理论或实践经验去进行人为的设定。

i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochasticdisturbance0或随机误差项(stochasticerror)。2、随机扰动项●未知影响因素的代表●无法取得数据的已知影响因素的代表●

众多细小影响因素的综合代表●

模型的设定误差●变量的观测误差●

变量内在随机性随机误差项主要包括下列因素的影响3、样本回归函数在实际经济问题研究中,总体回归函数中的参数是未知的,我们必须用样本数据对总体参数进行估计。对于给定的自变量X,可以对因变量Y的某些样本进行观测,然后利用样本提供的信息去估计总体回归函数。对于给定的自变量X所获得的因变量Y的样本观测值,可以计算出其条件均值。Y的样本条件均值随X的变动而变动的轨迹,称为样本回归线。如果把Y的样本条件均值表示为X的某种函数,该函数就是样本回归函数(记为SRF)。样本回归函数的函数形式应与总体回归函数一致。样本回归线只是总体回归线的近似代表。如果样本回归函数为涉及一个自变量的线性函数,可表示为:

上式中:为与Xi对应的Y的样本条件均值。

分别是样本回归函数的参数。这是样本回归函数(或模型)的条件均值设定形式。Y的实际样本观测值Yi与样本条件均值之间所存在的偏差,称为残差,用ei表示,即:或上式是样本回归函数(或模型)的个别值设定形式。样本回归函数与总体回归函数的关系——相互联系

样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。●是对总体回归函数参数的估计。●是对总体条件期望E(Y/Xi)的估计●残差e在概念上类似总体回归函数中的随机误差u。回归分析的目的:用样本回归函数去估计总体回归函数。样本回归函数与总体回归函数的关系

——相互区别

●总体回归函数虽然未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。●样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。

●总体回归函数的参数虽未知,但是确定的常数;样本回归函数的参数可估计,但是随抽样而变化的随机变量。●总体回归函数中的

是不可直接观测的;而样本回归函数中的e是只要估计出样本回归的参数就可以计算的数值。样本回归函数与总体回归函数的关系

SRF

PRF

A

X

二、一元线性回归模型的参数估计回归分析的目的就是要用样本回归函数去估计总体回归函数。通过变量的样本观测值并选择适当方法去近似地估计出总体的回归系数,并使参数估计值“尽可能地接近”总体参数真实值。估计线性回归模型中参数的方法有多种,每一种估计方法都是以对模型的某些假定为前提的。u是随机变量其分布性质不确定,必须作某些假定,在满足这些假定的基础上,所做的估计才具有良好的统计性质,对其才可以进行检验。

假定1

解释变量X是确定性变量,不是随机变量;

假定2

随机误差项

具有零均值、同方差和序列不相关:

E(

i)=0i=1,2,…,nVar(

i)=

2i=1,2,…,nCov(

i,

j)=0i≠ji,j=1,2,…,n

假定3

随机误差项

与解释变量X之间不相关:

Cov(Xi,

i)=0i=1,2,…,n

假定4

服从零均值、同方差、零协方差的正态分布:

i~N(0,

2)i=1,2,…,n

以上假定也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假定的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。(一)一元线性回归的基本假定(二)参数的普通最小二乘法估计●在满足高斯假定情况下,采用最小二乘法对线性回归模型中的参数进行估计,这时的最小二乘法被称为普通最小二乘法(Ordinaryleastsquares,OLS

)●OLS

方法给出的判断标准是:使与的二者之差的平方和最小。即:

也就是说,给定一组样本观测值(Xi,Yi)(i=1,2,…n)要求样本回归函数尽可能好地拟合这组观测值。即:

达到最小。

为了得到合适的,使达到最小,可用微积分中求极值的方法。即:可得:对上式整理后得

解得:

令则:

也可以把上式写成离差形式:令则:

由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量(ordinaryleastsquaresestimators)。【例6.2】成都市某制造公司某产品2009年1-10月份的产量与生产成本资料见表6.3。要求根据表中数据,建立该公司的产量与生产成本之间的关系模型。表6.3成都市某制造公司的总生产成本与产量数据

月份12345678910生产成本(元)Y525543564615585613638660670.5689产量(箱)X360405427458460485523540558590解:企业生产成本与产量之间的关系是,生产成本依赖于产量的变化而变化。因此,可以确定生产成本是结果变量,产量是原因变量。设生产成本为Y,产量为X。为了明确生产成本与产量之间的关系性质,可以用散点图来分析X与Y之间的关系如下图。从图中可以看出,X与Y之间呈现出的是线性关系。因此,可以把生产成本与产量之间的关系模型设定为:

成都市某制造公司成本回归分析计算表月份产量(箱)生产成本(元)

xyx2XY

1360525-120.6-85.2510281.214544.42405543-75.6-67.255084.15715.43427564-53.6-46.252479.02873.04458615-22.64.75-107.4510.85460585-20.6-25.25520.2424.464856134.42.7512.119.4752363842.427.751176.61797.8854066059.449.752955.23528.49558670.577.460.254663.45990.810590689109.478.758615.311968.4合计48066102.5--35679.547372.4均值480.6610.3----解:把有关数据代入公式,得:=35679.5/47372.4=0.7532

=610.25-0.7532*480.6把代入公式,得:=248.26得到估计的模型为:(三)普通最小二乘估计量的统计性质在基本假定满足时最小二乘估计是因变量的线性函数最小二乘估计是无偏估计,即

在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。结论:回归系数的最小二乘估计是最佳线性无偏估计证易知故同样地,容易得出

(2)证明最小方差性其中,ci=ki+di,di为不全为零的常数则容易证明

普通最小二乘估计量(ordinaryleastSquaresEstimators)称为最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)

(四)估计量和的概率分布

和都是服从正态分布的随机变量,其期望为和方差为

结论:

的无偏估计

为什么要估计?

确定所估计参数的方差需要知道由于不能直接观测,也是未知的对的数值只能通过样本信息去估计。怎样估计?可以证明:的无偏估计为:

对一元线性回归模型,可由下式计算:

三、一元线性回归模型的统计检验OLS估计只是用样本估计的结果,是否可靠?是否是抽样的偶然结果?还有待统计检验。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大、是否显著,这就需要进一步进行统计检验。一元线性回归模型的检验主要有拟合优度检验、变量的显著性检验。(一)拟合优度的度量

样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归直线对观测值的拟合情况是否为最优,需要进行检验。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上

总离差平方和(TSS)回归平方和(ESS)残差平方和(RSS)

可决系数(R2)定义:Y

X

变差分解的图示

图6.3总变差的分解

可决系数的特点

可决系数是非负的统计量;可决系数取值范围;当R2=1时,意味着完全拟合;R2=0时,意味着被解释变量与解释变量之间没有线性关系;当0<R2<1时,R2越接近于1,则拟合效果越好。可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量;在一元线性回归中,可决系数在数值上是线性相关系数的平方:,即:R2=r2在一元线性回归模型中,可决系数R2还可以按以下推导出的公式求得:【例5.3】对【例5.2】中的回归模型计算R2。根据上式,把有关数据代入,则R2的计算结果为:

计算结果表明,估计出的生产成本与产量之间的线性模型,对样本观测值拟合非常好,或者说,由产量所构成的部分对生产成本的解释程度达到了97.1%。(二)变量的显著性检验(t检验)变量的显著性检验就是根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。即检验自变量对因变量的影响是否显著。变量的显著性检验也就是回归系数的显著性检验。由于是未知的,而且不一定能获得大样本,这时可用的无偏估计代替去估计参数的标准误差:

回归系数显著性的t检验(续)用估计的参数标准误差对估计的参数作标准化变换,所得的t统计量将不再服从正态分布,而是服从t分布:

可利用t分布作有关的假设检验。~t(n-2)~t(n-2)

回归系数显著性t检验的方法(1)提出假设

H0:βi=0H1:βi≠0(i=0,1)(2)计算统计量

(i=0,1)(3)给定显著性水平α,确定临界值tа/2(n-2)

(4)检验结果判断若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论