区域分析(相关、回归分析)PPT_第1页
区域分析(相关、回归分析)PPT_第2页
区域分析(相关、回归分析)PPT_第3页
区域分析(相关、回归分析)PPT_第4页
区域分析(相关、回归分析)PPT_第5页
已阅读5页,还剩251页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章相关分析和回归分析第一节相关分析第二节回归分析第四章相关分析和回归分析第一节相关分析第一节相关分析任何事物的存在都不是孤立的,社会经济现象之间总是相互联系和相互制约的,在其发展变化的过程中,社会经济现象不仅同与它有关的现象构成一个普遍联系的整体,而且在它的内部也存在着许多彼此关联的因素。第一节相关分析要揭示社会经济现象发展变化的数量规律性必须从描述社会经济现象特征的变量入手,探求变量的变化规律。本节着重研究变量间的统计相关关系。第一节相关分析变量间的数量联系存在着两种不同的类型:一种是函数关系;只一种是统计相关关系。第一节相关分析一、相关关系的界定与类型划分当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。

(一)函数关系与相关关系第一节相关分析例如,银行的1年期存款利率为年息3.5%,存入的本金用X表示,到期的本息用Y表示,则Y与X两个变量之间的数量关系可表示:Y=X+3.5%X表示。第一节相关分析当给定某一笔本金,则一年到期的本息Y就是一笔确定的金额。这种变量之间在数量变化上按一定法则严格确定的相互依存关系称为函数关系。

第一节相关分析

在相互联系的变量中,一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。此例中,X是自变量,Y则是因变量。

第一节相关分析如果当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。第一节相关分析

例如,商品销售额(Y)与广告费支出(X)之间的数量关系。在一定前提下,当X取值在一定范围内,广告费投入越多,商品销售额就越高。

第一节相关分析但是,X并不能唯一确定Y的大小,因为Y的大小还与其它因素的影响有关,如销售地区消费者的数量,收入水平等。第一节相关分析

当给定X某一个值时,由于消费环境等的影响,而使Y有不同的值与之相对应,因此,商品销售额Y与广告费支出x之间不存在确定的函数关系。

第一节相关分析又如劳动生产率相同的企业其利润率并不一定相同,因为利润率的提高除受劳动生产率提高的影响外,还受产量、资金流转、原材料消耗、管理费用以及其他偶然因素变化的影响。第一节相关分析诸如此类还有储蓄额与居民收入的关系,投资额和国民收入的关系,商品流转规模与流通费用的关系等等。

第一节相关分析这种变量之间在数量变化上受随机因素或未考虑到的其他因素的影响而产生的不确定的相互依存关系称为统计相关关系。第一节相关分析社会经济现象之间的统计相关关系可以按不同的标志加以区分。

(二)相关关系的类型划分第一节相关分析1.按相关程度:

完全相关不相关不完全相关第一节相关分析完全相关当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。

例如在价格不变的条件下,某种商品的销售总额与其销售量之间总是成正比例关系。第一节相关分析不相关当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。

比如,股票价格和气温就是一种不相关的关系。第一节相关分析不完全相关两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。

第一节相关分析可见,完全相关就是函数关系,函数关系和不相关关系都可以看作是统计相关关系的特殊情形。

我们本节所研究的统计相关关系一般是指不完全相关关系。第一节相关分析2.按相关形式:

线性相关非线性相关第一节相关分析线性相关当两种相关现象之间的关系大致呈现为直线方程的关系时,称之为线性相关。

例如人均消费水平与人均收入水平通常成线性关系。

第一节相关分析非线性相关如果两种相关现象之间,并不表现为直线方程的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。

例如产品的平均成本与产品总产量之间的相关关系就是一种非线性相关。

第一节相关分析3.按相关的方向:正相关负相关第一节相关分析正相关当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。

例如工人的工资随着劳动生产率的提高而增加。

第一节相关分析负相关当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。

例如产品的平均成本随着劳动生产率的提高而减少;商品流转的规模愈大,流通费用水平则愈低。

第一节相关分析4.按所研究的变量多少:

单相关复相关偏相关第一节相关分析单相关两个现象的相关,即一个变量对另一个变量的相关关系,称为单相关或一元相关。

第一节相关分析复相关当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关或多元相关。例如,某种商品的需求与其价格水平以及人们收入水平之间的相关关系便是一种复相关。

第一节相关分析偏相关多个变量之间的相关关系是错综复杂的,其中任何两个变量之间的关系中都夹杂了其他变量所带来的影响。

这种情况下,当控制其他变量都保持不变时,其中两个变量之间的相关关系称为偏相关。

第一节相关分析在上例复相关中,若在控制人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关关系。第一节相关分析二、一元线性相关分析相关分析是研究不同变量间密切程度的一种常用统计方法。我们首先从最简单的一元线性相关现象开始,介绍对于两个变量间的线性相关密切程度进行统计分析的基本原理和一般方法。第一节相关分析统计分析是从对所研究的客观现象的定性认识到定量认识的。要对两个变量进行相关分析,首先必须根据研究的目的,以经济理论为指导,结合有关的专业知识和实际经验对所研究的变量进行定性分析,确认两个变量之间客观存在着统计相关关系。第一节相关分析再通过大量观察或实验取得相关资料,通常是从两个变量关联的数据集合中随机抽取样本,先对样本数据进行统计分析,然后再对总体进行推断,达到对变量间相关密切程度的定量认识。第一节相关分析表4.1是某地区2001年抽样调查20户城市居民得到的平均每人每月可支配收入及消费性支出的原始资料。

住户编号每户人数(人)人均可支配收入(元/月)人均消费支出(元/月)13760.3562.923439.3352.533456.5353.843483.9380.153434.4340.563439.4339.973524.2394.383620.4445.193460.9346.8103573.6424.2113669.7487.6123652.6456.6133614.1474.1143580.7421.7153467.4366.9163585.1438.0173494.5355.4183469.7371.6193470.1373.2203550.1405.4合计10746.98090.6第一节相关分析相关表和相关图是研究变量间统计相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们对现象之间存在的相关关系的形式、方向和密切程度作大致的判断。(一)相关表和相关图第一节相关分析相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。

第一节相关分析根据表4.1中的原始资料,将平均每人每月可支配收入的观察值按从低到高的顺序排列,可得到相关表4.2。

住户编号每户人数(人)人均可支配收入(元/月)人均消费支出(元/月)13434.4340.523439.3352.533439.4339.943456.5353.853460.9346.863467.4366.973469.7371.683470.1373.293483.9380.1103494.5355.4113524.2394.3123550.1405.4133573.6424.2143580.7421.7153585.1438.0163614.1474.1173620.4445.1183652.6456.6193669.7487.6203760.3562.9合计10746.98090.6第一节相关分析从相关表4.2中可以看出,随着城市居民可支配收入的不断提高,其消费性支出也伴随着产生相应提高的趋势,两者之间存在明显的正相关关系。

第一节相关分析相关图也叫散点图或散布图,它是观察两个变量之间关系的一种更加直观的方法。散点图的具体绘制方法是:以横轴代表自变量(X),纵轴代表因变量(Y),将两个变量间相对应的观测值用坐标点的形式描绘在坐标平面上,从而揭示了各相关点的分布情况。

第一节相关分析由于散点图可以粗略地判断变量间的大致关系,因此人们通常在正式计算相关前,先绘制散点图,如果图形显示变量之间相关关系不明显,就不必再耗费时间进行相关系数的计算及其检验了。第一节相关分析根据相关表4.2的资料,应用SPSS绘制相关图。

第一节相关分析

(二)相关系数

在相关分析中,相关系数是反映相关关系密切程度的重要指标。第一节相关分析通常用ρ表示总体的相关系数;用r表示样本的相关系数,它是根据样本观测值计算的,是描述相关程度和相关方向的统计量。

第一节相关分析变量x和y的简单线性相关系数r的定义公式如下:第一节相关分析相关系数的取值范围是-1≤r≤1。样本相关系数r是个随机变量,由实际抽样得到的r值与总体相关系数ρ之间总是存在着抽样误差。

第一节相关分析样本容量越小,r的可信程度就越差,特别是当n=2时,相关系数r的绝对值总为1,由此得出总体中两个变量之间完全相关未免为时过早。可见,r不为0,并不能说明ρ就不为0;同样,r为0,也不能肯定总体中的两个变量就不相关。第一节相关分析因此,相关分析中必须对样本相关系数r进行显著性检验,只有通过检验才能知道它的可信度。第一节相关分析一般情况下,相关系数的检验,是在给定的置信水平下,通过查阅相关系数检验的临界值表来完成的。

第一节相关分析在上表中,左边的f叫作自由度,其数值为f=n-2,这里的n为样本数;上方的α代表不同的置信水平;表内的数值代表不同的置信水平下相关系数ρ=0的临界值,即;公式的意思是,当所计算的相关系数r的绝对值大于在α水平下的临界值时,两要素不相关(即ρ=0)的可能性只有α。第一节相关分析比如,根据公式

计算表4.1中,人均可支配收入和人均消费支出间的相关系数,r=0.981,查表3.1.2可知,在f=18、α=0.01时,=0.5614,r>.第一节相关分析所以,在0.01的置信水平下,人均可支配收入和人均消费支出之间不相关的概率低于1%,即两者之间同向相关的概率高达99%。因此可以断定,两者之间存在着显著的线性相关关系。

第一节相关分析对相关系数r进行显著性检验的另一种方法是计算t值。

数学上可以证明,在X与Y都服从于正态分布,并且又有ρ=0的条件下,可以采用t检验来确定r的显著性。其步骤如下:第一节相关分析第一步,计算r的t值:该统计量服从自由度为(n—2)的T分布。第一节相关分析第二步,根据给定的显著性水平α和自由度(n—2),查找t分布表中相应的临界值tα.若t的绝对值大于tα,则表明r在统计上是显著的;反之就是不显著的.

第一节相关分析三、定序变量的相关分析定序变量又称顺序变量、有序变量,它取值的大小能够表示观测对象的某种顺序关系。测度定序变量间的相关系数要采用斯皮尔曼相关系数和肯特尔相关系数。这两个相关系数都属于秩相关系数。第一节相关分析(一)Spearman秩相关系数计算公式为:其中,,分别为两变量排序后的秩。第一节相关分析(二)Kendall秩相关系数Kendall秩相关系数与Spearman相关系数类似,都是利用变量的秩计算的,只是计算方式不同。第一节相关分析四、偏相关分析简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其他相关因素的影响,不能真实地反映二者之间的关系,所以需要考察在其他因素的影响剔除后二者之间的相关程度,即偏相关分折。第一节相关分析

(一)偏相关分析的定义与计算公式

偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。

第一节相关分析偏相关分析的工具是计算偏相关系数,偏相关系数可利用单相关系数来计算。

假设有3个要素X1、X2、X3,其两两之间的单相关系数矩阵为:第一节相关分析第一节相关分析因为相关系数矩阵是对称的,所以在实际计算时,只要计算出,和即可。

在偏相关分析中,常称这些单相关系数为零级相关系数。第一节相关分析对于上述三个要素X1、X2、X3,它们之间的偏相关系数共有三个,

下标点后面的数字,代表在计算偏相关系数时,保持不变的量。如代表在X3保持不变的情况下,X1和X2之间的偏相关系数。

第一节相关分析第一节相关分析第一节相关分析第一节相关分析

(二)偏相关系数的检验

偏相关系数的显著性检验,一般采用t检验法。

第一节相关分析n为样本数,m为变量数。第四章相关分析和回归分析第二节回归分析第二节回归分析一、回归分析概述通过上节课的学习,我们知道变量间的数量联系存在着两种不同的类型:一种是函数关系,只一种是统计相关关系。

第二节回归分析函数关系是指现象之间有一种严格的确定性的依存关系,表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之相对应。各观测点数值都落在一条很规则的线上(直线、曲线)。

第二节回归分析相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。一个变量的取值不能由另一个变量唯一地确定。当变量X取某个值时,另一个变量Y的取值可能有若干个。各观测点数据分布在一条直线或曲线的周围。第二节回归分析在统计上研究相关关系,可以从两方面进行:一是测定变量之间的相关关系的方向及其密切程度,称为相关分析。第二节回归分析另一种是根据变量之间的关系形式,用一个数学表达式,来反映有相关关系的变量之间的数值变化关系,据此由一个或若干个自变量的数值推断出因变量的可能值,这种分析称为回归分析。第二节回归分析根据相关关系的数量表达式和给定的自变量X,揭示因变量Y在数量上的平均变化及求得因变量预测值的统计方法。

(一)回归分析与回归方程1.回归分析

第二节回归分析用回归分析方法得出的数学表达式称为回归方程。

2.回归方程

第二节回归分析回归方程有不同种类,按照自变量的个数分,有一元回归方程和多元回归方程。只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回归;第二节回归分析按照回归曲线的形态分,有线性(直线)回归和非线性(曲线)回归。第二节回归分析相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。(二)回归分析与相关分析的关系第二节回归分析相关分析是回归分析的前提和基础,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。第二节回归分析只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。

第二节回归分析与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。第二节回归分析相关分析回归分析主要描述两个变量之间相关的方向和密切程度,所使用的工具是相关系数。确定因变量Y和自变量X之间数量变动关系的数量表达式,并对因变量进行预测。X和Y处于平等地位,研究变量Y与变量X的密切程度和研究变量X与变量Y的密切程度是一样的。

Y是因变量,处于被解释的特殊地位;Y与X不是对等关系。

第二节回归分析回归(Regression)这个术语是由英国著名生物学家兼统计学家高尔顿提出来的。

(三)回归名称的由来高尔顿是生物统计学派的奠基人,他在1870年研究父母身高与其子女身高的遗传问题时,收集了1078对夫妇及其子女的身高数据。第二节回归分析以每对夫妇的平均身高作为解释变量X,取他们的一个成年儿子的身高作为被解释变量Y,将结果绘成散点图,发现近乎于一条直线。第二节回归分析计算出的数学表达式为:

Ŷ=33.73+0.516X这种趋势及回归方程表明,父母身高X每增加一个单位时,其成年儿子的身高Y平均增加0.516个单位。第二节回归分析这个结果表明,虽然高个子父辈有生高个子儿子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右。反之,矮个子父辈的确有生矮个子儿子的趋势,但父辈身高减少一个单位,儿子身高仅减少半个单位左右。第二节回归分析平均来说,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即父辈偏离中心的部分在子代被拉回来一些。第二节回归分析正是因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时期内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象。

第二节回归分析这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈身高与子代身高的关系。第二节回归分析尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量的问题中,其变量x与y之间的关系也并不总是具有这种“回归”的含义,但借用这个名词把研究变量x与y之间统计关系的量化方法称为“回归”分析,也算是对高尔顿这个伟大的统计学家的纪念。第二节回归分析一般来说,回归分析主要解决以下几个方面的问题:(四)回归分析的主要内容1.通过大量的样本数据,确定变量之间的数学关系式;

第二节回归分析

2.对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量;

第二节回归分析

3.利用所确定的数学关系式,根据一个或几个变量的值来预测另一个特定变量的取值,并给出这种预测或控制的精确度。第二节回归分析二、一元线性回归分析只有一个自变量的线性(直线)回归叫作一元线性回归,也叫简单线性回归,它是描述两个变量之间统计关系的最简单的回归模型。第二节回归分析一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在实际问题研究中的应用原理。第二节回归分析一元线性回归分析只涉及一个自变量,设有变量X和Y,变量Y的取值随X的变化而变化,Y为因变量,X为自变量。

(一)一元线性回归模型的数学形式及其求法第二节回归分析例,某小学从各年级随机挑选12名学生对其年龄与身高的关系进行分析,数据如下:年龄(岁)X

9117129811101171310身高(cm)Y

147149139152141140145138142132151147第二节回归分析我们首先将这12组数据绘成散点图,由于X和Y之间不是确定的函数关系,所以12个点不可能都落在同一条直线或曲线上。71011121398130138134142146150xy☆☆☆☆☆☆☆☆☆☆☆☆第二节回归分析第二节回归分析但由于它们具有相关关系,而且是正相关,所以12个点大致分布在一条自左下方向右上方伸展的直线附近。这条直线我们称之为回归直线。71011121398130138134142146150xy☆☆☆☆☆☆☆☆☆☆☆☆第二节回归分析第二节回归分析其回归方程为:

方程中的X称为回归自变量,Y称为回归的因变量。a是直线在Y轴上的截距;b是直线的斜率,也叫回归系数,它表示自变量X每变动一个单位时,因变量Y的平均变化量。第二节回归分析下面,我们讨论如何根据各样本数据来确定回归直线第二节回归分析上时,y的值。

我们用和表示第i组数据,用表示回归直线由于

,我们将

记作

,称为残差。即第二节回归分析那么,如何确定回归直线的位置呢?或者说,如何选择a和b的值呢?第二节回归分析很明显,要使回归直线拟合得最好,应力求使回归直线接近所有的样本数据点。也就是说,应该使残差尽可能地小。

第二节回归分析但是残差有正有负,如果采用简单相加的方式计算各样本残差之和,然后力求其最小,极有可能会出现残差总和很小,但个别样本的残差很大的情形。第二节回归分析再求和并使之最小。为了克服这个问题,我们可以先将平方,

即在保证

最小的前提下,

确定a和b的值。这就是所谓的“最小二乘原理”。第二节回归分析由于残差平方和==是a和b的二次函数,并且,是非负和连续可微的,可知残差平方和存在极小值。第二节回归分析为了研究方便,我们用Q来表示残差平方和。即:Q==这是一个二元二次函数,二元二次函数存在最小值的必要条件是一阶偏导等于零。第二节回归分析即:整理得:第二节回归分析解方程组:第二节回归分析==可得:==第二节回归分析=第二节回归分析应用此公式计算表4.5的各样本数据,得

=99.16667;

=39.66667

第二节回归分析b=99.16667/39.66667=2.5;

a==143.5833-2.5×9.833333=119所以,回归方程为:Y=119+2.5X第二节回归分析对系数2.5的解释是,小学生年龄每增加一岁,其身高平均增长2.5cm.此例中的119没有实际意义,所以我们有必要将回归方程变形为:

Y=119+2.5X第二节回归分析===第二节回归分析=该式子是实际问题中经常使用的回归方程,它描述出两个变量在各自的平均值两侧变化时大致的相互关系,且不需计算截距a,故明显地优于形如的回归方程。

第二节回归分析对于小学生年龄和身高的例子,变形以后的回归方程为:

=第二节回归分析总结直线回归方程的求法如下:

第一步,计算两变量的平均值和,X的方差以及X和Y的协方差

第二节回归分析第二步,计算a和b的值.=====第二节回归分析第三步,写出回归方程:

或=第二节回归分析已知某社区10户家庭每周可支配收入和消费支出的基本情况,求该10户家庭消费支出与可支配收入回归方程的最小二乘参数估计。X(收入,元)80100120140160Y(支出,元)70659095110X(收入,元)180200220240260Y(支出,元)115120140155150第二节回归分析上面讲述了利用最小二乘原理建立线性回归方程的方法。但是在求出回归方程之后,还不能立即知道它所表达的两个变量之间的相关密切程度。(二)一元线性回归方程的检验第二节回归分析因为即使在样本的散点图完全是杂乱无章的场合,仍能按上一节的公式求出一个线性回归方程。按最小二乘原理,该方程所代表的直线是“最接近”全体样本点的。

第二节回归分析当然,这个回归方程和这条直线是没有什么价值的。那么,如何判定回归方程的有效性呢?

一个非常重要的方法就是对回归方程进行检验。回归方程检验的方法很多,主要包括:第二节回归分析1.回归方程的显著性检验(F检验)回归方程的显著性检验也叫F检验,它是对因变量与自变量之间的关系是否显著的一种假设检验。第二节回归分析F检验是利用方差分析的方法进行的,它是建立在对总离差平方和进行分解的基础之上的。☆第二节回归分析71011121398130138134142146150xy第二节回归分析我们知道,因变量的实际观测值

与其均值的离差

可以分解为两部分:一部分是回归值与样本平均值

的离差

;另一部分是实际观测值

与理论回归值

的残差

=第二节回归分析可以看成是能够由回归直线解释的部分,称为可解释离差.

其中,是不能由回归直线加以解释的残差第二节回归分析对于任一观测值总是有:=+将上式两边平方,并将所有n个点求和,最终可得:第二节回归分析=+用SST或S总表示。叫总离差平方和,其中,叫回归平方和,用SSR或U表示。叫残差平方和,也叫剩余平方和,用SSE或Q表示。第二节回归分析=+可以表示为:SST=SSR+SSE或:S总=U+Q第二节回归分析其中,回归平方和U第二节回归分析

F统计量定义为:平均的回归平方和与平均的残差平方和之比。对于一元线性回归方程而言:1和(n-2)分别SSR和SSE的自由度。第二节回归分析方差来源自由度平方和平均平方和F值回归残差总和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)SSR/1SSE/(n-2)一元线性回归方差分析表第二节回归分析利用F统计量进行回归方程显著性检验的步骤是:第二节回归分析

①提出假设

H0:b=0原假设H1:b≠0对立假设如果接受原假设或者说原假设成立(即b=0),则因变量和自变量之间没有真正的线性关系;若拒绝原假设,即H1:b≠0成立,则说明y对x的一元线性回归成立。

第二节回归分析

②计算回归方程的F统计量第二节回归分析③根据给定的显著性水平α(

α=0.1,0.05,0.01),确定临界值Fα(1,n-2)④作出判断如果F大于临界值Fα(1,n-2),就拒绝原假设,说明回归方程显著;反之,就接受原假设,y与x之间不存在线性关系。第二节回归分析2.拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。第二节回归分析回归方程的拟合优度检验一般用判定系数R2实现。第二节回归分析由回归平方和与残差平方和的定义我们知道,如果在总和平方和中回归平方和所占比重越大,则各样本数据越向回归直线靠拢,回归效果就越好,回归直线与样本观测值拟合优度就越好;第二节回归分析反之,如果残差平方和所占比重越大,则回归直线与样本观测值拟合得越不理想。第二节回归分析我们把回归平方和与总和平方和之比定义为决定系数,也称为判定系数,记作R2.☆第二节回归分析71011121398130138134142146150xy第二节回归分析显然,各样本观测点与样本回归直线靠得越近,SSR/SST就越大,直线拟合得就越好。即:R2=

第二节回归分析实际上,决定系数R2是相关系数r的平方。试证明之第二节回归分析判定系数R2测度了回归直线对各样本数据的拟合程度。如果所有样本点都落在回归直线上,则SSE=0,R2=1,拟合是完全的;

第二节回归分析如果回归直线没有解释任何离差,Y的总离差全部归于残差平方和,即SST=SSE,R2=0,则表示自变量X与因变量Y完全无关;第二节回归分析一般而言,各样本数据都是部分地落在回归直线上,因此0<R2<1。R2越接近1,表明回归直线的拟合程度越好;反之,R2越接近0,回归直线的拟合程度就越差。

第二节回归分析3.回归系数的显著性检验(t检验)所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。第二节回归分析之所以要对回归系数进行显著性检验,是因为回归方程的显著性检验(F检验),只能检验所有回归系数是否同时拒绝零假设,它不能保证回归方程中一定不包含不能较好地解释说明因变量变化的自变量。为此,还得需要通过回归系数显著性检验对每一个回归系数进行考察。第二节回归分析回归系数显著性检验一般采用t检验的方法,检验步骤如下:第二节回归分析

①提出假设

H0:b=0原假设H1:b≠0对立假设(备择假设)如果接受原假设或者说原假设成立(即b=0),则因变量和自变量之间没有真正的线性关系;若拒绝原假设,即H1:b≠0成立,则说明y对x的一元线性回归成立。

第二节回归分析

②计算回归系数的t统计量其中,SE为估计标准误第二节回归分析③根据给定的显著性水平α(

α=0.1,0.05,0.01),确定临界值tα(1,n-2)④作出判断如果t大于临界值tα(1,n-2),就拒绝原假设,说明x对y有显著的影响作用;反之,就接受原假设,说明x对y没有显著的影响。第二节回归分析在一元线性回归分析中,回归方程的显著性检验可以代替回归系数的显著性检验,并且F=t2。第二节回归分析三、多元线性回归分析在上节课中,我们讨论的回归问题只涉及一个自变量,但在实际问题中,影响因变量的因素往往有多个。比如,商品的需求除了受自身价格的影响外,还受消费者收入、消费者偏好、相关商品的价格等因素的影响。

第二节回归分析所以,在许多场合,仅仅考虑单个因素是不够的,还需要就一个因变量与多个自变量的关系进行考察,这就是多元回归。其中,多元线性回归是多元回归中比较简单的一种情形。第二节回归分析(一)多元线性回归模型的数学形式及其参数估计第二节回归分析

β0,β1

,…,βp是p+1个未知参数,β0

称为回归常数,β1,…,βp称为回归系数。第二节回归分析当p=1时,上述方程就变成了一元线性回归方程;当p≥2时,我们称上述方程为多元线性回归方程。第二节回归分析多元线性回归方程的未知参数β0,β1,…,βp的估计与一元线性回归方程的参数估计原理一样,仍然可以采用最小二乘估计。第二节回归分析(二)多元线性回归方程的解释为了给多元线性回归方程及其回归系数一个解释,我们以一个p=2的微观经济问题为例,给出回归方程的几何解释和回归系数的经济意义。第二节回归分析众所周知,影响商品销售量的因素主要包括商品本身的价格以及消费者的收入两个方面。我们用y来表示某商品(彩电)的销售量,用x1表示彩电价格,用x2表示消费者的收入水平。据此可建立二元线性回归模型:第二节回归分析在上式中,假定x2保持不变,则有:第二节回归分析

β1即可解释为在消费者收入x2保持不变时,彩电价格x1每增加一个单位,对彩电销售量y的平均增加(减少)程度。第二节回归分析假定价格x1保持不变,则有:

β2可解释为在彩电价格x1保持不变时,消费者收入x2每增加一个单位,彩电销售量y的平均增加程度。第二节回归分析一般来说,对含有p个自变量的多元线性回归,每个回归系数βi表示在回归方程中,其他自变量保持不变的情况下,自变量xi每增加一个单位时,因变量y的平均增加程度。因此,有时也把多元线性回归的回归系数称为偏回归系数。

第二节回归分析为加深对此问题的理解,我们用下面的例子加以说明(1990~2004年间中国国内生产总值及第一、第二、第三产业增加值)。分别建立GDP对x1、x2、x3的多元线性回归以及对x2

的一元线性回归,在两个方程中自变量x2系数有何差异?为什么?第二节回归分析从几何意义上讲,一元线性回归方程是一条直线;二元线性回归方程是一个平面;多元线性回归方程的图形是一个超平面,无法用几何图形表示。

第二节回归分析同一元线性回归一样,在根据各样本数据拟合出回归方程后,必须对其进行统计检验。多元线性回归方程的显著性检验与一元线性回归方程相比既有相同之处,也有不同之处。(三)多元线性回归方程的检验第二节回归分析1.回归方程的显著性检验(F检验)对多元线性回归方程的F检验就是要看自变量X1,X2,…,Xp从整体上对随机变量y是否有明显的影响。第二节回归分析同一元线性回归检验类似,多元线性回归的F检验,仍然利用总离差平方和的分解式:简写为

第二节回归分析据此,构造F检验统计量:第二节回归分析方差来源自由度平方和平均平方和F值回归残差总和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)SSR/pSSE/(n-p-1)多元线性回归方差分析表第二节回归分析y对X1,X2,…,Xp有显著的线性关系,也即回归方程是显著的。

给定显著性水平,当F≥Fα时,认为第二节回归分析更通俗地说,就是接受“自变量全体对因变量y产生线性影响”这一结论犯错误的概率不超过第二节回归分析2.回归系数的显著性检验(t检验)在多元线性回归分析中,回归方程显著并不意味着每个自变量对y的影响都显著,所以我们在F检验的基础上,还需要对回归系数进行显著性检验,即t检验。第二节回归分析给定一个显著性水平(n-p-1),查出双侧检验的临界值。当计算出的t值大于或等于临界值时,则认为自变量与因变量的线性效果显著;反之,则认为不显著。第二节回归分析在一元线性回归中,回归系数显著性的t检验与回归方程显著性的F检验是等价的,而在多元线性回归中,这两种检验是不等价的。

第二节回归分析

F检验显著,只能说明因变量y对自变量X1,X2,…,Xp整体的线性回归效果是显著的,但不等于y对每个自变量的效果都显著。反之,某个或某几个自变量的系数不显著,回归方程的显著性检验仍有可能是显著的。第二节回归分析

国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。本例研究第三产业对旅游外汇收入的影响。《中国统计年鉴》将第三产业划分为12个组成部分,分别为农林牧渔服务业、地质例1.国际旅游收入(F检验通过、t未通过)第二节回归分析勘查水利管理业、交通运输仓储和邮电通信业、批发零售贸易和餐饮业、金融保险业、房地产业、社会服务业、卫生体育和社会福利业、教育文化艺术和广播、科学研究和综合艺术、党政机关、其它行业。选取1998年全国31个省级行政区数据,以国际旅游外汇收入为因变量,以如上12个行业为自变量作多元线性回归。第二节回归分析

某企业连续七年的销售额、流通费用及利润如表所示,试建立回归模型,并预测当销售额为540万元,流通费为370万元时的利润及其95%的置信区间和预测区间。例2.企业利润与销售额、流通费用关系(预测)第二节回归分析

某地区连续18年的水稻产量与播种面积、化肥使用量、生猪存栏数及降雨量的数据如下,试用线性回归分析为该地区水稻产量寻求一个恰当的回归模型,并据此预测当化肥使用量为98.2,生猪存栏数为78时的水稻产量以及置信水平为95%的置信区间和预测区间。作业.水稻产量第二节回归分析

1.采用逐步剔除的方法,对方程分布拟合,最后选出最理想的回归模型。具体要求:

2.对比分析每剔除一个自变量后,F检验统计量,各自变量回归系数及其t检验统计量的变化情况。第二节回归分析

3.写出最终的拟合方程和相应的预测值及其置信区间。4.以Word文档形式,4A纸打印上交。5.内容要齐全,在具体分析之前,要将原始数据表格列上。

下周三上理论课时交齐!第二节回归分析在多元线性回归分析中,因为涉及到多个自变量,自变量的单位往往不同,同时数据的大小差异也往往很大,这就不利于放在同一标准上进行比较。

(四)多元线性回归中原始数据的标准化第二节回归分析为了消除量纲不同和数量级的差异所带来的影响,就需要将样本数据作标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。

第二节回归分析此处数据标准化的公式为:

第二节回归分析在多元线性回归分析中,自变量的选择无疑是极其重要的一个问题。在建立一个实际问题的回归模型时,我们首先碰到的问题便是如何确定回归自变量。一般情况下,我们大都是根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的一些因素作为自变量。(五)多元线性回归中自变量的选择第二节回归分析如果我们遗漏了某些重要的变量,回归方程的效果肯定不会好;如果我们担心遗漏了重要的变量,而考虑过多的自变量,在这些变量中,某些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些变量可能和其他变量有很大程度的重叠。

第二节回归分析如果回归模型把这样一些变量都选进来,不仅计算量增大许多,而且得到的回归方程稳定性也很差,直接影响到回归方程的应用。

第二节回归分析从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。

第二节回归分析1.向前选择法(Forward)

向前选择法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。

第二节回归分析具体做法是首先将全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值。第二节回归分析将其记为:,选其最大者记为

第二节回归分析给定显著性水平,若,则首先将引入回归方程,为了方便,设就是。接下来因变量y分别与第二节回归分析个回归方个二元线性回归方程,对这计算F值,记作的回归系数进行F检验,建立程中第二节回归分析选其最大者记为

第二节回归分析给定显著性水平

如若,,则接着将引入回归方程。第二节回归分析此时,得到的回归方程就是最终确定的方程。依照上述方法接着做下去,直至所有未被引入方程的自变量的F值均小于临界值第二节回归分析①从模型中没有自变量开始;

概况来说,向前选择法的基本步骤是:②对K个自变量分别进行拟合对因变量的一元线性回归模型,共有K个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型;

第二节回归分析④如此反复进行,直至模型外的自变量均无统计显著性为止。

③分别拟合引入模型外的(K-1)个自变量的线性回归模型;

第二节回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论