第7章 相关回归分析_第1页
第7章 相关回归分析_第2页
第7章 相关回归分析_第3页
第7章 相关回归分析_第4页
第7章 相关回归分析_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第一节第一节 相关分析的基本问题相关分析的基本问题 第二节第二节 相关关系的测度相关关系的测度 第三节第三节 回归分析的基本问题回归分析的基本问题 第四节第四节 回归分析的基本问题回归分析的基本问题 第七章 相关回归分析第一节 相关分析的基本问题一、相关关系与函数关系一、相关关系与函数关系 二、相关关系的种类二、相关关系的种类三、相关分析的主要内容三、相关分析的主要内容 函数关系是指现象之间存在确定性的数量依存关系。在这函数关系是指现象之间存在确定性的数量依存关系。在这种关系中,当某一变量或某些变量取任意一个值时,另一变种关系中,当某一变量或某些变量取任意一个值时,另一变量都会有一个确定值与

2、之严格对应,并且这种对应关系可以量都会有一个确定值与之严格对应,并且这种对应关系可以用一个数学表达式来反映。用一个数学表达式来反映。 相关关系,也称统计相关,是指现象之间存在的非确定性相关关系,也称统计相关,是指现象之间存在的非确定性的数量依存关系。即现象之间虽然存在着数量依存关系,一的数量依存关系。即现象之间虽然存在着数量依存关系,一个现象发生数量上发生变化时,另一个现象数量水平也会相个现象发生数量上发生变化时,另一个现象数量水平也会相应地发生变化。但这种数量变化关系并不是严格一一对应的应地发生变化。但这种数量变化关系并不是严格一一对应的,当一个变量数值确定时,另,当一个变量数值确定时,另个

3、变量可能有许多个可能的个变量可能有许多个可能的取值与之相对应,这些数值围绕着它们的平均数上下波动。取值与之相对应,这些数值围绕着它们的平均数上下波动。 相关关系的数学相关关系的数学般形式为:般形式为: (为随机误为随机误差项,用于反映随机因素对差项,用于反映随机因素对y y的影响的影响 ) )(xfy )(xfy一、相关关系与函数关系 按相关关系涉及的变量(或因素)的多少 按变量之间相互关系的表现形式按变量之间的相互关系的方法或性质不同 按变量之间的相关程度不同 单相关复相关线性相关非线性相关正相关负相关完全相关不相关不完全相关二、相关关系的种类广义上讲,对两个或两个以上现象之间数量上的不确定

4、性依存关系广义上讲,对两个或两个以上现象之间数量上的不确定性依存关系进行的统计分析,即为相关分析。进行的统计分析,即为相关分析。 具体来说,相关分析的内容有:具体来说,相关分析的内容有:(一)判断确定现象之间有无关系以及相关关系的具体表现形式。(一)判断确定现象之间有无关系以及相关关系的具体表现形式。(二)确定相关关系的密切程度:根据变量数据的类型,选择适当(二)确定相关关系的密切程度:根据变量数据的类型,选择适当的方法,计算出相关系数。的方法,计算出相关系数。(三)检验现象统计相关的显著性,包括检验相关关系的存在性、(三)检验现象统计相关的显著性,包括检验相关关系的存在性、检验相关关系强度是

5、否达到一定水平,检验两对现象相关程度的检验相关关系强度是否达到一定水平,检验两对现象相关程度的差异性,估计相关系数的取值。差异性,估计相关系数的取值。(四)广义地说,相关关系分析还包括对相关关系的数学形式加以(四)广义地说,相关关系分析还包括对相关关系的数学形式加以描述,即拟合回归方程,检验回归方程的合理性,并且应用回归描述,即拟合回归方程,检验回归方程的合理性,并且应用回归模型进行统计分析与预测和控制模型进行统计分析与预测和控制。三、相关分析的主要内容 第二节 相关关系的测度 一、相关关系一般判断一、相关关系一般判断 二、相关系数的测定二、相关系数的测定 判断现象之间有没有相关关系,是进行相

6、关分析的前提判断现象之间有没有相关关系,是进行相关分析的前提和出发点。和出发点。 (一)定性分析(一)定性分析 在研究相关关系时,应根据一定的经济理论和实践经在研究相关关系时,应根据一定的经济理论和实践经验的总结,对社会经济现象进行科学的定性分析,以判断验的总结,对社会经济现象进行科学的定性分析,以判断它们之间是否具有相关关系以及相关关系的类型。只有在它们之间是否具有相关关系以及相关关系的类型。只有在定性分析的基础上,才能进一步从数量上来测定现象之间定性分析的基础上,才能进一步从数量上来测定现象之间的相关关系及相关的密切程度。这是判断相关关系的一种的相关关系及相关的密切程度。这是判断相关关系的

7、一种重要方法,也是相关分析的重要前提。重要方法,也是相关分析的重要前提。(二)相关表和相关图(二)相关表和相关图 若经过调查已获得现象的数据资料,可通过编制相关若经过调查已获得现象的数据资料,可通过编制相关表和绘制相关图来分析数据变动的规律,判断现象之间的表和绘制相关图来分析数据变动的规律,判断现象之间的相关性。具体方法如下:相关性。具体方法如下:一、相关关系一般判断1 1、简单相关表、简单相关表 利用未分组的原始资料,将两个现象的变量值一一对应地填列在同一张表格上,这种表就叫简单相关表,简单相关表适用于资料的项数较少的情况。 销售额4003002001000流通费用3020100年份 销售额

8、(万元)流通费用(万元)1998199920002001200220032004200520061016324074120197246345 1.83.15.27.710.413.318.821.228.3 表表7-1 销售额与流通费用相关表销售额与流通费用相关表图图7-2某企业销售额与流通费用的散点图某企业销售额与流通费用的散点图分析: 从表7-1可以直观地看出,随着企业销售额的增加,流通费用呈现增长的趋势。显然,该企业销售额与流通费用之间存在着相关关系。 从图7-2可以看到,图中各个点虽不完全在一条直线上,但可以认为,该企业的销售额和流通费用之间有较强的直线相关关系。2 2、分组相关表、分

9、组相关表 当原始资料较多,不再适合采用简单相关表时,可以编制分组相关表。分组相关表就是将原始资料进行分组而编制的相关表。它又可分为单变量分组相关表和双变量分组相关表两种。(1 1)单变量分组表)单变量分组表 只对自变量进行分组,因变量不分组,只是计算出其次数和平均数,这种表称为单变量分组表。 家庭月收入(元) 家庭户数(户) 家庭月平均支出(元) 8000以上700080006000700050006000400050003000400020003000100020001000以下 336983420116 3025282026522486225519601536976662 表表7-2某市家

10、庭收入与消费支出相关表某市家庭收入与消费支出相关表图图7-3家庭收入与家庭消费支出的相关图家庭收入与家庭消费支出的相关图分析: 从表7-2和图7-3可以清楚的看到,家庭收入与家庭消费支出之间存在相关关系,家庭消费支出随着家庭收入的增加而增加,并且基本呈现出直线相关的形态。(2 2)双变量分组表)双变量分组表 将自变量和因变量都进行分组制成的表称为双变量分组表。双变量分组表适用于对大量复杂数据的处理和分析。如下表: 家庭月收入(元)家庭月支出(元)合计500以下5001000100015001500200020002500250030003000以上8000以上70008000600070005

11、0006000400050003000400020003000100020001000以下23145316942114713551321221111336983420116合 计51320242783100 从表7-3也可以看出,100户家庭分布在不同的收入和支出区间内,在表中形成一个大致向右上方倾斜的数据分布带,可见家庭收入与消费支出之间有较强的正相关关系。 对于单相关情况,相关系数测定方法与相关指标量化级别有关。对于定距变量或定比变量,通常采用皮尔逊线性相关系数公式测量相关密切程度,对于定序变量,通常采用斯皮尔曼等级相关或肯特尔等级相关系数公式测量相关密切程度,对于定类变量,则常常采用列联

12、系数等来测量相关密切程度。 本节主要介绍常用的皮尔逊直线相关系数、斯皮尔曼等级相关系数和肯特尔等级相关系数的具体计算。 通过相关图表可以了解现象之间是否具有相关关系,但要想更具体地了解现象之间的相关密切程度,必须进一步测定相关系数。相关系数就是描述两个变量之间线性相关密切程度和相关方向的统计分析指标。二、相关系数的测定(一)直线相关系数的计算(一)直线相关系数的计算 对于定距尺度的连续变量x和y,测定它们之间的线性相关关系最常用的方法是采用皮尔逊(Pearson)相关系数。根据资料情况不同,有不同的计算形式。其中的积差法是最基本表达式。1 1、积差法、积差法Pearson相关系数的基本公式可定

13、义为:式中, 直线相关系数; 变量数列x的标准差; 变量数列y的标准差; 变量数列x与y的协方差。 yxxyr2rxyxy2(7-3) nxxx2nyyy2nyyxxxy2据此,式(7-3)可写成下式:(7-4) 2 2、相关系数、相关系数r r的简捷计算方法的简捷计算方法积差法在计算过程中要使用两个数列的平均数,当平均数的小数位很多或除不尽时,计算会比较繁杂且影响最终结果的精确性。因此,计算相关系数常常采用其简捷公式:22222222nxyxyrnxxnyyxyx yxxyy(7-5) 22yyxxyyxxr3 3、利用分组资料计算相关系数、利用分组资料计算相关系数(1)根据单变量分组表计算

14、相关系数,可以在简单相关的基本公式基础上,以每组的次数为权数进行加权计算,公式如下:(2)根据双变量分组表,也能计算相关系数,但一般很少采用。计算公式为: 式中, x组的次数; y组的次数; x与y交叉组的次数。 fyyfxxfyyxxr22(7-6) yxxyfyyfxxfyyxxr22(7-7) xfyfxyf4 4、直线相关系数、直线相关系数r r的统计检验的统计检验 上述相关系数是基于样本计算的,是对总体相关系数的估计。因此需要对相关系数的显著性进行统计检验。 检验的内容包括两部分:一是总体线性相关的存在性检验,即检验总体线性相关系数是否为零;二是总体线性相关差异性检验,检验某一总体线

15、性相关程度是否等于(或者单侧检验大于或小于)某一指定值,以及检验两个相关系数是否来自同一相关总体。 本节只讨论第一种情况。 设随机变量(X,Y)服从于正态分布。总体相关系数记为。则对于由样本资料计算的皮尔逊相关系数r,需要检验以下原假设与备择假设: 在成立情况之下,有以下t 统计量: 在给定显著性水平之下,当,即表示总体线性相关系数显著不等于零,即线性相关关系(在一定程度上)是存在的。01:0:0HH22(2)1rntt nr5 5、皮尔逊直线相关系数、皮尔逊直线相关系数r r的取值含义的取值含义(1) r的取值有一定的范围,在1和1之间。(2) r的正负号只表示相关的方向,不表示相关程度的大

16、小,即表示正相关,表示负相关。(3) 相关程度的大小要看相关系数绝对值的大小。越接近于1,表示相关密切程度越强,越接近于0,表示相关密切程度越弱,当时,就表示变量之间为完全相关。则表示完全不相关。(4) 为了使判断有一定的标准,一般将相关程度设为以下几个强弱不同的等级:相关系数在0.3以下为无相关,0.30.5为低度相关,0.50.8为中度相关,0.8以上是高度相关。 (5) 皮尔逊直线相关系数是一种线性(直线)相关程度的度量。 (二)等级相关系数的测定方法(二)等级相关系数的测定方法 皮尔逊相关系数一般适用于连续变量,且要求总体分布服从或近似服从正态分布。但在统计实践中,数据资料可能不能满足

17、上述的条件,有些数据还是属性数据(如测定品质的优劣、爱好程度、信念、态度等)。对于这种以等级或次序进行衡量的定序尺度数据,或不满足正态分布假设的定距尺度数据,需要采用等级相关(Rank Correlation)的方法来研究变量之间的相关关系。 等级相关法,就是把有关联的定序变量按等级次序排列,形成x和y两个序数数列,再测定这两个序数数列之间的相关程度,用这种方法计算的相关指标叫做等级相关系数。以下将介绍两种常用的等级相关系数。1 1、斯皮尔曼(、斯皮尔曼(SpearmanSpearman)相关系数)相关系数 英国统计学家斯皮尔曼在皮尔逊积差法思想的基础上,推导出计算等级相关系数的方法,称为“等

18、级差数法”。用这种方法计算出的相关指标,就命名为斯皮尔曼等级相关系数,以表示,其计算步骤可以简述如下:(1)定等级。将变量x和y的观测值从小到大(或从大到小)按顺序定出等级,形成两个序数数列。如遇有相等的数值时,则应按原有的等级求其平均数,作为这些观测值的等级。 (2)计算x和y两个序数数列的每对观测值的等级之差,记作D,D=x-y。(3)按下述公式计算:式中,n样本容量; D每对观测值的等级差。 必须注意的是,等级相关系数不能解释为线性相关系数。 16122nnDrs(7-8) 2 2、肯德尔(、肯德尔(KendallKendall)等级相关系数)等级相关系数 统计学家肯德尔曾提出多种等级相

19、关系数,以下只介绍其中的交错系数,通常称之为肯德尔系数,记为 肯德尔系数的计算也是以变量x和y的等级数据来进行,根据配对的等级顺序排列的位置是否颠倒或者换位,得出等级换位的次数,进而计算得到肯德尔系数。 可以按下述公式计算: 式中,n样本容量; i换位总次数。 kr141nnirk 最后应该指出,相关分析只能说明两个变量之间的最后应该指出,相关分析只能说明两个变量之间的相互依存关系,并不一定代表因果关系。因此,在计相互依存关系,并不一定代表因果关系。因此,在计算相关系数之前,一般要先做定性分析,否则就有可算相关系数之前,一般要先做定性分析,否则就有可能因为数据的偶然巧合,得到较高的相关系数,从

20、而能因为数据的偶然巧合,得到较高的相关系数,从而把虚假相关视为可信的相关。把虚假相关视为可信的相关。第三节 回归分析的基本问题 一、回归分析的概念一、回归分析的概念 二、回归分析的主要内容二、回归分析的主要内容 三、回归分析的特点三、回归分析的特点四、回归分析模型的种类四、回归分析模型的种类 相关分析可以分析现象之间相关关系的方向和相相关分析可以分析现象之间相关关系的方向和相关的密切程度关的密切程度, ,但不能判断现象之间具体的数量变但不能判断现象之间具体的数量变动依存关系,也不能根据相关系数来估计或预测因动依存关系,也不能根据相关系数来估计或预测因变量变量y y可能发生的数值。可能发生的数值

21、。 回归分析就是对具有相关关系的两个或两个以上回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学表达式,以便量和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或预测的统计分析方法。对因变量进行估计或预测的统计分析方法。 回归分析是在相关分析的基础上,进一步研回归分析是在相关分析的基础上,进一步研究现象之间的数量变化规律。究现象之间的数量变化规律。一、回归分析的概念一、回归分析的概念 (1 1)根据研究目的和现象之间的内在联系,确定自变量和)根据研究目的和现象之间的内在联系,

22、确定自变量和因变量因变量. .(2 2)确定回归分析模型的类型及数学表达式)确定回归分析模型的类型及数学表达式. .(3 3)对回归分析模型进行评价与诊断)对回归分析模型进行评价与诊断. . (4 4)根据给定的自变量数值确定因变量的数值。(预测)根据给定的自变量数值确定因变量的数值。(预测)二、回归分析的主要内容 (1 1)在两个或两个以上变量中,必须根据研究目的确定)在两个或两个以上变量中,必须根据研究目的确定其中一个为因变量,其余为自变量。其中一个为因变量,其余为自变量。 (2 2)在相关分析中,两个变量要求都是随机的;而在回)在相关分析中,两个变量要求都是随机的;而在回归分析中,要求因

23、变量是随机的,而自变量的值则是归分析中,要求因变量是随机的,而自变量的值则是给定的。给定的。(3 3)若变量之间互为因果,或是没有明显因果关系,则)若变量之间互为因果,或是没有明显因果关系,则可以求出两个回归方程。可以求出两个回归方程。(4 4)回归方程有较强的应用性。根据回归方程的参数可)回归方程有较强的应用性。根据回归方程的参数可以得出变量之间的具体数量变动关系;回归方程也可以得出变量之间的具体数量变动关系;回归方程也可以用于估计推断。以用于估计推断。三、回归分析的特点 按照具有相关关系的变量个数划分按照具有相关关系的变量个数划分 按照变量间相互关系的形态划分按照变量间相互关系的形态划分

24、简单回归分析模型简单回归分析模型多元回归分析模型多元回归分析模型 指只有一个自变量和一个因变量的回归分析模型 指由多个自变量和一个因变量组成的回归分析的模型,与简单回归分析模型相比,增加了自变量的个数,是对简单回归分析模型的拓展 非线性回归分析模型非线性回归分析模型 线性回归分析模型线性回归分析模型 当变量之间关系的形态表现为线性当变量之间关系的形态表现为线性相关时,拟合的模型称为线性回归相关时,拟合的模型称为线性回归分析模型,其模型表达式为线性回分析模型,其模型表达式为线性回归方程归方程 当变量之间相互关系的形态表现为当变量之间相互关系的形态表现为某种曲线趋势时,拟合的模型称为某种曲线趋势时

25、,拟合的模型称为非线性回归分析模型,其模型表达非线性回归分析模型,其模型表达式为某种曲线回归方程式为某种曲线回归方程 四、回归分析模型的种类四、回归分析模型的种类第四节 回归分析的模型 一、简单线性回归分析一、简单线性回归分析 二、多元线性回归模型二、多元线性回归模型三、非线性回归分析三、非线性回归分析 (一)简单线性回归模型(一)简单线性回归模型 简单线性回归模型在平面坐标图上表现为一条直简单线性回归模型在平面坐标图上表现为一条直线,所以也称为简单直线回归方程。简单线性回归方线,所以也称为简单直线回归方程。简单线性回归方程的理论模型与估计模型可分别写成:程的理论模型与估计模型可分别写成: 理

26、论模型:理论模型: 估计模型:估计模型: 在数学分析中,上式中的在数学分析中,上式中的 、为回归参数或待定系数,、为回归参数或待定系数,a a、b b为相应的估计值。为相应的估计值。a a、b b值确定后,估计的直线方值确定后,估计的直线方程就确定了程就确定了yxbxayc一、简单线性回归分析 (二)参数估计(二)参数估计 拟合回归直线的主要任务是估计待定参数拟合回归直线的主要任务是估计待定参数a a、b b的值,常用的的值,常用的方法就是最小二乘法,用这种方法求出的回归直线是原始数据的方法就是最小二乘法,用这种方法求出的回归直线是原始数据的“最佳最佳”拟合直线。最小二乘法的原理是使实际值拟合

27、直线。最小二乘法的原理是使实际值y y与估计值的与估计值的离差平方和最小。得估计值为:离差平方和最小。得估计值为: 对斜率对斜率b b的公式进行数学形式转换,可得到的公式进行数学形式转换,可得到b b的另一些表达形的另一些表达形 式:式: 而而 ,所以,所以 22 xxnyxxynbxbynxbya22222()()()xyxxxyyxyx ybxxxx(7-20) yxxyr2xyrb(三)回归估计标准误三)回归估计标准误 推断过程中存在样本对总体的代表性问题,因此在做回归分析时需要对拟合的回归方程的代表性进行衡量。可以用离差平方和的平均数来反映。我们把离差平方和的平均数称为剩余方差,记为即

28、: 式中,n-2为自由度,这是因为按最小二乘法求解两个参数a和b,受到两个正规方程的约束,失去了两个自由度。对剩余方差开方即得回归估计标准误,又称估计标准误差,它是衡量回归估计精确度高低或回归方程代表性大小的统计分析指标。 显然, 的数值越小,说明估计值的代表性越大,观测点越靠近回归直线,其离散程度就越小。当 说明y和 完全一致,反之, 越大,说明观测点的离散程度越大,回归直线方程的代表性越差,回归估计结果就越不精确。公式(7-24)也可以利用以下简捷公式来计算,2)(22nyyScyx22nxybyaySyxyxS0yxScyyxS(四)回归方程判定系数(四)回归方程判定系数 在直线回归中,

29、实际观察值y的大小是围绕其平均值 上下波动的,y的这种波动现象称为变差。这种变差产生的原因有两方面:一是受自变量x的影响,x取值不同会引起y取值不同。二是受其他因素(包括随机因素和观测误差)的影响。对每个观察值来说,变差的大小可以通过离差 来表示,而全部n个观察值的总变差则可由这些离差的平方和表示。 即:总变差=剩余变差+回归变差, 称为判定系数,又称可决系数,它是相关系数的平方。它表明自变量x的方差对因变量y的方差的解释程度,换句话说,它表明y的方差中多大程度由x原因所引起的,判定系数一般用来反映回归方程的拟合程度。 yyy 222yyyyyyccSSTSSRSSE222221yyyyyyyyrcc2r2r(五)回归方程的统计检验(五)回归方程的统计检验1 1、模型整体拟合效果的显著性检验、模型整体拟合效果的显著性检验 回归方程拟合效果越好,表明方程解释部分所占比重越大,SSR与SSE相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论