第八章 相关与回归分析_第1页
第八章 相关与回归分析_第2页
第八章 相关与回归分析_第3页
第八章 相关与回归分析_第4页
第八章 相关与回归分析_第5页
已阅读5页,还剩111页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章第八章 相相关与回归关与回归分析分析v 1. 了解相关于回归分析概念、特点,以及相关分析与了解相关于回归分析概念、特点,以及相关分析与回归分析的区别与联系;回归分析的区别与联系;v 2. 掌握相关与回归分析的定性和定量分析方法;掌握相关与回归分析的定性和定量分析方法;v 3. 掌握回归模型的拟合方法、对回归方程拟合精度的掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法测定和评价的方法知识目标知识目标8.1 相关分析概相关分析概述述v 辩辩证唯物主义告诉我们,物质世界是一个普遍联系的统一证唯物主义告诉我们,物质世界是一个普遍联系的统一整体。无论是社会现象、经济现象,还是自然、生

2、态等现整体。无论是社会现象、经济现象,还是自然、生态等现象,都是在相互联系、相互制约中存在并不断发展变化的。象,都是在相互联系、相互制约中存在并不断发展变化的。一现象的存在和发展,往往影响其他现象的发生和发展;一现象的存在和发展,往往影响其他现象的发生和发展;众多事物此消彼长的变化,又会影响一些事物特定的发展众多事物此消彼长的变化,又会影响一些事物特定的发展变化;现象整体的发展,受制于整体内部各个因素的彼此变化;现象整体的发展,受制于整体内部各个因素的彼此关联与变化推动,也受到整体外部环境及相关条件的制约关联与变化推动,也受到整体外部环境及相关条件的制约与影响这已是众所周知的事实。相关与回归分

3、析,正是研与影响这已是众所周知的事实。相关与回归分析,正是研究和解释现象与现象、事物与事物彼此之间的依存度、关究和解释现象与现象、事物与事物彼此之间的依存度、关联度和因果关系的统计方法。联度和因果关系的统计方法。v 随着计算计科学的不断普及和发展,在现代管理科学、自随着计算计科学的不断普及和发展,在现代管理科学、自然科学,特别是计量经济学和统计学的研究中,相关于回然科学,特别是计量经济学和统计学的研究中,相关于回归分析已经成为越来越重要、内容越来越丰富、方法越来归分析已经成为越来越重要、内容越来越丰富、方法越来越先进、计算操作越来越简便的现代统计方法。越先进、计算操作越来越简便的现代统计方法。

4、v8.1.1相关关系的概念与特点相关关系的概念与特点v 一般地说,客观现象或事物之间相互联系和相互制约的关一般地说,客观现象或事物之间相互联系和相互制约的关系,可分为确定性关系和非确定性关系两类。确定性关系,系,可分为确定性关系和非确定性关系两类。确定性关系,在数学上称函数关系,是指现象之间客观存在的,在数量在数学上称函数关系,是指现象之间客观存在的,在数量变化上按一定法则严格确定的相互依存关系。一般地,可变化上按一定法则严格确定的相互依存关系。一般地,可用一个数学表达式来表示:用一个数学表达式来表示:v y=f(x)v 在函数关系中,现象之间存在着严格的依存关系。即对于在函数关系中,现象之间

5、存在着严格的依存关系。即对于某一变量的每一个数值,都有另一个变量的确定的值与之某一变量的每一个数值,都有另一个变量的确定的值与之相对应。而且变量间的关系可以用一个确定的数学公式表相对应。而且变量间的关系可以用一个确定的数学公式表达出来。例如,圆的面积(达出来。例如,圆的面积(s )与半径()与半径( r)的函数关系)的函数关系为:为: ;电流;电流( I)与电压与电压( U)和电阻和电阻( R)的关系是的关系是I=U/R ;产品总成本是产量与单位产品成本的乘积;某;产品总成本是产量与单位产品成本的乘积;某农作物总产量等于单位面积产量与种植面积的乘积等等。农作物总产量等于单位面积产量与种植面积的

6、乘积等等。这类现象的变化关系是一种确定性关系,即已知某现象数这类现象的变化关系是一种确定性关系,即已知某现象数值,就可求解出另一现象的数值。值,就可求解出另一现象的数值。2rsv 相关关系则是指现象之间客观存在的,在数量上受随机因相关关系则是指现象之间客观存在的,在数量上受随机因素的影响、非确定性的相互依存关系。也就是说,现象之素的影响、非确定性的相互依存关系。也就是说,现象之间确实存在相互依存关系,但这种关系是不确定、不严格间确实存在相互依存关系,但这种关系是不确定、不严格的。与函数关系相比有如下主要特点:的。与函数关系相比有如下主要特点: 1.相关关系表现为数量上的相互依存关系。相关关系表

7、现为数量上的相互依存关系。 2. 相关关系在数量上表现为非确定性的相互依存关系。相关关系在数量上表现为非确定性的相互依存关系。v8.1.2 相关关系的种类相关关系的种类v 现象之间的相关关系是复杂的,它们各以不同的方式和程现象之间的相关关系是复杂的,它们各以不同的方式和程度相互作用,表现出不同的类型和形态。从不同的角度,度相互作用,表现出不同的类型和形态。从不同的角度,按不同的标志划分,相关关系有不同的种类。而不同种类按不同的标志划分,相关关系有不同的种类。而不同种类的相关关系,则需用不同的方法进行研究。现象间的相关的相关关系,则需用不同的方法进行研究。现象间的相关关系主要有以下分类:关系主要

8、有以下分类: 1.按相关关系涉及的变量多少来划分,可分为单相关和按相关关系涉及的变量多少来划分,可分为单相关和复相关复相关v 单相关是指两个变量之间的相关关系,也称一元相关。单单相关是指两个变量之间的相关关系,也称一元相关。单相关主要用来研究一个自变量和一个因变量的相关关系。相关主要用来研究一个自变量和一个因变量的相关关系。例如,身高与体重、降雨量与单产、机床使用寿命与维修例如,身高与体重、降雨量与单产、机床使用寿命与维修费用等都是单相关。复相关是指多个自变量与因变量间的费用等都是单相关。复相关是指多个自变量与因变量间的相关关系,也称多元相关。复相关主要用来研究一个因变相关关系,也称多元相关。

9、复相关主要用来研究一个因变量与多个自变量之间的关系。例如,气温、降雨量、施肥量与多个自变量之间的关系。例如,气温、降雨量、施肥量、播种面积与粮食总产量的相关关系,资金周转率、流量、播种面积与粮食总产量的相关关系,资金周转率、流通费用、销售量、销售价格与销售利润间的相关关系等均通费用、销售量、销售价格与销售利润间的相关关系等均是复相关关系。是复相关关系。 2.按相关的方向分,可分为正相关和负相关按相关的方向分,可分为正相关和负相关v 正相关是指直线相关中,两个变量的变动方向相同,变量正相关是指直线相关中,两个变量的变动方向相同,变量 增加,变量增加,变量 随之增加;变量随之增加;变量 减少,变量

10、减少,变量 随之减少。例如,随之减少。例如,在一般情况下,身高增加,体重也增加;在一定范围内,在一般情况下,身高增加,体重也增加;在一定范围内,施肥量增多,单产也会增多;在正常情况下,居民货币收施肥量增多,单产也会增多;在正常情况下,居民货币收入增加,商品零售额也增多,商品价格的上涨,供给也会入增加,商品零售额也增多,商品价格的上涨,供给也会增加等,这些都是正相关。负相关是指在直线相关中,两增加等,这些都是正相关。负相关是指在直线相关中,两个变量的变动方向相反,即变量个变量的变动方向相反,即变量x 增加,变量增加,变量y 随之减少;随之减少;变量变量x 减少,变量减少,变量y 随之增加。例如,

11、商品价格上涨,需随之增加。例如,商品价格上涨,需求会下降,商品价格下降,需求会上升。求会下降,商品价格下降,需求会上升。 3.按相关的表现形式分,分为线性相关和非线性相关按相关的表现形式分,分为线性相关和非线性相关v 线性相关是指两个变量间的相关关系大致呈现一条直线,线性相关是指两个变量间的相关关系大致呈现一条直线,故也称直线相关。其特点是当一个变量增减故也称直线相关。其特点是当一个变量增减1个单位时,个单位时,另一个变量也按一个大致固定的量变化。非线性相关是指另一个变量也按一个大致固定的量变化。非线性相关是指两个变量的对应取值在坐标系中大致呈一条曲线,故也称两个变量的对应取值在坐标系中大致呈

12、一条曲线,故也称曲线相关,如抛物线、指数曲线、双曲线等。客观现象表曲线相关,如抛物线、指数曲线、双曲线等。客观现象表现形态为直线或曲线,这是现象本身所固有的,不是人的现形态为直线或曲线,这是现象本身所固有的,不是人的主观意识所决定的。因此,在实际应用中,要针对现象表主观意识所决定的。因此,在实际应用中,要针对现象表现出的不同形式的相关关系,结合具体情况、实际经验以现出的不同形式的相关关系,结合具体情况、实际经验以及理论分析后加以确定。进行相关分析时,首先要确定相及理论分析后加以确定。进行相关分析时,首先要确定相关关系的表现形态。关关系的表现形态。 4.按照相关的密切程度分,分为完全相关、不完全

13、相关按照相关的密切程度分,分为完全相关、不完全相关和不相关和不相关v 当一个变量的值完全由另一个变量的值所决定,即称为完当一个变量的值完全由另一个变量的值所决定,即称为完全相关,即前述的函数关系,如全相关,即前述的函数关系,如 ;两个变量各自独立,;两个变量各自独立,互不影响,称为不相关,如股票价格和气温之间,一般是互不影响,称为不相关,如股票价格和气温之间,一般是不相关的。介于这二者之间,称为不完全相关,通常相关不相关的。介于这二者之间,称为不完全相关,通常相关分析是指对不完全相关现象的分析。分析是指对不完全相关现象的分析。v 以上相关关系的种类,如图以上相关关系的种类,如图8-1所示。所示

14、。(a)完全相关)完全相关yx(b)不完全相关)不完全相关(c)无相关)无相关xy(d)曲线相关)曲线相关(e)正相关)正相关xy(f)负相关)负相关xy图图8-2 相关关系的组合类型相关关系的组合类型v8.1.3相关分析的内容相关分析的内容v 相关分析是对客观社会经济现象间存在的相关关系进行分相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计分析法。其目的在于分析现象间所存在析研究的一种统计分析法。其目的在于分析现象间所存在的相关关系及其所表现出的规律性进行数量上的推断和认的相关关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。在实际工作中,有非常广识,

15、以便为回归分析提供依据。在实际工作中,有非常广泛的应用。相关分析的主要内容和程序如下。泛的应用。相关分析的主要内容和程序如下。 1.判别现象间有无相关关系判别现象间有无相关关系 2.判定相关关系的表现形态和密切程度判定相关关系的表现形态和密切程度 3.选择合适的数学模型选择合适的数学模型 4.测定变量估计值的准确程度测定变量估计值的准确程度 5.对回归方程进行显著性检验对回归方程进行显著性检验8.2 相关关系的判断相关关系的判断v8.2.1相关关系的一般判断相关关系的一般判断v 进行相关分析,首先要判明现象间是否存在相关关系。而进行相关分析,首先要判明现象间是否存在相关关系。而判断现象间是否存

16、在相关关系,一般采用定性分析、编制判断现象间是否存在相关关系,一般采用定性分析、编制相关表和绘制相关图等方法相关表和绘制相关图等方法 1. 定性分析法定性分析法v 所谓定性分析,就是根据所研究现象质的规定性,运用有所谓定性分析,就是根据所研究现象质的规定性,运用有关理论知识、专业知识和实际经验,来进行分析和判断。关理论知识、专业知识和实际经验,来进行分析和判断。例如,根据经济理论来判断居民的货币收入与社会商品购例如,根据经济理论来判断居民的货币收入与社会商品购买力是否存在相关关系;根据遗传理论,来判断父辈身高买力是否存在相关关系;根据遗传理论,来判断父辈身高与子辈的身高是否存在相关关系等。定性

17、分析是进行相关与子辈的身高是否存在相关关系等。定性分析是进行相关分析的基础,在此基础上,可根据需要通过编制相关表和分析的基础,在此基础上,可根据需要通过编制相关表和绘制相关图来进行分析。绘制相关图来进行分析。 2.相关图法相关图法v 相关图也称相关散点图,简称散点图。是指根据相关表中相关图也称相关散点图,简称散点图。是指根据相关表中的观测数据在坐标系中绘制的点状图形。若用的观测数据在坐标系中绘制的点状图形。若用 和和 分别代分别代表两个变量,把相关表中的对应观测值一一描绘在坐标系表两个变量,把相关表中的对应观测值一一描绘在坐标系中,则形成了相关点分布状况的图形,据此就可观测现象中,则形成了相关

18、点分布状况的图形,据此就可观测现象间相关关系的情况。下面举例说明绘制方法。间相关关系的情况。下面举例说明绘制方法。v 【例【例81】 在某个地区抽取了在某个地区抽取了9家生产同类产品的企业,家生产同类产品的企业,其月产量和单位产品成本的资料如表其月产量和单位产品成本的资料如表8-1所示。试绘制相所示。试绘制相关图,并说明月产量与单位成本的相关关系。关图,并说明月产量与单位成本的相关关系。v 根据规模经济理论,可初步判断产品产量和单位成本之间根据规模经济理论,可初步判断产品产量和单位成本之间存在着相关关系,然后绘制散点图,就可以比较直观地看存在着相关关系,然后绘制散点图,就可以比较直观地看出两个

19、变量之间的关系。如图出两个变量之间的关系。如图8-3所示。所示。020406080100024681012单位成本(元)月产量(千件)图图8-3 9家企业的月产量和单位产品成本散点图家企业的月产量和单位产品成本散点图v 从上图可看出,随着月产量的增加,单位成本有降低的趋从上图可看出,随着月产量的增加,单位成本有降低的趋势,而且呈现出线性特征或形态。由此,可初步断定产量势,而且呈现出线性特征或形态。由此,可初步断定产量与单位成本是直线负相关关系。与单位成本是直线负相关关系。v 必须指出,如果与某一变量相关的因素有多个,则可分别必须指出,如果与某一变量相关的因素有多个,则可分别绘制相对应的相关图,

20、然后通过多个相关图的对比,大致绘制相对应的相关图,然后通过多个相关图的对比,大致可看出与各因素的密切程度,进而判断主要因素和次要因可看出与各因素的密切程度,进而判断主要因素和次要因素。素。 3.相关表相关表v 相关表就是把被研究现象的观察值对应排列形成的统计表,相关表就是把被研究现象的观察值对应排列形成的统计表,它是相关分析的重要方法。它是相关分析的重要方法。v 对相关变量进行相关分析,研究其相互关系,首先要通过对相关变量进行相关分析,研究其相互关系,首先要通过实际调查取得一系列成对的变量值,作为相关分析的原始实际调查取得一系列成对的变量值,作为相关分析的原始数据。如某地区工业劳动者人数与工业

21、增加值的历史资料数据。如某地区工业劳动者人数与工业增加值的历史资料对应排列形成如下相关表对应排列形成如下相关表v 应指出,相关表中的两列数据称为相关数列,它不同于变应指出,相关表中的两列数据称为相关数列,它不同于变量数列。相关表中的数值是变量的观测值,是实际资料,量数列。相关表中的数值是变量的观测值,是实际资料,是样本数据,它是判别向关系的基础。在相关表中,如果是样本数据,它是判别向关系的基础。在相关表中,如果观测值的分布呈现一定的规律,则表明现象间存在相关关观测值的分布呈现一定的规律,则表明现象间存在相关关系,如果随着一个变量数值的增加或减少,另一个变量也系,如果随着一个变量数值的增加或减少

22、,另一个变量也大致以以某一固定的速率和数量增加或减少,这就可以初大致以以某一固定的速率和数量增加或减少,这就可以初步断定现象存在相关关系。如果两个变量的观察值未表现步断定现象存在相关关系。如果两个变量的观察值未表现出任何规律性,则可以判定现象间不存在在相关关系。出任何规律性,则可以判定现象间不存在在相关关系。v 相关表按资料是否分组,可分为简单相关表和分组相关表。相关表按资料是否分组,可分为简单相关表和分组相关表。简单相关表是资料未经分组的相关表。它是把变量值按照简单相关表是资料未经分组的相关表。它是把变量值按照从小到大的顺序并配合结果变量值一一对应而平行排列的从小到大的顺序并配合结果变量值一

23、一对应而平行排列的统计表。如表统计表。如表8-2就是简单相关表。分组相关表,是在简就是简单相关表。分组相关表,是在简单相关表的基础上,将原始资料进行分组而编制的统计表。单相关表的基础上,将原始资料进行分组而编制的统计表。分组相关表又可分为单变量分组相关表和双变量分组相关分组相关表又可分为单变量分组相关表和双变量分组相关表两种。表两种。v 单变量分组表,是在具有相关关系的两个变量中,只对自单变量分组表,是在具有相关关系的两个变量中,只对自变量进行分组,而因变量不进行分组的相关表。如表变量进行分组,而因变量不进行分组的相关表。如表8-3所示。所示。v 从表从表8-3和图和图8-4可以看出,这可以看

24、出,这380名女大学生的身高和名女大学生的身高和体重之间存在着明显的正相关关系。体重之间存在着明显的正相关关系。图图8-4 380名女大学生的体重和身高散点图名女大学生的体重和身高散点图v 双变量分组表,是对具有相关关系的两个变量都进行分组双变量分组表,是对具有相关关系的两个变量都进行分组的相关表。即对总体进行复核分组,一个分组设在主体栏的相关表。即对总体进行复核分组,一个分组设在主体栏或主词栏,另一个分组设在叙述栏或宾词栏,形成棋盘式或主词栏,另一个分组设在叙述栏或宾词栏,形成棋盘式的表格。例如,根据某省建材集团的表格。例如,根据某省建材集团2010年汽车运材成本年汽车运材成本和运量资料,编

25、制双变量分组表如表和运量资料,编制双变量分组表如表8-4所示。所示。v 这张双变量相关表,按照相关图的形式作了特别设计,形这张双变量相关表,按照相关图的形式作了特别设计,形成了图表结合的模式,因此,反映这两个现象之间的相关成了图表结合的模式,因此,反映这两个现象之间的相关形态、方向和程度更加清楚关。除上例外,在其他方面也形态、方向和程度更加清楚关。除上例外,在其他方面也都可以编制类似的双变量分组相关表,如工业企业按产量都可以编制类似的双变量分组相关表,如工业企业按产量和成本水平同时分组、对同行业的商业企业按企业规模和和成本水平同时分组、对同行业的商业企业按企业规模和流通费水平同时分组等等。这种

26、双变量相关表,可作为探流通费水平同时分组等等。这种双变量相关表,可作为探寻最佳方案、提高经济效益的一种工具。但是,由于根据寻最佳方案、提高经济效益的一种工具。但是,由于根据双变量相关表的资料计算相关分析指标比较复杂所以,在双变量相关表的资料计算相关分析指标比较复杂所以,在实际相关分析中使用较少。实际相关分析中使用较少。v8.2.2相关系数相关系数v 通过前述相关图表,我们仅可以对变量间的相关关系作出通过前述相关图表,我们仅可以对变量间的相关关系作出一般性的判断,只是相关分析的开始。如果要想进一步分一般性的判断,只是相关分析的开始。如果要想进一步分析变量间的密切程度,就必须用相关系数来衡量和判断

27、。析变量间的密切程度,就必须用相关系数来衡量和判断。现实中,现象之间一般存在着直线和曲线两种相关关系,现实中,现象之间一般存在着直线和曲线两种相关关系,而且多为直线相关,这就决定了直线相关分析在实际中也而且多为直线相关,这就决定了直线相关分析在实际中也最为常用。这里仅介绍直线相关系数的计算问题。最为常用。这里仅介绍直线相关系数的计算问题。 1.相关系数的含义相关系数的含义v 相关系数是指直线相关条件下,说明两种现象之间相关关相关系数是指直线相关条件下,说明两种现象之间相关关系密切程度的统计指标,一般用系密切程度的统计指标,一般用r 表示。其定义公式为:表示。其定义公式为:v ¥1890年,英国

28、统计学家卡尔年,英国统计学家卡尔皮尔生(皮尔生(Karl Pearson)便提出了相关系数的公式。便提出了相关系数的公式。v v (8-1)nyynxxnyyxxryxxy2_2_2)()()(v 式中:式中:r相关系数,相关系数, 变量变量x与变量与变量y的协方的协方差,差, 变量变量x的标准差,的标准差, 变量变量y的标准差。的标准差。v 需要说明的是,需要说明的是, 0,即为正,说明变量,即为正,说明变量x与变量与变量y为为正相关,正相关, 0,即为负,说明变量,即为负,说明变量x与变量与变量y为负相关为负相关(这一点将在稍后说明)。(这一点将在稍后说明)。v r与与 同符号,且同符号,

29、且r0时,变量时,变量x与变量与变量y为正相关;为正相关;r0时,变量时,变量x与变量与变量y为负相关。为负相关。2xyxy2xy2xy2xyv 根据相关系数的定义公式可知,相关系数有如下含义:根据相关系数的定义公式可知,相关系数有如下含义:v (1)相关系数)相关系数 r的取值范围是:的取值范围是:-1 r1。因为协方差。因为协方差的绝对值最小为的绝对值最小为0,最大为,最大为 和和 的乘积。的乘积。v (2) r的绝对值越接近于的绝对值越接近于1,表明相关关系越密切;,表明相关关系越密切;r 的的绝对值越接近于绝对值越接近于0,表明相关关系越不密切。,表明相关关系越不密切。v (3) r+

30、1或或 r-1,表明两变量完全相关。,表明两变量完全相关。v (4) r0,表明两变量无直线相关关系。,表明两变量无直线相关关系。v (5) r0,表明两变量呈正直线相关;,表明两变量呈正直线相关; r0,表明两,表明两变量呈负直线相关关系。变量呈负直线相关关系。v 实际中,人们经过长期实践,已总结出了一个判别现象间实际中,人们经过长期实践,已总结出了一个判别现象间相关密切程度的一般标准,相关密切程度的一般标准,xyv 即:即:r 0.3,视为无相关;,视为无相关;0.3 r0.5,为,为低度相关;低度相关;0.5r 0.8,显著相关(中度相关);,显著相关(中度相关);r 0.8,为高度相关

31、。,为高度相关。 2. 相关系数的计算相关系数的计算v 相关系数的计算根据资料的分组情况,既可采用定义公式,相关系数的计算根据资料的分组情况,既可采用定义公式,也可采用简捷公式,还可采用其他计算方法。也可采用简捷公式,还可采用其他计算方法。v (1)根据定义公式计算相关系数(未分组资料)根据定义公式计算相关系数(未分组资料)v 具体计算时,要用相关资料设计一个计算表,将定义公式具体计算时,要用相关资料设计一个计算表,将定义公式中的基本数据先计算出来,即先列出中的基本数据先计算出来,即先列出5个计算栏,:个计算栏,: 2_2_)( ,)(),(),( ,yyxxyyxxyyxxv 【例【例81】

32、已知某地区社会生产总值和社会商品零售总】已知某地区社会生产总值和社会商品零售总额的历史资料如下表所示,计算相关系数。额的历史资料如下表所示,计算相关系数。v 解:(解:(1)列表计算相关资料,如表)列表计算相关资料,如表86所示。所示。v v 62(亿元)(亿元) v 31(亿元)(亿元)7435_nxxnyy_v 根据表根据表86中的数据计算得:中的数据计算得:v =nyynxxnyyxxr2_2_)()()(74067183677850v 注意:由于定义公式的分子和分母中都有公因子注意:由于定义公式的分子和分母中都有公因子1/n ,同时约掉,相关系数的公式可写成:同时约掉,相关系数的公式可

33、写成:v v (8-2)v 显然,定义公式是通过变量离差乘积之和的平均数来计算显然,定义公式是通过变量离差乘积之和的平均数来计算相关系数的,所以这个公式又称为积差法公式。相关系数的,所以这个公式又称为积差法公式。2_2_)()()(yyxxyyxxrv (2)相关系数的简捷计算方法。相关系数的定义公式是)相关系数的简捷计算方法。相关系数的定义公式是根据两变量的离差计算的,当根据两变量的离差计算的,当 为除不尽的小数是,计算为除不尽的小数是,计算既繁琐又影响准确性,实践中多采用根据定义公式推导出既繁琐又影响准确性,实践中多采用根据定义公式推导出的简捷公式计算相关系数。公式为:的简捷公式计算相关系

34、数。公式为:v v (8-3)v 显然,按照这一公式计算相关系数,只需列显然,按照这一公式计算相关系数,只需列3个计算个计算栏:栏: ,而且避免了平均数、协方差、标准差的,而且避免了平均数、协方差、标准差的直接计算,大大简化了计算过程。现根据表直接计算,大大简化了计算过程。现根据表85的资料,的资料,用简捷公式计算相关系数(见表用简捷公式计算相关系数(见表87)2222)()(yynxxnyxxynr22,v =2222)()(yynxxnyxxynr22)217(71337)434(287447217434143047v (3)相关系数的其他计算公式。根据定义法公式,还可)相关系数的其他计算

35、公式。根据定义法公式,还可以推导出相关系数的其他公式。以推导出相关系数的其他公式。v v (8.4)v v v (8.5)v v v (8.6)2_22_2_)()(ynyxnxyxnxyryxyxxyr_2_22_2_)()(yyxxyxxyrv 公式中,公式中, v 下面举例说明利用双变量分组资料计算相关系数的方法。下面举例说明利用双变量分组资料计算相关系数的方法。nxyxy_v 【例【例83】 表表88是某地是某地40家商店的营业员和营业额家商店的营业员和营业额资料。试根据表中资料求相关系数。资料。试根据表中资料求相关系数。v 根据双变量分组计算相关系数表时,根据双变量分组计算相关系数表

36、时, 和和 值均取各分组的值均取各分组的组中值,以各组频数加权计算相关系数。先列表计算如下组中值,以各组频数加权计算相关系数。先列表计算如下v =6.75 v 4.625v 34.275 v 40270_fxfx40185_fyfy401371_fxyfxy4021002_2ffxxv 23.25v v 0.8v v 因为,因为, r0.8,所以,该商店营业人员与营业额存在高,所以,该商店营业人员与营业额存在高度正相关关系。度正相关关系。409302_2ffyy2_22_2_)()(yyxxyxxyr85. 0625. 425.2375. 65 .52625. 475. 6275.3422 3

37、.相关系数的显著性检验相关系数的显著性检验v 测算两个变量的相关系数,是从二元总体中随机抽取一个测算两个变量的相关系数,是从二元总体中随机抽取一个样本,再用样本的相关系数去推断,因为推断误差的存在,样本,再用样本的相关系数去推断,因为推断误差的存在,不可能保证百分之百的可靠。也就是说,因为样本是随机不可能保证百分之百的可靠。也就是说,因为样本是随机抽取的,根据其计算出的相关系数虽然很大,但总体却可抽取的,根据其计算出的相关系数虽然很大,但总体却可能并不具备相关性。那么总体到底有没有线性相关性,在能并不具备相关性。那么总体到底有没有线性相关性,在得出结论前,还必须进行假设检验。得出结论前,还必须

38、进行假设检验。v 检验样本(相关系数为检验样本(相关系数为r )是否会来自于一个无线性关系)是否会来自于一个无线性关系的总体(总体的相关系数为的总体(总体的相关系数为 ),可以采用费舍),可以采用费舍(R.A.Fisher)的)的t检验法。检验法。v 原假设:原假设:H0 : ;备择假设:;备择假设:H1 : 。v 检验统计量为:检验统计量为:t= r 其中其中n-2 为自由度。为自由度。v 若显著性水平为若显著性水平为 ,查,查 t表的临界值:表的临界值: v 若若t ,则拒绝原假设,接受备择假设,则拒绝原假设,接受备择假设, 即认为样本的相关系数显著,可以说明总体两个变量间即认为样本的相关

39、系数显著,可以说明总体两个变量间 存在着线性相关,检验通过。若存在着线性相关,检验通过。若t ,则,则结论相反。结论相反。00212rn)2(2nt)2(2nt)2(2ntv 【例【例84】 根据【例根据【例81】中】中9家企业的月产量和单位家企业的月产量和单位成本的样本资料,计算相关系数并对其进行显著性检验。成本的样本资料,计算相关系数并对其进行显著性检验。v =0.9886v 已知:已知:r=-0.9886 ,n=9 ,提出如下假设:,提出如下假设:v H0: ;H1 : v t= r 2222)()(yynxxnyxxynr22)613(438999)7 .53(65.37096137

40、.539 .3332900229886. 01299886. 012rnv 设显著性水平设显著性水平 。查。查 t表得表得 , t ,表明,表明 总体相关系数总体相关系数 的可能性小于的可能性小于 。所以拒绝。所以拒绝原假设原假设 H0: ,认为样本的相关关系具有显著性,认为样本的相关关系具有显著性,即不能否认总体(全部的同类企业)的两变量存在线性相即不能否认总体(全部的同类企业)的两变量存在线性相关。关。05. 0646. 2)29()2(025. 02tnt)2(2nt005. 00 4时间数列的自相关时间数列的自相关v 以上我们从静态角度对两个变量的相关关系进行了讨论。以上我们从静态角度

41、对两个变量的相关关系进行了讨论。但是,相关关系并不仅限于静态,在时间动态方面也可应但是,相关关系并不仅限于静态,在时间动态方面也可应用相关分析的方法,基本方法与静态的完全相同。比如,用相关分析的方法,基本方法与静态的完全相同。比如,时间数列自相关,就是研究一个变量的发展变化对其自身时间数列自相关,就是研究一个变量的发展变化对其自身将来的变化所产生的影响。这种现象在经济活动中经常存将来的变化所产生的影响。这种现象在经济活动中经常存在,当年的经济状态会对下一年度、下两年度甚至更远的在,当年的经济状态会对下一年度、下两年度甚至更远的年代产生影响,比如已经形成的工业生产水平会影响明年年代产生影响,比如

42、已经形成的工业生产水平会影响明年或后年的工业生产水平等等。或后年的工业生产水平等等。v 进行时间数列的自相关分析,需要计算自相关系数,其方进行时间数列的自相关分析,需要计算自相关系数,其方法与前面所讲的相关系数在本质上是相同的,公式为:法与前面所讲的相关系数在本质上是相同的,公式为:v v (87)v 式中:式中: t代表时间,代表时间, t-1是是t 期(年)的前一期(年)。期(年)的前一期(年)。21212211)()(ttttttttyynyynyyyynrv 【例【例85】某地区】某地区20002010年的生猪收购量资料如年的生猪收购量资料如表表810所示,试计算自相关系数。所示,试计

43、算自相关系数。v 解:将上年收购量与本年收购量一一对应排列如表所示,解:将上年收购量与本年收购量一一对应排列如表所示,则可看出,随着上年收购量则可看出,随着上年收购量yt-1 的增长,本年收购量的增长,本年收购量 yt也有增长的趋势,可初步判断二者呈正相关关系。也有增长的趋势,可初步判断二者呈正相关关系。v 如果根据各项资料(如果根据各项资料(170,240)、()、(240,410)(850,)绘制相关图,可见本期收购量,)绘制相关图,可见本期收购量yt (纵轴)与(纵轴)与上期收购量上期收购量 yt-1(横轴)之间的关系大体上接近直线(图(横轴)之间的关系大体上接近直线(图略)。因此,通过

44、该资料可计算直线自相关系数。略)。因此,通过该资料可计算直线自相关系数。v =0.8710v 结果说明,本年收购量结果说明,本年收购量 yt与上年收购量与上年收购量yt-1 指甲高度相指甲高度相关。关。21212211)()(ttttttttyynyynyyyynr2248403034600104090221710010409048402514100108.3 回归分析概述回归分析概述v8.3.1回归分析的概念与特点回归分析的概念与特点 1.回归分析的含义回归分析的含义v 我们已知道,通过相关分析可以说明变量之间相关关系的我们已知道,通过相关分析可以说明变量之间相关关系的方向和程度,但是它却不

45、能说明变量之间具体的数量因果方向和程度,但是它却不能说明变量之间具体的数量因果关系。也就是说,当自变量给出一个数值时,因变量的可关系。也就是说,当自变量给出一个数值时,因变量的可能取值是多少,这恰恰是相关分析所不能回答的问题。这能取值是多少,这恰恰是相关分析所不能回答的问题。这就需要通过新的统计分析方法,即回归分析加以解决。就需要通过新的统计分析方法,即回归分析加以解决。v 所谓回归分析,是指对具有相关关系的现象,根据其关系所谓回归分析,是指对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型(称为回归方程),用来形态,选择一个合适的数学模型(称为回归方程),用来近似地表示变量间的一般

46、数量关系,也即平均变化关系的近似地表示变量间的一般数量关系,也即平均变化关系的一种统计分析方法。回归分析的基本思想是:根据现象间一种统计分析方法。回归分析的基本思想是:根据现象间相关关系的形态,配合一条近似函数关系的,最合适的直相关关系的形态,配合一条近似函数关系的,最合适的直线或曲线,用这条直线或曲线,反映他们之间数量变化的线或曲线,用这条直线或曲线,反映他们之间数量变化的一般关系,即当自变量发生一个量的变化时,因变量一般一般关系,即当自变量发生一个量的变化时,因变量一般会(或平均会)发生多大量的变化。例如,单位面积化肥会(或平均会)发生多大量的变化。例如,单位面积化肥施用量增加施用量增加1

47、千克,粮食单产会增加多少千克;某产品产千克,粮食单产会增加多少千克;某产品产量每增加量每增加1000件,单位成本平均会下降多少元等等。反件,单位成本平均会下降多少元等等。反映现象间相关关系数量变化规律的直线或曲线,称为回归映现象间相关关系数量变化规律的直线或曲线,称为回归直线或曲线,表现这条回归直线或曲线的数学表达式,称直线或曲线,表现这条回归直线或曲线的数学表达式,称为直线或曲线回归模型。它是推算或预测因变量的经验数为直线或曲线回归模型。它是推算或预测因变量的经验数据模型。据模型。 2.回归分析的特点回归分析的特点v 与相关分析相比,回归分析有以下特点(或区别):与相关分析相比,回归分析有以

48、下特点(或区别):v (1)回归分析的两个变量是非对等关系。相关分析中,)回归分析的两个变量是非对等关系。相关分析中,相关关系的两个变量是对等的,不必区分哪一个是自变量,相关关系的两个变量是对等的,不必区分哪一个是自变量,那一个是因变量。而回归分析中,两个变量则存在因果关那一个是因变量。而回归分析中,两个变量则存在因果关系,需要确定哪个自变量,那个是因变量。自变量、因变系,需要确定哪个自变量,那个是因变量。自变量、因变量不同,所得出的分析结果也不同。量不同,所得出的分析结果也不同。v (2)回归分析中,因变量是随机变量,而自变量则是可)回归分析中,因变量是随机变量,而自变量则是可控制的变量。在

49、回归分析中,可依研究的目的分别建立控制的变量。在回归分析中,可依研究的目的分别建立y 对于对于x 的回归方程或的回归方程或 x对于对于y 的回归方程;而相关分析中,的回归方程;而相关分析中,被研究的两个变量都是随机变量,它只能计算出反映两个被研究的两个变量都是随机变量,它只能计算出反映两个变量之间相关密切程度的一个统计分析指标,即相关系数。变量之间相关密切程度的一个统计分析指标,即相关系数。v 显然,回归分析与相关分析存在着明显的区别。当然,两显然,回归分析与相关分析存在着明显的区别。当然,两者也有着密不可分的内在联系,首先,相关分析是回归分者也有着密不可分的内在联系,首先,相关分析是回归分析

50、的基础和前提。如果现象间缺少相关关系,而又没有从析的基础和前提。如果现象间缺少相关关系,而又没有从定性上说明现象间是否具有相关关系,未能对现象间相关定性上说明现象间是否具有相关关系,未能对现象间相关关系的密切程度作出判断,是不能进行回归分析的,即便关系的密切程度作出判断,是不能进行回归分析的,即便勉强进行回归分析,也是毫无实际意义的。其次,回归分勉强进行回归分析,也是毫无实际意义的。其次,回归分析是相关分析的深入和继续。因为,统计实践已经证明,析是相关分析的深入和继续。因为,统计实践已经证明,仅仅说明现象间具有密切的相关关系是不能满足统计研究仅仅说明现象间具有密切的相关关系是不能满足统计研究需

51、要的,只有将变量值的分布回归,并拟合相应的回归方需要的,只有将变量值的分布回归,并拟合相应的回归方程,才能进行有关的推算和回归预测,相关分析也才具有程,才能进行有关的推算和回归预测,相关分析也才具有实际意义。实际意义。v 总之,如果仅有回归分析而缺少相关分析,将会缺乏必要总之,如果仅有回归分析而缺少相关分析,将会缺乏必要的的基础和前提而影响回归分分析的可靠性;如果仅有相的的基础和前提而影响回归分分析的可靠性;如果仅有相关分析而缺少回归分析,就会削弱相关分析的意义。只有关分析而缺少回归分析,就会削弱相关分析的意义。只有将两者结合起来才能达到统计分析的目的。将两者结合起来才能达到统计分析的目的。

52、3.回归分析的内容回归分析的内容v 回归分析是指将具有相关关系的现象的变量转变为函数关回归分析是指将具有相关关系的现象的变量转变为函数关系,并建立变量关系的数学表达式,来研究变量之间数量系,并建立变量关系的数学表达式,来研究变量之间数量变动关系的统计方法。具体内容包括两个方面:变动关系的统计方法。具体内容包括两个方面:v (1)确定现象之间相关关系的数学模型)确定现象之间相关关系的数学模型v (2)测定数学模型的拟合精度)测定数学模型的拟合精度 4.回归分析的种类回归分析的种类v 按照统计研究对象和目的的不同,回归分析模型可进行以按照统计研究对象和目的的不同,回归分析模型可进行以下分类:下分类

53、:v (1)按照具有相关关系的变量个数多少划分,可分为简)按照具有相关关系的变量个数多少划分,可分为简单回归分析模型和多元回归分析模型。单回归分析模型和多元回归分析模型。v 简单回归分析模型,是指只有一个自变量和一个因变量的简单回归分析模型,是指只有一个自变量和一个因变量的回归分析模型。多元回归分析模型,是指由多个自变量和回归分析模型。多元回归分析模型,是指由多个自变量和一个因变量组成的回归分析模型。它与简单回归分析模型一个因变量组成的回归分析模型。它与简单回归分析模型相比,增加了自变量的个数。相比,增加了自变量的个数。v (2)按照变量间相互关系的形态来分,可分为直线回归)按照变量间相互关系

54、的形态来分,可分为直线回归分析模型和曲线回归分析模型。分析模型和曲线回归分析模型。v 直线回归分析模型,是指反应变量之间关系为直线趋势的直线回归分析模型,是指反应变量之间关系为直线趋势的模型。曲线回归分析模型,是指反映变量之间相互关系的模型。曲线回归分析模型,是指反映变量之间相互关系的形态表现为某种曲线的模型。形态表现为某种曲线的模型。v 将上述分类交叉使用,就得到简单线性回归和简单曲线回将上述分类交叉使用,就得到简单线性回归和简单曲线回归,多元直线回归和多元曲线回归四种类型。由于线性回归,多元直线回归和多元曲线回归四种类型。由于线性回归分析是整个回归分析的基础,因此本书重点介绍。归分析是整个

55、回归分析的基础,因此本书重点介绍。v8.3.2线性回归分析线性回归分析v 在回归分析中,如果变量之间的回归模型是直线方程,则在回归分析中,如果变量之间的回归模型是直线方程,则这类回归分析为线性回归分析(直线回归),该直线方程这类回归分析为线性回归分析(直线回归),该直线方程成为线性回归方程。具体的,如果直线方程中只有一个自成为线性回归方程。具体的,如果直线方程中只有一个自变量和一个因变量,称之为简单线性回归分析;若存在一变量和一个因变量,称之为简单线性回归分析;若存在一组自变量和多个因变量,称之为多元线性回归分析。组自变量和多个因变量,称之为多元线性回归分析。 1.简单线性回归分析简单线性回归

56、分析v 主要任务是在唯一的自变量主要任务是在唯一的自变量 和因变量和因变量 之间建立一个直线之间建立一个直线函数,其表现形式为:函数,其表现形式为:v v 需要指出的:需要指出的: x是自变量,是自变量, 是因变量的是因变量的 y的估计值,的估计值,又称理论值。实际观测值又称理论值。实际观测值 y和理论值和理论值 的关系的关系是:是: ,式中,式中 称为离差,反映了因各种偶然因称为离差,反映了因各种偶然因素、观察误差以及被忽略的其他影响因素带来的随机误差。素、观察误差以及被忽略的其他影响因素带来的随机误差。bxay y yyyv (1)一般简单线性回归方程)一般简单线性回归方程v 确定确定 ,

57、主要是确定,主要是确定a 和和b ,那么如何选择最为,那么如何选择最为满意的满意的a 和和b 呢?呢?v 最小平方法给出了解决方案,其基本思想是让最小平方法给出了解决方案,其基本思想是让 最小值,又称最小二乘法。最小值,又称最小二乘法。v 将将 代入代入 。v 令令 ,根据微分求极值的原理,根据微分求极值的原理,分别对分别对 a和和 b求偏导,令其为零。求偏导,令其为零。bxay2)(yybxay2)(yy)()(2bxayyyQv 得:得:v 整理得:整理得: v 求解方程组,可得求解方程组,可得a 和和 b:v (8-8)v v (8-9)v 则可得直线回归方程:则可得直线回归方程: 。0

58、)(2bxayQQ0)(2xbxayQQ2xbxaxyxbnay22)(xxnyxxynb_xbyabxayv 【例【例8.6】根据【例】根据【例8.1】中的数据,建立月产量】中的数据,建立月产量 和单位和单位产品成本产品成本 之间的直线方程。并估计当月产量之间的直线方程。并估计当月产量 10(千件)(千件)时,单位产品成本的数值。时,单位产品成本的数值。v 将表将表8-6有关数据代入式(有关数据代入式(8-5),得:),得:v , ,v 所以回归方程为:所以回归方程为: v 当当x= 10(千件),(千件), v (元)。直线如图(元)。直线如图8-5所示。所示。46. 67 .5365.3

59、7096137 .539 .33329)(222xxnyxxynb97. 5x11.68_y68.11( 6.46) 5.97106.68aybx 图图8-5 月产量和单位成本的直线回归方程图月产量和单位成本的直线回归方程图v (2)当时间为解释变量时的简单线性回归方程)当时间为解释变量时的简单线性回归方程v 若自变量为时间,则用若自变量为时间,则用t表示,此时表示,此时,直线方程为:直线方程为: v 由最小平方原理可得:由最小平方原理可得:v 若若 则则 yabt22)(ttnyttynb_tbyntbnya0t2ttyb_ynyav 【例【例8.7】某游览点历年观光游客的数量如下表,用最小

60、】某游览点历年观光游客的数量如下表,用最小平方法建立直线方程,并预测平方法建立直线方程,并预测2010年的游客数量年的游客数量v 解:解: v (万人)(万人)bxay64.132814079802843027)(222ttnyttynb44.8572864.137980ntbnyaty64.1314076.2621364.1344.852010yv 若若 则则 v v (万人)(万人), 0t140798064.13283822nyattybty64.1314072.262964.131402010yv (3)多元线性回归)多元线性回归v 简单线性回归反映的是一个自变量和一个因变量之间的关简

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论