统计学课件第八章相关和回归分析_第1页
统计学课件第八章相关和回归分析_第2页
统计学课件第八章相关和回归分析_第3页
统计学课件第八章相关和回归分析_第4页
统计学课件第八章相关和回归分析_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章第八章 相关和回归分析相关和回归分析 第一节 相关的意义和种类 第二节 相关图表和相关系数 第三节 一元线性回归分析 第四节 多元线性回归分析 第五节 非线性回归分析 2021-7-13 1 相关和回归分析是研究事物的相互关系,测相关和回归分析是研究事物的相互关系,测 定它们联系的紧密程度,揭示其变化的具体定它们联系的紧密程度,揭示其变化的具体 形式和规律性的统计方法,是构造各种经济形式和规律性的统计方法,是构造各种经济 模型、进行结构分析、政策评价、预测和控模型、进行结构分析、政策评价、预测和控 制的重要工具。制的重要工具。 2021-7-13 2 本章学习目的本章学习目的 1.理解相

2、关的意义、主要形式、以及相关分析 的基本内容。 2.掌握相关系数的设计原理,以及相关关系显 著性检验。 3.回归和相关的区别和联系 4.普通最小二乘法的原理以及回归参数的意义。 5.估计标准误差的分析等。 2021-7-13 3 第一节第一节 相关的意义和种类相关的意义和种类 2021-7-13 4 一、问题的提出一、问题的提出 二、相关关系的概念二、相关关系的概念 三、相关关系的种类三、相关关系的种类 四、相关关系的主要内容四、相关关系的主要内容 2021-7-13 5 相 关 一、相关关系的概念一、相关关系的概念 客观现象之间的数量联系存在着两种不同的类型: 函数关系和相关关系 函数关系:

3、 即当一个(或一组)变量每取一个值时,相应的另一个 变量必然有一个确定值与之对应 。 2021-7-13 6 (函数关系)(函数关系) (1)是一一对应的确定关系 (2)设有两个变量 x 和 y ,变量 y 随变量 x 一起变化, 并完全依赖于 x ,当变量 x 取某个数值时, y 依确 定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 (3)各观测点落在一条线上 2021-7-13 7 自变量与因变量自变量与因变量 如果变量之间有因果关系,那么原因变量就叫作自 变量,而受自变量影响的变量就称因变量。自变量 通常发生在因变量之前。(不

4、是所有先发生的变量 都是自变量)一般自变量记为X,因变量 记为Y。 2021-7-13 8 2021-7-13 9 (1 1) 某种商品的销售额某种商品的销售额( (y y) )与销售量与销售量( (x x) )之间的之间的 关系可表示为关系可表示为 y y = = p x p x ( (p p 为单价为单价) ) (2 2)圆的面积)圆的面积(S)(S)与半径之间的关系可表示为与半径之间的关系可表示为 S S = = R R2 2 (3 3)企业的原材料消耗额)企业的原材料消耗额( (y y) )与产量与产量( (x x1 1) ) 、单位、单位 产量消耗产量消耗( (x x2 2) ) 、

5、原材料价格、原材料价格( (x x3 3) )之间的关系可之间的关系可 表示为表示为y y = = x x1 1 x x2 2 x x3 3 相关关系(相关关系(correlation analysiscorrelation analysis): 2021-7-13 10 相关关系:变量之间存在 有依存关系,但这种关系 是不完全确定的随机关系, 即当一个(或一组)变量每 取一个值时,相应的另一 个变量可能有多个不同值 与之对应 。 2021-7-13 11 因果关系因果关系 相关关系相关关系 互为因果关系互为因果关系 共变关系共变关系 随机性依存关系随机性依存关系 确定性依存关系确定性依存关系

6、 函数关系 变量之变量之 间关系间关系 相关关系相关关系 (1)变量间关系不能用函数关系精确表达; (2)一个变量的取值不能由另一个变量唯一确 定; (3)当变量 x 取某个值时,变量 y 的取值可能 有几个; (4)各观测点分布在直线周围。 2021-7-13 12 商品的消费量商品的消费量(y)(y)与居民收入与居民收入(x)(x)之间的关系之间的关系 商品销售额商品销售额(y)(y)与广告费支出与广告费支出(x)(x)之间的关系之间的关系 粮食亩产量粮食亩产量(y)(y)与施肥量与施肥量(x(x1 1) ) 、降雨量、降雨量(x(x2 2) ) 、温度、温度(x(x3 3) )之之 间的

7、关系间的关系 收入水平收入水平(y)(y)与受教育程度与受教育程度(x)(x)之间的关系之间的关系 父母亲身高父母亲身高(y)(y)与子女身高与子女身高(x)(x)之间的关系之间的关系 身高与体重的关系身高与体重的关系 2021-7-13 13 相关关系与函数关系的关系相关关系与函数关系的关系: :在一定的条件下互相转化在一定的条件下互相转化. . 具有函数关系的变量具有函数关系的变量, ,当存在观测误差和随机因素影响时当存在观测误差和随机因素影响时, , 其函数关系往往以相关的形式表现出来其函数关系往往以相关的形式表现出来. . 而具有相关关系的变量之间的联系而具有相关关系的变量之间的联系,

8、 ,如果我们对它们有了深刻如果我们对它们有了深刻 的规律性认识的规律性认识, ,并且能够把影响因变量变动的因素全部纳入并且能够把影响因变量变动的因素全部纳入 方程方程, ,这时相关关系也可转化为函数关系这时相关关系也可转化为函数关系. .另外另外, ,相关关系也相关关系也 具有某种变动规律具有某种变动规律, ,所以所以, ,相关关系也经常可以用一定的函数相关关系也经常可以用一定的函数 形式去近似地描述形式去近似地描述. . 2021-7-13 14 二、二、 相关关系的种类相关关系的种类 1.按相关的程度分: 2021-7-13 15 完全相关完全相关 不完全相关不完全相关 不相关不相关(或零

9、相关或零相关) 例:完全相关完全相关:在价格P不变的情况下,销售收入Y与销售量X 的关系; 不相关不相关:股票价格的高低与气温的高低是不相关的; 2.按相关的方向分: 2021-7-13 16 正相关正相关 负相关负相关 正相关:两个变量之间的变化方向一致,都是增长趋正相关:两个变量之间的变化方向一致,都是增长趋 势或下降趋势。势或下降趋势。 例例: 收入与消费的关系收入与消费的关系; 工人的工资随劳动生产率的提高而提高。工人的工资随劳动生产率的提高而提高。 负相关:两个变量变化趋势相反,一个下降而另一负相关:两个变量变化趋势相反,一个下降而另一 个上升,或一个上升而另一个下降。个上升,或一个

10、上升而另一个下降。 例例: : 物价与消费的关系物价与消费的关系; ; 商品流转的规模愈大商品流转的规模愈大, ,流通费用水平则越低。流通费用水平则越低。 2021-7-13 17 3.按相关的形式分: 线性相关线性相关 非线性相关非线性相关 线性相关(直线相关):当一个变量每变动一个单位时,线性相关(直线相关):当一个变量每变动一个单位时, 另一个变量按一个大致固定的另一个变量按一个大致固定的 增增( (减减) )量变动。量变动。 例例: :人均消费水平与人均收入水平人均消费水平与人均收入水平 非线性相关(曲线相关):当一个变量变动时,非线性相关(曲线相关):当一个变量变动时, 另一另一 个

11、变量也相应发生变动,但这种变动是不均等的。个变量也相应发生变动,但这种变动是不均等的。 例例: 产品的平均成本与总产量产品的平均成本与总产量; 农产量与施肥量农产量与施肥量. 4 .按相关的影响因素多少分: 2021-7-13 18 单相关单相关 复相关复相关 偏相关偏相关 单相关单相关(一元相关一元相关):只有一个自变量。:只有一个自变量。 复相关复相关(多元相关多元相关):有两个及两个以上的自变量。:有两个及两个以上的自变量。 如如: 居民的收入与储蓄额; 成本与产量 如如: 某种商品的需求与其价格水平以及收入水平 之间的相关关系便是一种复相关。 偏相关偏相关: 在某一现象与多种现象相关的

12、场合,假定其他 变量不变,专门考察其中两个变量的相关关系称为 偏相关。 如: 在假定人们的收入水平不变的条件下,某种商 品的需求与其价格水平的关系就是一种偏相关。 2021-7-13 19 图示图示 2021-7-13 20 三、相关分析的主要内容三、相关分析的主要内容 2021-7-13 21 根据研究目的,搜集有关资料 编制相关图表 计算相关系数 建立回归方程 进行统计检验 第二节第二节 相关图表和相关系数相关图表和相关系数 一、相关表和相关图 二、简单相关系数 2021-7-13 22 相关分析相关分析: 就是用一个指标来表明现象间相就是用一个指标来表明现象间相 互依存关系的密切程度。广

13、义的相关分析包互依存关系的密切程度。广义的相关分析包 括相关关系的分析(狭义的相关分析)和回括相关关系的分析(狭义的相关分析)和回 归分析。归分析。 2021-7-13 23 2021-7-13 24 定性分析定性分析 定量分析定量分析 相关关系的判断相关关系的判断 一、相关表和相关图一、相关表和相关图 相关表和相关图是研究相关关系的直观 工具,在进行详细的定量分析之前, 可以先 利用它们对现象之间存在的相关关系的方向、 形式、和密切程度作大致的判断。 2021-7-13 25 简单相关表:简单相关表:将自变量x的数值按照从小到大的顺 序,并配合因变量y的数值一一对应而平行排列的表。 消费支出

14、消费支出 y 15203040425360657870 可支配收可支配收 入入x 18254560627588929899 居民消费和收入的相关表居民消费和收入的相关表 单位:百元单位:百元 相关图相关图:又称散点图。将x置于横轴上,y置于纵轴 上,将(x,y)绘于坐标图上。用来反映两变量之间 相关关系的图形。 例: 2021-7-13 27 二、简单相关系数二、简单相关系数 Y X XY 2021-7-13 28 (一)简单相关系数的概念(一)简单相关系数的概念 是度量两个变量两个变量之间线性线性相关密切程度密切程度和相关方 向的统计指标。 包括简单相关系数、复相关系数、偏相关系数、曲线 相

15、关系数(相关指数). 简单相关系数又称皮尔逊(1890年,英国)相关系数,或 积矩相关系数或动差相关系数。 若相关系数是根据总体全部数据计算的,称为总体 相关系数,记为 . 若是根据样本数据计算的,则称为样本相关系数,记 为 r.样本相关系数是总体相关系数的一致估计量. 2021-7-13 29 n 样本简单相关系数的计算公式(积差法积差法) yyxx xy SS S yyxx yyxx r 22 )()( )( yx n xyyyxx y n yyy x n xxx 1 1 1 2 2 2 2 2 2 式中: (1) 1.用计算器计算 协方差Sxy 2021-7-13 30 2 2 2 2

16、yynxxn yxxyn r 2 2 2 2 11 1 y n yx n x yx n xy r 或:或: xy x1.0000 y0.96971.0000 2021-7-13 31 用计算机计算 选取“工具”-“数据分析” 选“相关系数” 选“确定” 输入“输入区域” 输入“输出区域” 在“分组方式”中选“逐列” 选“标志位于第一行” 确定 出现结果如下: 2021-7-13 32 1. r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负相关 2. r = 0,不存在线性线性相关关系 3. -1r0,为负相关 4. 0t(10-2)=2.306,

17、拒绝H0,总体人 均消费支出与人均可支配收入之间的线性相关关 系显著. 例:例: 为了简化检验的过程,有人根据t统计量和r的关系, 编成相关系数临界值表,相关系数的显著性检 验可直接查表进行。 检验方法: 对于给定的显著性水平 若IrI r(n-2),变量x与y之间有显著显著的线性相关关系。 若IrI r(n-2),变量x与y之间不存在线性相关关系。 前例中:r=0.9878 r0.05 (10-2)=0.632 第三节第三节 一元线性回归分析一元线性回归分析 一、 回归分析概念 二、 回归分析的种类 三、 一元线性回归分析 2021-7-13 41 2021-7-13 42 回归方程一词是怎

18、么来的 一、一、 回归分析的概念回归分析的概念 是指对具有相关关系的现象,根据其相是指对具有相关关系的现象,根据其相 关关系的具体形态,选择一个合适的数学模关关系的具体形态,选择一个合适的数学模 型(称为回归方程式),用来近似地表达变型(称为回归方程式),用来近似地表达变 量间的平均变化关系的一种统计分析方法。量间的平均变化关系的一种统计分析方法。 2021-7-13 43 二、回归分析的内容二、回归分析的内容 1.从一组样本数据出发,确定变量之间的数学关系 式。 2.对这些关系式的可信程度进行各种统计检验,并 从影响某一特定变量的诸多变量中找出哪些变量 的影响显著,哪些不显著。 3.利用所求

19、的关系式,根据一个或几个变量的取值 来预测或控制另一个特定变量的取值,并给出这 种预测或控制的精确程度。 2021-7-13 44 回归分析和相关分析的区别: 1.相关分析中,变量 x 变量 y 处于平等的地位;回归 分析中,变量 y 称为因变量,处在被解释的地位, x 称为自变量,用于预测因变量的变化. 2.相关分析中所涉及的变量 x 和 y 都是随机变量;回 归分析中,因变量 y 是随机变量,自变量 x则作为 研究时给定的非随机变量。 3.相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的 影响大小,还可以由回归方程进行预测和控制 2021-7

20、-13 45 相关分析与回归分析的联系相关分析与回归分析的联系 相关分析和回归分析有着密切的联系,它们不仅具 有共同的研究对象,而且在具体应用时,常常必须 互相补充。相关分析需要依靠回归分析来表明现象 数量相关的具体形式,而回归分析则需要依靠相关 分析来表明现象数量变化的相关程度。只有当变量 之间存在着高度相关时,进行回归分析寻求其相关 的具体形式才有意义。 简单说:1、相关分析是回归分析的基础和前提; 2、回归分析是相关分析的深入和继续。 2021-7-13 46 三、回归分析的种类 2021-7-13 47 1.按自变量的个数分: 一元回归一元回归 多元回归多元回归 2.按回归方程的形式分

21、: 线性回归线性回归 非线性回归非线性回归 本章主要介绍一元线性回归。 四、一元线性回归分析四、一元线性回归分析 (一)一元线性回归方程(一)一元线性回归方程 2021-7-13 48 1.当只涉及一个自变量时称为一元回归, 2. 若因变量 y 与自变量 x 之间为线性关 3. 系时称为一元线性回归一元线性回归。 4.2、对于具有线性关系的两个变量,可以 用 5. 一条线性方程来表示它们之间的关系 。 6.3、描述因变量 y 如何依赖于自变量 x 和 7. 误差项 的方程称为回归模型。 注意: 在两个变量之间,必须确定哪个是自变量, 哪个是因变量 回归方程的主要作用是用自变量来推算因变 量。

22、2021-7-13 49 XYE)( 2021-7-13 50 回归模型的表达式如下回归模型的表达式如下: Y = X 1、模型中,y 是 x 的线性函数(部分)加上 随机误差项 2、线性部分反映了由于 x 的变化而引起 的 y 的变化, 是Y的数学期望, 即对应于X某一取值时Y的平均值: )(X 3、随机误差项(随机干扰项) 是随机变量 A、反映了除 x 和 y 之间的线性关系 之外的随机因素对 y 的影响 B、是不能由 x 和 y 之间的线性关系 所解释的变异性 随机误差项是Y与E(Y) 的离差: 4、 和 称为模型的参数 2021-7-13 51 )()(YEYXY 总体回归线与随机误差

23、项总体回归线与随机误差项 XYE)( 2021-7-13 52 X Yi Y 。 。 。 。 。 (二)回归参数的普通最小二乘估计(二)回归参数的普通最小二乘估计(OLS) 基本原理: 1、 使因变量的观察值 Y与估计值 之间的 离差平方和达到最小来求得 。即 2021-7-13 53 c y 最小 n i n i C bxaY yYbaQ 1 2 1 2 )(),( 2. 用最小二乘法拟合的直线来代表x与y之间的 3. 关系与实际数据的误差比其他任何直线都小 。 2021-7-13 54 回归参数推导过程: 02 02 bxaYx b Q bxaY a Q 为使Q 达到极小值,则须有: 整理

24、得如下标准方程组: xyxbxa yxbna 2 2021-7-13 55 解上述方程组得: xby n x b n y a xxn yxxyn b 2 2 22 2 2 1 1 xx xy S S xx yyxx x n x yx n xy b 其中 可变形为:b 解解: y 473, x 662, y2 26507, x2 51656,xy 36933,n=10 由表中数据得: 所以: 364.0 10 662 72.0 10 473 72.0 6625165610 6624733693310 22 2 n x b n y a xxn yxxyn b 所建立的回归方程为: xy72. 03

25、64. 0 回归系数 的含义是:人均可支配收入每增加1元, 人均消费支出平均增加0.72元。 b 相关系数与回归系数的关系相关系数与回归系数的关系 yy xx S S br 2021-7-13 57 22 2 2 1 1 xx xy S S xx yyxx x n x yx n xy b yyxx xy SS S yyxx yyxx r 22 )()( )( 2021-7-13 58 (三三)回归方程的显著性检验回归方程的显著性检验 1. 回归模型检验的种类回归模型检验的种类 回归模型的检验包括理论意义检 验、一级检验和二级检验。 理论意义理论意义:检验主要涉及参数估计值的 符号和取值区间.如

26、食品支出的恩格尔 函数中,b的取值区间应在0-1之间; 一级检验一级检验又称统计学检验,它是利用统计学中的抽样理 论来检验样本回归方程的可靠性,具体又可分为拟合 程度评价和显著性检验.一级检验对所有的现象进行 回归分析时都必须通过的检验. 二级检验二级检验又称经济计量学检验,它是对标准线性回归模 型的假定条件能否得到满足进行检验,具体包括序列 相关检验,异方差性检验等. 2021-7-13 59 2.显著性检验包括两方面的内容显著性检验包括两方面的内容: (1)对整个回归方程的显著性检验-F检验 回归方程的显著性检验即对自变量和因 变量之间线性关系整体上是否显著进行检验。 2021-7-13

27、60 (2)对回归系数的显著性检验:-t检验 (1)对整个回归方程的显著性检验 -即拟合程度的评价即拟合程度的评价 所谓拟合程度,是指样本观测值聚集在 样本回归线周围的紧密程度。判断回归模型 拟合程度优劣最常用的数量尺度是样本可决 系数(又称判定系数)。它是建立在对总离 差平方和进行分解的基础之上的。 2021-7-13 61 yy 2021-7-13 62 分析: 因变量 Y的取值是不同的,Y 取值的这 种波动称为变差。变差来源于两个方面: 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线 性影响、测量误差、随机因素等)的 影响 对一个具体的观测值来说,变差的大小 可

28、以通过该实际观测值与其均值之差 来表示 估计标准误差估计标准误差Syx(可说明回归方程的代表程度) 实际观察值与回归估计值离差平方和的均方根。 估计标准误差反映了实际观察值在回归直线周 围的分散状况,是用来说明回归方程代表性大小 的统计指标。也说明了回归直线的拟合程度. 2021-7-13 63 估计标准误差的计算公式为:估计标准误差的计算公式为: 22 111 2 1 2 n yxbyay n yy S n i ii n i i n i i n i ci yx 2021-7-13 64 1 1 2 kn yy S n i ci yx 由一元回归方程由一元回归方程 样本资料计算样本资料计算:

29、k表示自变量个数 2021-7-13 65 )(4215. 6 215 0644.536 2 2 )( 十吨 n c yy yx S 例例 215 6478515301. 022615905.22395039 yx S 2021-7-13 66 4215.6 简化式:简化式: 2021-7-13 67 前例1中回归方程估计标准误差为: )(35. 9 210 3693372. 0473)364. 0(26507 2 111 2 百元 n yxbyay S n i ii n i i n i i yx 作为回归模型拟合优度的判断和评价指标,估 计标准误差显然不如判定系数,判定系数是无 量纲的系数,

30、有确定的取值范围(0-1),便于对不 同资料回归模型拟合优度 进行比较.而估计标准误差则是有计量单位的, 又没有确定的取值范围,不便于对不同资料回 归模型拟合优度进行比较. 2021-7-13 68 利用回归方程进行预测和估计利用回归方程进行预测和估计 1.根据自变量 x 的取值估计或预测因变量 y的取值. 2.当给出的x属于样本内的数据时,计算的yc值称为内插检验或 事后预测,当给出的x在样本之外时,计算的yc值称为外推预 测或事前预测. 3.估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计 2021-7-

31、13 69 点估计点估计: 2021-7-13 70 2. 点估计值点估计值 y 的平均值的点估计 y 的个别值的点估计 3. 在点估计条件下,平均值的点估计和个别在点估计条件下,平均值的点估计和个别 值的的点估计是一样的,但在区间估计中值的的点估计是一样的,但在区间估计中 则不同则不同 1. 对于自变量对于自变量 x 的一个给定值的一个给定值x0 ,根据回归方,根据回归方 程得到因变量程得到因变量 y 的一个估计值的一个估计值 0 y 第三节第三节 多元线性相关与回归分析多元线性相关与回归分析 x 2021-7-13 71 一、多元线性回归模型一、多元线性回归模型 一个因变量与两个及两个以上自变量之间的回归.描 述因变量 y 如何依赖于自变量 x1 ,x2 , xp 和误

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论