应用统计学(第二版)第 8 章 相关分析与回归分析_第1页
应用统计学(第二版)第 8 章 相关分析与回归分析_第2页
应用统计学(第二版)第 8 章 相关分析与回归分析_第3页
应用统计学(第二版)第 8 章 相关分析与回归分析_第4页
应用统计学(第二版)第 8 章 相关分析与回归分析_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第8章 相关分析和回归分析,2,相关分析(掌握) 线性回归分析(掌握) 回归模型的统计检验和预测(掌握) 非线性回归模型(了解),主要内容和学习目标,3,8.1.1 相关关系的概念和种类 1.相关关系的概念 在社会经济发展变化中,客观现象总是普遍联系和相互依存的,客观现象(变量)之间的数量依存关系可分为两种类型:确定性关系和相关关系。 相关关系是指现象之间客观存在的非确定性的数量依存关系。,8.1相关分析,4,如:商品的消费量(y)与居民收入(x)之间的关系,变量间关系是不能用函数关系精确表达的,一个变量的取值不能由另一个变量唯一确定。,各观测点分布在直线周围。,5,2. 相关关系的种类,

2、(1)按相关的方向可以分为正相关和负相关。 (2)按相关的程度可分为完全相关、不完全相关和不相关。 (3)按涉及的变量或因素的个数可以分为单相关与复相关。 (4)按相关的表现形式可分为线性相关与非线性相关。,6,相关关系的种类的关系图,9,相关图也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标的横轴代表自变量x,纵轴代表因变量y。相关图所反映的变量之间的相关关系的方向和程序比相关表更为清晰,也更为直观。,10,图8-1学生人数和季营业额相关图,11,12,2. 相关分析的意义,(1)相关分析可以确定变量之间相关关系的方向和程度 (2)相关分析可以衡量回

3、归估计的精确程度,13,8.1.3 简单线性相关,1. 相关系数 相关系数是描述相关的两个变量之间相关关系密切程度的数量指标。早在1890年,英国著名统计学家Karl Pearson便提出了一个测定两个变量线性相关的计算方法,通常称为积差相关系数或简单相关系数。,14,总体相关系数:,式中:,是变量X和Y的协方差,是变量X的标准差,是变量Y的标准差,样本相关系数:,15,计算学生人数和季营业额的相关系数,【例8.2】利用表8-1的数据,计算学生人数x(万人)和季营业额y(万元)的相关系数。,16,2.相关系数的性质,(1) (2)若 ,表示变量x与变量y为线性正相关关系;若 ,表示变量x与变量

4、y为线性负相关关系。 (3)若 ,表示两变量完全线性相关,即变量x与变量y之间存在确定的函数关系。若 ,表示两变量完全线性正相关;若 ,表示两变量完全线性负相关。 (4)若 ,表示两变量不存在线性相关。,17,(5)当 时,表示两变量存在不同程度的线性相关。 的数值越接近于1,表示两变量之间线性相关程度越高;反之 的数值越接近于0,表示两变量之间线性相关程度越低。通常认为: 微弱相关; 低度相关 显著相关; 高度相关 (6)相关系数不受变量值水平和计量单位的影响。,18,根据给定的显著性水平和自由度n-2,查找t分布中的相应临界值 。如果 ,就否定原假设,认为 r 在统计上是显著的,即总体相关

5、系数不为零,总体变量间存在线性相关关系。,3.相关系数的显著性检验,提出假设:,计算 t 检验统计量:,19,检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性水平=0.05。 第一步:提出假设 第二步:构造并计算检验统计量,20,第三步:确定临界值。根据给定的显著性水平=0.05和自由度10-2=8,查找t分布表或利用Excel计算,得到临界值。 第四步:决策。由于 所以拒绝原假设,说明高校学生人数与周边饭店季营业额之间存在着显著的正线性相关关系。,21,8.2.1 回归分析 回归分析是根据已知变量估计未知变量的一种统计方法,它是以对未知变量(因变量)同其他变量(自变量)相互关

6、系的观察为基础,在某种精确度下,预测未知变量的数值。,8.2 线性回归分析,22,回归分析的内容和步骤:,选择适当的回归模型。 进行参数估计。 进行模型的检验。 进行预测。即根据回归方程进行适当的经济预测,这是回归分析的最终目的。,23,1. 总体回归方程与样本回归方程,例:研究家庭消费支出与家庭收入之间的关系,一个总体由50户家庭组成,并按人均月收入水平划分成组内收入水平大致相同的10个组。,24,图8-4 不同收入水平的家庭消费支出散点分布图,总体回归线 PRL,随机试验所有可能结果的集合称为总体或样本空间,第一节 古典回归模型,由图中看出总体回归直线是线性的,用函数的形式来表示: (1)

7、 这是直线的数学表达式,在式(1)中, E(YXi)表示给定X值相应的(或条件的) Y的均值,称为Y的条件期望或条件均值下标i代表第i个子总体。如,x=2时,y的条件均值为 即收入水平为2000元的4个家庭的平均消费支出为1500元。,第一节 古典回归模型,注意:,E(YXi)是Xi的函数(在此例中是线性函数)。这意味着Y依赖于Xi,一般称之为Y对X的回归。回归可简单地定义为在给定X值的条件下Y值分布的均值。换句话说,总体回归直线经过Y的条件期望值。式(1)是总体回归函数(Population Regression Function, PRF)的数学形式。在本例中,总体回归函数是线性函数。,第

8、一节 古典回归模型,为参数(parameters),也称回归系数(regression coefficients)。 又称为截距(intercept),是当X为0时Y的均值 又称为斜率(slope),斜率度量了X 每变动一单位,Y 的均值的变化率。 例,如果斜率 为0.5,那么,当收入x每增加1单位(千元),Y 的(期望)均值将增加0.5个单位(千元);即,平均而言,消费支出将增加0.5千元。,第一节 古典回归模型,模型的随机设定,从图中可看出单个家庭的消费支出与平均消费支出之间存在着一定的离差,即 (2) 其中, 表示随机误差项(stochastic, random error term)或

9、简称为误差项。,29,表8-4 从表8-3的总体中抽取一个随机样本,30,图8-5 总体回归线与样本回归线,第一节 古典回归模型,得到一条很好地“拟合”了样本数据的直线,称之为样本回归线(sample regression lines, SRL)。 可能从K个不同的样本中得到K条不同的样本回归直线,所有的这些样本回归线不可能都相同。每一条直线也最多是对真实总体回归线的近似。,第一节 古典回归模型,用样本回归函数(sample regression function,S R F)来表示样本回归线。 (3) 表示总体条件均值, E(Y|Xi)的估计量; 表示 的估计量; 表示 的估计量;,第一节

10、古典回归模型,建立随机的样本回归函数: (4) 其中ei为残差项(residual term),或简称为残差(residual)。,第一节 古典回归模型,回归分析的主要目的是根据样本回归函数 来估计总体回归函数,,35,2. 相关分析与回归分析的联系与区别,(1)相关分析与回归分析的联系 相关分析和回归分析具有共同的研究对象 相关分析和回归分析需要相互补充 相关分析是回归分析的前提 回归分析是相关分析的拓展,36,(2)相关分析与回归分析的区别,变量的地位不同 变量的性质不同 研究的目的不同 研究的方法不同 所起的作用不同,37,8.2.2 一元线性回归模型,1. 回归模型的基本假定 回归模型

11、是描述因变量如何依赖自变量和随机误差项的方程。一元线性回归模型只涉及一个自变量,可表述为:,第一节 古典回归模型,随机误差项是服从正态分布的实随机变量。 零均值假定。即, 同方差假定,即对于自变量 所有观察值,随机误差项的方差 都相同。 非自相关假定,即与自变量不同观察值对应的随机误差项之间是互不相关、互不影响的 自变量变量与随机误差项不相关假定。 无多重共线性假定。,回归模型的基本假定,2. 最小二乘估计(OLS),残差是Yi的真实值与估计值之差,即 普通最小二乘法(ordinary least squares, OLS ),即选择参数 和 ,使得全部观察值的残差平方和最小。 用数学形式表示

12、为: 最小二乘原理就是所选样本回归函数使得所有Y的估计值与真实值差的平方和最小。,求解联立方程 解得,41,参数估计误差和置信区间,(1)估计误差:估计值和真值的偏差。 的估计误差为: 的估计误差为:,42,(2)置信区间,对于给定的置信度1-, 参数的置信区间为: 即以100(1-)%的概率回归系数属于该区间内。 同理, 参数的置信区间为,43,8.2.3 多元线性回归模型,1. 多元线性回归模型的参数估计 利用最小二乘法估计模型的参数,44,参数估计值应该是下列方程组的解:,45,定义矩阵: 方程组可以用矩阵表示成: 参数的最小二乘估计为,46,2. 参数的估计误差和置信区间,参数估计值的

13、标准差为 为矩阵 对角线上的第i个元素 对于给定的置信度1-,参数的100(1-)%置信区间为:,47,3. 多元回归模型中的相关分析,多元回归分析中,由于变量总数不止两个,因变量与多个自变量的组合产生一定的依存关系;同时任何两个变量之间的相关关系都可能受到其余变量的影响。为此需要对已建立的多元回归模型进行相关分析,包括复相关和偏相关。,48,(1)复相关,在多变量情况下,复相关系数是用来测定因变量 与一组自变量 之间相关程度的指标。其计算公式为:,复相关系数的值域在0到1之间,它的值为1,表明 与 之间存在严密的线性关系;它的值为0,则表明 与 之间不存在任何线性相关关系;它的取值在0和1之

14、间时,表明变量之间存在一定的线性相关关系。,49,(2)偏相关,在多变量情况下,偏相关系数是用来测定当其他变量保持不变的情况下,任意两个变量之间相关程度的指标。它主要考察两个变量之间的净相关关系,从而反映现象之间的真实联系。以两个自变量的情形为例:,x1和y偏相关系数:,x2和y偏相关系数:,50,回归分析是要通过样本所估计的参数来代替总体的真实参数。 在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、模型的显著性检验和变量的显著性检验,以及预测。,8.3 回归模型的统计检验和预测,51,8.3.1 模型的拟合优度检验,拟合优度检验:对样

15、本回归直线与样本观测值之间拟合程度的检验。 度量拟合优度的指标:判定系数(可决系数)R2,问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?,52,如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。,53,对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:,记,总体平方和,回归平方和,残差平方和,54,TSS=RSS+ESS,Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(RSS),另一部分则来自随机势力(ESS)。,在给定样本中

16、,TSS不变, 如果实际观测点离样本回归线越近,则RSS在TSS中占的比重越大,因此 拟合优度:回归平方和RSS/Y的总离差TSS,55,可决系数R2统计量,称 R2 为(样本)可决系数或判定系数,可决系数的取值范围:0,1 R2越接近1,说明实际观测点离样本线越近,拟合优度越高。,56,8.3.2 模型的显著性检验,模型的显著性检验,就是检验模型对总体的近似程度,即检验因变量y和模型中所以自变量的线性关系是否显著。通常构造F统计量进行检验,称为F检验。 对多元线性回归模型,57,基本步骤如下:,1、提出假设,2、计算检验统计量:,3、对给定的显著水平确定临界值,4、得出检验结论:,如果 ,则

17、否定原假设,表明回归模型是显著的;反之,就不能否定原假设。,58,8.3.3 解释变量的显著性检验,变量的显著性检验是判断解释变量X是否对被解释变量Y具有显著的线性性影响,主要是针对变量的参数真值是否为零来进行显著性检验的。 多元线性回归模型, 检验某个自变量 x 对y是否有显著影响,进行解释变量的显著性检验。,59,检验步骤:,1、对总体参数提出假设,4、 比较,判断 若|t|t/2(n-k-1),则拒绝H0 ,接受H1 ; 若|t| t/2(n-k-1),则拒绝H1 ,接受H0 ;,2、构造检验统计量,3、对给定的显著水平确定临界值t /2(n-k-1),60,注意:,在一元线性回归分析中,回归系数的显著性检验与回归模型的显著性检验是等价的,因此 t 检验和F 检验的结论是一致的。 但在多元回归分析中,它们是不等价的,t 检验只检验方程中各个系数的显著性,而 F 检验则检验的是整个方程的显著性。,61,1、点预测 对于一元线性回归模型,给定样本以外的解释变量的观测值Xf,可以得到被解释变量的预测值f ,可以此作为其条件均值E(Y|X=Xf)或个别值Yf的一个近似估计。,注意:严格地说,这只是被解释变量的预测值的估计值,而不是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论