ch07相关与回归分析.ppt_第1页
ch07相关与回归分析.ppt_第2页
ch07相关与回归分析.ppt_第3页
ch07相关与回归分析.ppt_第4页
ch07相关与回归分析.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ch7 相关与回归分析,统计学原理,7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),主要介绍: 相关分析,回归技术,回归诊断方法。,ch7 主要内容,ch7 相关与回归分析 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),ch7 学习目的,1,掌握相关与回归的基本概念 2,掌握相关分析技术 3,掌握一元线性回归方法 4,掌握多元线性回归方法 5,掌握回归诊断方法,ch7 相关与回归分析 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),ch7 相关与回归分析,统计学原理,7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),7.1 相关与回归的基本概念,7.1.1 确定性关系与相关关系 7.1.2 回归函数与经验方程 7.1.3 相关与回归分析 7.1.4 相关表与相关图 7.1.5 相关关系的种类,ch7 相关与回归分析 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),返回,7.1.1 确定性关系与相关关系,确定性关系也叫函数关系。 y (x=x t), (7.1.1) 即只要给定一个x,就可以确定一个y,y值随x的值变化,则变量y, x之间,就是一种确定性的函数关系。y (x=x t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。 相关关系也叫统计关系或者经验关系。 相关关系的特征是,“2个以上变量的变化方向大致是规则的”, 变量y , x之间的某种近似规则关系,不是一种精确的确定性关系,只是一个经验关系 y (x=x t) +; (7.1.2) 是y与 (x=x t) 的偏差,且总假定e ()= 0。 这种经验关系就是统计相关关系。 统计相关关系,常常表现为一种统计定律。统计定律和相关关系,是相关回归分析的主要研究对象。,ch7 相关与回归分析 7.1 相关与回归的基本概念,返回,7.1.2 回归函数与经验方程,存在统计相关关系的变量y , x之间,有 y (x=x t) +; (7.1.2) 因为, e ()= 0 ,所以, e (y |x= x t ) (x t) 是给定x=x t条件下y的期望值, (x t) 就是y关于x的期望函数。它实际反映的是y,x之间存在的统计规律。 因为统计规律,总是可以在日常的实践过程中,不断回归重现。于是,期望函数,也称为y关于x的回归方程或回归函数,记为 (x=x t) e (y |x= x t ) (7.1.3) 回归函数的具体表达式,通常也叫经验函数或者经验公式。,ch7 相关与回归分析 7.1 相关与回归的基本概念,返回,7.1.3 相关与回归分析,相关与回归分析: 是研究相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上,在不确定的现象中,寻找隐藏的统计规律性的数理统计方法。具体步骤是: 第一步,根据研究的目的,通过观察和实验取得资料。 第二步,整理资料。分组编制相关表,以便进行分析。 第三步,绘制相关图。把成对的相关资料,绘成散布图或曲线图,从图形中,初步判断变量之间是否存在相关关系,以及相关的基本形式。 第四步,相关关系的解析。建立回归方程,计算估计标准误差、相关系数等,以反映变量之间的关系、误差大小及密切程度,并运用数理统计方法,进行检验和评价。,ch7 相关与回归分析 7.1 相关与回归的基本概念,返回,7.1.4 相关表与相关图,相关表与相关图,是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们,对现象之间存在的相关方向、形式和密切程度,作大致的判断。 相关表,是一种反映变量之间相关关系的统计表。将某一变量,按其取值的大小顺序排列,然后再将与其相关的另一变量的值,对应排列,便可得到简单的相关表。 利用相关表,便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量x,纵轴代表变量y ,将两个变量的值,用坐标点 (xt, y t) 的形式描绘出来,用来反映两变量之间相关关系的图形。,ch7 相关与回归分析 7.1 相关与回归的基本概念,7.1.4 相关表与相关图,【例7-1】利用某国1951-1970年的消费y 和可支配收入x数据,可整理得相关表与相关图。,ch7 相关与回归分析 7.1 相关与回归的基本概念,返回,7.1.5 相关关系的种类,按相关的程度可分为完全相关、不完全相关、不相关 按相关的方向可分为正相关、负相关 按相关的形式可分为线性相关和非线性相关 按所研究的变量的多少可分为单相关、复相关和偏相关,ch7 相关与回归分析 7.1 相关与回归的基本概念,返回,7.2 相关分析,7.2.1 相关系数 7.2.2 相关系数与相关程度 7.2.3 相关系数的检验 7.2.4 等级相关系数及其检验,ch7 相关与回归分析 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),返回,7.2.1 相关系数,相关系数也叫单相关系数。 它是在线性相关的条件下,用来测定变量y , x之间相关程度的一个重要指标。通常以表示总体的相关系数,以表示样本的相关系数。 存在线性相关的变量总体(y , x), 定义为 (7.2.1) 式中:cov(x,y)是变量x和y的协方差,var(x)和var(y)分别是x和y的方差。 对来自总体(y , x)的n组样本观察值(y t, x t),t=1,2,3,n-1,n,记为 (7.2.2) 其中sx,y=cov(xt,yt)是样本(y t, xt)的协方差,sx和sy分别是x和y 的样本标准差。样本相关系数,是根据样本观察值计算的。,ch7 相关与回归分析 7.2 相关分析,7.2.1 相关系数,总体值为常数,在很多情况下,是无法直接按定义计算的,只能通过样本相关系数,去估计值。 容易证明,样本相关系数,是总体相关系数的一致估计量。 可以证明,存在线性相关的变量之间,不论是总体相关系数,还是样本相关系数,均有0|1,0|1。 为便于计算,引进如下符号: (7.2.3),ch7 相关与回归分析 7.2 相关分析,7.2.1 相关系数,【例7-2】利用某国1951-1970年的消费y和可支配收入x数据,计算它们之间的相关系数。 解:根据相关系数的公式,有 于是,ch7 相关与回归分析 7.2 相关分析,返回,7.2.2 相关系数与相关程度,如果|=1,表明(y , x )之间是完全线性相关,完全线性相关,是一种精确的线性函数关系; 如果|=0,表明(y , x )之间没有关系或者线性无关; 如果0|1,(y , x )是一种线性统计关系,线性统计关系,是最常见的相关关系;01是正的线性相关;-10是负的线性相关。 |值越大,则线性关比较系密切,反之,则线性关系不密切。 同理,|=1,表示样本(y t ,x t)为完全线性相关;=1,表示(y t, x t)为完全正线性相关,样本的所有点(y t, x t)都在一条直线上;=-1,表示(y t, x t)为完全负线性相关,样本的所有点(y t ,x t)也都在一条直线上; =0,表示样本点(y t ,x t)在散点图上的分布是杂乱无章的,(y t,x t)之间无相关关系; 0|1,表示(y t ,x t)之间存在线性相关关系,其样本点(y t, x t)大致地分布在某条直线左右。 当|比较小时,样本点离该直线比较分散,而当|比较大(接近于1)时,样本点就靠近该直线。,ch7 相关与回归分析 7.2 相关分析,返回,7.2.3 相关系数的检验,检验样本相关系数,实质上是用样本相关系数,检验总体相关系数是否为0,如果=0,则两变量y, x 之间,线性关系微弱;若0,则两变量y, x 之间,线性关系显著。 由的分布理论,可以证明:如果变量y, x是正态变量,当=0,则与有关的统计量 (7.2.4) 与有关的统计量 (7.2.5) 根据这一定理,可以检验是否为0(总体两变量之间直线相关关系是否为不显著)。各种不同的统计量,构成不同的检验方法。因此,的检验方法,有t统计量检验、f统计量检验和的查表检验。的查表检验,是t检验或者f检验方法的结果。三种方法的检验结论相同。,ch7 相关与回归分析 7.2 相关分析,7.2.3 相关系数的检验,t统计量检验 作统计假设 零假设h0:=0,备择假设h1:0。 计算样本相关系数的t值 , 选择显著性水平,取小概率=1%或者=5%。根据和自由度n-2,求t分布的临界值t/2,若|t|t/2,接受h0,表示y, x之间相关不显著;若|t|t/2,拒绝h0,表示y, x之间相关显著。,ch7 相关与回归分析 7.2 相关分析,7.2.3 相关系数的检验,f统计量检验 作统计假设 零假设h0:=0,备择假设h1:0。 计算样本相关系数的f值 , 选择显著性水平,取=1%或者=5%。根据和自由度1,n-2,求f分布的两个临界值f1-/2(1,n-2),f/2(1,n-2),且f1-/2(1,n-2) f/2(1,n-2)或f f1- /2(1,n-2),拒绝h0,表示y, x之间相关显著。 说明: f检验是双侧检验,有两个临界值f1-/2(1,n-2),f/2(1,n-2),且f1-/2(1,n-2)f/2(1,n-2),即接受零假设h0的临界区域为f1-/2(1,n-2)ff/2(1,n-2) ff/2(1,n-2)、1/f1/f1-/2(1,n-2);由于有ff(1,n-2)和1/ff (n-2,1),于是可以证明,在h0成立的条件下,f双侧检验等价于两个统计量f、1/f的单侧检验,两个统计量中只要有一个满足检验的要求即可,即f f/2(1,n-2)或者1/ff1-/2(1, n-2) =1/ f/2(n-2, 1)就接受h0。通常的做法是检验ff/2(1,n-2),且统一记ff/2。,ch7 相关与回归分析 7.2 相关分析,7.2.3 相关系数的检验,的查表检验 的查表检验,是t检验或者f检验方法衍生的结果。不论是t检验还是f检验,其临界值t/2、f/2,对自由度n-2(样本容量=n)和样本相关系数,都有一个临界要求,反算出样本相关系数临界值/2,那么由显著性水平、自由度n-2及临界样本相关系数/2 ,就可以构成一个相关系数检验表。在给定条件下查验该表,就可以判断变量y, x之间是否线性相关。 作统计假设 h0:=0,h1:0。 计算样本相关系数。 选择显著性水平,取=1%或者=5%。根据和自由度n-2,查相关系数表求临界值/2,若|/2,接受h0,表示y, x之间相关不显著;若|/2,拒绝h0,表示y, x之间相关显著。,ch7 相关与回归分析 7.2 相关分析,7.2.3 相关系数的检验,【例7-3】利用某国1951-1970年的消费y和可支配收入x的相关系数,在=5%时,是否可以认为y和x之间存在显著性的线性相关关系。 解:作统计假设 h0:=0,h1:0。 计算样本相关系数的t值。已知=0.999689,求得t=170.071。 选择显著性水平,取=5%。根据和自由度n-2,求得t分布的临界值t/2(n-2)= t2.5%(20-2)=2.102。因为|t|=170.071t/2=2.102,所以拒绝h0,表示y, x之间相关显著。,ch7 相关与回归分析 7.2 相关分析,返回,7.2.4 等级相关系数及其检验,等级相关系数(又称为顺序相关系数)。 设有xt和yt两个数列,依数量的大小或者品质的优劣,分为1,2,3,n-1,n个等级,以vx,t表示各个xt的等级数,以vy,t表示各个yt的等级数,则等级相关系数 s为 (7.2.6) 式中,n是样本容量。该公式可由两个等级变量的相关系数,推导而来。 与相关系数类似, s的取值范围为0| s|1。 s为正值,存在正的等级相关关系, s取负值,存在负的等级相关。 s=1,表明两种现象的等级完全相同,存在完全正相关; s=-1,表明两种现象的等级完全相反,存在完全负相关。,ch7 相关与回归分析 7.2 相关分析,7.2.4 等级相关系数及其检验,等级相关系数检验。 当样本容量n20时,可利用以下的t统计量,进行 s的检验 (7.2.7) 当总体等级相关系数 s =0时,可以证明:t统计量服从自由度为n-2的t分布。在给定显著性水平下,如果|t|t/2(n-2),接受h0,表示y, x之间相关不显著;若|t|t/2(n-2),拒绝h0,表示y, x之间相关显著。 同样也可以参照样本相关系数的检验方法,构造新的统计量t2去进行f检验,或者直接查相关系数表检验。,ch7 相关与回归分析 7.2 相关分析,7.2.4 等级相关系数及其检验,【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果,能否得出复习时间越长考试成绩越高的结论。 解:,ch7 相关与回归分析 7.2 相关分析,7.2.4 等级相关系数及其检验,解:首先对复习时间x与考试成绩y按从小到大的顺序确定等级。对于xt或者yt相同的,取其应得等级的平均数。 其次,计算相关系数。根据公式,得=0.587,t=2.05。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t|=2.05t/2(n-2)=2.306,表示y, x之间相关不显著,难以判断复习时间x与考试成绩y之间存在显著的线性关系。 最后,计算等级相关系数 s。根据公式,得 s =0.9848,t s =16.04。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t s |=16.04t/2(n-2)=2.306,表示y, x之间相关显著,存在复习时间越长考试成绩越高的现象。,ch7 相关与回归分析 7.2 相关分析,返回,7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型 7.3.2 一元线性回归模型的估计 7.3.3 一元线性回归模型的检验 7.3.4 误差项t的自相关检验 7.3.5 一元线性回归模型的预测,ch7 相关与回归分析 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),返回,7.3.1 标准的一元线性回归模型,总体回归函数 设因变量为y,自变量为x;若y的数学期望存在,且服从如下的分布 yn (1+ 2x , 2) (7.3.1) 式中1, 2和2是不依赖于x的未知参数。则方程 y= 1+ 2x+ u ;u n (0, 2) (7.3.2) 就称为一元线性回归模型(或称为相关方程)。其中,是随机误差项, e () = 0。 又由于y的数学期望是x的函数, e ( yx ) = 1+ 2x (7.3.3) y的取值主要由x的取值决定, 因此,e (yx )是一个关于x的回归期望,它从平均意义上表达了y与x的统计规律性,于是,e (yx )也可以作为y的估计,故 x = 1+ 2x (7.3.4) 称为总体一元回归估计方程或者回归估计函数, 1, 2是这个回归方程中的回归系数,其图形表现为一条直线。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,误差项的标准假定 误差项的期望值恒为零,即 e (txt)=0 (7.3.5) 误差项的方差是同观察时点t无关的常数,即 var(txt)=e (t2xt)= 2 (7.3.6) 时点不同的误差项之间不相关,即 cov(t,s)=e (ts )=0;ts (7.3.7) t的概率分布与1, 2和x无关。 x是给定的变量(确定变量),即x,不是有统计从属关系的随机变量。 cov(xt,t)=e (xtt )=0 (7.3.8) t服从正态分布,即 t n (0, 2) (7.3.9) 以上假定最早是由德国数学家高斯提出来的,也称为高斯假定或者标准假定。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,满足以上假定的一元线性回归模型,称为标准的一元线性回归模型。满足假定的一元线性回归模型,称为标准线性正态回归模型。 应当指出的是,在现实的情况是由于种种原因,以上假定常常不能得到满足。其最一般的模型及回归函数为 y= 1 + 2x +u , x = e ( yx ) = 1+2x (7.3.10) u为随机误差项,e (u)=0, e(2)= 2,y与u同分布,且均为非正态分布,我们以下的讨论均以(7.3.10)式为基础,其余变量的解释如前。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.1 标准的一元线性回归模型,样本回归函数,就是根据样本资料(yt, x t),对总体回归函数进行拟合的估计函数。由于样本(yt, x t)来源于总体(y, x ),因此,样本回归线与总体回归线,有相同的函数形式。由样本关系方程 (7.3.11) 有样本回归函数 (7.3.12) 式中,yt和x t分别是y和x的第t次观察值;t为样本回归线上与x t相对应的值,它是对e(ytx t)的估计; 为样本回归系数,是对总体回归系数的1, 2的估计;t=ytt是实际观察值与样本估计值之差,亦称残差,是一个可计算的量;n为样本容量; 是对2的估计。 样本回归函数是总体回归函数的近似反映。 回归分析的主要任务,就是充分利用样本的信息,采用适当的方法,使得样本回归函数,尽可能接近真实的总体回归函数。,ch7 相关与回归分析 7.3 一元线性回归分析,返回,7.3.2 一元线性回归模型的估计,回归系数的估计 最小二乘法,简记为ols法。它的准则是使t的平方和最小,即 (7.3.15) 由极值条件,有联立方程 (7.3.16) 整理得正规方程组 (7.3.17),ch7 相关与回归分析 7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,回归系数的估计 (续) 求解正规方程组,得 (7.3.18) 利用(7.2.3)式,则最小二乘估计量,又可简写为 (7.3.19),ch7 相关与回归分析 7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,【例7-5】利用某国1951-1970年的消费y和可支配收入x数据,建立消费对可支配收入的回归估计方程。 解:因为消费y和可支配收入x之间是显著线性相关,所以,可以建立y,x之间的一元回归估计模型 y= 1+ 2x +u , x = e ( yx ) = 1+ 2x 根据最小二乘估计方法,得回归估计方程 x = 5.168775+0.900324x,s =3.174108481, 2=0.9993781 (2.205544043) (0.005293811) d=1.225513,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,最小二乘估计量的性质 可以证明,在高斯假定能够得到满足的条件下, (7.3.20) 其方差 (7.3.21) 回归系数的最小二乘估计量,是最优的线性无偏估计量和一致估计量。 以上性质,在文献中被称为高斯马尔可夫定理。该定理表明,在高斯假定条件下,最小二乘估计量,是一种最佳的估计方式。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,随机误差项的方差估计 数学上可以证明, 2的无偏估计s2可由下式给出: (7.3.23) 在一元线性回归模型中,残差t必须满足1, 2最小二乘估计要求所导出的两个约束条件: (7.3.24) 因而失去了2个自由度,所以,残差t的自由度为n -2。 s越小,表明实际观测点与所拟的样本回归线的离差程度越小,即回归线具有较强的代表性;反之,s越大,表明实际观测点与所拟合的样本回归的离差程度越大,即回归线的代表性较差。因此,s又叫做回归估计的标准误差。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.2 一元线性回归模型的估计,【例7-6】利用例7-2、例7-5的有关数据,计算其消费对可支配收入回归估计方程的回归估计标准误差。 解:已知n=20,(y)=7206.3 , (y2)=2888129, (xy)=3166305, (2)= (y2)-5.168775 (y)- 0.900324 (xy) =2888129-5.168775 7206.3-0.9003243166305 =181.3493637 s2= (2)/(n-2)=181.3493637/18=10.07496465 s=3.174108481 lxx=359506.4, (x)=7889.3, (x)/n=394.465 另外可计算回归系数1,2估计值的标准差分别为(2.205544043)和(0.005293811)。 上述结果如果用excel软件计算将更为简单。,ch7 相关与回归分析 7.3 一元线性回归分析,返回,7.3.3 一元线性回归模型的检验,回归模型检验的种类 包括理论意义检验、一级检验和二级检验。 理论意义检验,主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论及其人们的经验不相符,就说明模型不能很好地解释现实的现象。 一级检验,又称为统计学检验,它是利用统计学的抽样理论,来检验回归方程的可靠性,具体可分为拟合程度评价和显著性检验。一级检验,是所有回归分析必须通过的检验。 二级检验,又称为经济计量学检验,它是对标准线性回归模型中的高斯假定条件能否满足,进行检验,具体包括序列相关、异方差性检验等。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,由于 (7.3.30) lyy是实际观察值与其样本均值的总的离差平方和,ssr是由回归直线解释的那部分离差平方和,称为回归平方和,sse是残差平方和,是用回归直线无法解释的部分离差平方和。 公式两端同除以lyy,则 (7.3.31) 显然,各个样本观察值与样本回归线靠得愈近,ssr在lyy中的比例就越大。因此,可定义这一比例为可决系数 (7.3.32),ch7 相关与回归分析 7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,可决系数2,是对回归模型拟合程度的综合度量指标,2越大,模型拟合程度越高;2越小,模型拟合程度越差。可决系数2具有如下性质: 021;当样本观察值(yt, x t)都处于回归直线上时,sse=0,2=1;当观察值(yt, x t)并不全部处于回归直线上时,sse0,021;当模型中解释变量x与因变量y完全无关时,lyy=sse,2=0。 2是样本观察值(yt, x t)的函数,它也是一统计量; 2的开平方根为样本相关系数。可决系数开平方根后的符号,由回归变差lxy决定,它们两者同号。 注意:虽然2给出了一个回归的好坏、适与不适的程度,但不能说只有2=0时才表明x完全不能解释y。因为,即使总体相关系数=0,样本相关系数也不会正好是0。所以,一个更根本的问题是:0是否表示x和y真正相关0?回答这个问题的统计方法是问:2或是否显著地异于0?这就需要进行显著性检验。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,显著性检验 回归分析的显著性检验,包括两方面的内容: 一是对各回归系数的显著性检验; 二是对整个回归方程的显著性检验。 通常前者采用t检验,后者则是在方差分析的基础上,进行f检验。在一元线性回归模型中,由于只有一个解释变量x,对2=0的t检验,和对整个回归方程的f检验,是等价的。因此,这里只介绍对回归系数的显著性检验,而对整个回归方程的显著性检验,在下一节介绍。 回归系数的显著性检验,就是根据样本估计的结果,对总体回归系数的有关假设进行检验。为了进行检验,必须了解 的概率分布。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,因为 均为线性估计量,是因变量yt的线性组合,根据高斯假定,可知yt是服从正态分布的变量,所以 也服从正态分布。有 (7.3.34) 其中 在总体方差2已知的情况下,可利用z检验方法,对回归系数进行假设检验。但一般来说, 2是未知的,需要用其无偏估计量s2去代替。 用 代表 的估计值,数学上可以证明,当样本为小样本时,有 (7.3.35) 利用以上结论,就可以对回归系数进行显著性检验。 1, 2的检验方法是相同的,但2的检验更为重要,因为它表明自变量x对因变量y线性影响的程度。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.3 一元线性回归模型的检验,以2的检验为例,其回归系数的显著性检验步骤: 作统计假设 零假设h0: 2=0,备择假设h1: 20。 计算回归系数2的t值 选择显著性水平,取小概率=1%或者=5%。根据和自由度n-2,求t分布的临界值t/2,若|t|t/2,接受零假设h0,表示y, x之间相关不显著;若|t|t /2,拒绝零假设h0,表示y, x之间相关显著。 对一元线性回归模型,利用(7.3.18),有 (7.3.36) 可以证明:检验h0: 2=0等价于检验h0:=0,如果检验认为20,就意味着0,即认为x对y的解释作用是真实的。由于t t(n-2),可以证明,t2= f f(1,n-2),于是在一元线性回归模型中,对2的t检验和对lyy的解释平方和做f检验也是完全等效的。,ch7 相关与回归分析 7.3 一元线性回归分析,返回,7.3.4 误差项t的自相关检验,自相关或称序列相关: 如果误差项之间存在相关关系, cov(t,s)=e (ts ) 0; ts; ts (7.3.37) 则称这种现象为误差项t的自相关或称序列相关。 如果进一步有 t=et-1 +t; t n(0, 2); 且e (t s )=0;ts; ts。 (7.3.38) 其中-1e1,则具有这种自回归关系的误差项相关,简称一阶自相关。 e (t-1t ) =e (tt+1 ) =e (7.3.39) 如果误差项t存在自相关,则(7.3.12)式,便不能反映变量之间真正的依存关系,其用最小二乘法所做的回归估计,便是一个无效的估计,因此必须对t的独立性进行检验。由于总体资料是未知的,因此,只能以样本回归模型中的误差项t来检验。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,图解法 虽然t是总体误差,t是样本误差,t和t不是同一回事,但它们是有关的。可以证明 (7.3.40) 如果t存在自相关,则借助于(7.3.40)式中t可以反映出来。因此,考察t可以揭示有关t序列相关的线索。为此,可以针对式(7.3.40)编制t对时点t的散布图;或者针对式(7.3.38)编制t对t-1散布图。如果散布图表现如图7-4,就可以推测其中存在自相关;如果表现不是这样,也许可以认定为不存在自相关。 进一步,如果散布图有一种同号残差相随的倾向,就表明存在正相关e(ts )0;ts ;如果散布图有一种异号残差相随的倾向,就表明存在负相关e(ts )0;ts 。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,图解法,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,符号分析 顺序记下ls回归中残差t=ytt的符号,如果残差t 0,则记为“+”,若残差t 0,则为“”,如此一个残差序列t, t=1,2,3,n便可获得一个符号序列,比如 “+ ”, 符号序列中,连续同号的符号串,称为一个游程或者一个连串,一个游程中符号的个数,叫做游程的长度。可以证明,如果误差项t不存在序列相关e=0,则符号序列中符号“+”或“”的出现,应该是完全随机的;连串过多或者过少,都是违反随机原则的,应有 e0。利用符号检验方法,可以判断,如果连串过少,就表明有正的自相关;如果连串过多,就表明有负的自相关。 符号检验的具体方法参见第六章。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,d-w检验 d-w检验,也叫德宾沃森检验法(durbin-waston test)。该方法对检验是否存在一阶自相关,尤其有效。 d-w检验法的统计量d定义为 (7.3.41) 其中n代表样本大小。因为, 和 只相差一期观察值,它们是近似相等的,因此令 ,则(7.3.41)式可写成 (7.3.42),ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,定义样本的一阶自相关系数e为 (7.3.43) 它是e的一个估计式。利用(7.3.43)式,可以把(7.3.42) 式写成 (7.3.44) d的变化范围为0到4。 可见,如果不存在一阶自相关,有e=0,d2;如果存在完全的正自相关e=+1,于是d0,因此,d愈接近于0,则存在正自相关的可能性比较大,在残差图上各个t将聚集在一起,其差分势|t-t-1|表现必很小;如果e=-1,则连续的残差中有完全的负自相关,从而d4,因此,d愈接近于4,则愈能证实存在负自相关,其残差表现是一个正的t之后往往会有一个负的t,于是|t-t-1|t|。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,为了进一步判定在各种情况下,是否存在正的或负的自相关的问题,durbin-waston对任意的样本容量n和多达5个解释变量的情形,给出了d的分布及d的两个值dl(下界)和du(上界)。如果d值落在0, dl范围内,则认为存在正自相关;如果d值落入du, 4-du范围内,则认为存在负自相关;而当d落入du , 4-du范围内时,则认定不存在自相关;但当d落入dl, du或者4-dl, 4-du范围内时,则不能认定是否存在自相关。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,d-w双侧检验的具体步骤: 作统计假设 h0: e=0,h1: e0。 计算样本残差t,计算(7.3.41) 式d统计量。 选择显著性水平,取=1%或者=5%。根据,查d统计量表求临界值dl/2,du/2,若d4-du/2,拒绝h0选择h1存在自相关;若du/2d4-du/2,则接受h0,表示不存在自相关;如果dl/2ddu/2,或者4-dl/2d4-du/2,检验结果不确定。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.4 误差项t的自相关检验,【例7-7】利用例7-2、例7-5、例7-6的有关数据,试对消费与可支配收入的回归估计方程进行d-w双侧检验。 解:利用最小二乘估计方法,得回归估计方程的所有估计参数 x = 5.168775+0.900324x, s=3.174108481, 2=0.9993781 (2.205544043) (0.005293811) d=1.225513 其中(2.205544043)和(0.005293811)为回归系数1, 2估计值的标准差,而d为d-w检验法的统计量。 对于n=20,包括常数项在内的自变量个数k=2,查d-w统计量d表,在=5%显著水平上,得dl=1.20和du=1.41,因为d=1.225513在dl=1.20和du=1.41之间,故不能做出是否存在自相关的决定。,ch7 相关与回归分析 7.3 一元线性回归分析,返回,7.3.5 一元线性回归模型的预测,回归预测的基本公式为 (7.3.45) 式中,x0是给定的x具体数值;0是x0给定时y的预测值。回归预测是一种有条件的预测,在进行预测时,必须先给出x0的具体数值。当给出x0属于样本内的数值时,利用(7.3.45)式计算0称为内插检验或者事后预测。当给出x0属于样本之外的数值时,利用(7.3.45)式计算0称为外推预测或者事前预测。通常所说的预测就是指事前预测。 预测误差 0是根据样本回归方程计算的,它是样本观察值的函数,因而也是一随机变量。0与所要预测的y的真值之间,必然存在一定的误差。这个误差的来源,一般可以概括为以下四个方面: 模型结构误差所造成的误差。这一误差,可以用总体的方差2来评价。 回归系数的估计值同其真值不一致所造成的误差。这一误差,可以用回归系数的最小二乘估计量的方差 来评价。这个方差值的大小,通常用来衡量模型的稳定性。 自变量x的设定值同其实际值的偏离所造成的误差。 未来时期1, 2发生变化所造成的误差。 在以上造成预测误差的原因中,、两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在、两种误差。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.5 一元线性回归模型的预测,设x0给定时y的真值为y0,有 y0= 1+ 2x0 +u0 , (7.3.46) 则有 (7.3.47) 式中,e0是预测的残差。利用期望值与方差的运算规则,以及前面给出的回归系数最小二乘估计量的期望值与方差,可以证明 (7.3.48) 在此基础上,可以证明,0是y0的最优线性无偏估计预测,即在高斯假定得到满足的条件下,(7.3.45) 式就是y0的最佳预测方式。,ch7 相关与回归分析 7.3 一元线性回归分析,7.3.5 一元线性回归模型的预测,y0的区间估计: 由(7.3.47)、(7.3.48)式可知,在高斯假定条件下,e0服从于标准正态分布,即 e0 n (0,var(e0) (7.3.49) 由于var(e0)中的2是未知的,通常用其无偏估计量s2来代替。如果用se0来表示预测的标准误差的估计值, (7.3.50) 数学上可以证明 (y0-0)/se0 t(n-2) (7.3.51) 对于给定的置信度为1- ,有 pro0- t /2 (n-2) se0 y0 0 + t /2 (n-2) se0=1- , (7.3.52) 于是可以得出y0的1- 的置信区间为 0-t/2 (n-2) se0 y0 0 + t/2 (n-2) se0, (7.3.53) 式中,t/2 (n-2)是置信度为1- 、自由度为n-2的t分布的临界值。该区间以0为中点,长度为2 t /2 (n-2) se0。中点0随x0线性地变化;其长度在处最短;x0越远离,长度就越长。因此,置信区间的上限与下限曲线对称地落在回归直线两侧,而呈喇叭型。,ch7 相关与回归分析 7.3 一元线性回归分析,返回,7.4 多元线性回归分析,7.4.1 标准的多元线性回归模型 7.4.2 多元线性回归模型的估计 7.4.3 多元线性回归模型的检验 7.4.4 多元线性回归模型的预测,ch7 相关与回归分析 7.1 相关与回归的基本概念 7.2 相关分析 7.3 一元线性回归分析 7.4 多元线性回归分析(new) 7.5 回归诊断与残差分析(new),返回,7.4.1 标准的多元线性回归模型,设因变量y和自变量x2, x3, x4, . ,xp的关系模型为 y= 1+ 2x2+ 3x3+ 4x4+ pxp+ u ;u n (0, 2) (7.4.1) 上式中,是随机误差项,且服从标准正态分布, 1, 2, 3, 4, p是总体回归系数, 2是总体方差。 由于j表示在其它自变量保持不变的条件下,自变量xj的单位变动所引起的y的平均变动,因此又叫偏回归系数。偏回归系数j和总体方差2均是不依赖于xj的未知参数,必须利用样本资料进行估计;它们的估计值依然记为 。 显然,如果有来源于总体的n组样本(y;x 2, x 3,x 4,x p) t ,t=1,2,3,4,.,n-1,n,那么多元线性回归的总体模型可表为 (7.4.2),ch7 相关与回归分析 7.4 多元线性回归分析(new),7.4.1 标准的多元线性回归模型,令y=(y1,y2,yn) 1n , =(1, 2, n) 1n ,u=( u1, u2, , un) 1n,e=(e1,e2,. ,en) 1n, =(1, 2, 3, 4,. , p) 1p, =( )1 p , (7.4.3) 则(7.4.2)式可写成矩阵形式 y= x + u ;u n (0n, 2 in)=n (0, 2 i) (7.4.4) 多元线性回归的总体向量函数表为 x = x (7.4.5) 多元线性的样本向量方程为 y= x + e; e n (0, i) (7.4.6) 其回归的样本函数为 x = x (7.4.7) 此时,回归函数的图形表现不再是一条直线,而是一个向量平面。,ch7 相关与回归分析 7.4 多元线性回归分析(new),返回,7.4.2 多元线性回归模型的参数估计,回归系数的估计 多元线性模型中, 的估计,依然采用最小二乘法使残差平方和最小 (7.4.8) 分别对回归系数求偏导数并令其为0,就可以得出回归系数的最小二乘解。但更多的是将残差平方和写成 (7.4.9) 运用极值原理,qe对微分并令其为0,也可求得使qe最小的,这就是olse。,ch7 相关与回归分析 7.4 多元线性回归分析(new),7.4.2 多元线性回归模型的参数估计,(7.4.10) 其中2 xy= xy+yx 是因为 xy和yx 都是一阶方阵,即为一个数。 由(7.4.10)式有 xx =xy (7.4.11) 当(xx)-1存在,即|xx|0时,便有 =(xx)-1xy (7.4.12) (7.4.11)式实际是一个含有p个未知参数1, 2, 3, 4,. , p的正规方程组。(7.4.12) 式即为的olse。,ch7 相关与回归分析 7.4 多元线性回归分析(new),7.4.2 多元线性回归模型的参数估计,的olse也是一个随机变量。可以证明,在高斯假定(在一元模型假定的基础上增加条件:各自变量之间不能有较强的线性关系,e(xpxk )=0;pk)条件下, 的olse是最优的线性无偏估计量和一致估计量。高斯马尔可夫定理在多元线性回归模型中依然成立。 于是, 的olse的期望值等于 e( )= (7.4.13) 的olse的方差、协方差矩阵为 var( )=e( - )( - )=2(xx)-1, (7.4.14) 该矩阵的主对角线元素为各回归系数估计值的方差,其它元素为各回归系数估计值之间的协方差。,ch7 相关与回归分析 7.4 多元线性回归分析(new),7.4.2 多元线性回归模型的参数估计,总体方差2的估计 2的估计,也是利用残差平方和ee除以其自由度来估计的,即 (7.4.15) 上式中,n是样本观察值的个数,p是回归方程中回归系数的个数。在p元线性回归模型中,残差t必须满足p个约束条件,因此其自由度为n-p。可以证明, (7.4.16) s2是2的无偏估计。 s叫做回归估计的标准误差。s越小,表明样本回归线的代表性越强。 同样,可得到的olse的方差、协方差的估计值矩阵 e(var( )= (xx)-1=s2(xx)-1, (7.4.18),ch7 相关与回归分析 7.4 多元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论