第 8 章 相关分析及回归分析_第1页
第 8 章 相关分析及回归分析_第2页
第 8 章 相关分析及回归分析_第3页
第 8 章 相关分析及回归分析_第4页
第 8 章 相关分析及回归分析_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第第8 8章章 相关分析和回归分析相关分析和回归分析2 相关分析(相关分析(掌握掌握) 线性回归分析(线性回归分析(掌握掌握) 回归模型的统计检验和预测(回归模型的统计检验和预测(掌握掌握) 非线性回归模型(非线性回归模型(了解了解) 主要内容和学习目标主要内容和学习目标 3 8.1.1 8.1.1 相关关系的概念和种类相关关系的概念和种类 1.1.相关关系的概念相关关系的概念 在社会经济发展变化中,客观现象总是普遍在社会经济发展变化中,客观现象总是普遍联系和相互依存的,客观现象(变量)之间联系和相互依存的,客观现象(变量)之间的数量依存关系可分为两种类型:确定性关的数量依存关系可分为两种类

2、型:确定性关系和系和相关关系相关关系。 相关关系相关关系是指现象之间客观存在的非确定性是指现象之间客观存在的非确定性的数量依存关系。的数量依存关系。 8.1 8.1相关分析相关分析4如:商品的消费量(如:商品的消费量(y y)与居民收入()与居民收入(x x)之间的关系)之间的关系 变量间关系是变量间关系是不能用函数关系精确表达不能用函数关系精确表达的,一个变的,一个变量的取值不能由另一个变量唯一确定。量的取值不能由另一个变量唯一确定。各观测点分布在直线周围。各观测点分布在直线周围。相关分析的意义相关分析的意义 在分析变量的依存关系时,我们把变量分在分析变量的依存关系时,我们把变量分为两种:为

3、两种:自变量自变量因变量因变量引起其他变量发生变化的量。引起其他变量发生变化的量。受自变量的影响发生对应变化的量受自变量的影响发生对应变化的量 8.1 8.1相关分析相关分析例如:家庭收入决定消费支出,收例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,入的变化必然引起消费支出的变化,这两个变量中收入是这两个变量中收入是自变量自变量,而消费,而消费支出则是支出则是因变量因变量。相关分析的意义相关分析的意义指变量之间存在着确定性依存指变量之间存在着确定性依存关系。即当一个或一组变量每取关系。即当一个或一组变量每取一个值时,相应的另一个变量必一个值时,相应的另一个变量必然有一个确定值与

4、之对应然有一个确定值与之对应 。 函数关系可以用一个确定的公式,函数关系可以用一个确定的公式,即函数式即函数式 21rS、圆面积例来表示。来表示。 ),(21nxxxfy或:Y=F(X)指变量之间存在着非确定性依指变量之间存在着非确定性依存关系。即当一个或一组变量每存关系。即当一个或一组变量每取一个值时,相应的另一个变量取一个值时,相应的另一个变量可能有多个不同值与之对应可能有多个不同值与之对应 。 例例2、根据消费理论,商品需求量、根据消费理论,商品需求量Q与与商品价格商品价格P、居民收入、居民收入I之间具有相关关系:之间具有相关关系: 21bbIaPQ),(21nxxxfy或:Y=F(X)

5、+式中,式中, 为影响为影响Y的除的除X外的其他随机因素。外的其他随机因素。 是两个变量之间存在的相关是两个变量之间存在的相关关系,即一个因变量与一个自变关系,即一个因变量与一个自变量之间的依存关系。因此也称为量之间的依存关系。因此也称为也称多元相关,是指三个或三也称多元相关,是指三个或三个以上变量之间存在的相关关系,个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更通常涉及一个因变量与两个或更多个自变量,也称多个自变量,也称1 1、按相关关系涉及变量的多少可分为:、按相关关系涉及变量的多少可分为:2 2、按相关关系形式可分为:、按相关关系形式可分为:3 3、按相关的方向可分为:、按相

6、关的方向可分为:体 重90807060504030身高180170160150线性正相关线性正相关支 出700600500400300200成绩100806040200线性负相关线性负相关非线性相关非线性相关体 重90807060504030成绩100806040200无(不)相无(不)相关关4 4、按相关关系的密切程度分为:、按相关关系的密切程度分为:162. 2. 相关关系的种类相关关系的种类(1 1)按相关的方向可以分为)按相关的方向可以分为正相关正相关和和负相关负相关。(2 2)按相关的程度可分为)按相关的程度可分为完全相关完全相关、不完全相关不完全相关和和不相关不相关。(3 3)按涉

7、及的变量或因素的个数可以分为)按涉及的变量或因素的个数可以分为单相关单相关与与复相关复相关。(4 4)按相关的表现形式可分为)按相关的表现形式可分为线性相关线性相关与与非线性相关非线性相关。17相关关系的种类的关系图相关关系的种类的关系图(1 1)确定现象之间有无相关关系,以及)确定现象之间有无相关关系,以及相关关系的表现形态。相关关系的表现形态。(2 2)确定相关关系的密切程度。)确定相关关系的密切程度。(3 3)确定相关关系的数字模型,并进行)确定相关关系的数字模型,并进行参数估计和拟合优度检验。参数估计和拟合优度检验。(4 4)回归预测,并分析估计标准误差。)回归预测,并分析估计标准误差

8、。 相关分析的主要内容包括相关分析的主要内容包括:定性分析定性分析定量分析定量分析将两个变量伴随变动结果编成将两个变量伴随变动结果编成一张统计表,即一张统计表,即相关表相关表。两个变量两个变量均不分组均不分组而形成的相而形成的相关表。关表。对变量进行对变量进行分组分组而形成的相关而形成的相关表。依两个变量是否同时分组,表。依两个变量是否同时分组,又分为:又分为:只对其中一个变量分组。只对其中一个变量分组。对两个变量同时分组。对两个变量同时分组。企业编号企业编号月产量(千吨)月产量(千吨)X生产费用(万元)生产费用(万元)Y123456781.22.03.13.85.06.17.28.06286

9、80110115132135160八个同类工业企业的月产量与生产费用八个同类工业企业的月产量与生产费用平均每昼平均每昼夜产量夜产量 固定资产原值固定资产原值3540404545505055 5560606565706006501 15506001235005502134505001517400450224350400030035022223543120(百万元)(百万元)(吨)(吨)YfXf2020个同类工业企业固定资产原值与平均每昼夜产量个同类工业企业固定资产原值与平均每昼夜产量将变量之间的伴随变动绘于坐标图将变量之间的伴随变动绘于坐标图上所形成的统计图。又称上所形成的统计图。又称散点图散点

10、图。根据根据未分组资料未分组资料的原始数据直的原始数据直接绘制的相关图。接绘制的相关图。根据根据分组资料分组资料绘制的相关图。绘制的相关图。体 重90807060504030身高180170160150XY268.1.28.1.2 相关分析的图表和意义相关分析的图表和意义1 1、相关图表相关图表 相关表和相关图可直观地表达变量之间相关表和相关图可直观地表达变量之间的相关关系的程度。的相关关系的程度。 相关表相关表是将具有相关关系的原始数据是将具有相关关系的原始数据, ,按按某一顺序平行排列在一张表上某一顺序平行排列在一张表上, ,以观察它以观察它们之间的相互关系。们之间的相互关系。27表表8-

11、18-1高校人数和周边饭店季营业额高校人数和周边饭店季营业额饭饭店店学生人学生人数(千数(千人)人)x x季营业季营业额(千额(千元)元)y y饭饭店店学生人学生人数(千数(千人)人)x x季营业额季营业额(千元)(千元)y y1 12 258586 616161371372 26 61051057 720201571573 38 888888 820201691694 48 81181189 922221491495 512121171171010262620220228 相关图相关图也称为分布图或散点图,它是在平面也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点描绘直角坐

12、标中把相关关系的原始数据用点描绘出来,通常以直角坐标的横轴代表自变量出来,通常以直角坐标的横轴代表自变量x,x,纵轴代表因变量纵轴代表因变量y y。相关图所反映的变量之。相关图所反映的变量之间的相关关系的方向和程序比相关表更为清间的相关关系的方向和程序比相关表更为清晰,也更为直观。晰,也更为直观。29图图8-18-1学生人数和季营业额相关图学生人数和季营业额相关图 30312. 2. 相关分析的意义相关分析的意义(1 1)相关分析可以确定变量之间相关关系的)相关分析可以确定变量之间相关关系的方向和程度方向和程度(2 2)相关分析可以衡量回归估计的精确程度)相关分析可以衡量回归估计的精确程度32

13、8.1.3 8.1.3 简单线性相关简单线性相关1. 1. 相关系数相关系数 相关系数相关系数是描述相关的两个变量之间相关关是描述相关的两个变量之间相关关系密切程度的数量指标。早在系密切程度的数量指标。早在18901890年,英国年,英国著名统计学家著名统计学家Karl PearsonKarl Pearson便提出了一个测便提出了一个测定两个变量线性相关的计算方法,通常称为定两个变量线性相关的计算方法,通常称为积差相关系数或简单相关系数。积差相关系数或简单相关系数。33总体相关系数总体相关系数: :XYXY式中:XY是变量是变量X X和和Y Y的协方差的协方差X是变量是变量X X的标准差的标准

14、差Y是变量是变量Y Y的标准差的标准差样本相关系数样本相关系数:22()()iiiixxyyrxxyy34 计算学生人数和季营业额的相关系数计算学生人数和季营业额的相关系数 124608119 1401100.9611(2207119 119) (2818011401 1401)1010r 【例8.2】利用表8-1的数据,计算学生人数x(万人)和季营业额y(万元)的相关系数。352.2.相关系数的性质相关系数的性质 (1 1)(2 2)若)若 ,表示变量,表示变量x x与变量与变量y y为线性正相为线性正相关关系;若关关系;若 ,表示变量,表示变量x x与变量与变量y y为为线性负相关关系。线

15、性负相关关系。(3 3)若)若 ,表示两变量完全线性相关,即变,表示两变量完全线性相关,即变量量x x与变量与变量y y之间存在确定的函数关系。若之间存在确定的函数关系。若 ,表示两变量完全线性正相关;若表示两变量完全线性正相关;若 ,表示两变,表示两变量完全线性负相关。量完全线性负相关。(4 4)若)若 ,表示两变量不存在线性相关。,表示两变量不存在线性相关。| 1r 01r10r | 1r 1r 1r 0r 36(5 5)当)当 时,表示两变量存在不同程度的时,表示两变量存在不同程度的线性相关。线性相关。 的数值越接近于的数值越接近于1 1,表示两变量之,表示两变量之间线性相关程度越高;反

16、之间线性相关程度越高;反之, , 的数值越接近于的数值越接近于0 0,表示两变量之间线性相关程度越低。通常认为:表示两变量之间线性相关程度越低。通常认为: 微弱相关;微弱相关; 低度相关低度相关 显著相关;显著相关; 高度相关高度相关(6 6)相关系数不受变量值水平和计量单位的影响。)相关系数不受变量值水平和计量单位的影响。0 | 1r|r|r0 | 0.3r0.3 | | 0.5r0.5 | 0.8r0.8 | 1r37根据给定的显著性水平和自由度根据给定的显著性水平和自由度n-2,n-2,查找查找t t分布中的相分布中的相应临界值应临界值 。如果。如果 ,就否定原假设,认为,就否定原假设,

17、认为 r r 在统计上是显著的,即总体相关系数不为零,总体变在统计上是显著的,即总体相关系数不为零,总体变量间存在线性相关关系。量间存在线性相关关系。3.3.相关系数的显著性检验相关系数的显著性检验提出假设:提出假设:01:0,:0HH计算计算 t t 检验统计量:检验统计量: 2t2|tt 38 检验高校学生人数与周边饭店季营业额之间的相关检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性水平系数是否显著,显著性水平 =0.05=0.05。 第一步:提出假设第一步:提出假设 第二步:构造并计算检验统计量第二步:构造并计算检验统计量01:0; :0HH221020.958.611

18、1 0.95 0.95ntrr39 第三步:确定临界值。根据给定的显著性水平第三步:确定临界值。根据给定的显著性水平 =0.05=0.05和自由度和自由度10-2=810-2=8,查找,查找t t分布表或利用分布表或利用ExcelExcel计算,得到临界值。计算,得到临界值。 第四步:决策。由于第四步:决策。由于 所以拒绝原假设,说明高校学生人数与周边饭店季所以拒绝原假设,说明高校学生人数与周边饭店季营业额之间存在着显著的正线性相关关系。营业额之间存在着显著的正线性相关关系。0.025(8)(0.05,8)2.31tTINV0.025| | 8.61(8)2.31tt40 8.2.1 8.2.

19、1 回归分析回归分析 回归分析回归分析是根据已知变量估计未知变量是根据已知变量估计未知变量的一种统计方法,它是以对未知变量的一种统计方法,它是以对未知变量( (因因变量变量) )同其他变量同其他变量( (自变量自变量) )相互关系的观相互关系的观察为基础,在某种精确度下,预测未知变察为基础,在某种精确度下,预测未知变量的数值。量的数值。 8.2 8.2 线性回归分析线性回归分析41回归分析的内容和步骤回归分析的内容和步骤: 选择适当的回归模型。选择适当的回归模型。 进行参数估计。进行参数估计。 进行模型的检验。进行模型的检验。 进行预测。即根据回归方程进行适当的经进行预测。即根据回归方程进行适

20、当的经济预测,这是回归分析的最终目的。济预测,这是回归分析的最终目的。421. 1. 总体回归方程与样本回归方程总体回归方程与样本回归方程 例:研究家庭消费支出与家庭收入之例:研究家庭消费支出与家庭收入之间的关系,一个总体由间的关系,一个总体由5050户家庭组成,户家庭组成,并按人均月收入水平划分成组内收入并按人均月收入水平划分成组内收入水平大致相同的水平大致相同的1010个组。个组。43图图8-4 8-4 不同收入水平的家庭消费支出散点分布图不同收入水平的家庭消费支出散点分布图总体回归线PRL随机试验所有可能结果的集合称为总体或样本空间第一节 古典回归模型 由图中看出总体回归直线是线性的,用

21、函数的形式来由图中看出总体回归直线是线性的,用函数的形式来表示:表示: (1)(1) 这是直线的数学表达式,在式这是直线的数学表达式,在式(1)(1)中,中, E(YE(YXi)Xi)表示给定表示给定X X值相应的值相应的( (或条件的或条件的) )Y Y 的均值,的均值,称为称为或条件均值下标或条件均值下标i i代表第代表第i i个子总体。个子总体。01( |)iiE Y XX第一节 古典回归模型注意注意: E E( (Y YX Xi i) )是是X Xi i的函数的函数( (在此例中是线性函数在此例中是线性函数) )。这意味。这意味着着Y Y 依赖于依赖于X Xi i,一般称之为,一般称之

22、为。回归可简。回归可简单地定义为在给定单地定义为在给定X X 值的条件下值的条件下Y Y 值分布的均值。换值分布的均值。换句话说,总体回归直线经过句话说,总体回归直线经过Y Y 的条件期望值。式的条件期望值。式(1)(1)是总体回归函数是总体回归函数(Population Regression Function, (Population Regression Function, PRF)PRF)的数学形式。在本例中,总体回归函数是线性函的数学形式。在本例中,总体回归函数是线性函数。数。第一节 古典回归模型 为参数为参数( (parameters) ),也称,也称回归系数回归系数( (regre

23、ssion coefficients) )。 又称为截距又称为截距( (intercept) ),是当,是当X X为为0 0时时Y Y的均值的均值 又称为斜率又称为斜率( (slope) ),斜率度量了,斜率度量了X X 每变动一每变动一单位,单位,Y Y 的均值的变化率。的均值的变化率。 例,如果斜率例,如果斜率 为为0.5,那么,当收入,那么,当收入x x每增加每增加1 1单位(千元),单位(千元),Y Y 的的( (期望期望) )均值将增加均值将增加0.50.5个单位个单位(千元);即,平均而言,消费支出将增加(千元);即,平均而言,消费支出将增加0.50.5千元。千元。 0101,1第

24、一节 古典回归模型模型的随机设定模型的随机设定 从图中可看出单个家庭的消费支出与平均消费支出从图中可看出单个家庭的消费支出与平均消费支出之间存在着一定的离差,即之间存在着一定的离差,即 (2)(2) 其中,其中, 表示随机误差项表示随机误差项(stochastic, random (stochastic, random error term)error term)或简称为误差项。或简称为误差项。01iiiYXi48表表8-4 8-4 从表从表8-38-3的总体中抽取一个随机样本的总体中抽取一个随机样本 XYXY10.7763.2021.1074.0031.7084.3041.6594.5052

25、.50106.0049图图8-5 8-5 总体回归线与样本回归线总体回归线与样本回归线第一节 古典回归模型 得到一条很好地得到一条很好地“拟合拟合”了样本数据了样本数据的直线,称之为的直线,称之为(sample (sample regression lines, SRL)regression lines, SRL)。 可能从可能从K K个不同的样本中得到个不同的样本中得到K K条不同条不同的样本回归直线,所有的这些样本回的样本回归直线,所有的这些样本回归线不可能都相同。每一条直线也最归线不可能都相同。每一条直线也最多是对真实总体回归线的多是对真实总体回归线的近似近似。第一节 古典回归模型 用样

26、本回归函数用样本回归函数(sample regression (sample regression function,S R F)function,S R F)来表示样本回归线。来表示样本回归线。 (3)(3) 表示总体条件均值,表示总体条件均值, E(Y|Xi)E(Y|Xi)的估计量;的估计量; 表示表示 的估计量;的估计量; 表示表示 的估计量;的估计量;001iiYXiY110第一节 古典回归模型 建立随机的样本回归函数:建立随机的样本回归函数: (4) 其中其中eiei为残差项为残差项(residual term)(residual term),或简称,或简称为残差为残差(residu

27、al)(residual)。01iiiYXe第一节 古典回归模型 回归分析的主要目的是根据样本回归函数回归分析的主要目的是根据样本回归函数来估计总体回归函数,来估计总体回归函数,01iiiYXe01iiiYX542. 2. 相关分析与回归分析的联系与区别相关分析与回归分析的联系与区别(1 1)相关分析与回归分析的)相关分析与回归分析的联系联系 相关分析和回归分析具有共同的研究对象相关分析和回归分析具有共同的研究对象 相关分析和回归分析需要相互补充相关分析和回归分析需要相互补充 相关分析是回归分析的前提相关分析是回归分析的前提 回归分析是相关分析的拓展回归分析是相关分析的拓展55(2 2)相关分

28、析与回归分析的)相关分析与回归分析的区别区别 变量的地位不同变量的地位不同 变量的性质不同变量的性质不同 研究的目的不同研究的目的不同 研究的方法不同研究的方法不同 所起的作用不同所起的作用不同568.2.2 8.2.2 一元线性回归模型一元线性回归模型1. 1. 回归模型的基本假定回归模型的基本假定 回归模型回归模型是描述因变量如何依赖自变量和随是描述因变量如何依赖自变量和随机误差项的方程。一元线性回归模型只涉及机误差项的方程。一元线性回归模型只涉及一个自变量,可表述为:一个自变量,可表述为:01yx第一节 古典回归模型随机误差项是服从正态分布的实随机变量。随机误差项是服从正态分布的实随机变

29、量。零均值假定。即零均值假定。即同方差假定,即对于自变量同方差假定,即对于自变量 所有观察值,随机误差项所有观察值,随机误差项 的方差的方差 都相同。都相同。非自相关假定,即与自变量不同观察值对应非自相关假定,即与自变量不同观察值对应的随机误差项之间是互不相关、互不影响的的随机误差项之间是互不相关、互不影响的自变量变量与随机误差项不相关假定。自变量变量与随机误差项不相关假定。无多重共线性假定。无多重共线性假定。回归模型的基本假定回归模型的基本假定( )0E12,kx xx22. 2. 最小二乘估计最小二乘估计(OLS)(OLS) 残差是残差是Y Yi i的真实值与估计值之差的真实值与估计值之差

30、,即,即 普通最小二乘法普通最小二乘法(ordinary least squares, OLS )(ordinary least squares, OLS ),即选择参数即选择参数 和和 ,使得全部观察值的残差平方和,使得全部观察值的残差平方和最小。最小。 用数学形式表示为:用数学形式表示为: 最小二乘原理就是所选样本回归函数使得所有最小二乘原理就是所选样本回归函数使得所有Y Y的估的估计值与真实值差的平方和最小。计值与真实值差的平方和最小。iiiiieYYYY实际的估计的22201min:()()iiiiieY YYX01 求解联立方程求解联立方程 解得解得 0100112()( 1)02(

31、)()0iiiiiQyxQyxx12201()iiiiiinx yxynxxyx6061参数估计误差和置信区间参数估计误差和置信区间(1)(1)估计误差估计误差: :估计值和真值的偏差估计值和真值的偏差。 的估计误差为:的估计误差为: 的估计误差为:的估计误差为:0122122( )(x)(2)(x)iiieSxnx2202()()()(2)(x)iiiexSn nx6263(2)(2)置信区间置信区间 对于给定的置信度对于给定的置信度1-1- , 参数的置信区间为参数的置信区间为: :即以即以100(1-100(1- )%)%的概率回归系数属于该区间内。的概率回归系数属于该区间内。 同理,同

32、理, 参数的置信区间为参数的置信区间为1121121(2) (),(2) ()tnStnS020020(2) (),(2) ()tnStnS0648.2.3 8.2.3 多元线性回归模型多元线性回归模型1. 1. 多元线性回归模型的参数估计多元线性回归模型的参数估计 利用最小二乘法估计模型的参数利用最小二乘法估计模型的参数01 122 1,2,iiikkiiyxxxin22201 122() ()miniiiiiikkieyyyxxx65 参数估计值应该是下列方程组的解:参数估计值应该是下列方程组的解:01 122001 1221101 1222()( 1)02()()0()()0iiikki

33、iiikkiiiiikkikikQyxxxQyxxxxQyxxxx66 定义矩阵: 方程组可以用矩阵表示成: 参数的最小二乘估计为121nnyyYy112111222212(1)1 1 1 kknnknnkxxxxxxXxxx0 11(1) 1kkB ()X YX X B1()BX XX Y672. 2. 参数的估计误差和置信区间参数的估计误差和置信区间 参数估计值的标准差为参数估计值的标准差为 为矩阵为矩阵 对角线上的第对角线上的第i i个元素个元素 对于给定的置信度对于给定的置信度1-1- ,参数的,参数的100(1-100(1- )%)%置置信区间为:信区间为:22()1iiiiiieS

34、ccnk22(1) (),(1) ()iiiitnkStnkSiic1()CX X683. 3. 多元回归模型中的相关分析多元回归模型中的相关分析 多元回归分析中,由于变量总数不止两个,多元回归分析中,由于变量总数不止两个,因变量与多个自变量的组合产生一定的依存因变量与多个自变量的组合产生一定的依存关系;同时任何两个变量之间的相关关系都关系;同时任何两个变量之间的相关关系都可能受到其余变量的影响。为此需要对已建可能受到其余变量的影响。为此需要对已建立的多元回归模型进行相关分析,包括立的多元回归模型进行相关分析,包括复相复相关关和和偏相关偏相关。69(1)(1)复相关复相关在多变量情况下,复相关

35、系数是用来测定因变量在多变量情况下,复相关系数是用来测定因变量 与一组自变量与一组自变量 之间相关程度的指标。其计之间相关程度的指标。其计算公式为:算公式为:12,mx xxy22,122()1()iiymiyyrRyy复相关系数的值域在复相关系数的值域在0 0到到1 1之间,它的值为之间,它的值为1 1,表明,表明 与与 之间存在严密的线性关系;它的值为之间存在严密的线性关系;它的值为0 0,则表明则表明 与与 之间不存在任何线性相关关之间不存在任何线性相关关系;它的取值在系;它的取值在0 0和和1 1之间时,表明变量之间存在一定的之间时,表明变量之间存在一定的线性相关关系。线性相关关系。y

36、12,mxxx y12,mxxx 70(2)(2)偏相关偏相关 在多变量情况下,偏相关系数是用来测定当其他变在多变量情况下,偏相关系数是用来测定当其他变量保持不变的情况下,任意两个变量之间相关程度的指量保持不变的情况下,任意两个变量之间相关程度的指标。它主要考察两个变量之间的净相关关系,从而反映标。它主要考察两个变量之间的净相关关系,从而反映现象之间的真实联系。以两个自变量的情形为例现象之间的真实联系。以两个自变量的情形为例: 12121222212(1)(1)yyyyrrrrrr21122122112(1)(1)yyyyrrrrrrx1和和y偏相关系数:偏相关系数: x2和和y偏相关系数:偏

37、相关系数:71 回归分析回归分析是要通过样本所估计的参数来代替总体是要通过样本所估计的参数来代替总体的真实参数。的真实参数。 在一次抽样中,参数的估计值与真值的差异有多在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。大,是否显著,这就需要进一步进行统计检验。主要包括主要包括拟合优度检验拟合优度检验、模型的、模型的显著性检验显著性检验和变和变量的量的显著性检验显著性检验,以及,以及预测预测。 8.3 8.3 回归模型的统计检验和预测回归模型的统计检验和预测 728.3.1 8.3.1 模型的拟合优度检验模型的拟合优度检验 对样本回归直线与样本观测值之对样本回归

38、直线与样本观测值之间拟合程度的检验。间拟合程度的检验。: 判定系数判定系数(可决系数可决系数)R R2 2问题:问题:采用普通最小二乘估计方法,已经保证了采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验模型最好地拟合了样本观测值,为什么还要检验拟合程度?拟合程度?73 如果如果Y Yi i= =i i 即实际观测值落在样本回归即实际观测值落在样本回归“线线”上,则上,则拟合拟合最好最好。可认为。可认为, ,“离差离差”全部来自回归线,而与全部来自回归线,而与“残差残差”无无关。关。 74 对于所有样本点,则需考虑这些点与样本均值离对于所有样本点,则需考虑这些点与样

39、本均值离差的平方和差的平方和, ,可以证明可以证明:22)(yynLSSTyy 222)()(xxnyxxynUSSR 2)(bxayQSSELyy=U+Q76SST=SSR+SSE Y的观测值围绕其均值的总离差总离差(total variation)可分解为两部分:一部分来自回归一部分来自回归线线(RSS),另一部分则来自随机势力,另一部分则来自随机势力(ESS)。在给定样本中,在给定样本中,SST不变,如果实际观测点离不变,如果实际观测点离样本回归线越近,则样本回归线越近,则SSR在在SST中占的比重越中占的比重越大,因此大,因此 拟合优度拟合优度:回归平方和:回归平方和SSR/YSSR/

40、Y的总离差的总离差SSTSST7721R S SE S SRT S ST S S可决系数可决系数R R2 2统计量统计量 称称 R R2 2 为(样本)为(样本)可决系数可决系数或或判定系数判定系数 可决系数可决系数的取值范围:的取值范围:00,11 R R2 2越接近越接近1 1,说明实际观测点离样本线越近,说明实际观测点离样本线越近,拟合优度越高。拟合优度越高。788.3.2 8.3.2 模型的显著性检验模型的显著性检验 模型的模型的显著性检验显著性检验,就是检验模型对总体的近似程度,就是检验模型对总体的近似程度,即检验因变量即检验因变量y y和模型中所以自变量的线性关系是否和模型中所以自

41、变量的线性关系是否显著。通常构造显著。通常构造F F统计量进行检验,称为统计量进行检验,称为F F检验。检验。 对多元线性回归模型对多元线性回归模型01 122 1,2,iiikkiiyxxxin79基本步骤如下:基本步骤如下: 1 1、提出假设、提出假设2 2、计算检验统计量:、计算检验统计量:3 3、对给定的显著水平、对给定的显著水平 确定临界值确定临界值4 4、得出检验结论:、得出检验结论:如果如果 ,则否定原假设,表明回归,则否定原假设,表明回归模型是显著的;反之,就不能否定原假设。模型是显著的;反之,就不能否定原假设。012112:0; :,0kkHH 至少有一个不等于/( ,1)/(1)SSR kFF k nkSSEnk( ,1)FFk nk( ,1)F k nk808.3.3 8.3.3 解释变量的显著性检验解释变量的显著性检验 变量的显著性检验变量的显著性检验是判断解释变量是判断解释变量X X是否对被解释是否对被解释变量变量Y Y具有显著的线性性影响,具有显著的线性性影响,主要是针对变量的主要是针对变量的参数真值是否为零来进行显著性检验的。参数真值是否为零来进行显著性检验的。 多元线性回归模型,多元线性回归模型, 检验某个自变量检验某个自变量 x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论