预测与决策-回归分析预测法.ppt_第1页
预测与决策-回归分析预测法.ppt_第2页
预测与决策-回归分析预测法.ppt_第3页
预测与决策-回归分析预测法.ppt_第4页
预测与决策-回归分析预测法.ppt_第5页
已阅读5页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 回归分析预测法 (Correlation and Regression),遗传学中的名词,英国生物学家兼统计学家高尔登首先提出来的。 回归现代涵义 研究自变量与因变量之间的关系形式的分析方法。 目的:根据已知自变量来估计和预测因变量的值。,第一节 基本概念,一、函数关系与相关关系 二、相关分析与回归分析,函 数 关 系,当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系为确定性的函数关系。 如:圆面积 正方形的面积 一般把作为影响因素的变量称为自变量;把发生对应变化的变量称为因变量。,当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量间的这种相互关系,称为具有不确定性的相关关系。 如:以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。,相 关 关 系,相关关系的特点: (1)现象之间确实存在数量上的依存关系。 (2)现象之间数量上的依存关系不是确定的。 相关关系与函数关系在一定的条件下是可以相互转换的。 (1)本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。 (2)如果我们对所研究对象有更深入的认识,便可以将影响因素全部纳入方程,使之成为函数关系。,相关关系的特点,相关分析与回归分析,相关分析 就是用一个指标来表明现象间相互依存关系的密切程度。 回归分析 就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。 回归分析预测法是对具有相关关系的变量,在固定一个变量数值的基础上,利用回归方程测算另一个变量取值的平均数。,相关关系种类,1. 按相关的程度可分为完全相关、不完全相关和不相关 2. 按相关的方向可分为正相关和负相关,3. 按相关的形式可分为线性相关和非线性相关,1、根据回归模型中含有自变量的多少 一元回归和多元回归; 2、根据回归模型的性质 线性回归和非线性回归; 3、根据回归模型中变量的属性 普通回归模型和带虚拟变量的回归模型。,回归模型的分类,相关系数设计思路,直 线 相 关 系 数,计算公式,标准差,标准差,题目,极端值,|r|=1 - 完全线性相关 0r1-不完全正相关 -1r1-不完全负相关,一般值,|r|0.8,高度相关 0.8|r|0.,中度相关 0.5|r|0.3,低度相关 0.|r|,不相关,注意事项,r值很小,说明X与Y之间没有线性相关关系,但并不意味着X与Y之间没有其它关系,如很强的非线性关系。 如y=-x2+12x+4 直线相关系数一般只适用于测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数R。,相关系数的显著性检验,通常,我们用样本相关系数r作为总体相关系数的估计值,而r仅说明样本数据的X与Y的相关程度。有时候,由于样本数据太少或其它偶然因素,使得样本相关系数r值很大,而总体的X与Y并不存在真正的线性关系。因而有必要通过样本资料来对X与Y之间是否存在真正的线性相关进行检验,即检验总体相关系数是否为零。,检验表,相关系数检验表,在研究我国人均消费水平的问题中,把人均消费金额记为y ;把人均国民收入记为x 。我们收集到19811993 年13年的样本数据。数据见表。,表 我国人均国民收入与人均消费金额数据,解:根据样本数据得,得人均消费金额 y 与人均国民收入 x 的样本相关系数为,相关系数检验, 根据 和 ,查表得,由于,因此,拒绝 ,认为 x 和 y 的相关系数 ,即人均 消费金额 y 与人均国民收入 x 之间的相关关系显著。,相关系数很大未必表示变量间存在因果关系,也可能两个变量同时受第三个变量的影响而使它们有很强的相关。比如,人的肺活量与人的身高会呈现高度相关,其实肺活量和身高都受人的体重的影响,因此如果固定人的体重来研究肺活量与身高的关系,则会发现相关性很低。这涉及偏相关系数的计算。又如,我们计算若干年期间某地猪肉销售量与感冒片销售量的相关系数,它可能很大,但这并不说明猪肉销售量与感冒片销售量之间有线性相关关系,因为它们都受这个时期人口增长因素的影响,把两个从逻辑上不存在联系的两个变量放在一起做相关分析,没有意义,在统计上称之为“虚假相关”。,注意:线性相关关系与因果关系不同,斯皮尔曼等级相关系数,斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。,从表中的数字可以看出,工人的考试成绩愈高其产量也愈高,二者之间的联系程度是很一致的,但是相关系数r0.676 并不算太高,这是由于它们之间的关系并不是线性的,如果分别按考试成绩和产量高低变换成等级(见上表第3、4列),则可以计算它们之间的等级相关系数为1。,肯德尔等级相关系数,rs用于测量两个变量等级的相关程度。统计学家肯德尔(Kendall)提出多变量等级相关系数,即肯德尔和谐系数rk,将其应用于测量多个变量间的等级相关程度。,肯德尔等级的计算公式,第二节 、回归分析预测法,一、回归分析预测法的基本步骤 (一)根据预测的目的,选择确定自变量和因变量,并判断其相关类型 (二)初步确定方程模型,进行参数估计 (三)进行统计检验 (四)进行预测和区间估计,举 例,在工业企业经济统计分析中,利润额受投资额的大小影响,因而投资额可看作是自变量,利润额可看作是因变量。,有时两个变量可以互为因果关系,比如全社会的生产量与消费量,这时对何者为自变量,何者为因变量就要根据研究目的来决定。如果希望研究生产量的变化怎样影响消费量的变化,则可将生产量定为自变量,消费量定为因变量,反之亦然。,“你的头发怎么一天比一天少?” “因为我天天都有忧虑的事。” “你每天都忧虑什么呢?” “我忧虑我的头发一天比一天少!”,x,y,a,0,x,y,a,0,二、最小二乘法确定模型参数,(Ordinary Least Square Estimation,简记为OLSE),线性相关示意图,x,y,a,0,数理统计知识证明,最小二乘法是一种参数拟合较好的方法。,最小二乘法,最小二乘法的理论基础是样本的n个实际值Y与其相应的理论值Yc的离差平方和达到最小,即: 式中,a,b是待定参数,Q是a,b的函数,要使Q达到最小,依据函数求极限的原理,则先求Q对a和b的偏导数,再令其为0。即:,正规方程,解正规方程得:,三、回归直线的代表性分析,建立了回归方程以后,通常要用方程估计值Yc来推断或预测实际值Y。为了分析用Yc去估计Y是否准确可靠,常采用反映回归直线代表性好坏的统计分析指标,检验方程回归系数的拟合优劣程度。为此需要进行变差分析。,A,C,B,总离差平方和分解,总变差(ST),回归变差(SR),剩余变差(SE),如果样本回归线对样本观测值拟合程度越好,各样本观测点与回归线靠得越近,由样本回归做出解释的离差平方和在总离差平方和的比重也将越来越大;反之,拟合程度越差,这部分所占比重就越小。,可决系数,四、回归模型显著性检验,在上面的分析中,为了求得回归方程,我们曾假定x与y之间存在着线性关系。在求得回归方程后,我们必须对这一假定进行检验,以确定x与y是否的确存在线性关系。 经济理论检验 统计检验,(一)T检验 其中, 检验规则:给定显著性水平 ,若 则回归系数显著。,如果已经求得直线回归方程的参数,可以直接利用下式求估计标准误。,估计标准误的简便公式,(二)F检验 检验假设:H0:b=0 H1:b0 检验统计量: 检验规则:给定显著性水平a,若 则回归方程显著。,一元线性回归方程的方差分析表,(三)德宾-沃森统计量(D-W),检验ui之间是否存在自相关关系。 其中, DW的取值域在0-4之间。,D-W检验表?,检验法则: 在DW小于等于2时, DW检验法则规定: 如: 存在正自相关; 无自相关; 在DW大于2时, DW检验法则规定: 如: 存在负自相关; 无自相关; 不能确定是否有自相关。,根据自变量 x 的取值预测 y 的取值 预测可分两种类型 点预测 区间预测,五、利用回归方程进行预测,、点预测,用,对于自变量 x 的一个取值x0,根据样本回归方程,作为y0的估计,称为点预测。,、y均值 的置信区间,(三)、y个值的置信区间,可以证明:,近似区间预测,当 n 较大,且 时,则,从而 ,由于 ,得,则0.95 的近似预测区间为,当t=1时,以68.27%的概率估计Y落在 范围内; 当t=2时,以95.45%的概率估计Y落在 范围内; 当t=3时,以99.73%的概率估计Y落在 范围内,R与SYX关系,当样本单位数n很大时,n-2n,则,从而有:,而因变量Y的方差为:,因此相关指数R与估计标准误差SY.X有如下关系:,相关系数与回归系数之间的数量关系,这就是说 与 的正负号必定相同,回归分析举例,试配合适当的回归模型并进行显著性检验;若1990年该省回定资产投资完成额为249亿元,当显著性水平0.05时,试估计1990年国内生产总值的预测区间。 解:1、绘制散点图 2、建立一元线性回归模型 3、计算回归系数 所求回归预测模型为:,4.检验线性关系的显著性 当显著性水平0.05,自由度n-m12-210时,查相关系数临界值表,得R0.05(10)0.576,因 R0.98290.576 R0.05(10)0.576 故在0.05显著性水平上,检验通过,说明两变量之间相关关系显著。,5.预测 (1)计算估计标准误差。 (2)当显著性水平0.05,自由度n-m=10时,查t分布表得: t0.025(10)=2.228,(3)当x0=249亿元时,代入回归模型得y的点估计值为:,预测区间为:,即:当1990年全省固定资产投资完成额为249亿元时,在0.05的显著性水平上,国内生产总值的预测区间为:648.4708829.1744亿元之间。,注 意,我国人均国内生产总值与人均消费金额数据,课后练习,引子:中国汽车的保有量会超过一亿辆吗?,第三节、多元线性回归,影响中国汽车行业发展的因素是多方面的: 经济增长 消费趋势 市场行情 业界心态 内外环境 都会使中国汽车行业面临机遇和挑战。,应当具体分析这样一些问题: 中国汽车市场发展的状况如何 (用销售量观测) 影响中国汽车销量的主要因素是什么 (如收入,价格,费用,道路状况,政策环境等) 各种因素对汽车销量影响的性质怎样 (正,负) 各种因素影响汽车销量的具体数量关系是什么? 所得到的数量结论是否可靠? 中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策? 很明显,还需要寻求有多个解释变量的回归分析方法。,多元:,二元回归方程参数的确定,案例:某地区玻璃销售量与汽车产量、建筑业产值资料,计算,根据表列资料计算得:,设有n组样本,p个自变量,矩阵形式:,偏回归系数告诉我们什么,二元回归模型为:,多元线性回归方程的直观解释,偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。,b1 表示 x2 保持不变时,x1每变动一个单位时E(y) 的相应变化量 b2 表示 x1 保持不变时,x2每变动一个单位时E(y) 的相应变化量,多元回归方程的显著性检验 、拟合优度检验 平方和分解,由于,从而,其中,称回归平方和,是由自变量 和 y 的线性关 系引起的 y 的取值变化,反映 对 y 的影响 大小,而,称残差平方和,是由随机因素和其他未加控制的因素引起 的 ,反映了除 以外的其他因素对 y 的影响 大小。,2、复相关系数,反映样本回归方程的拟合好坏程度,R 愈大,说明样本 回归方程拟合得愈好。显然, 。而,称 y 关于 的样本复相关系数,R 的大小可 以反映作为一个整体的 与 y 的线性相关的 密切程度。 拟合优度的检验可看成是回归方程的检验。,3、调整的样本决定系数,R2的重要性质:模型中解释变量个数的非减函数,即随着解释变量个数的增加,R2几乎必然增大,不减小。易给人错觉:要使模型拟合得更好,只要在方程中加入新的变量即可。需要对R2进行调整,使它不但能说明已被解释离差与总离差的关系,而且又能说明自由度的数目。 校正的判定系数定义如下:对有p个解释变量的多元回归方程,、 方程显著性检验,F检验的思想来自于总离差平方和的分解式: ST=SE+SR 由于回归变差SR是解释变量X联合体对被解释变量Y的线性作用的结果,所以如果SR/SE的比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。,因此,可通过该比值的大小对总体线性关系进行推断。,F检验方法,计算平均平方 由于Yi服从正态分布,根据数量统计学里的定义,Yi的一组样本的平方和服从X2分布,也就是: ST - X2(n1) SR - X2(p) SE -X2(n p1) 关于自由度存在如下的关系式 n1= p( np1 ),当H0为真时,则统计量,前面的这些计算结果可以列成表格的形式,称为 方差分析表。,方差分析表,多元线性回归方程的显著性检验步骤,提出原假设和备择假设,对规定的显著性水平 ,若,则拒绝H0 ,认为 y 对 存在线性关系,称 回归方程显著。否则,认为 y 对 之间不存 在线性关系,称回归方程不显著。,计算检验统计量,至少有一个不为0,或由F得到的p值足够小,,(三)回归系数的显著性检验,当回归方程显著时,仅表示 中至 少有一个不为 0 ,即这时并不表示每一个自变量对因变 量的影响都是显著的; 回归系数的显著性则是对每一个自变量都要检 验,从而确定每一个自变量对因变量的影响是否显著; 采用 t 检验; 对于多元线性回归,回归系数的显著性检验与 回归方程的显著性检验是两种不同的检验方法。,回归系数的显著性检验步骤,对规定的显著性水平 ,若,则拒绝 ,称 对 y 的影响显著,即认为 。否则 接受 ,称 对 y 的影响不显著,即认为 。,四、多元线性回归的预测 、点预测,、区间预测,对于自变量的一组取值 根据样 本回归方程给出 的一个估计区间,称为区间预测。 在置信度 时的预测区间为,其中,近似区间预测,当 n 较大时,且 时,则,从而 ,由于 ,得,则 0.95 的近似预测区间为, ,由于 ,得,则 0.99 的近似预测区间为,算例-中国民航客运量的回归模型,为了研究我国民航客运量的变化趋势及其成因,我们以民航客运量作为因变量 y ,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。y 为民航客运量(万人),x1 为国民收入(亿元), x2 为消费额(亿元), x3 为铁路客运量(万人),x4 为民航航线里程(万公里), x5 为来华旅游入境人数(万人)。根据1994年统计摘要获得19781993年统计数据,见下表。,我国民航客运量的有关数据,求回归系数的估计值,得样本回归方程,样本决定系数,而样本复相关系数,民航客运量回归的方差分析表,方差分析,方差分析表明回归方程显著。,回归系数的显著性检验,查表得,由于,所以 x3 对 y 无显著影响,而其余各自变量均有显著影响。,剔除 x3 , 重新建立样本回归方程,求得 ,方差分析见表, 并且回归系数的显著性检验表明,所有的自变量都有 显著影响。,民航客运量回归的方差分析表,方差分析表明回归方程显著。,预测,即,预定 , 由样本回归方程得,得 0.95 的近似预测区间为,十个地区某商品的需求量与相关资料,课后练习:,某城市1985-2003年购买力y(万元)对职工人数X1、平均工资X2(元)、存款X3(亿元)进行多元线性回归分析。 n=19 Yc=-652.964+1.2085X1+0.7276X2+83.0258X3,要求: (1)说明回归方程中各回归系数的含义 (2)判断回归效果的显著性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论