版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
STATISTICS统计学统计学原理统计学原理统计学原理第六章相关与回归分析子代与父代一样吗?Galton被誉为现代回归和相关技术的创始人。1875年,Galton利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较当结果被绘制出来之后,他发现并非每一个子代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的某一时期将减弱它的极端性(或者是单个个体或者是整个子代),这一趋势现在被称作“回归效应”。人们发现它的应用很广,而不仅限于从一代到下一代豌豆大小问题子代与父代一样吗?正如Galton进一步发现的那样,平均来说,非常矮小的父辈倾向于有偏高的子代;而非常高大的父辈则倾向于有偏矮的子代。在第一次考试中成绩最差的那些学生在第二次考试中倾向于有更好的成绩(比较接近所有学生的平均成绩),而第一次考试中成绩最好的那些学生在第二次考试中则倾向于有较差的成绩(同样比较接近所有学生的平均成绩)。同样,平均来说,第一年利润最低的公司第二年不会最差,而第一年利润最高的公司第二年则不会是最好的如果把父代和子代看作两个变量,找出这两个变量的关系,并根据这种关系建立适当的数学模型,就可以根据父代的数值预测子代的取值,这就是经典的回归方法要解决的问题。学完本章的内容你会对回归问题有更深入的理解本章主要内容一、变量间关系的分析与度量二、一元线性回归模型的建立三、回归直线的拟合优度四、显著性检验五、利用回归方程进行估计和预测六、残差分析一、变量间关系的分析与度量一、变量间关系的分析与度量1、变量间关系的两种类型
————函数关系与相关关系2、相关关系的种类3、相关关系的描述与测度4、相关系数的显著性检验主要内容1、变量间关系的两种类型
————函数关系与相关关系1、变量间关系的两种类型:函数关系与相关关系客观现象总是普遍联系、相互依存、相互制约的,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。变量之间就其关系的变化来说可分为:函数关系相关关系1、变量间关系的两种类型:函数关系与相关关系函数关系是指现象之间存在的确定性的数量依存关系。在这种关系中,当某一变量或某些变量取任意一个值时,另一变量都会有一个确定值与之严格相对应,并且这种对应关系可以用一个数学表达式来反映。函数关系是人们比较熟悉的。设有两个变量x和y,当x取其变化范围中的每个特定的值时,相应地有唯一的y与它对应,则称y是x的函数。记为y=f(x)等,其中x称为自变量,y称为因变量。实际上在数学领域,函数就是一种变换或映射关系,这种关系使一个集合里的每一个元素对应到另一个集合里的唯一元素。1、变量间关系的两种类型:函数关系与相关关系函数关系的几个例子当圆的半径为r时,圆的面积s与半径r之间的数量关系为:s=πr2
,s与r值之间存在着严格的一一对应关系,圆的面积随半径而变动,半径一旦确定,圆的面积也随之确定。某种商品的销售额y与销售量x之间的关系可表示为y=px(p为单价)。企业的原材料消耗额y与产量x1、单位产品消耗x2、原材料价格x3之间的关系可表示为y=x1x2x3
1、变量间关系的两种类型:函数关系与相关关系相关关系是指现象之间存在的非确定性的数量依存关系。即现象之间虽然存在着数量依存关系,一个现象发生数量上发生变化时,另一个现象数量水平也会相应地发生变化。但这种数量变化关系并不是严格一一对应的,当一个变量数值确定时,另—个变量可能有许多个可能的取值与之相对应,这些数值围绕着它们的平均数上下波动。(举例说明)1、变量间关系的两种类型:函数关系与相关关系例如:商品价格与商品需求量之间存在着数量变动关系,价格升高,需求量一般会减少。但在价格相同的情况下未必有相同的商品需求量,而是会有多个不同的数值。这是因为商品价格不是决定商品需求量的唯一因素,商品需求量还受消费者收入状况、消费习惯、地区差异、替代品和互补品的价格变化、季节变化等众多因素的影响。因此,商品价格与商品需求量之间的关系是相关关系。(回忆经济学中是如何分析商品需求量与商品价格之间的关系)1、变量间关系的两种类型:函数关系与相关关系一般认为,若变量y与变量x为相关关系,则y除受主要因素x的影响外,还受其他因素影响,由于这些因素对y的影响相比之下较小且具有随机性,因此把它们看作随机因素。相关关系的数学—般形式为:上式中的ε为随机误差项,用于反映随机因素对y的影响。相关与回归分析正是描述与探索这类变量之间关系及其规律的统计方法。1、变量间关系的两种类型:函数关系与相关关系相关关系的其它例子父母身高与子女身高之间的关系收入水平与受教育程度之间的关系粮食亩产量与施肥量、降雨量、温度之间的关系商品的消费量与居民收入之间的关系商品销售额与广告费支出之间的关系1、变量间关系的两种类型:函数关系与相关关系函数关系与相关关系有区别也有联系,二者的联系主要体现在以下两个方面:一是对于具有函数关系的现象,在实际中由于观察或测量误差等原因,往往呈现出相关关系的特征;二是当对现象之间的内在联系和规律性了解的更清楚深刻的情况下,相关关系也可能转化为函数关系。因此,相关关系通常可以用一定的函数关系表达式去近似地描述。1、变量间关系的两种类型:函数关系与相关关系另外:在具有相互依存关系的两个变量中,作为根据的变量叫自变量,发生对应变化的变量叫因变量。当变量之间存在前因后果的关系时,自变量与因变量的确定较为容易。如前述的父母身高、家庭收入、企业投入是自变量,儿女身高、消费支出、企业产出是因变量。当变量之间互为因果时,则要根据研究目的来确定哪个是自变量,哪个是因变量,如商品需求量与商品价格水平之间就属于这种情况。在相关分析中,一般不需要确定自变量和因变量,在回归分析中,则必须确定自变量和因变量。2、相关关系的种类2、相关关系的种类(1)按照相关关系涉及的因素(变量)多少,可分为单相关和复相关。两个因素之间的相关关系称作单相关,也称为—元相关或简单相关。三个或三个以上因素之间的相关关系称为复相关或多元相关。在复相关中,如果将其它的自变量固定不变而只研究因变量与其中某一个自变量之间的相关关系,这种相关关系称为偏相关。2、相关关系的种类(2)按照相关关系的表现形式不同,可分为线性相关与非线性相关。对于一元相关,即为直线相关和曲线相关。线性相关指的是变量之间呈线性关系,如果记自变量为x1,x2,x3,...,xp,因变量为y,则下面相关形式即为“线性”:对于直线相关,意味着两个相关现象的数据在坐标上描点后近似表现为一条直线。2、相关关系的种类非线性相关则指变量之间呈非线性关系,其形式多种多样,下面两式均属于非线性相关:对于曲线相关,意味着两个相关现象的数据在坐标上描点后近似地表现为一条曲线,如抛物线、双曲线、指数曲线等。continued2、相关关系的种类(3)对于单相关,按照现象数量变化的方向不同,可分为正相关和负相关。当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关,例如家庭收入与家庭支出之间的关系,一般随着家庭收入的增加,家庭支出也会随之增加。当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相关,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。2、相关关系的种类(4)按照相关程度不同,可以分为完全相关、不完全相关和无相关。当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系。或者说函数关系是相关关系的一个特例。当两个变量的变化相互独立、互不影响时,称这两个变量不相关(或零相关)。(学生成绩与学生身高)变量之间关系介于完全相关与不完全相关之间,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,也是相关分析的主要研究对象。2、相关关系的种类我们要重点讨论的是:一元线性相关(简单线性相关)3、相关关系的描述与测度3、相关关系的描述与测度相关关系分析的内容很多,我们主要对两个变量之间线性关系(一元线性相关)进行描述和度量,它要解决的问题包括:变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度(密切程度)如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?前两个问题主要通过定性分析或相关表与散点图来解决;第三问题主要通过计算相关系数来确定;第四个问题涉及到对相关系数进行显著性检验。3、相关关系的描述与测度变量之间关系的定性分析:在研究相关关系时,应根据一定的经济理论和实践经验的总结,对社会经济现象进行科学的定性分析,以判断它们之间是否具有相关关系以及相关关系的类型。只有在定性分析的基础上,才能进一步从数量上来测定现象之间的相关关系及相关的密切程度。这是判断相关关系的一种重要方法,也是相关分析的重要前提。3、相关关系的描述与测度相关表相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。例:某地区某企业近8年产品产量与生产费用的相关情况如下表所示。3、相关关系的描述与测度产品产量与生产费用相关表从上表可看出,产品产量与生产费用之间存在一定的正相关关系。3、相关关系的描述与测度散点图(scatterdiagrams)散点图是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。散点图是描述变量之间关系的一种直观方法,从中可以大体上看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。也称相关图。以上表为例,绘制散点图。从图中可以看出产品产量与生产费用之间存在明显的线性正相关关系。3、相关关系的描述与测度3、相关关系的描述与测度散点图的几种典型情况:3、相关关系的描述与测度r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r
0(e)r
0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关3、相关关系的描述与测度相关系数的测定通过相关表或散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态做出大致的描述,但它们不能准确反映变量之间的关系强度。因此,为了准确度量两个变量之间的关系强度,需要计算相关系数。此处所指的相关系数为简单相关系数,或称为直线相关系数,它是描述两个变量之间线性相关密切程度和相关方向的统计分析指标。由于这个系数是由英国统计学家皮尔逊(Pearson)设计的,故又称为Pearson相关系数。3、相关关系的描述与测度【例6.6】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行的有关业务数据3、相关关系的描述与测度3、相关关系的描述与测度3、相关关系的描述与测度相关系数的测定方法与相关变量的测量层次有关。对于定距变量或定比变量,通常采用皮尔逊线性相关系数测量相关密切程度;对于定序变量,通常采用斯皮尔曼等级相关系数或肯德尔等级相关系数测量相关密切程度;对于定类变量,则常常采用列联系数等来测量相关密切程度。我们重点分析的是皮尔逊线性相关系数。3、相关关系的描述与测度若相关系数是根据总体全部数据计算的,称为总体相关系数,一般用ρ表示;若相关系数是根据样本数据计算的,称为样本相关系数,一般用r表示。样本相关系数的计算公式为:式中:3、相关关系的描述与测度所以,因为,3、相关关系的描述与测度r的简捷计算公式:自己推导3、相关关系的描述与测度也可以写成这样:3、相关关系的描述与测度总体相关系数的计算公式为:式中:一般情况下,总体相关系数是ρ未知的,通常是根据样本相关系数r作为它的近似估计值。3、相关关系的描述与测度相关系数的性质性质1:r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关
r=0,不存在线性相关关系
-1r<0,为负相关0<r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱3、相关关系的描述与测度-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加3、相关关系的描述与测度性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系3、相关关系的描述与测度相关系数的经验解释|r|0.8时,可视为两个变量之间高度相关0.5|r|<0.8时,可视为中度相关0.3|r|<0.5时,视为低度相关|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关上述解释必须建立在对相关系数的显著性进行检验的基础之上3、相关关系的描述与测度3、相关关系的描述与测度
我国人均国民收入与人均消费金额数据
单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi
,yi),i=1,2,…,13,数据见下表,计算相关系数。3、相关关系的描述与测度解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为0.99874、相关系数的显著性检验4、相关系数的显著性检验一般情况下,总体相关系数是ρ未知的,通常是根据样本相关系数r作为它的近似估计值。但由于r是根据样本数据计算出来的,它受到抽样波动的影响。因此r是随机变量。能否根据样本相关系数说明总体的相关程度,这需要考察样本相关系数的可靠性,也就是进行显著性检验。为了对r的显著性进行检验,需要考察r的抽样分布。相关理论表明,通常情况下,对r应该采用t检验为好。4、相关系数的显著性检验检验统计量为:原假设与备择假设一般写作:H0:;H1:0其它步骤同假设检验的一般步骤。4、相关系数的显著性检验4、相关系数的显著性检验各相关系数检验的统计量4、相关系数的显著性检验对前面例子的相关系数进行检验(α=0.05)写假设:H0:;H1:0α=0.05,双侧检验,自由度13-2=11,查表临界值为:tα/2=±2.201,计算检验统计量的值:64.98>2.201,因此,拒绝原假设,接受备择假设。表明总体相关系数不为零。人均国民收入与人均消费金额相关关系显著。二、一元线性回归模型的建立二、一元线性回归模型的建立1.回归分析概述2.回归模型与回归方程3.参数的最小二乘估计法1.回归分析概述1.回归分析概述引言如前所述,通过做散点图、计算相关系数等方法对变量间关系进行分析,可以认识现象之间相关关系的类型、方向及相关的密切程度。但相关分析不能判断现象之间具体的数量变动依存关系,也不能根据相关系数来估计或预测因变量可能发生的数值。因此,为了探求经济变量之间的具体数量变动关系,一般在相关分析的基础上再进行回归分析。1.回归分析概述回归分析的含义回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定因变量和自变量之间数量变动关系的数学表达式,以便对因变量进行估计或预测的统计分析方法。显然,相关分析的主要任务是研究变量间相关关系的表现形式和密切程度,而回归分析是在相关分析的基础上,进一步研究现象之间的数量变化规律。二者是相互补充密切联系的。1.回归分析概述“回归”(Regression)一词的由来回归这个统计术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。1.回归分析概述回归分析与相关分析特点的比较回归分析中必须根据研究目的确定哪个变量为因变量,哪些变量为自变量。相关分析可以不用区分自变量和因变量。相关分析中,两个变量要求都是随机的;而在回归分析中,要求因变量是随机的,而自变量的值可以是给定的,也可以是随机的。若变量之间互为因果,或是没有明显因果关系,则可以求出两个回归方程。即y倚x的回归方程(y为因变量)和x倚y的回归方程(x为因变量),两个方程的含义是不同的。对于相关分析来说,两个变量之间只能求出一个相关系数。1.回归分析概述回归方程有较强的应用性。根据回归方程的参数可以得出变量之间的具体数量变动关系,即自变量变动一个单位,因变量会变动多少。回归方程也可以用于估计推断,即根据给定的自变量的数值来估计因变量的可能值,或以限定的因变量取值范围来推断自变量取值应控制在什么范围内。相关分析是回归分析的基础,回归分析是相关分析的深入。continued1.回归分析概述具体来说,回归分析主要解决以下几个方面的问题:(1)从一组样本数据出发,确定出变量之间的数学关系式。(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。1.回归分析概述回归分析模型的种类(1)简单回归与多元回归:回归分析模型按照具有相关关系的变量个数划分,可分为简单回归分析模型和多元回归分析模型。简单回归分析模型是指只有一个自变量和一个因变量的回归分析模型,简单回归也称一元回归。多元回归分析模型也称复回归分析模型,是指由多个自变量和一个因变量组成的回归分析的模型。它与简单回归分析模型相比,增加了自变量的个数,是对简单回归分析模型的拓展。此外,还有多个自变量对多个因变量的回归分析。1.回归分析概述(2)线性回归与非线性回归:回归分析模型按照变量间相互关系的形态来分,可分为线性回归分析模型和非线性回归分析模型。当变量之间关系的形态表现为线性相关时,拟合的模型称为线性回归分析模型,其模型表达式为线性回归方程;当变量之间相互关系的形态表现为某种曲线趋势时,拟合的模型称为非线性回归分析模型,其模型表达式为某种曲线回归方程。除上述分类外,根据简单回归和多元回归与直线回归和非直线回归的交叉结合,还可以进一步细分为简单线性回归和简单非线性回归,多元线性回归和多元非线性回归等不同类型。continued1.回归分析概述回归模型一元回归多元回归线性回归非线性回归线性回归非线性回归continued我们要讨论的是“一元线性回归模型”!2.回归模型与回归方程2.回归模型与回归方程对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y如何依赖于x和误差项ε的方程称为回归模型(regressionmodel)。对于只涉及一个自变量的一元线性回归模型可表示为:式中:β0,β1称为模型参数;
ε被称为误差项的随机变量;
x为自变量(解释变量或预测变量);
y为因变量(被解释变量或被预测变量);2.回归模型与回归方程在上述的一元线性回归模型中,y是x的线性函数(β0+β1x部分)加上误差项ε。β0+β1x反映了由于x的变化而引起的y的线性变化;误差项ε反映了除x和y之间线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所揭示的变异性。2.回归模型与回归方程上述模型也被称为理论回归模型,对这一模型,有以下几个主要假定:(1)因变量y与自变量x之间具有线性关系。(2)x是非随机的,也就是假定在重复抽样中,x的取值是固定的。(3)误差项ε是一个期望值为0的随机变量,即E(ε)=0。这表示:E(y)=β0+β1x(4)对于所有的x值,ε的方差σ2都相同。这表示:对于所有的x,y的方差也为σ2。(5)误差项ε是一个服从正态分布的随机变量且独立。这表示:对于任何一个给定的x的值,y都服从期望值为β0+β1x,方差为σ2的正态分布,且对于不同的x都具有相同方差。2.回归模型与回归方程x1x2x3xyE(y)=β0+β1xβ0x=x1时y的分布x=x2时y的分布x=x3时y的分布x=x1时的E(y)x=x2时的E(y)x=x3时的E(y)回归模型假定图示2.回归模型与回归方程从上图可以看出,E(y)的值随着x的不同而变化,但无论x怎样变化,ε和y的概率分布都是正态分布,并且具有相同的方差。在任意特定点上,误差项ε某一特定值依赖于y的真实值大于或小于E(y)。E(y)=β0+β1x实际上就是假定变量间关系的模型为一条直线。2.回归模型与回归方程=随机误差项yx观测值E(Y)X01YXii01观测值xi2.回归模型与回归方程根据回归模型的假定,y的期望值E(y)=β0+β1x,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程(regressionmodel)。一元线性回归方程的形式为:
E(y)=β0+β1x一元线性回归方程的图示是一条直线,因此也称为直线回归方程。其中β0是回归直线在y轴上截距,是当x=0时y的期望值;β1是直线的斜率,它表示当x每变动一个单位时,y的平均变动值。2.回归模型与回归方程一元线性回归中的可能回归线:回归直线回归直线回归直线2.回归模型与回归方程如果回归方程中的参数β0,β1已知,对于一个给定的x的值,利用上面的式子就能计算出y的期望值。但总体回归参数β0与β1的是未知的,必须利用样本数据去估计它们。用样本统计量和代替回归方程中未知参数β0与β1,这时就得到了估计回归方程(estimatedregressionequation)。对一元线性回归,估计的回归方程形式为:式中:为估计回归直线在y轴上的截距;为直线的斜率,表示x每变动一个单位时,y的平均变动值。
如何确定估计回归方程中的
和?3.参数的最小二乘估计法3.参数的最小二乘估计“参数的最小二乘估计法”是利用样本进行回归方程估计的一种方法。简称为“最小平方法(leastsquaresmethod)”或“最小二乘法”。例:阿姆得(Armand)比萨饼连锁店坐落在美国的5个州内,它们通常的位置是在大学旁边,而且管理人员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是10家连锁店附近大学的学生人数和季度销售收入的数据:(1)做学生人数x与销售额y两个变量之间的散点图(2)计算相关系数r(3)对变量之间的关系做出判断3.参数的最小二乘估计法学生人数x与销售额y两个变量之间的散点图相关系数r=0.95学生人数x与销售额y之间应是较显著的正相关关系3.参数的最小二乘估计法实际上,我们可以假定学生人数x与销售额y两个变量之间是正线性相关关系,并且销售额随学生人数的变化而变化,也就是说学生人数为自变量,销售额为因变量。根据上述假设,我们可以写出销售额与学生人数两个变量之间的回归估计方程。continued那么,现在的问题是,如何找到一条直线,使这条直线尽可能的靠近所有的样本点呢?3.参数的最小二乘估计法如何确定?continued实际上就是如何确定
与。3.参数的最小二乘估计法确定这条直线的方法有很多种,其中有一种最常使用的方法就是“最小二乘法”,该方法是由德国科学家卡尔·弗里德里希·高斯提出的。最小二乘法的基本原理就是:让所寻找的直线上的点尽可能地接近实际观测点,即回归估计线上的点与实际观测点的离差平方和最小。(以下用图形说明)continued3.参数的最小二乘估计法xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)^ei即为因变量实际观测值yi与所要寻找的回归直线上的点,也即yi的估计值(yi)之间的离差。e13.参数的最小二乘估计法因此,最小二乘法就是使因变量的观察值yi与估计值yi之间的离差平方和达到最小来求β1和β2的估计与的方法。也就是使^最小。因此,求解的最小值即可得到与。如何求解。利用微积分求极值定理。推导如下。3.参数的最小二乘估计法令,把代入上式即在给定了样本数据后,Q便是与的函数,且最小值存在。根据微积分的极值定理,对Q求相应于与的偏导数,并令其等于0,便可求出与,也就是说与应满足下列方程组。3.参数的最小二乘估计法即,解上述方程组得,自己推导很重要的公式3.参数的最小二乘估计法或者可写为:可以证明用最小二乘法拟合的直线具有一些优良的性质,或者最小二乘估计量具有一些优良性质,如无偏性,有效性等。3.参数的最小二乘估计法在“阿姆德比萨饼连锁店”的例子中,因此,阿姆德比萨饼连锁店的回归估计方程为,(自己算一下)你对该方程中系数的含义怎么理解?3.参数的最小二乘估计法拟合出来的直线为,3.参数的最小二乘估计法3.参数的最小二乘估计法不良贷款对贷款余额回归方程的图示三、回归直线的拟合优度三、回归直线的拟合优度回归直线在一定程度上描述了变量x与y之间的数量关系,根据这一方程,可根据自变量x的取值来估计或预测因变量y的取值,但这种估计或预测的精度如何将取决于回归直线对观测数据的拟合程度。各观测值越是紧密围绕直线,说明直线对观测数据的拟合程度越好,反之则越差。所谓回归直线的拟合优度(Goodnessoffit),就是指样本观测值聚集在回归估计线周围的紧密程度。判断回归模型拟合程度大小的最常用的指标是判定系数(coefficientofdetermination),又称可决系数,为了说明判定系数的含义,需要对因变量y取值的变差进行研究。三、回归直线的拟合优度因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值(第i个)来说,变差的大小可以通过该实际观测值y与其均值y之差yi-y来表示。而n次观察值的总变差可由这些离差的平方和来表示,称为总平方和(TotalDeviationSumofSquares),记为SST,即也可认为是未引进回归时的总变差。三、回归直线的拟合优度因变量y变差的分解(见下图)xiyx三、回归直线的拟合优度从上图可以看出,每个观测点的变差都可以分解为:将上式两边平方,并对所有n个点求和,有:可以证明,因此三、回归直线的拟合优度上面式子的左边即为总平方和SST,它可以分解为两部分:其中是回归值与均值的离差平方和,根据估计的回归方程,估计值,因此可以把看做是由于自变量x的变化引起的y的变化,而其平方和则反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分,它是可以由回归直线来解释的yi变差部分,称为回归平方和(RegressionSumofSquares),记为SSR。(回归的贡献)分析这个式子的构成三、回归直线的拟合优度另一部分是各实际观测值与回归值的残差
平方和,它是除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的yi变差部分,称为残差平方和(ResidualSumofSquares)或误差平方和,记为SSE。(引进回归以后的剩余变差)三个平方和的关系为:总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)三、回归直线的拟合优度SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{三、回归直线的拟合优度总平方和(SST)反映因变量的n个观察值与其均值的总离差。回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和。残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。三、回归直线的拟合优度从前面的分析可以看出,回归直线拟合的好坏取决于SSR及SSE的大小,或者说取决于回归平方和SSR占总平方和SST的比例(SSR/SST)大小。各观测点越是靠近直线,SSR/SST则越大,直线拟合得越好。反之则直线拟合的越差。回归平方和占总平方和的比例(SSR/SST)称为判定系数,记为R2,其计算公式为:三、回归直线的拟合优度实际上,由或者三、回归直线的拟合优度判定系数R2是对估计的回归方程拟合优度的度量,它表示了全部变差中有百分之几的偏差可由x与y的线性回归关系来解释,其取值范围在[0,1]之间。R2越接近1,说明回归直线的拟合程度越好;反之,R2越接近0,说明回归直线的拟合程度越差。在一元线性回归中,相关系数r实际上是判定系数的平方根,即也即因此,相关系数从另一个角度说明了回归直线的拟合优度。但要注意,r的值(r=-1、1和0除外)总是大于判定系数的值。三、回归直线的拟合优度在“阿姆德比萨饼连锁店”的例子中:SST=15730SSE=1530SSR=1-SSE=15730-1530=14200。判定系数R2=0.9027,它的实际意义是:在销售额的变差中,有90.27%可以由销售额与学生人数之间的线性关系解释,或者说,在销售额取值的变动中,有90.27%是由学生人数所决定的。可见,回归方程的拟合程度是比较好的。或者说,销售额与学生人数之间有较强的线性关系。三、回归直线的拟合优度三、回归直线的拟合优度除判定系数外,还有一个可用于反映回归直线拟合优度的指标,即估计标准误差(standarderrorofestimate)。实际上,估计标准误差是度量各实际观测值在回归直线周围的散布状况的一个统计量,它是均方残差(meansquareerror/MSE)平方根,用Se来表示,其计算公式为:三、回归直线的拟合优度估计标准误差是对误差项ε的标准差σ的估计,它可以看做是在排除了x对y的线性影响后,y随机波动大小的一个估计量。从估计标准误差的实际意义上看,它反映了用估计的回归方程预测因变量y时预测误差的大小。若各观测值越靠近回归直线,Se越小,回归直线对各观测值的代表性就越好,根据估计的回归方程进行预测也就越准确;反之则反是。所以说,Se从另一个角度说明了回归直线的拟合优度。三、回归直线的拟合优度从估计标准误差的计算公式可以看出,回归直线是对n个观测值拟合的所有直线中估计标准误差最小的一条直线,因为回归直线是使为最小时确定。在阿姆德比萨饼店例子中,四、显著性检验四、显著性检验根据样本数据拟合回归方程时,实际上已经假定变量x与y之间存在线性关系,即y=β0+β1x+ε,并假定误差项ε是一个服从正态分布的随机变量,且对不同的x具有相同的方差。但这些假设是否成立,需要通过检验后才能证实。回归分析中的显著性检验主要包括两个方面的内容:一是线性关系检验(方程总体回归关系的显著性)二是回归系数检验(方程各回归系数的显著性)就一元线性回归模型而言,上述的两个检验是等价的。四、显著性检验线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说,它们之间能否用一个线性模型y=β0+β1x+ε来表示。为了达到这目的,需要构造检验统计量,该统计量的构造是以回归平方和SSR与残差平方和SSE为基础的。将SSR除以其相应的自由度(一元线性回归中自由度为1)后的结果称为均方回归(meansquareregression),记为MSR。将SSE除以其相应的自由度(一元线性回归中自由度为n-2)后的结果称为均方残差(meansquareerror),记为MSE。四、显著性检验如果原假设成立(H0:β1=0),则比值MSR/MSE抽样分布服从分子自由度为1、分母自由度为n-2的F分布,即线性关系检验的具体步骤如下:四、显著性检验1.提出假设:H0:1=0线性关系不显著
H1:1≠0线性关系显著2.计算检验统计量F3.确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F4.作出决策:若F>F,拒绝H0;若F<F,不拒绝H0四、显著性检验在阿姆德比萨饼店例子中,检验统计量的值为:如果α=0.01,分子自由度为1,分母自由度为10-2=8,查表F0.01=11.26,因此74.25>11.26,拒绝原假设,得出当显著性水平为0.01是,β1不等于0。四、显著性检验四、显著性检验回归系数的显著性检验是要检验自变量对因变量的影响是否显著。实际上也是检验回归系数1是否等于0。但所构造的检验统计量与前面的不一样。为了构造检验统计量,需研究回归系数b1的抽样分布。是根据最小二乘法得到的用于估计总体参数β1的统计量,是一个随机变量。统计证明,服从正态分布。其期望值为:标准差为:四、显著性检验由于σ未知,需用其估计量Se来代替得到的估计的标准差为:这样就可以构造出用于检验回归系数β1的统计量为:该统计量是服从自由度为n-2的t分布。如果原假设成立(H0:1=0),则检验统计量为:四、显著性检验1.提出假设H0:β1=0(没有线性关系)H1:β1
0(有线性关系)2.计算检验的统计量3.确定显著性水平,并进行决策t>t,拒绝H0;t<t,不拒绝H0检验步骤如下:四、显著性检验在阿姆德比萨饼店例子中,检验统计量的值为:如果α=0.01,自由度为10-2=8,查表t0.005=3.355,因此8.62>3.355,拒绝原假设,得出当显著性水平为0.01是,β1不等于0。四、显著性检验四、显著性检验需要进一步说明的是:在一元线性回归中,自变量只有一个,上面介绍的F检验和t检验是等价的,也就是说,如果H0:1=0被t检验拒绝,它也将被F检验拒绝。但是在多元回归分析中,这两种检验的意义是不同的。F检验只是用来检验总体回归关系的显著性,而t检验则是检验各回归系数的显著性。四、显著性检验excel等软件中输出的结果更多,有些需要进一步学习。五、利用回归方程进行估计和预测五、利用回归方程进行估计和预测回归分析的主要目的根据所建立的估计回归方程进行预测或控制。预测是指通过自变量x的取值来预测因变量y的取值。控制则与预测恰好相反,它是根据一个想要的y值,求得所要的x值。回归模型经过各种检验并表明符合预订的要求后,就可以用它来完成这一目的了。主要介绍根据估计回归方程进行估计和预测的方法:点估计区间估计五、利用回归方程进行估计和预测点估计值可以分两种:y的平均值的点估计y的个别值的点估计所谓点估计是对于自变量x的一个给定值x0
,根据估计回归方程得到因变量y的一个估计值。五、利用回归方程进行估计和预测平均值的点估计就是利用估计的回归方程,对于自变量x的一个给定值x0
,求出因变量y
的平均值的一个估计值E(y0)。在阿姆德比萨饼店的例子中,估计回归方程为,该方程表示学生人数和季度销售额y之间的估计关系。如果管理人员想估计学生人数为10000名时,所有餐馆的平均季度销售额,就是平均值的点估计。根据上面的估计回归方程,可得,五、利用回归方程进行估计和预测个别值的点估计是利用回归估计方程,对于x一个特定值x0,求出y的一个个别值的估计值。例如,前面的例子中,如果只想知道某个大学附近的餐馆的季度销售额是多少,则属于个别值的点估计。根据上面的估计的回归方程,假定这个大学的人数为10000人,可得这个大学附近这个餐馆的季度销售额为,实际上,在点估计条件下,对于同一个x0,平均值的点估计和个别值的的点估计的结果是一样的,但在区间估计中则不同五、利用回归方程进行估计和预测点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计区间估计就是对于自变量x的一个给定值x0,根据回归估计方程得到因变量y的一个估计区间。区间估计也有两种类型:置信区间估计(confidenceintervalestimate)预测区间估计(predictionintervalestimate)五、利用回归方程进行估计和预测置信区间估计是指利用估计的回归方程,对于自变量x的一个给定值x0,求出因变量y的平均值的估计区间(这一估计区间称为置信区间)。设x0为自变量x的一个特定值或给定值;E(y0)为给定x0时因变量y的平均值或期望值。当x=x0时,为E(y0)的估计值。一般来说,不能期望估计值精确地等于E(y0)。因此,要想用推断E(y0),必须考虑根据估计的回归方程得到的方差。对于给定的x0,统计学家给出了估计标准差的公式,用表示。五、利用回归方程进行估计和预测公式如下:有了的标准差之后,对于给定的x0,E(y0)在1-α置信水平下的置信区间可表示为:t分布的自由度n-2。五、利用回归方程进行估计和预测在阿姆德比萨饼店例子中,给定x0=10(千人),那么对于所有位于有10000名学生的校园附近的餐馆平均季度销售额,建立置信度为95%的区间估计。t0.025=2.306。五、利用回归方程进行估计和预测五、利用回归方程进行估计和预测预测区间估计是对于x的一个给定值x0,求出y的一个个别值的区间估计。为了求出预测区间,首先必须知道用于估计的标准差。统计学家已经给出y的一个个别值y0的标准差的估计量,用sind表示,其计算公式为:五、利用回归方程进行估计和预测因此,对于给定的x0,y的一个个别值y0在1-α置信水平下的预测区间可以表示为:与前面的公式相比,这个式子的根号内多了一个1。因此,即使是对同一个x0,这两个区间的宽度也是不一样的,预测区间要比置信区间宽一些。五、利用回归方程进行估计和预测在阿姆德比萨饼店例子中,给定x0=10(千人),那么对于位于有10000名学生的校园附近的某一餐馆季度销售额,建立置信度为95%的预测区间。t0.025=2.306。五、利用回归方程进行估计和预测五、利用回归方程进行估计和预测置信水平(1-)区间宽度随置信水平的增大而增大数据的离散程度(s)区间宽度随离散程度的增大而增大样本容量区间宽度随样本容量的增大而减小用于预测的x0与x的差异程度区间宽度随x0与x的差异程度的增大而增大影响置信区间宽度的因素五、利用回归方程进行估计和预测x0yxx预测上限置信上限预测下限置信下限五、利用回归方程进行估计和预测从上面的图可以看出,两个区间的宽度不一样,y的个别值的预测区间要宽一些。二者的差别表明,估计y的平均值比预测y的一个特定值或个别值更精确。并且当x0=x时,两者都是最精确的。最后需要注意的是:在利用回归直线方程进行估计或预测时,不要用样本数据之外的x值去预测相应的y值。因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。但实际应用中,它们之间的关系可能是某种曲线。因此如果用样本数据以外的x值得出的估计值和预测值就会很差。六、残差分析六、残差分析在回归模型y=β0+β1x+ε假定ε是期望值为0、方差相等、服从正态分布且独立的随机变量。但是,如果关于它的假定不成立,那么,此时所做的检验以及估计和预测也许就站不住脚了。确定ε的假定是否成立的方法之一就是进行残差分析(residualanalysis)。本部分有两个内容:一是用残差证实模型的假定二是用残差检测异常值和有影响的观测值用残差证实模型的假定残差(residual)是因变量的观测值yi与根据估计的回归方程求出的预测值之差,用e表示。它反映了用估计的回归方程去预测而引起的误差。
第i个观察值的残差可以写为:为了分析误差项ε的假定是否成立,可以通过对残差图(residualplot)的分析来完成。残差图种类有:关于x的残差图关于的残差图标准化残差图用残差证实模型的假定关于x的残差图是用横轴表示自变量x的值,用纵轴表示对应的残差,每个x的值与对应的残差用一个点来表示。几种不同形态的残差图及其反映出的信息。用残差证实模型的假定若对所有的x值,ε的方差都相同,而且假定描述变量x和y之间关系的回归模型是合理的,那么残差图中的所有点都应落在一条水平带中间。如上面第一个图所示。但如果对所有的值,ε的方差是不同的,如第二个图所示,这就违背了ε的方差相等的假设。如果残差图如第三个图的样子,表明所选择的回归模型不合理,这时应考虑曲线回归或多元回归模型。用残差证实模型的假定关于的残差图是在坐标横轴上表示,在纵轴上表示残差值。这种类型的残差图与关于x的残差图的分析基本一样。标准化残差(standardizedresiduals)是残差除以它的标准差后得到的数值,用ze表示。第i个观察值的标准化残差可以表示为:se是残差的标准差的估计。用残差证实模型的假定标准化残差主要用于对ε正态性假定的检验。如果误差项ε服从正态分布这一假定成立,那么标准化残差的分布也应服从正
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酱油酱类制作工岗前理论技能考核试卷含答案
- 双膛窑石灰煅烧工岗前技能安全考核试卷含答案
- 2026年新科教版初中七年级科学下册第三单元力的作用效果应用卷含答案
- 制冷空调设备装配工安全知识宣贯考核试卷含答案
- 2026年新科教版初中九年级历史下册第三单元冷战与世界多极化卷含答案
- 手风琴零件制作工安全综合考核试卷含答案
- 钙镁磷肥生产工操作安全竞赛考核试卷含答案
- 海洋浮标工安全知识宣贯考核试卷含答案
- 地毯络筒工班组建设强化考核试卷含答案
- 冷作钣金工岗前激励考核试卷含答案
- 《职业教育学新编(第4版)》 第一章 职业教育的内涵 试题及答案
- 上海选调生面试题和考官用题本及答案21套
- 中风中医培训课件
- 2025年江西省中考生物试题(含答案及解析)
- 2024年昆明市卫生健康委员会直属事业单位招聘考试真题
- 检测中心人员管理制度
- 2025-2030年中国实验动物行业市场深度调研及市场前瞻与投资战略研究报告
- 石油天然气风险勘探目标评价规范
- DB11-T 850-2011 建筑墙体用腻子应用技术规程
- 民事起诉状(物业服务合同纠纷)示范文本
- 项目机电管道支吊架体系计算方案
评论
0/150
提交评论