版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章相关与回归分析
相关与回归分析的基本概念简单线性相关与回归分析多元线性相关与回归分析非线性相关与回归分析2(本科)第9章相关与回归分析ppt课件第一节相关与回归分析的基本概念一函数关系与相关关系二相关关系的种类三相关分析与回归分析四相关图3(本科)第9章相关与回归分析ppt课件一、函数关系与相关关系当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。例如,商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。例如,劳动生产率与工资水平的关系。4(本科)第9章相关与回归分析ppt课件变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。具有相关关系的变量之间的联系,如果对它们有了深刻的规律性认识,并能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。5(本科)第9章相关与回归分析ppt课件二、相关关系的种类按相关的程度可分为完全相关、不完全相关和不相关。当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般相关现象都是指这种不完全相关。6(本科)第9章相关与回归分析ppt课件按相关的方向可分为正相关和负相关。当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关。例如,消费水平随收入的增加而提高。当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相关。例如商品流转的规模愈大,流通费用水平则愈低。按相关的形式可分为线性相关和非线性相关。现象之间的关系为线性关系时,称之为线性相关。相关现象之间近似于某种曲线方程的关系,则这种相关关系称为非线性相关。7(本科)第9章相关与回归分析ppt课件按所研究的变量多少可分为单相关、复相关和偏相关。两个变量之间的相关,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。8(本科)第9章相关与回归分析ppt课件三、相关分析与回归分析相关分析是用一个指标来表明现象间相互关系的密切程度。回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析与回归分析之间又有明显区别。相关分析研究变量之间相关的方向和相关的程度。回归分析则研究变量之间相互关系的具体形式。相关分析无法从一个变量的变化来推测另一个变量的变化情况。可不必确定哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。回归分析必须事先确定自变量和因变量。一般地说,因变量是随机的,而把自变量作为研究时给定的非随机变量。9(本科)第9章相关与回归分析ppt课件相关与回归分析可以加深人们对客观现象之间相关关系的认识,因而是对客观现象进行分析的有效方法。相关分析和回归分析只是定量分析的手段。通过相关与回归分析虽然可以从数量上反映现象之间的联系形式及其密切程度,但是无法准确地判断现象内在联系的有无,也无法单独以此来确定何种现象为因,何种现象为果。只有以实质性科学理论为指导,并结合实际进行研究,才能正确判断事物的内在联系和因果关系。如果对本来没有内在联系的现象,仅凭数据进行相关分析和回归分析,就可能是一种“伪相关”或“伪回归”,可能导致荒谬的结论。在应用相关与回归分析方法时,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。10(本科)第9章相关与回归分析ppt课件四、相关图相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。11(本科)第9章相关与回归分析ppt课件第二节简单线性相关与回归分析相关系数及其检验标准的一元线性回归模型
一元线性回归模型估计一元线性回归模型检验
一元线性回归模型预测12(本科)第9章相关与回归分析ppt课件一、相关系数及其检验(一)相关系数的定义总体相关系数的定义式是 总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。样本相关系数的定义式是上式中,和分别是X和Y的样本平均数。样本相关系数是根据样本观测值计算的,抽取的样本不同其具体的数值也会有所差异。样本相关系数是总体相关系数的一致估计量。
13(本科)第9章相关与回归分析ppt课件(二)相关系数的特点r的取值介于-1与1之间。当r=0时,X与Y的样本观测值之间没有线性关系;0<|r|<1,X与Y的样本观测值之间存在一定线性关系;r>0时,X与Y为正相关,当r<0时,X与Y为负相关。如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r
=-1时,称为完全负相关。r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,并不意味着X与Y之间不存在其他类型的关系。对于二者之间可能存在的非线性相关关系,需要利用其他指标去进行分析。14(本科)第9章相关与回归分析ppt课件(三)相关系数的计算上式可由相关系数的定义式推到而来。如:例9-1.docx15(本科)第9章相关与回归分析ppt课件(四)相关系数的检验对总体相关系数
是否等于0进行检验。计算相关系数r的t值:根据给定的显著性水平和自由度(n-2),查找t分布表中相应的临界值t
/2。若|t|≥t
/2
,表明r在统计上是显著的。若|t|≤t
/2
,表明r在统计上是不显著的。16(本科)第9章相关与回归分析ppt课件例9-2假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r=0.5,试问是否可根据5%的显著水平认为该公司股票与气温之间存在一定程度的线性相关关系?解:H0:
γ=0;H0:
γ
0 r的t检验值
查表可知:显著水平为5%,自由度为4的临界值t
/2=2.776,上式中的t值小于2.776,因此,r不能通过显著性检验。这就是说,尽管根据样本观测值计算的r达到0.5,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系。17(本科)第9章相关与回归分析ppt课件二、标准的一元线性回归模型(一)总体回归函数在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型,又称简单线性回归模型。
上式被称为总体回归函数。式中的
1和
2是未知的参数,又叫回归系数。Yt和Xt分别是Y和X的第t个观测值。ut是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。18(本科)第9章相关与回归分析ppt课件E(Yt)=β1+β2XtXYYtut。。。。。
图7-2总体回归线与随机误差项
19(本科)第9章相关与回归分析ppt课件(二)样本回归函数在现实中,由于现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握变量总体的全部取值。需要利用样本的信息对其进行估计。一元线性回归模型的样本回归线可表示为: 式中的是样本回归线上与Xt相对应的Y值,可视为E(Yt)的估计;是样本回归函数的截距系数,是样本回归函数的斜率系数,它们是对总体回归系数
1和
2的估计。20(本科)第9章相关与回归分析ppt课件
实际观测到的因变量Yt值,并不完全等于,如果用et表示二者之差(),则有: (t=1,2,...,n) 上式称为样本回归函数。式中et称为残差。样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是要充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数21(本科)第9章相关与回归分析ppt课件样本回归函数与总体回归函数之间的间的区别总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。总体回归函数中的
1和
2是未知的参数,表现为常数。而样本回归函数中的和是随机变量,其具体数值随所抽取的样本观测值不同而变动。总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。22(本科)第9章相关与回归分析ppt课件(三)误差项的标准假定假定1:误差项的期望值为0,即对所有的t总有假定2:误差项的方差为常数,即对所有的t总有假定3:误差项之间不存在序列相关关系,其协方差为零,即当t≠s时有:假定4:自变量是给定的变量,与误差项线性无关。假定5:随机误差项服从正态分布。 满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。23(本科)第9章相关与回归分析ppt课件三、一元线性回归模型的估计(一)回归系数的点估计最小二乘法是通过使残差平方和为最小来估计回归系数的一种方法。 将Q对求偏导数,并令其等于零,可得 加以整理后有设24(本科)第9章相关与回归分析ppt课件以上方程组称为正规方程组或标准方程组,式中的n是 样本容量。求解这一方程组可得:25(本科)第9章相关与回归分析ppt课件(二)总体方差的估计可以证明,
2的无偏估计S2可由下式给出:
式中,分子是残差平方和,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。S2的正平方根又叫做回归估计的标准误差。一般采用以下公式计算残差平方和: 上式的推导过程如下:
26(本科)第9章相关与回归分析ppt课件(三)最小二乘估计量的性质按照最小二乘法求得的估计总体回归系数的数学公式是样本观测值的函数,通常称之为最小二乘估计量。可以证明,在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有: 其方差为:
27(本科)第9章相关与回归分析ppt课件将Yt=
1
+2
Xt+ut代入估计量,并作以下变形:
为推导上式,利用了以下恒等式:
回归系数的最小二乘估计量可以表现为所要估计的参数的真值与随机误差项的线性组合。28(本科)第9章相关与回归分析ppt课件由于已假定Xt是给定的变量,因此,同各期误差项相乘的权数也都是确定量。为叙述方便,令则有:根据标准假定4根据标准假定1根据标准假定4、3根据标准假定229(本科)第9章相关与回归分析ppt课件利用关于随机误差项的标准假定和期望值运算的规则。可以证明的期望值和方差分别为:和。最小二乘估计量是因变量Yt的线性函数,其期望值等于总体回归系数的真值。因此,最小二乘估计量是总体回归系数的线性无偏估计量。还可以进一步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;随着样本容量的增大,其方差会不断缩小。也就是说,回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。高斯-马尔可夫定理表明:在标准的假定下,最小二乘估计量是一种最佳估计方式。但这并不意味着根据这一方式计算的具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。30
2(本科)第9章相关与回归分析ppt课件(四)回归系数的区间估计根据关于参数区间估计的原理,可得到以下回归系数区间估计的公式:
式中,是回归系数估计的样本标准误差,是显著水平为
,自由度为(n-2)的t分布双侧临界值。=S
31(本科)第9章相关与回归分析ppt课件四、一元线性回归模型的检验(一)回归模型检验的种类理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。例如,在前面所举的消费函数中,
2的取值区间应在0至1之间。在对实际的社会经济现象进行回归分析时,常常会遇到经济意义检验不能通过的情况。造成这一结果的主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件。32(本科)第9章相关与回归分析ppt课件一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。二级检验对于社会经济现象的定量分析具有特别重要的意义。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段。重新选择因变量和自变量及其函数形式,或者对数据进行加工整理之后再次估计参数。33(本科)第9章相关与回归分析ppt课件(二)拟合程度的评价
总离差平方和的分解对任一实际观测值Yt总有:
对上式两边取平方并求和,得到:利用残差的定义和有关约束条件可以证明:
从而有: 即SST=SSR+SSE34(本科)第9章相关与回归分析ppt课件上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以SST,得:显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为决定系数,即有:决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。35(本科)第9章相关与回归分析ppt课件决定系数r2具有如下特性:1.决定系数r2具有非负性。
由决定系数的定义式可知,r2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合,由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于0。)2.决定系数的取值范围为0≤r2≤1。3.决定系数是样本观测值的函数,它也是一个统计量。4.在一元线性回归模型中,决定系数是单相关系数的平方。36(本科)第9章相关与回归分析ppt课件(三)显著性检验回归分析中的显著性检验包括两方面的内容:一是对各回归系数的显著性检验;二是对整个回归方程的显著性检验。在一元线性回归模型中,由于只有一个解释变量X,对β2=0的检验与对整个方程的显著性检验是等价的。所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。β1与β2的检验方法是相同的,但β2的检验更为重要,因为它表明自变量对因变量影响的程度。37(本科)第9章相关与回归分析ppt课件1.t检验(1)提出假设。式中,H0表示原假设;H1表示备择假设;是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令=0。这是因为
2
是否为0,可以表明X对Y是否有显著的影响。(2)确定显著水平
。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取0.05。(3)计算回归系数的t值。
38(本科)第9章相关与回归分析ppt课件(4)确定临界值。
t检验的临界值是由显著水平和自由度决定的。这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如对H0:
2=0,H1:
2
0,进行的是双侧t检验;而对H0:
2=0.9,H1:
2<0.9,进行的是单侧t检验。对此,在双侧检验的场合,依据
和df,查t分布表所确定的临界值是(-t
/2)和(t
/2
);而在单侧检验的场合,所确定的临界值是(t
)。(5)做出判断。 如果的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,则接受原假设。39(本科)第9章相关与回归分析ppt课件2.p检验回归系数的显著性检验还可以采用p检验。其前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的的概率即p值。然后将其与给定的显著水平
对比,如果p小于
,则拒绝原假设,反之则接受原假设。利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值。40(本科)第9章相关与回归分析ppt课件五、一元线性回归模型预测(一)回归预测的基本公式简单回归预测的基本公式如下: 式中,Xf是给定的X的具体数值;是Xf给定时Y的预测值;和是已估计出的样本回归系数。回归预测是一种有条件的预测,在进行回归预测时,必须先给出Xf的具体数值。当给出的Xf属于样本内的数值时,利用该式去计算称为内插检验或事后预测。而当给出的Xf在样本之外时,利用该式去计算称为外推预测或事前预测。通常所说的预测是指事前预测。41(本科)第9章相关与回归分析ppt课件(二)预测误差在实际的预测中,发生预测误差的原因可概括为以下四个:1.模型本身中的误差因素所造成的误差;这一误差可以用总体随机误差项的方差来评价。2.由于回归系数估计值同其真值不一致所造成的误差;该误差可用回归系数最小二乘估计量的方差来评价。3.由于自变量X的设定值同其实际值的偏离所造成的误差。4.由于未来时期总体回归系数发生变化所造成的误差。在以上造成预测误差的原因中,3、4两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在1、2、两种误差。42(本科)第9章相关与回归分析ppt课件设Xf给定时Y的真值为Yf
,Yf=
1+
2
Xf+uf则有 式中,ef是预测的残差。利用期望值与方差的运算规则以及前面给出的回归系数最小二乘估计量的期望值和方差,可以证明:
还可以进一步证明是Yf的最优线性无偏预测,即在标准假定下,公式是Yf的最佳预测方式。43(本科)第9章相关与回归分析ppt课件(三)区间预测若用Sef来表示预测标准误差的估计值,则数学上可以证明:服从于自由度为(n-2)的t分布。按照确定置信区间的方法,可以得出Yf的(1-
)的置信区间为: 式中,是置信度为(1-
)、自由度为(n-2)的t分布的临界值。44(本科)第9章相关与回归分析ppt课件对于每一个给定的X值,计算相应的Y的置信区间,并将连接各点的曲线描绘在平面图上,便可得到右图。从置信区间和Sef的计算公式以及右图,可得到以下结论:回归预测的置信区间YX45(本科)第9章相关与回归分析ppt课件第一,置信区间的上下限对称地落在样本回归直线两边,呈中间小两头大的喇叭型。当Xf=时的置信区间最窄,而当Xf远离时,其置信间逐渐增大。这就是说,在用回归模型进行预测时,Xf的取值不宜离开过远,否则预测精度将会降低,有可能使预测失效。第二,在样本容量n保持不变时,
的值,随置信度(1-
)的提高而增加,因此,要求预测值的概率保证程度增加,在其它条件不变时,也就意味着预测精度的降低。第三,当其它条件不变时,和Sef的值均为样本容量n的减函数,即随着n的增加,这二者将逐渐减少。这说明随着样本容量的增加,预测精度将会提高,而样本容量过小,预测的精度就较差。46(本科)第9章相关与回归分析ppt课件第四,当n足够大时,Sef会趋近于S;会趋近于z
/2。(z
/2是置信度为(1-
)的标准正态分布的临界值)。这时,可以用S和z
/2取代Sef和zt
/2来确定预测区间。即样本容量充分大时,Yf的(1-
)的置信区间为:
Yf±z
/2×S按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归线平行的两条虚线)。计算实例简单回归分析计算例.docx47(本科)第9章相关与回归分析ppt课件
第三节多元线性回归分析标准的多元线性回归模型多元线性回归模型的估计
多元线性回归模型的检验和预测
复相关系数和偏相关系数48(本科)第9章相关与回归分析ppt课件一、标准的多元线性回归模型研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型总体回归函数的一般形式如下:多元线性回归模型的样本回归函数如下
(t=1,2,…,n)49(本科)第9章相关与回归分析ppt课件上式中,et是Yt与其估计之间的离差,即残差。与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一章中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n>k。我们称这条假定为标准假定6。50(本科)第9章相关与回归分析ppt课件二、多元线性回归模型的估计(一)回归系数的估计多元线性回归模型中回归系数的估计同样采用最小二乘法。设根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对的偏导数必须等于零。将Q对求偏导数,并令其等于零,加以整理后可得到以下k个方程式:
通过求解这一方程组便可以得到。51(本科)第9章相关与回归分析ppt课件求解多元回归方程,用矩阵形式来表达较为简便(这里给出的矩阵形式具有一般性,一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可不必掌握这一部分内容。)记
52(本科)第9章相关与回归分析ppt课件则总体回归函数(9.1)
式可以写为:
Y=XB+U样本回归函数(7.51)式可以写为:标准方程组可以写为:
式中X’表示X的转置矩阵。(X’X)是一个k×k的对称矩阵根据标准假定6,(k-1)个自变量之间不存在高度线性相关,其逆矩阵存在。在上式两边同时左乘(X’X)-1,可以得到:
上式是回归系数最小二乘估计的一般形式。53(本科)第9章相关与回归分析ppt课件(二)总体方差的估计多元线性回归模型中的
2也是利用残差平方和除以其自由度来估计的。即有: 式中,n是样本观测值的个数;k是方程中回归系数的个数;可以证明,S2是
2的无偏估计。S2的正平方根S又叫做回归估计的标准误差。编制计算机程序时,残差平方和一般利用以下公式计算:
式中Y是因变量样本观测值向量;X是自变量样本观测值矩阵;是回归系数估计值向量的转置向量。(三)最小二乘估计量的性质在标准多元线性回归模型中,高斯定理同样成立。
54(本科)第9章相关与回归分析ppt课件三、多元线性回归模型的检验和预测(一)拟合程度的评价利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。由决定系数的定义可知,R2的大小取决于残差平方和在总离差平方和中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。因此,R2是自变量个数的非递减函数。55(本科)第9章相关与回归分析ppt课件在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多元线性回归模型中,各回归模型所含的变量的数目未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的。在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数。该指标定义如下: 式中,n是样本容量;k是模型中回归系数的个数。(n-1)和(n-k)分别是总离差平方和与残差平方和的自由度。56(本科)第9章相关与回归分析ppt课件修正自由度的决定系数具有以下特点:1.。因为k≥1,所以根据和R2各自的定义式可以得出这一结论。对于给定的R2值和n值,k值越大越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。作为综合评价这两方面情况的一项指标显然比R2更为合适。2.小于1,但未必都大于0。在拟合极差的场合,有可能取负值。57(本科)第9章相关与回归分析ppt课件【例9-11】假设有7年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:k=6,R2=0.82;方程二中:k=2,R2=0.80。试对这两个回归方程的拟合程度做出评价。解:如果仅从R2考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入式(9.63),可得:
方程一的
=1-((9-1)/(9-6))(1-0.82)=-0.08
方程二的
=1-((9-1)/(9-2))(1-0.80)=0.76
由此可见,方程二的实际拟合程度远远优于方程一。58(本科)第9章相关与回归分析ppt课件(二)显著性检验1.回归系数的显著性检验多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。多元模型中回归系数的检验同样采用t检验和P检验,其原理和步骤与一元回归模型基本相同,这里不再赘述。下面仅给出回归系数显著性检验t统计量的一般计算公式。59(本科)第9章相关与回归分析ppt课件
j=1,2,…,k
式中,是回归系数的估计值,是的标准差的估计值,其按下式计算: 式中,是(X’X)-1的第j个对角线元素,S2是随机误差项方差的估计值。上式的t
统计量背后的原假设是
H0:
j=0,因此t的绝对值越大表明
j为0的可能性越小,即表明相应的自变量对因变量的影响是显著的。60(本科)第9章相关与回归分析ppt课件2.回归方程的显著性检验必须在方差分析的基础上利用F检验进行。其步骤如下:(1)假设总体回归方程不显著,即有
H0:
2=
3
=……=
k
=0(2)进行方差分析,列出回归方差分析表(见下表)61(本科)第9章相关与回归分析ppt课件表中,回归平方和的取值受k个回归系数估计值的影响,同时又要服从的约束条件,其自由度是k-1。残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,其自由度是n-k
。回归平方和与残差平方和各除以自身的自由度得到的是样本方差。回归模型方差分析表离差名称平方和自由度方差回归平方和
k-1SSR/(k-1)残差平方和n-kSSE/(n-k)总离差平方和n-162(本科)第9章相关与回归分析ppt课件(3)根据方差分析的结果求F统计量,即 数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。(4)根据自由度和给定的显著性水平
,查F分布表中的理论临界值F
。当F>F
时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当F<F
时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显著,所建立的回归模型没有意义。63(本科)第9章相关与回归分析ppt课件(三)多元线性回归预测在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:式中,Xjf(j=2,3,…,k)是给定的Xj在预测期的具体数值;
是估计的样本回归系数;是Xj给定时Y的预测值。该方程的矩阵形式为:64(本科)第9章相关与回归分析ppt课件
式中:多元线性回归预测标准误差的计算公式如下: 式中,S是回归方程估计的标准误差。多元线性回归预测Yf的(1-
)的置信区间可由下式给出: 式中,t
/2是显著水平为
的t分布双侧临界值。例9-9多元回归例.docx
(9.21)±tα/265(本科)第9章相关与回归分析ppt课件四、复相关系数和偏相关系数(一)复相关系数样本复相关系数(简称复相关系数)的定义式如下:实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。复相关系数只取正值。因此,复相关系数只是反映一个变量Y与其他多个变量X2,X3,…,Xk之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。复相关系数的取值区间为:0≤R≤1。66(本科)第9章相关与回归分析ppt课件(二)偏相关系数在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量线性相关程度和方向的指标称为偏相关系数。在多变量的场合,变量之间存在错综复杂的关系,偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。单相关系数反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。例如,一种商品的需求既受收入的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格应当是负相关。在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能得出错误结论。67(本科)第9章相关与回归分析ppt课件样本单相关系数也可定义为两个样本回归系数的乘积的开方,即:
上式中r的符号应与回归系数的符号一致。回归系数为正数时,r取正值;回归系数为负数时,r取负值。样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平均数。为简明起见,下面举3变量的偏相关分析为例。设有3个变量X1、X2和X3。3个变量各自以另两个变量为自变量拟合的样本回归方程如下:68(本科)第9章相关与回归分析ppt课件利用以上偏回归系数,3变量之间偏相关系数可定义如下:偏相关系数的取值范围与单相关系数一样也是在-1至+1之间,其符号与相应的偏回归系数相同。69(本科)第9章相关与回归分析ppt课件以上偏相关系数的定义可以推广到k个变量的场合。在进行实际的客观现象的定量分析时,人们所关心的通常是某一个因变量Y
与多个自变量之间的偏相关程度。这时若令Y为X1,则Y与各自变量的偏相关系数的一般形式可表现为: 式中,是Y对Xj的偏回归系数; 是Xj对Y的偏回归系数。 表示k个变量情况下Y与Xj的偏相关系数,它反映其他变量保持不变时Y与Xj的净相关程度。70(本科)第9章相关与回归分析ppt课件【例9-13】试根据例9-9中的数据计算A商品需求与价格的单相关系数和偏相关系数。解:将有关数据代入单相关系数的计算公式可得:
r13=0.2266
以价格为因变量,收入和需求为自变量,拟合样本回归方程,可得
=-0.2571,由例9-1的结果已知
=-1.7996。将其代入(9.30)式,可得:r13.2=
-=-0.68由以上计算结果可知:在本例中需求与价格的单相关系数和偏相关系数差别很大,甚至连符号也不相同。71-
(本科)第9章相关与回归分析ppt课件第四节非线性相关与回归分析非线性回归分析的意义非线性函数形式的确定非线性回归分析模型估计
相关指数72(本科)第9章相关与回归分析ppt课件一、非线性回归分析的意义在现实生活中,非线性关系是大量存在的。在许多场合,非线性的回归函数比线性回归函数更能够正确地反映客观现象之间的相互联系。非线性回归分析必须着重解决以下两个问题:第一、如何确定非线性函数的具体形式。与线性回归分析的场合不同,非线性回归函数有多种多样的具体形式,需要根据所要研究的问题的性质并结合实际的样本观测值做出恰当的选择。第二、如何估计函数中的参数。非线性回归分析最常用的方法仍然是最小二乘估计法。但需要根据函数的不同类型,作适当的处理。73(本科)第9章相关与回归分析ppt课件二、非线性函数形式的确定首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系。其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单的一种。一般来说,数学形式越简单,其可操作性就越强。74(本科)第9章相关与回归分析ppt课件(一)抛物线函数
抛物线方程的具体形式为:
Y=a+bX+cX2
式中a、b和c为待定参数。判断某种现象是否适合应用抛物线,可以利用“差分法”将样本观察值按X的大小顺序排列,按以下两式计算X和Y的一阶差分△Xt
、△Yt以及Y的二阶差分△Y2t
△Xt=Xt–Xt-1;△Yt=Yt–Yt-1
△Y2t=△Yt-△Yt-1
当△Xt接近于一常数,而△Y2t的绝对值接近于常数时,Y与X
之间的关系可以用抛物线方程近似反映。75(本科)第9章相关与回归分析ppt课件(二)双曲线函数
假如Y随着X的增加而增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线来拟合。双曲线的方程式是:
Y=a+b(1/X)
(三)幂函数幂函数方程的一般形式是:这类函数的优点在于:方程中的参数可以直接反映因变量Y
对于某一个自变量的弹性。76(本科)第9章相关与回归分析ppt课件(四)指数函数指数曲线的函数为:
Y=abx
式中有两个待定参数a和b。当a>0,b>1时,曲线随X值的增加而弯曲上升,趋于+∞;当a>0,0<b<1时,曲线随X值的增长而弯曲下降趋于0。(五)对数函数对数函数的方程形式为:
Y=a+blnX
式中,ln表示取自然对数。对数函数的特点是随着X的增大,X的单位变动对因变量Y的影响效果不断递减。77(本科)第9章相关与回归分析ppt课件(六)S形曲线函数逻辑曲线具有以下性质。Y是X的非减函数,开始时随着X的增加,Y的增长速度也逐渐加快,但是达到一定水平之后,其增长速度又逐渐放慢。最后无论X如何增加,Y只会趋近于L,而永远不会超过L。由于逻辑曲线的这一特点,它常被用来表现耐用消费品普及率的变化。(七)多项式方程多项式方程在非线性回归分析中占有重要的地位。因为根据级数展开的原理,任何曲线、曲面、超曲面问题,在一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Juncatrin-B-生命科学试剂-MCE
- 2026年环境学监测试题及答案
- 2026年耐克网申测试题及答案
- 2026年少儿体能测试题及答案
- 2026年脑梗恢复测试题及答案
- 2026年街舞战队心理测试题及答案
- 2026年安全与急救测试题及答案
- 2026年光学现象测试题及答案
- 2026年极速心算测试题及答案
- 大学生个人心理成长报告(五篇合集)
- 北京市西城区2023-2024学年八年级下学期期末英语试题(解析版)
- 书籍委托创作合同范例
- 肺癌免疫治疗耐药机制及逆转策略
- 脊髓损伤的并发症及预防
- (正式版)CB∕T 4548-2024 船舶行业企业相关方安全管理要求
- 一元二次方程练习题(含答案)
- (高清版)WST 311-2023 医院隔离技术标准
- AI技术在安全监控中的应用
- 初中地理(中考)会考模拟试题(五)
- 大班数学活动《10的分与合》课件
- 皮内注射技术操作考核评分标准
评论
0/150
提交评论