第十二章-回归分析_第1页
第十二章-回归分析_第2页
第十二章-回归分析_第3页
第十二章-回归分析_第4页
第十二章-回归分析_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

职教学院刘春雷E-mail:lcl2156,教育统计学,1,2,第十二章回归分析,第一节一元线性回归第二节一元线性回归方程的检验第三节一元线性回归方程的应用,3,回归分析如果将存在相关的两个变量,一个作为自变量,另一个作为因变量,并把两者之间不十分准确、稳定的关系,用数学方程式来表达,则可利用该方程由自变量的值来估计、预测因变量的估计值,这一过程称为回归分析。,第十二章回归分析,4,回归分析相关两个变量之间的双向相互关系;回归一个变量随另一个变量作不同程度变化的单向关系。由一个变量值估计、预测另一个变量值的准确性,随这两个变量之间的相关程度而变化。当r=|1|,预测将完全准确,没有误差。,第十二章回归分析,5,第一节一元线性回归,一元线性回归是指只有一个自变量的线性回归。一、回归线自然科学中,线性函数关系,如匀加速运动:V=V0+0.5at.在教育研究中,变量间存在一定关系,但由于关系较复杂,受偶然因素影响较大,两者是一种不十分确定的回归关系。,6,第一节一元线性回归,一、回归线如X取一个值时,并不一定只有唯一确定的一个Y值与之相对应,而可能有许多Y值与之对应。但如果散点的分布有明确的直线趋势,就可以配置一条最能代表散点图上分布趋势的直线,这条最优拟合线即称为回归线。,7,第一节一元线性回归,一、回归线也就是说,回归线上的某一点就是与某一X值相对应的诸多Y值的代表。这时,X与的对应关系就可以用一条直线来表示。,8,第一节一元线性回归,一、回归线常用的拟合回归线的原则使各点与该线纵向距离的平方和为最小。,一元线性回归线可以有两条:以X为自变量、Y为因变量的回归线是一条;以Y为自变量、X为因变量的回归线是另一条。,9,第一节一元线性回归,一、回归方程确定回归线的方程称回归方程。一元线性回归方程的通式为=a+bX,a回归线在Y轴上的截距;b回归线的斜率,称回归系数。与两条回归线相对应的方程分别可表示为:由X估计Y:由Y估计X:,10,第一节一元线性回归,二、回归方程1用最小二乘法求回归系数由X估计Y:,2求截距由X估计Y:,11,第一节一元线性回归,12,第一节一元线性回归,13,第一节一元线性回归,14,第一节一元线性回归,三、回归系数的几种计算方法1、用原始数据计算(由X估计Y),2、用X、Y、X、Y、XY计算(由X估计Y),15,第一节一元线性回归,三、回归系数的几种计算方法3、用X、Y、SX、SY、XY计算(由X估计Y),4、用两个标准差及相关系数计算1)用两个样本的标准差及相关系数计算(由X估计Y)2)用两个总体标准差估计值及相关系数计算(由X估计Y),16,第一节一元线性回归,一、回归线也就是说,回归线上的某一点就是与某一X值相对应的诸多Y值的代表。这时,X与的对应关系就可以用一条直线来表示。,17,第二节一元线性回归方程的检验,一、估计误差的标准差利用回归方程可以计算出与某一X值相对应的Y值的估计值。但实际上,与某一X值相对应的诸Y值,并不都落在回归线上它们以Y的平均数YX为中心呈正态分布。与某一X值相对应的回归值,就是与该X值相对应的这些诸Y值的平均数YX的估计值。,18,第二节一元线性回归方程的检验,一、估计误差的标准差由估计YX会有一定的误差。用估计误差的标准差作为描述由估计YX误差大小的指标。估计误差的标准差的无偏估计量为:,因为在用回归方程计算时,使用了a和b两个统计量,故失去了两个自由度(n-2)。,19,第二节一元线性回归方程的检验,一、估计误差的标准差当样本容量较大(即n/(n-2)接近于1),又已知两个变量的标准差及其相关系数时,可用下式计算估计误差的标准差的近似值。,(由X估计Y),SYX估计误差的标准差YY变量的样本标准差rX与Y两个变量的相关系数,20,第二节一元线性回归方程的检验,一、估计误差的标准差,(由X估计Y),由此可见,估计误差的标准差与两个变量的相关程度有关。相关越高,估计误差的标准差越小,估计的可靠性越大。当r=1时,估计误差的标准差为0,即估计得准确无误。,21,第二节一元线性回归方程的检验,表12.110个学生初一(X)与初二(Y)数学分数估计方差、估计标准差误差计算表,22,第二节一元线性回归方程的检验,一、估计误差的标准差先用回归方差=1.22X-14.32计算与各X值相对应的回归值,例如,X=74,=1.2274-14.32=75.96然后求Y与之差残差,再平方,求其和,则残值平方和(Y-)2=104.87则估计误差的标准差为:,23,第二节一元线性回归方程的检验,一、估计误差的标准差若将已知Y=5.178,r=0.78,则,若样本容量较大,则上述结果会更加接近。,24,第二节一元线性回归方程的检验,二、一元线性回归方程检验的意义根据样本数据计算出的回归方程可能有一定的抽样误差。为考查这两个变量在总体内是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,因此,在回归方程应用之前,首先应进行显著性检验。,25,第二节一元线性回归方程的检验,二、一元线性回归方程检验的意义一元线性回归方程的显著性,有以下三种等效的检验方法:1、对回归方程进行方差分析;2、对两个变量的相关系数进行与总体零相关的显著性检验。若相关系数显著,则回归方程也显著,即存在线性关系。3、对回归系数进行显著性检验。,26,第二节一元线性回归方程的检验,二、一元线性回归方程检验的意义回归系数的显著性检验应看样本的回归系数b在以总体回归系数=0为中心的抽样分布上出现的概率如何。如概率大,则b与=0的总体无显著性差异,即样本b是来自于=0的总体。这时,即使b再大,也不能认为X与Y存在线性关系。如概率小到一定程度,则b与=0有显著性差异,即样本b不是来自于=0的总体。这时,即使b再小,也只能承认X与Y存在线性关系。,27,第二节一元线性回归方程的检验,三、一元线性回归系数显著性检验方法在回归线上,当与所有自变量X相对应的各组因变量Y的残值都呈正态分布,并且残值方差为齐性时,由X估计Y的回归系数的标准误为:,SYX估计误差的标准差(X-X)2X变量的离差平方和,28,第二节一元线性回归方程的检验,三、一元线性回归系数显著性检验方法当已知两个变量的标准差时,回归系数标准误的估计量可表示为:,X和YX和Y变量的样本标准差rX与Y两个变量的相关系数n样本的容量,29,第二节一元线性回归方程的检验,前例检验回归系数的显著性检验的步骤:(1)提出假设H0:=0H1:0(2)计算检验统计量的值,30,第二节一元线性回归方程的检验,(2)计算检验统计量的值回归系数的抽样分布呈t分布,其检验统计量为:,则用以检验=0假设的t统计量为:,其中,本例中bYX=1.22,(X-X)2=110,SYX=3.62,则,31,第二节一元线性回归方程的检验,另一种形式,其中,则t统计量为:,本例中X=3.317,Y=5.178,n=10,r=0.78,代入则,32,第二节一元线性回归方程的检验,检验的步骤:(1)提出假设(2)计算检验统计量的值(3)确定检验的形式采取双侧检验(4)统计决断根据自由度df=n-2=10-2=8,查t值表,找到t(8)0.01=3.355,由于|t|=3.532*3.355,则P0.01,按统计决断规则,应在0.01显著性水平上拒绝H0而接受H1,其结论为:学生在初一与初二的数学分数存在线性关系。,33,第二节一元线性回归方程的检验,四、测定系数回归方程经检验有显著性,这只表明从总体上说X和Y两个变量之间存在线性关系。但是回归方程估计、预测的效果如何,即X与Y线性关系的程度如何,还需考查。从最小二乘法的推演过程中可以得知,因变量的总平方和等于回归平方和与误差平方和(残值平方和)之和,即(Y-Y)2=(-Y)2+(Y-)2总平方和回归平方和误差平方和,34,第二节一元线性回归方程的检验,四、测定系数等号两边同除以总平方和(Y-Y)2则,若回归平方和在总平方和中所占的比率越大,而误差平方和所占比率越小,则预测效果越好;若回归平方和在总平方和中所占比率小,而误差平方和所占比率大,则预测效果越差。,35,第二节一元线性回归方程的检验,四、测定系数因此,是衡量回归预测效果的一个指标。它又等于X和Y两个变量之间相关系数的平方,用公式可表示为:,该式称为测定系数,即X和Y两个变量相关系数的平方等于回归平方和在总平方和中所占的比率。,36,第二节一元线性回归方程的检验,四、测定系数例如,前例中的相关系数r=0.780,其r2=0.608,这就是说,在因变量的总平方和中回归平方和占60.8%。也就是说Y变量的变异中有60.8%是由X变量的变异所引起。或者说,Y变量的变异中有60.8%可以由X变量推测出来。因相关系数是表示两个变量之间的相互关系,所以,r2是两个变量共同变异部分的比率,上例中r2=0.608,也可以说X变量的变异中有60.8%是由Y变量的变异造成的。,37,第三节一元线性回归方程的应用,回归方程主要是用来由自变量的值估计预测因变量的值。估计预测包含两方面:用样本的回归方程推算因变量的回归值;根据样本的回归值估计预测因变量的真值Y。,38,第三节一元线性回归方程的应用,一、用样本回归方程推算因变量的回归值根据样本数据列出的回归方程经过显著性检验,表明两个变量之间存在线性关系,这时可将已知变量(自变量)的值代入相应的回归方程式,推算出另一个变量(因变量)的估计值。,39,第三节一元线性回归方程的应用,例150名6岁男童体重(X)与屈臂悬体(Y)的相关系数r=-0.35,X=20千克,X=2.55,Y=42.7秒,Y=8.2,试估计体重为22.6千克的男童,屈臂悬体为多少秒?屈臂悬体为40秒的男童体重为多少千克?由体重X估计屈臂悬体Y的回归方程式为:=bYXX+aYX,40,第三节一元线性回归方程的应用,由,所以=bYXX+aYX=-1.13X+65.30经检验该回归方程有显著性,可以用来估计和预测。故体重为22.6千克的男童屈臂悬体为=(-1.13)22.6+65.30=39.76秒,41,第三节一元线性回归方程的应用,同理,由屈臂悬体Y估计体重X的回归方程式为:,因,所以,42,第三节一元线性回归方程的应用,上面由X估计Y的回归方程有显著性,那么由Y估计X的回归方程也有显著性,同样可以用来估计和预测。故屈臂悬体为40秒的男童体重为:,43,第二节一元线性回归方程的检验,一、估计误差的标准差当样本容量较大(即n/(n-2)接近于1),又已知两个变量的标准差及其相关系数时,可用下式计算估计误差的标准差的近似值。,(由X估计Y),SYX估计误差的标准差YY变量的样本标准差rX与Y两个变量的相关系数,44,第三节一元线性回归方程的应用,无论由X估计Y,还是由Y估计X都有误差产生。这一误差用误差的标准差来表示。由于样本容量较大,根据公式由体重(X)估计屈臂悬体(Y)的误差的标准差为:,根据正态分布曲线下的面积,体重为22.6千克的男童,屈臂悬体的时间值:有95%的可能落在1.96SYX之间,即39.761.967.68(下限24.71至上限54.81)之间;有99%的可能落在2.58SYX之间,即39.762.587.68(下限19.85至上限59.57)之间。,45,第三节一元线性回归方程的应用,由屈臂悬体(Y)估计体重(X)的误差的标准差为:同理,屈臂悬体为22.6千克的男童,体重的重量值有95%的可能落在1.96SXY之间,即20.301.962.39(下限15.62至上限24.98)之间;有99%的可能落在2.58SXY之间,即20.302.582.39(下限14.13至上限26.47)之间。,46,第三节一元线性回归方程的应用,二、对因变量真值的预测利用回归方程由自变量的值在一定概率意义上估计出因变量的所在区间,这里只反映了与某自变量的值相对应的那些因变量的值在回归值上下的变异。,47,第三节一元线性回归方程的应用,二、对因变量真值的预测回归方程本身是由样本数据列出的,如上例中再次随机抽取样本列出回归方程,由于抽样误差的影响,就不一定与上述方程相同。所以用回归方程计算出的回归值,并不是因变量的真值。要预测其真值还需考虑到各样本回归方程之间的变异。,48,第三节一元线性回归方程的应用,二、对因变量真值的预测1、由自变量估计预测因变量真值的误差标准误衡量由某一XP值估计预测相应YP之真值Y0时所产生的误差指标,称为误差标准误。它由两方面组成:一方面是对应于XP点的那些YP值与回归值P的差异,即;另一方面是各样本回归方程之间的差异,即。,49,第三节一元线性回归方程的应用,二、对因变量真值的预测因此误差标准误可表示为:SYX某一回归方程的误差标准差;与XP值相对应的各样本回归值P之间的标准差。,50,第三节一元线性回归方程的应用,二、对因变量真值的预测而各回归值P之间的标准差又为:则误差标准误为,51,第三节一元线性回归方程的应用,二、对因变量真值的预测上例有体重X估计屈臂悬体Y的误差标准差为SYX=7.68,X的离差平方和为(X-X)2=nX2=1502.552=975.38,X=20,故由XP=22.6估计YP的真值Y0之误差标准误为:,52,第三节一元线性回归方程的应用,二、对因变量真值的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论