简单回归分析_第1页
简单回归分析_第2页
简单回归分析_第3页
简单回归分析_第4页
简单回归分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、线性回归分析若是自变数与依变数都是一个,且y和x呈线性关系,这就称为一元线性回归。例如,以X表示小麦每667m:有效穗数,丫表示小麦每6671n二的产量,有效穗数即属于自变数,产量即属于依变数。在这种情形下,可求出产量依有效穗数而变更的线性回归方程。在另一种情形下,两类变数是平行关系很难分出哪个是自变数,哪个是依变数,例如,大豆脂肪含量与蛋白质含量的关系,依照需要确信求脂肪含量依蛋白质含量而变更的回归方程,或求蛋白质含量依脂肪含量而变更的回归方程。回归分析要解决的问题要紧有四个方而:一是依如实验观看值成立适当的回归方程;二是查验回归方程是不是适用,或对回归方程中的回归系数的进行估量;三是对

2、未知参数进行假设考试:四是利用成立起的方程进行预测和操纵。(一)成立线性回归方程用来归纳两类变数互变关系的线性方程称为线性回归方程。若是两个变数在散点图上呈线性,其数量关系可能用一个线性方程来表示。这一方程的通式为:y=+bx(7.1)上式叫做y依X的直线回归。其中X是自变数,亍是依变数)'的估量值,a是时的“值,即回归直线在>轴上的截距,称为回归截距,6是x每增加一个单位时,丁将平均地增加(6>0时)或减少(水0时)b个单位数,称为回归系数或斜率(regressioncoefficientorslope)。要使y=a+hx能够最好地代表丫和X在数量上的互变关系,依照最小平

3、方式原理,必需使Q=X(y-y)2=(y-a-bx)2=Qmin1I将Q看成两个变数“与b的函数,应该选择与b,使Q取得最小值,必需求Q对u,的一阶偏导数,且令其等于零,即得:+=(1)<+(2)由上述(1)解得:(7.2)将()代入(2),那么律(7.3)h=.但')=加一工八一、)EdZ(l>n()的分子Z(x您硬M离的差与v的离均差乘积总和,简称乘积和(sumofproducts),可记为SP,分母是x的离均差平方和,也可记为SSx。将()算得的和。值代入(),即可保证。=£(的藏汴,同时使Z6$)=°由直线回归方程能够在平面上作一条代表两类变数彼

4、此关系的直线,这条直线称为回归直线。在”>0时,表示回归直线在第I象限与丫轴相交;在“<0时,表示回归直线在第I象限与X轴相交:在b>0时,表示y随X的增加而变大,呈正相关:在6<0时,表示y随x的增大而减少,呈负相关。在=o或与。的不同不显著时,就说明丫的变异和x值的大小无关,无直线回归关系。以上是“和人的统计学说明,在具体应历时,”和,值还具有专业上的实际意义。上述求解a和h的程序就称为最小平方式(methodofleastsquares)。由a,b组成的回归方程是具有3个大体性质:(i)£(y为藏小值。(2)汇(、,_奂)=0(3)当工丁亍时,必有*=兀

5、因此回归直线必通过坐标点(、了)(7.4)将()代入()后可得线性回归方程的另一形式:y=y-hx+bx=y+b(x-x)由于所得方程具有上述3个特点,因此()被以为是实验资料的线性最正确配合。由各成对观看值直接成立回归方程的步骤:(1)判定直线性。两类变数的相关是不是呈直线形式,由观看值作散点图可知。(2)令"卡出必然条件下的某个范围内能够预测或操纵另一现象的转变。(3)计算”和值。(4)以求得的“和值代入所令方程"即帆例研究某小麦品种的单株有效穗数(X)与单株籽粒产量(>单位:g)关系的资料,现仅取所得观看值的10对(如表),试成立回归方程。表小麦单株有效穗数与单

6、株籽粒产量(g)单株有效穗数(X)单株籽粒产量(丁)按上述4个步骤成立回归方程(1)判定直线性。由表资料作出散点图(图)。由图看出10对观看值组成的10个相关点的散布近似直线转变,故应成立线性回归方程。图 小麦单株二 (2)令 3 = " + . (3)计算和8, 由表算得大 汇即=33y = 1.3039 + 1. 1473XSSX= SSv=x = 3.3OSP=y =5.09421.lI.上I02.52.93.33.74.I进一步计算单株有效穗数按O和算得:2.57124=L1473(g/穗)一义=(g)(4)将、方值代入所令方程»=。小外却得表资料的线性回归方程为:

7、y=1.3QJOW73vy=1.30+l.l5x上述方程中回归系数的实际意义为:单株有效穗数(X)每增加1穗时,单株籽粒产量将平均增加go若工=时,代入上式,那么得:y=1.3039F1.1473x2.9=4.6311若工=时,代入上式,那么得:y=1.30394-1.1473x3.7=5.5489由此组成两点(,),可绘出一条回归直线(如图),此直线必通过点()=(,),冗由此,能够查对作图是不是正确。(-)计算线性回归的估量标准误上述单株有效穗数和单株籽粒产量的回归方程*=13啖子若个看点的整体平均数的估量值的最好估量,它所反映的客观实际要比任一对观看值(,*)都更为准确。可是,各个巧上的

8、丫整体都是一个散布。为了确信回归方程的精准度,必需进而估量这些散布的变异度,那个变异度的统计数叫做线性回归估量标准误(standarderrorofestimate),或离回归标准差(standarddeviationfromregression),记为S”其概念为:S=jQ/(-2)上式中。为离回归平方和或剩余平方和(residualsumofsquares),或称回归离差平方和(sumofsquaresduetodeviationfromregression)o因为在回归方程中应用了a和b,或说“和b两个统计数,因此I=-2。假设各个观看点愈靠近回归直线,的值将愈小;假设各观看点在回归线上

9、下分散得越远,那么的值越大:假设各观看点都落在回归直线上,那么=0,故样本的值是表示回归精准度的重要统计数。愈小,由回归方程估量y的精准性愈大。计算的要紧麻烦在于求。,为简化计算手续,可按以下各式得出:Q=£()T,)2=sSy-R(7.5)Y(y-y)2=SSy-b(SP)(7.6)T.(y-y)2=SSy-b2(SSx)(7.7)Z(y-y)2=£/_n£y一此Q(7.8)例试计算表资料的回归估量标准误。=代入、别将例中算得的SSv=,SSx=,SP=,力工E-v2=,b=,a=,离计算离回归平方和,那么得:25720=3.59一-=0.64142.24Q=x

10、=Q=-X=Q=-X由上看出按4个公式别离计算结果,只有少量舍入误差。一样以()算得的。值较为准确。这是由于、三式中包括有“和人将所得。=,=10代入,那么得:0.6414不且=。283及上述计算结果说明,当用回归方程$=1.触单哂塔数穰数预测单株籽粒产量有一个的估量标准误。它的统计意义是在,'±°.283室范围内约有个观看点,在“土范围内约有个观看点,在土范围内约有个观看点。(三)线性回归的假设考试1.回归关系的假设考试任两个变数的整体即便不存在回归关系,或虽有回归关系但不是线性关系,都可用前面讲的方式算得一个线性方程,但由此方程估算的成效如何,就需要考试一类变数

11、随另一类变数而转变的回归关系是不是达到显著的标准,需要测定样本来自无线性回归关系的整体的概率大小。假设此概率W,才能推断线性回归关系是显著的。这确实是回归关系的假设考试,经常使用/考试或,考试。(1)一考试观看值力,为,,以之间的不同是由于自变数x取值的不同,还有实验误差的阻碍所致。因此,能够用方差分析,将总平方和£6'一歹尸分解或两种变异来源的平方和,由自变数1的取值不同造成的平方和,称为回归平方和。由其他因素造成的平方和叫做误差平方和,也叫做离回归平方和或剩余平方和。先对丁一进行分解:y-y=(y)+6y)。将()等式两头平方后再求和、化简那么得:S(.v->

12、9;)2=S(v-y)2+S(y-寸(7.10)即:总平方和=离回归平方和+回归平方和也可简记为:SSy=Q+U或ss©=ss网+ss离上式中ss“=汇(')')-="是回归平方和,V是估量的回归值,因估量值"的大小与自变数有关,因此ss间的大小反映了自变数对依变数y的阻碍程度。它对应的回归自由度'"1=5-D而SS离=汇"一,"=°是离回归平方和,它的大小反映了其他因素对观看值阻碍的程度,它对应的自由度或,炉=-2。(7 id上述两种平方和具体计算时,是用以下计算公式:U=SS回=>2

13、3;(一天)2="£(x_j)(y_y)=Q=SS离=SSe-5SM=SS.-U()从统计理论可知,SS离与SS同相互独立,在假设从:£=0成立的条件下,回归均方与离回归均方比服从df=,dfi=n-2的F散布,故由S(y-y)2/、F=;一一(7.13)£(y-50-仙-2)即可考试回归关系的显著性。例试用月考试例资料回归关系的显著性。由例和例已算得:SS产,SS广,SP=,Qi按()计算,那么得:U=SSlQ=-=方差分析结果列于表。表单株有效例数与单株籽粒产量回归关系的显著性考试变异来源dfSSMSF回归1*离回归8总变异9由表可知,计算的F>

14、; <1.«>,表示回归关系极显著。这就说明单株有效穗数和单株籽 粒产量是有真实的线性回归关系,(2) f考试在线性回归模型的假设下,F和是彼此独立的,而尸假设儿:£=0 Ha: SW0因此得:,二3Sb(7.14)而且,服从率=-2的,散布,故由,值,即可明白样本回归系数b来自整体回归系数6=0的概率大小。上式中5为回归系数的标准误,即:ssy x£(> 一 1h r)2 V(»-2)S(a-x)2(715)例试用,考试例资料回归关系的显著性。由例和例已别离算得=SS产,3'=。将S£和S"值代入(),那么

15、得:£#23=0.1892 V124将和s/,值代入(),那么得:1.14730.1892= 6.064查附表4,得,。.。5.8=,'(刈.8=,现求得的1>'。皿8,故回归关系极显著,否定0:3=0,同意A:”0,说明单株有效槿数和单株籽产量是具有真实的线性回归关系。由于表的F考试是单一自由度,故上述,考试和F考试的结果完全一致。其数学证明如下:s'S:JZ(Xf)2sh)因此,对线性回归作假设考试,就只需要选择上述考试方式的一种(F考试或,考试)。但必需注意,假设线性回归的/考试或F考试不显著,仅说明该样本不是来自线性回归整体,也不排除它来自其他非

16、线性回归整体的可能性。(四)线性回归的区间估量1和观看值y的置信区间由于“和都有误差,故用回归方程估量的值必然有误差,因这人们采纳置信区间进行估量。1、平均估量值的置信区间,当X。为某必然值时,y整体的平均数的置信区间,受到y和8的抽样阻碍,故其估量标准误为:人)'一)'1+(一动2n SSX(7.16)因服从率=-2的,散布,故值的95%靠得住性的置信区间为:=9一,0.05”&=$+/o,O5y(717)(7.18)或写成通式为:y±laSy2、个别估量值y的置信区间。当用为某必然值时,y整体的个别观看值y的置信区间。由回归方程估量y整体某一观看值匕那个丫

17、值不仅受'和人的阻碍,还要受到丫整体观看值本身散布变异度的阻碍,故其标准误为:yjc(7.19)一样服从“六-2的,散布,故丫值的95%靠得住性的置信区间为:4 = y -% =$' + /o.O5«(7.20)或写成通式为:A(7.21)一样都是对某一整体参数进行区间估量,但O是对整体中个别值丫的区间估量。由()和()两式可知:际和"值都随工不同而异。在尤=工时,”和方都为最小。当工与父相差的绝对值愈大,”和、值也愈大。由于小,的抽样误差,由回归方程的估量值“的精准度也愈差。*和“值都随和SSx的增大而减少。因此,除要严格操纵非研究因素的一致性外,增加样本

18、容量n和扩大X变数的取值范围,能够提高回归估量的精准度。例对例进行试估量:(1)单株有效穗为时,该小麦品种平均单株籽粒产量(置信度为95%),是多少?(2)单株有效穗为时,该小麦品种单株籽粒产量(置信度为95%),又是多少?本例需要回答以下两个问题:(1)当工=时,估量整体平均数1,求得平均单株籽粒产量;(2)当、=时,估量整体单值匕求得个别单株籽粒产量。因为由例得RL30+L15x;<=0-0802S,10.283:3.30:SS、=2.24当'=时,代入上式可得:r=+x=将有关各值代入(),那么得:St=0.283xJ-L+色”出匚=0.106'V102.24代入(),那么得:11(3.03.30)25-=0.283xA1+=0.3025102.24查附表4,03£=。由以上算得数值能够计算:(1)平均单株产量。将以上有关各值代入O95%置信限为:Li=X=心2=+X=即单株有效穗为时,小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论