版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六讲一元线性回归在客观世界中,普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间关系,一般可分为确定的和非确定的两类.确定性关系可用函数关系表示,而非确定性关系则不然.例如,人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等,它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法
2、。在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示Yf(x).但是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型如下Yf(x)+其中Y是随机变量,x是普通变量,是随机变量(称为随机误差)。回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和控制等。本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。一、引例为了研究某一化学反应过程中温度x对产品得率Y的影响.测得数据如下:温度x/C10011012013014015016017018
3、0190i温度y/%45515461667074788589i试研究这些数据所蕴藏的规律性.二、一元线性回归模型一般地,当随机变量Y与普通变量x之间有线性关系时,可设Y=P+Px,(1)01N(0,2),其中卩0,卩为待定系数。设(百,),(x2,Y2),(x,Y)是取自总体(x,Y)的一组样本,而(叫,y1),(x2,儿),(x,y)1122nn1122nn是该样本的观察值,在样本和它的观察值中的x,x,x是取定的不完全相同的数值,而样12n本中的YY2,-,Y在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可12n以取得n对数据(x1,y1),(x2,y2),-,(x,y),
4、则有1122nnyi=P0+P,x.,i,i=1,2,n(2)i01ii其中1,2,,相互独立。在线性模型中,由假设知12nYN(P0+卩x,2),E(Y)=P0+卩x回归分析就是根据样本观察值寻求P0,片的估计P0,P.对于给定x值,取Y二P+Px(4)01作为E(Y)=Po+Px的估计,方程(4)称为Y关于x的线性回归方程或经验公式,其图像称为回归直线,P称为回归系数.三、最小二乘估计对样本的一组观察值(x,y),(x,y),-,(x,y),对每个x,由线性回归方程可以确1122nniTOC o 1-5 h zzz定一回归值yi二P0+P】xi,i01izz这个回归值y与实际观察值y之差y
5、-y=y-P+Pxiiii01ii刻画了y与回归直线y=|3+Px的偏离度.一个自然的想法就是:对所有x,若y与y的i01iii偏离越小,则认为直线与所有试验点拟和得越好.令Q(P,P)二(y.P0-P,x.)2i01iI=1上式表示所有观察值y与回归直线y的偏离平方和,刻划了所有观察值与回归直线的.偏离度。所谓最小二乘法就是寻求P0与P的估计P0,P,使Q(P0,P)=minQ(P,P,).利用微分的方法,求Q关于P0,片的偏导数,并令其为零,得TOC o 1-5 h z=-2(yPPx)=0SBi01i0i=1SP=_2(yiP0P1x.)x.=0SP101111i=1整理得厶xi,i=1
6、丿j厶xi,i=1丿叭+卩二yi1ii=1+厶x2P=.i=1丿xy1iii=1称此为正规方程组,解正规方程组得5)/X/X卩0y-邛卩乙01xynxyiiJi1(y-A乙x2-nx2iJi1丿其中xyx,yyy,右记ninii1i1defyyL(xx)(yy)xynxy,xyiiiii1i1def、L(xx)2xxii1yx2nx2,ii1、/X八y兀卩01LL1xyxx(6)(5)或(6)叫做卩,卩的最小二乘估计.而为Y关于x的一元经验回归方程./X八八YB0+卩1x四、最小二乘估计的性质定理1若B0,为卩0,卩的最小二乘估计,则B0,B分别是卩0,卩的无偏估计,且(B0N卩0,。2(-2
7、AA1x2+nLJxxC1,厂xx五、回归方程的显著性检验前面关于线性回归方程yB0+Bx的讨论是在线性假设YB0+B1x+,N(0q2)下进行的.这个线性回归方程是否有实用价值,首先要根据有关专业知识和实践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断.由线性回归模型YB0+B1x+,N(0Q2)可知,当B10时,就认为Y与x之间不存在线性回归关系,故需检验如下假设:H0:B10,H1:卩1A为了检验假设H0,先分析对样本观察值y,y2,y的差异,它可以用总的偏差平方和012n来度量,记为备工(yi孑)2,i1由正规方程组,有S总=(y.-y.+y.-y)2TOC o 1-5
8、 h z总iiii=1ii=1=(y.-y)2+2(y.一y.)(y.一y)+(y.一y)2iiiii=1i=1=(y.-y.)2+(y.-y)2-iiii=1i=1令$回=(yi一y)2,S剩=(yz.一yi)2,则有i=1i=1上式称为总偏差平方和分解公式.S回称为回归平方和,它由普通变量X的变化引起的,它的大小(在与误差相比下)反映了普遍变量x的重要程度;S刊称为剩余平方和,它是由试验误差剩以及其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影响.关于S和S,有下面的性质:回剩定理2在线性模型假设下,当H成立时,与S刊相互独立,且01剩S剩/Q22(n-2),S回/Q
9、22(1).剩回对H的检验有三种本质相同的检验方法:0T检验法;F检验法;相关系数检验法.在介绍这些检验方法之前,先给出S,S门,S刊的计算方法.总回剩S总=(yi,刃2=y2,ny2dfLyyi=1i=1S=2L=LS=LL回1xx1xy剩yy1xy1.T-检验法由定理1,(,)/(Q/L)N(0,1),若令&2=s刊/(n-2),则由定理2知,d为Q2TOC o 1-5 h z11xx剩的无偏估计,(n-2)d2d2=s和d22(n2),且(,)/Q/L)与(n-2)d2/G2相剩11xx互独立.故取检验统计量/XTLt(n-2),dXX由给定的显著性水平,查表得t(n-2),根据试验数据
10、(x,y),(x,y),(x,y)计a21122nn算T的值t,当11卜t2(n-2)时,拒绝H,这时回归效应显著;当111F(1,n-2)时,拒绝H,表明回归效果显著;若FF(1,n-2)时,接受H,0,0此时回归效果不显著.3.相关系数检验法由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度.对于线性回归中的变量x与Y,其样本的相关系数为Lxy,LLxxyy(xi元)(YiY)iiTOC o 1-5 h zPi1(xx)2(YY)2iii1i1它反映了普通变量x与随机变量Y之间的线性相关程度.故取检验统计量LrxyLLxxyy对给定的显著性水平,,查相关系数表得r(n),根据
11、试验数据(x,y),(x,y),(x,y)计算R的值,当Irlr(n)时,拒绝H,表明回归效果显著;当1122nn,01rVr,(n)时,接受H0,表明回归效果不显著.六、预测问题在回归问题中,若回归方程经检验效果显著,这时回归值与实际值就拟合较好,因而可以利用它对因变量Y的新观察值y0进行点预测或区间预测.对于给定的x0,由回归方程可得到回归值称y0为y在x0的预测值.y的测试值y0与预测值y0之差称为预测误差.在实际问题中,预测的真正意义就是在一定的显著性水平,下,寻找一个正数8(x0),使得实际观察值y0以1-,的概率落入区间(y0-(x0),y0+8(x0)内,即pY0y0kS(x)1
12、,由定理1知,1(xx)2yyno,1+-o62oonLxx丿又因y-y与”2相互独立,且00(n2)622(n2),”2所以,0)”1(x0 x)261+0nLxxt(n2),故对给定的显著性水平,求得5(x)t(n1)61+1+(Xox)20a/2nLxx故得yo的置信度为1-,的预测区间为(y05(xo),yo+5(xo).易见,yo的预测区间长度为25(xo),对给定,xo越靠近样本均值X,5(xo)越小,预测区间长度小,效果越好。当n很大,并且xo较接近X时,有1(xx)21+o-1,nLxxt,/2(n2)-U,/2则预测区间近似为(yu”,y+u”).oa/2oa/2七、控制问题
13、控制问题是预测问题的反问题,所考虑的问题是:如果要求将y控制在某一定范围内,问x应控制在什么范围?这里我们仅对n很大的情形给出控制方法,对一般的情形,也可类似地进行讨论。对给出的y;+xu6o1,/2/X/Xy(x)=+x+u6o1,/2(1)解得x(x)(y-+u6)/11o,/21x(x)(y-u6)/21o,/21(2)当o时,控制范围为(xfx2);当o时,控制范围为(x2,xp;如图8-3-3.实际应用中,由(1)式知,要实现控制,必须要求区间(y,y)的长度大于2u,否则12a/2控制区间不存在.特另山当a,0.05时,u,u,1.96-2,故(2)近似为a/20.025x;(x)
14、,(y;_B0+2)/x2(x),(yi_B0-2)/叽八、可化为一元线性回归的情形前面讨论了一元线性回归问题,但在实际应用中,有时会遇到更复杂的回归问题,但其中有些情形,可通过适当的变量替换化为一元线性回归问题来处理.Y,p+鱼+,N(0,2),(1)0 x其中a,p,2是与x无关的未知参数.令x,丄,则可化为下列一元线性回归模型:xY,p0+P1x+,N(0,2),Y,aepx,lnN(0,2),(2)其中a,p,2是与x无关的未知参数.在Y,aePx两边取对数得lnY,lna+Px+ln令Y,lnY,a,lna,b,卩,x,x,ln,则(2)可转化为下列一元线性回归模型:Y,a+bx+,
15、N(0,2),Y,axp,lnN(0,2),(3)其中a,p,2是与x无关的未知参数.在Y,axp两边取对数得lnY,lna+plnx+ln令Y,lnY,a,lna,b,p,x,lnx,,ln,则(2)可转化为下列一元线性回归模型:Y,a+bx+,N(0,2),Y,a+ph(x)+,N(0,2),(4)其中a,p,2是与x无关的未知参数.h(x)是x的已知函数,令Y,Y,a,a,b,卩,x,h(x),则(3)可转化为Y=a,bx,N(0,2).注:其它,如双曲线Y=x+x和S型曲线Y=1,e-x函数等亦可通过适当的变量替换转化为一元线性模型来处理.若在原模型下,对于(x,Y)有样本(x1,y1
16、),(x2,y2),(xn,yn)1122nn就相当于在新模型下有样本(x1,y1),(x2,y2),(xn,yn)1122nn因而就能利用一元线性回归的方法进行估计、检验和预测,在得到Y关于x的回归方程后,再将原变量代回,就得到Y关于x的回归方程,它的图形是一条曲线,也称为曲线回归方程。例题选讲:一元线性回归模型例1求引例中产品得率Y关于温度x的回归方程.例2对某地区生产同一产品的8个不同规模的乡镇企业进行生产费用调查,得产量x(万件)和生产费用Y(万元)的数据如下:TOC o 1-5 h zx1.5234.57.59.110.512y5.66.67.27.810.110.813.516.5
17、试据此建立Y关于x的回归方程.回归方程的显著性检验例3以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如下表:价格x(元)5222.32.52.62.833.33.5需求量(kg)13.532.72.42.521.51.21.2(1)求经验回归方程y=0+x;检验线性关系的显著性(=0.05,采用F-检验法).回归方程的检验假设例4对本章第一节中例2的线性回归作显著检验(=0.01).预测问题例5某建材实验室做陶粒混凝土实验室中,考察每m3混凝土的水泥用量(kg)对混凝土抗压强度(kg/cm2)的影响,测得下列数据.水泥用量x150160170180190200抗压强度y56.95
18、8.361.664.668.171.3水泥用量x210220230240250260抗压强度y74.177.480.282.686.489.7求经验回归方程y,0+x;检验一元线性回归的显著性(a,0.05);设xo,225kg,求y的预测值及置信度为0.95的预测区间.可化为一元线性回归的情形例6电容器充电达某电压值时为时间的计算原点,此后电容器串联一电阻放电,测定各时刻的电压u,测量结果如下:时间t(s)012345678910电压u(V)100755540302015101055若u与t的关系为u,ue-ct,其中怙c未知,求u对t的回归方程.课堂练习1.考察温度对产量的影响,测得下列1
19、0组数据:温度x(。C)20253035404550556065产量y(kg)13.215.116.417.117.918.719.621.222.524.3求经验回归方程y,o+x;检验回归的显著性,0.05);求x,42。C时产量y的预测值及置信度为0.95的预测区间.多元线性回归在许多实际问题中,常常会遇到要研究一个随机变量与多个变量之间的相关关系,例如,某种产品的销售额不仅受到投入的广告费用的影响,通常还与产品的价格、消费者的收入状况、社会保有量以及其它可替代产品的价格等诸多因素有关系.研究这种一个随机变量同其他多个变量之间的关系的主要方法是运用多元回归分析.多元线性回归分析是一元线性
20、回归分析的自然推广形式,两者在参数估计、显著性检验等方面非常相似.本节只简单介绍多元线性回归的数学模型及其最小二乘估计.一、多元线性回归模型设影响因变量Y的自变量个数为P,并分别记为x,x,,x所谓多元线性模型是指这12p,些自变量对Y的影响是线性的,即1X1邛2X2,邛pXp,N(0,2)其中卩0,卩P2,卩,2是与叫,x2,x无关的未知参数,称Y为对自变量叫,x2,x的012p12p12p,线性回归函数.记n组样本分别是(x,x,x,y)(i=1,2,n),则有i1i2ipiy=0,0 x,0 x10111212y=0+0 x,0 x20121222yn=卩0+卩1xn1+卩2xn2其中,相互独立,12n且,N(0,2),,)0 x,11,10 x,22,0 x,nni=1,2,-,n,这个模型称为多元线性回归的数学模型.令:y11x11x12x1001Y=y2,X=1x21x22x2p,0=01,=2:yn;1kxn1xn2xnpJ芒n丿则上述数学模型可用矩阵形式表示为Y=X0,其中是n维随机向量,它的分量相互独立。二、最小二乘估计与一元线性回归类似,我们采用最小二乘法估计参数卩,卩,卩,0,引入偏差平方和012Q(00,01,0)=为(y.-00-0 x.-02x.20 x.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第七章 了解地区 单元复习卷 湘教版七年级地理下册
- AI驱动的线上问题解决与客户服务能力升级
- 医生度考核登记表个人总结
- 航大雄英品牌衍生品设计
- 老年人服务与管理专业技能教学标准
- 农业技术进步对农民收入影响实证研究结题报告
- 棒球场垒包维护指南
- 家庭水培植物种植管理指南
- 种子生物学试题及答案
- 服务器操作系统产业发展研究报告 2026
- 成都城市旅游介绍PPT
- Kitten一级高级测评试题及答案
- 集中供热换热站试运行方案20151203
- 天津大学毕业论文答辩PPT模板
- 太阳能电池片生产工艺流程
- 金属与石材幕墙工程技术规范-JGJ133-2013含条文说
- 通信铁塔工程监理细则
- RB/T 208-2016化学实验室内部质量控制比对试验
- JJG 644-2003振动位移传感器
- GB 6000-1999主要造林树种苗木质量分级
- 网络设备、网络安全设备、服务器和存储系统集成
评论
0/150
提交评论