版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章回归分析“回归”一词的由来1889年,英国著名统计学家FrancilsGalton在研究父代与子代身高之间的关系时发现:身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高。Galton把这种后代的身高向中间值靠近的趋势称为“回归现象”。后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为“回归方法”。回归分析的基本概念1・函数关系和统计相关关系在一个实际问题中会遇到多个变量,可将其区分为自变量和因变量.自变量和因变量之间的关系又可分为两类:函数关系和统计相关关系.函数关系:自变量的取值确定后,因变量的值就完全确定.如圆的半径与J的面积就构成函数关系.统计相关关系:自变量的取值确定后,因变量的值并不完全确定;通过大量的统计数据又可发现它们之间确实存在着某种关系,这时称自变量与因变量之间构成统计相关关系.如商品定价x与该商品的销售量日期x与某地的日平均气温父母身高(x,y)与儿子成年后的身高Z;上述自变量与相应因变量之间都构成统计相关关系.2.回归分析回归分析(RegressionAnalysis,就是一种研究自变量(是可控变量时)与因变量(随机变量)之间的统计相关关系的统计方法.从自变量和因变量的一组观测数据出发,寻找一个函数式,将变量之间的统计相关关系近似表达出来,这个能近似表达自变量与因变量之间关系的函数,称为回归函数.3.回归的分类依照回归函数是线性的还是非线性的,分为线性回归(LinearRegression)和非线性回归(NonlinearRegression;依照回归函数是一元函数还是多元函数,又可分为一元回归(SimpleRegression)和多元回归(MultipleRegression).§5.1一元线性回归中的
参数估计一元线性回归的数学模型与主要问题
⑴一元回归的数学模型一元回归模型:设x是一元可控变量,Y是依赖于x的随机变量,二者具有相关关系,通常称x为自变量或预报变量;Y为因变量或响应变量.设想Y的值由两部分组成:一部分是由x能够决定的,记为f(x);另一部分是由其它未加考虑的因素(包括随机因素)所产生的影响,看作随机误差,记为e,且有理由要求EG)=0.故有(5.1-1)Y=f(x)+(5.1-1)E(£)二0称(5.1-1)式为Y对x的一元回归模型f(x)为回归函数;其中E(Y)=f(x),称y=f(x)为回归方程.一元线性回归模型:若进一步假定回归函数为f(x)=B+Bx,且存在D(e)=6,则有oiJy二B+Bx+£(e(£)=0,D(£)=G2 (5*1-2)称(5.1-2)式为Y对x的一元线性回归模型,其中B,B,G2均为未知参数,卩,卩称0101为回归系数,而E(Y)=B+Bx,此时回归01方程y=B+Bx是线性方程,称为回归直f 0 1线.一元正态线性回归模型:应用中,为对回归方程的合理性进行检验,还假定…N(0,G2),于是模型(5*1-2)化为Jy=B+Bx+£<018〜N(0,G2)1-3)称(5.1-3)式为Y对x的一元正态线性回归模型,此时Y-N(B+Bx,G2)*01为研究x与Y之间的内在关系,在x=xi,x2,,x的点上,做n次独立试验,1 2 n
得到y—yi,y昇•…y,于是有点1 2 n(x1,y1),(x2,y2)'…,(xn,y丿.画出散点图,如果这n个点(n很大时)分布在一条直线附近,直观上就可认为x与Y的关系具有(5.1-3)式的模型。X+8ii (i—12X+8ii (i—12・•・n)8~N(0,”),且相互独立八-1,2,n)I[Y—B+Bi0 1(5・1-4)显然此时有Y~N(P+Bx,。2),且当i 0 1ii—1,2,…,n时相互独立.由(x,y),(x,y),•••,(x,y)求出回归11 2 2 nn系数的估计值B,B后得到直线方0101程y—/B+Bx,称为经验回归直线.01图1,图2i■■■■ ■L■经验回Y的试验值i■■■■ ■L■经验回TOC\o"1-5"\h\zi iY的经验回归值E(Y)=卩+卩xi i 0 1iY的理论回归值E(Y)=P+卩xi i 0 1i(2)—元线性回归的主要问题对未知参数力0,2的估计;1对参数及回归模型的假设检验;对因变量Y的预测。对未知参数卩,卩Q2的估计1化,0]的最小二乘估计已。知x与Y试验值(x,y),(x,y),,(x,y),构造y的试验11 2 2 nn /的离差值y与理论回归值E(Y)=0+0x的离差i i 0 1i平方和Q(0Q(0叫血6i2上(y.- 0二)2(5.1-5)以使q(p,p)取得最小值的p,卩为0101p,p的估计值,称之为最小二乘估计.为此:令°Q=-2为(y—p—px)=0顾 t气"iiTOC\o"1-5"\h\z0 i=1器=—2为(y,—p0—pix.)x.=0cp 101ii于是有关于p,p于是有关于p,p的线性方程组01np+(另x)p=2y0 i1 ii=1 i=1(乞x)p+(2x2)p=2xyi0 i1 iii=1 i=1 i=1(5.1-6)(5.1-6)式的解p,p是由容量为n01的子样值得到的,只在这n个点处Y的试i验值y与理论回归值p+px的离差平方i 0 1i和最小,因此,解卩不是p,p的真值,101只是估计值。故有B+xP=y<oixP+x2P=xy101(5.1-7)其中1nx=yxn ii=11n,y=」y' n ii=11n, x2=yx2 ,, ni,i=11nxy=-Exiyi.(5.1-7)式称为正规方程组.i=1解得P=P=1P=0(5.1-8)(5.1-8)式中的P,P称为未知参数1P,P的最小二乘估计。01于是经验回归直线y=y=p0+卩1x=(y-邙丿+卩1x=P(x-X)+j,1即:经验回归直线恒过点(兀y).。2的矩估计e〜N(0,(J2),/.Q2=D(£)=E(£2),则可用2的子样均值1Zn£2去估计其母nii=1体均值O2=E(£2),即有cA=1为£2.ni=1但e2=(Y.-代-叭x)2,其中卩,B未知,0 1i 0 1以其最小二乘估计代替,于是O2的矩估计为A2=1艺(Y-0-Bx)2=1Qn ii=10 1i n min(5.1-9)其中Q称为残差平方和。将(5.1-8)式min中的P=y-xJA代入,得01TOC\o"1-5"\h\zQ=另[Y-(Y-x/A)-Bx]2
min i 1 1ii=1=艺[(Y-Y)-A(x-x)]2i 1ii=1-A2艺(x-x)21 ii(5.1-10)
于是cA2=1Q=1工(Y-Y)2+B21工(xnminn i 1n i Y1xi=1 i=15・1-11)估计量的另一组表达式=艺(y-y)2=nS2,' yxx ii=1yy i=艺(y-y)2=nS2,' yxx ii=1yy ii=1(x-(x-x)(y-亍)=xy一nxy,则(5.1-8)i i iiTOC\o"1-5"\h\zxy i i(5.1-10)(5.1-11)式分别化为0 =xy(5.1-8')1 L~(5.1-8')xxB=y-Bx01Q=L-0L=L-B2Lmin yy 1xy yy 1xx(5.1-10')11A1A22=_Q=_(L-DL)=_(L-卩L)nminnyy1xnyy1xx(5.1-11')未知参数估计量的分布对于一元正态线性回归模型(5.1-4)
定理5.1.1:①E(P)=卩,E(0)=卩.0 0 ii即(5.1-8'式中的估计量卩,p分别是010,0的无偏估计.1TOC\o"1-5"\h\z1 x2 n2②0〜N(0,(—+ )n2),0〜N(0,).nL 1 1Lxx xx定理5.1.2:定理5.1.2:①丄QO2min〜X2(n-2),且Qmin分别与00相互独立。(说明:二次型尸0尸1Q』(丫-0-0X)2中的00满足正规方min i0 1i 。'程组(5・1-7),即有2个独立的线性约束条件,故自由度是n-2)。②E(°汕)=n-2 ,从而b2aQb2Qn—2E(b2)=E(min)=E(min)= b2, 艮卩n ~n b2nbA2=1q.只是b2的一个渐近无偏估计.nmin为纠偏,令b*2=厶b,贝Un—2EQ*2)=Q2,即。*2二1Q是b2的一个n—2 min无偏估计.定理5.1.3:"厂“i厂〜t(n-2).(由A VXXo*定理5.1・1②、定理5.1.2®及t分布定义可以证得)定理5・1・4:cov(Y,JA)=0・1子样相关系数及意义为 刻 画 点(x1,y1),(ry2),,(xn,yn)之间线性关联程度,(1)定义:1另(X—x)(y—刃n1 1i=i(x—X)211ni=1
Lr=xy可以证得|rF1.(2)意义:Qmin~T~yyL2PL LQmin~T~yyr2= xy= 1xy=1—yy 1xy=1—L~L~~L Lxxyy yy yy故|r|越接近1时,q越接近0,说明线min性回归分析的效果越好;特别,当|q=1时,Q=0,说明观测点min(xy〉(xy丿,,(x,y)全部落在经1122验回归直线y二Po+P]x上。例5・1・1测量上海市1~3岁男孩的平均体重『,得到如下数据:年龄x(岁)i1.01.52.02.53.0平均体重yi(kg)9.7510.8112.0712.8813.74又设+卩x+8,8~N(0,a2),且相互i 0 1ii i独立,i=1,2,,5・(7)求B,B的最小二乘估计P,$;0101(2)求残差平方和Q ,标准差b的估min计r*,子样相关系数r・解:先画散点图>>X=[1・O1.52.02.53.0];»Y=[9・7510.8112.0712.8813.74];»plot(X,Y,'ro')1413.51413.51312.51211.51110.5109.52.2 2.4 2.6 2.8 3( 1 )由于n=5,x=2,L=nS2=2.5 ,y=11.85,xx xL=nS2=10.173,L=bxy—nxy=5.025.故yy y xyi=iiiP=Lxy=5,025=2.011匸^5-xx卩=y—px=11.85-2.01X2=7.83o 1于是经验回归直线为可以将经验回归直线与散点图画在一起>>holdon>>y=7・83+2・01*X;>>plot(X,y,'b-')13.51312.512y11.51110.5109.513.51312.512y11.51110.5109.511.2 1.4 1.6 1.82.2 2.4 2.6 2.82)「Q.n—2mmQ=L-PAL=10.173-2.01x5.025「Q.n—2mmL5.025 cccr= xy:二 二0.9964r^v~xxyy、/2.5x10.173Ab*=0.1557可见这组数据下的年龄与平均体重的线性关联程度很咼。例5.1.2(P222Ex5・1)过原点的一元回归的线性模型为Y二卩x+£,i ii(i=1,2,…,n),其中e之间独立,且i8~N(0Q2)•错误!未找到引用源。试由i(x,y.)用最小二乘法估计卩;错误!未ii找到引用源。用矩法估计解:错误!未找到引用源。回归模型为Y=加+£,故(x.‘y.)满足i ii =-2工(y=-2工(y—Px)x=2[(工x2)p—工xy]=0 ii i iiy—y—PX+8,i ii(i=1,2,…,n),离差平方和i=i=lQ(P)上8i=1 i=1 i=1xyi=1 i=1 i=1xyx2i i ii=1 i=1为求使Q(p)=minQ(p)成立的《,令1n 1n其中:xy=_yxy,x2=工x2nii ni
错误!未找到引用源。b2的矩估计:•/£〜N(0,O2).•y2_D(8)_E(82)+E2(8)_E(82),则b2的矩估计为b2_]另£2_]艺(y—pX)2ninii_1区V2—2卩1区xy+卩2£区X2niinii_1 i_1xyxy—_y2一2_xy+(_)2x2X2 X2_—(xy)2_y2_X2例5.1.3(P224Ex5例5.1.3(P224Ex5・7)具有重复试验一元线性回归表述如下:对x,Y做n次试验,x_x,x,…,x,在每一个x_x上1 2 r i对Y作m次试验,其观察值为iy『y.2,•…y.,而—_n.一元回归的线i1i2 zm ii性模型为Y=卩+卩x+£,e〜N(0,o2)且相互独立,j0 1iiij(i=1,2…,r;j=1,2,…,m)试求P,P的最小二乘估计。101E(Y)=B+Bx,•- 0 1i(i=l,2,・・・,r;j=l,2,・・・,m),离差平方和iQ(B,B)=YYe2=YY(y-B-Bx)20 1 j j0 1ii=1j=1 i=1j=1为求B,B使Q(B,B)=minQ(B,B),令010101
黑=-2工Y(y-B0-B;x.)=0TOC\o"1-5"\h\zOP j0 120 i=1j=1=-2YY(儿-B-Bx,)x.=0OD j0 1221 i=1j=1nB +(工Kx)B=YEy0 i1 iji=1j=1 i=1j=1x)B+(Y习x2)B=工习xyi0 i1 iijJi=1j=1 i=1j=1 i=1j=1亦即nB+(为mx)B=为习iy0 ii1 iji=1 i=1j=1)B+(为mx2)B=为习‘xy0 ii1 iij简记为i=1 i=1j=1简记为B+xB=y<01xB+帀B=xyJ0 1解此正规方程组得b=可-xb=可-xy1 x?-x2LxxB0=歹-B1元由下表易求B,B的值,得到经验回归直01^线y=B+Bx.01xix1x2xr-1yrni=1mxiimimim2・・・mr— 1yrni=1mx2iiyijy,y,…,〕1112t,y,…,.1m21 22y…2my,y,…,:r1 r21rm・r=—Mrrm ni=1j=1尹xyzij=1jx区y1 1jj=1m・x工1y2 习j=1x^yr r/j=1 1rm;xy=_莎ni=1j=1ij■yij例5.1.4(P224Ex5.8)对自变量和因变量都分组的情形,经验回归直线的配置方法如下:对x和y作n次试验,得n对试验值,把自变量的试验值分成组,组中值记为x,x,…,x,各组以组中TOC\o"1-5"\h\z1 2 r值为代表;把因变量是试验值分成s组,组中值记为y,,y2,…,y,同样各组以组1 2 s中值为代表。若(x,y)有m对,.. ••ij j(i=12,…,r;j=1,2,…,s),於'm=n•试求iji=1j=1$,B的最小二乘估计。01解:设Y=a+P%+£,8〜N(0,O2),ij iijij则E(Y)=B+Bx,(i=1,2,…,r;j=1,2,…,s),j 0 1i离差平方和rsQ(rsQ(B,B)二oii=ij=1mjjB0-卩“2为求B,B为求B,B使Q(B,B)=minQ(B,B),010101©oQi=1j=i=-2Y乞i=1j=im(y-B一Bx)=0ijij0 1im(y-B-Bx)x=0
ijij0 1iiJi=1j=1mx)B+iji0iJi=1j=1mx)B+iji0i=1j=1mx)Biji1i=1j=1myijijmx2)B=mxyiji1 ijiiji=1j=1 i=1j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年健康卫生教育测试题及答案
- 2026年仿真在线测试题目答案
- 染料合成工安全生产意识水平考核试卷含答案
- 虚拟现实产品设计师岗前技术实务考核试卷含答案
- 2026年家长健康教育测试题及答案
- 储能电站电池一致性方案
- 储能电站安防布置方案
- 储能电站变压器就位方案
- 实木及实木复合地板备料工班组安全能力考核试卷含答案
- 充电桩视频监控方案
- SB/T 10479-2008饭店业星级侍酒师技术条件
- 2023年沅陵县水利系统事业单位招聘笔试题库及答案
- GB/T 17492-2019工业用金属丝编织网技术要求和检验
- GB/T 13916-2013冲压件形状和位置未注公差
- 部编四年级下册道德与法治第二单元课件
- 化验室安全培训课件
- 最新合同法课件
- 纲要(21版):第八章 中华人民共和国的成立与中国社会主义建设道路的探索
- Java教案5面向对象编程技术
- HJ1237-2021标准培训考核试题
- 分子生物学实验课件:6重组克隆子的鉴定-菌落PCR
评论
0/150
提交评论