版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2.4某公司管理人员为了解某化妆品在一个城市的月销售*Y(单位:箱)与该城市中适合使用该化妆品的人数XI(单位:万人)以及他们人均月收入2(单位:元)之间的关系,在某个月中对15个城市作了调查,的上述各的观测值如表2.16所示.表2.16化妆品销售数据城市箱量(y)人数占)收入(“2)116227.42450212018.03254322337.53802413120.528385678.62347616926.537827819.83008819233.02450911619.5213710555.325601125243.040201223237.244271314423.62660141
2、0315.720881521237.02605假设Y与XhX2之间满足线性回归关系H=00+01*1+P1X12+卬i=1,2,.,15其中4(i=1,2,15)独立同分布于N(O,(j2)(1)求回归系数价邛1,色的最小二乘估计和误差方差信的估计,写出回归方程并对回归系数作解释(2)给出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方R2的值并解释其意义(3)分别求01和色的置信度为95%的置信区间(4)对a=0.05,分别检验人数Xi及收入X2对销Y的影响是否显著,利用与回归系数有关的一般假设检验方法检验X和X2的交互作用(即X1X2)对Y的影响是否显著(5)该公司欲在一
3、个适宜使用该化妆品的人数与1=220,人均月收入勾2=2500的心得城市中销售该化妆品,求其销的预测值及其置信度为95%的置信区间(6)求Y的拟合值、残差及学生化残差,根据对学生化残差的正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性.公式:2.1回归参数。的最小二乘估计B的最小二乘估计即选择°使误差平方和nnP-1S(P)=W4=£%=(y-x°)T(y-xp)=W0一W肉X)i=li=lj=0达到最小,其中勺o=l(i=1,2,.),为此将S(。)
4、分别对00,01,0P-1求偏导数并令其等于零,得I3,)=_WPjxi)jXik=0,4=0,1,.,P-1Pki=l7=0/即nnPTPTnyyPjxyXik=y(yf七”)四,九=。,i,p-iWyixik=i=li=lj=Qj=Qi=l将此方程组写为矩阵形式,即xrxp=XrY称此方程为正规方程由于rank(XTX)=rank(X)=p,故(X7X)T存在,解正规方程即可得回归叁数。的最小二乘估计为P=(瓦,瓦,,砧)丁=(XtX)-1XtY进一步,S(B)在。处的Hessian矩阵凡(8)=勰1*仅为正定矩阵且正规方程的解唯一,故B是s(B)的最小值点将。=血,瓦,矶),代入Y=所+
5、61X1+BptXpt+£并略去误差项,则称_丫=00+Pii+6p-iXpt为经览回归方程或简称回归方程,利用回归方程,可由自变X1,X2,Xp_i的观测值求出Y的估计值或称为预测值2.2误差方差。2的估计将自变X1,X2,,Xp_i的各组观测值篇小力2,。ip-1)(i=1,2,n)分别代入回归方程中,可得因变丫的各估计值(或称为拟合值)为Y=(为,乃,,苏)T=Xp=*保丁乂)一以7丫=HY其中H=X(XTX)TX,为阶对称潺等矩阵,令£为Y的各观测值必与相应拟合值区之差所构成的向,称为残差向,则e=(弓包.,£n)r=y-y=Y-xp=/一*(*%-1&q
6、uot;丫=(/-“)y其中/为阶单位矩阵,由于3为正规方程的解,故由镖=一2£k1(%-X灯内个)也中的第一个方程d=0)可得富=1备=。将备看成力的一个估计,很自然我们用。红,却的样本方差来衡的大小,令n/n2nsse=2(备一Qw&)=W=0味=y'a一")yf=li=l)f=l称SSE为残差平方和,注意到(l-")X=0,故2=(I-H)Y=(I-H)(Xp4-e)=(I-H)e从而SSE=Er(I-H)e由此可得E(SSE)=a3估计的基本性质下面给出0和斗的三条基本性质,第一条是有关。和&2的矩性质,第二条是有关二者的分布性质,
7、第三条是有关残差向的矩及分布性质性质1对于线性回归模型Y=xp+J6的最小二乘估计R=(xTx)TxY和。2的估计2=_必(/一”满足:II-pE=p(ii)Cov(p)=E(p-p)(p-p)T=o2(x7X)T(iii)E(q2)=a2性质2对于线性回归模型Y=XB+j若£N(0,(j2/),则(i)。N(/?.2(xTx)t)(2E=(n-p)从而7SSE1Ta2=ft(/-H)ynpnp为。2的无偏估计(iii)R与SSE(或乎)相互独立性质3对于线性回归模型Y=Xp+E,若£N(0,(y2/),则残差向*0=(I-H)Y具有性质(i) E(2)=0,Cov(c)=
8、q2(Z-H)(ii) £村(0,。2(/一”)2.4 离方差平方和的分解与复相关系数总离方差平方和SST11SST=W(M一刃21=1残差平方和(误差平方和)SSEsse=W(%-%)21=1回归平方和SSRnssr=2(%一刃2i=lSST、SSE、SSR之间的关系SST=SSE+SSR复相关系数RSSRSSE=1SSTSST2.5 线性回归关系的显著性检验构造检验统计SSR/(P-1)MSRF=SSE13-p)=MSE其中SSRSSEMSR=MSE=p1n-p分别为均方回归和均方残差,p-1称为SSR的自由度,它等于回归模型中自变的个数,P称为SSE的自由度,它等于样本容几与回
9、归模型中的未知参数个数P之差,进一步称8-1)+6-2)=相-1为557的自由度,可以证明FF(p-l,n-p)用SAS软件的procreg过程中,线性关系的显著性检验以如下方差分析表的形式输出,同时输出拟合优度统计置R2的值方差分析表方差来自由度平方和均方(MS)(SS)回归P-1SSRSSRMSR=-PT误差(E)n-pSSESSEMSE=np总和n1SSTMSRF°=MSE2. 6回归系数的统计推断SAS软件的procreg过程将叁数估计值、标准差估计以及观测值和相应检验即=0(包括k=0)的p值以下表给出参数估计标准差估计统计值。值检验P值值常数项(Intercept)XiP
10、oS(Po)PooXp-iPlS(Pi)MiPoiBp-iS(Pp-i)Op-1Pop-1另一方面,利用=献,5-p)可以给出瓦的置信度为1-a的置信区间,简记为pfc±t1.a(n-p)S(pk)2.7预测及其统计推断设(*01,02,"Op-其中匕式九一P)表示自由度为"的e分布的1三分位数i)为自变X1,X2,XpT的一组新的观测值,对应的£变*Y的取值记为小,预测即是对出的值作出估计,令“0=(1,、01.1X02,'Op-1),,利用回归方程q=质+瓦X1+.+而二Xp_i,出的一个自然的预测值为%=Ro+81*01+Pp-lOp-l=
11、Xq,TP%阳0的一个点估计,但在实际中,更感兴趣的是给出出的区间估计对于给定的的置信水平a,Y在(与1,”02,,"Op-1)处的取值乂)的置信度为1-a的置信区间为yQ±q«(n-p)y/MSEl+Xox-o1z2.8学生化残差若假设误差向一做022。,则残差向2N(0r2(/H),其中H=x(xx)一】xt,由此可知2N(O,(l-h),t=其中为"的主对角线上的第i个元素,它可以表示为ha=项7'(XX)T勺其中娟=(1,勺1,勺2,一,2-1)为*的第1行,回归分析中称&&=1,2,n)为杠杆由句N(0r2(i一九)可知
12、,Var()=a2(l-hlf),即一般情况下备(i=1.2, ?)的方差不变,这不利于残差的应用,将斩标准化,再以62=MSE代替则得到所谓的学生化残差2.9 残差正态性的频率检验残差正态性的频率检验是一种很直观的检验方法,其基本思想是将学生化残差落在一些范围内的频率与标准正态分布在相应范围内的概率(或称为理论频率)作比较,若两者差异较大,则认为残差(从而模型的误差项)不服从正态分布,否则无理由拒绝误差项独立同正态分布的假定2.10 残差的正态QQ图检验针对学生化残差厂a=1,2,,n),对其正态QQ图以及相应的检验法作简单描述(D学生化QQ图作法将学生化残差口,2,,G按由小到大的顺序排列
13、为,,,r(n)对每个i=1,2,,小计算qi=其中为N(0,l)分布函数的反函数,常数0.375和0.25是修正在直角坐标系中描出点(q(i),r)(i=则此散点图称为学生化残差的正态QQ图(2)直观检验法理论上可证明,若=1,2,,u)为来自正态总体的数据,则点(q(i),r)=1,2,n)应大致在一条直线上,德不在一条直线上,则有理由怀疑误差正态性假定的合理性(3)相关系数检验法上述的直观检验法更多依赖于数据分析者的经骐,我们可以用q和飞)«=1,2,,n)之间的相关系数的估计来度量二者之间线性关系的强弱,其相关系数估计值为-)(q(o-q)p=f=JSi(r(0-r)2EZi
14、(q(t)-Q)2其中笈U%),甲=;Xkiq,若0的值接近于1,则说明点。/)(i=l,2,.,n)大致在一条直线上2.11残差图分析(1)以因变Y的拟合值为横坐标的残差图(2)以自变量观漓值为横坐标的残差图(3)时序残差图解:分析:方差分析源自由度平方和均方F值Pr>F梭里25384526922567947<0001误差1256883574.74030校正合计1453902由此可知,滔的估计值扭=MSE=4.74;线性回归关系显著性检强的统计尸=翳生=牖SSE/(n-P)MSEHq:/?产色=。:01,色至少有一个非零的观温值Fo=5679.47,检验的p值/()=/(NFo)
15、=O.OOO1.另外在方差分析表之后,还输出产嘤=o9989,这些结果均表明OO1Y与勺,2之间的线性回归关系式高度显著的回归方程为:产3.45261+4.96*1+0,0092与由表明人均收入固定时,每使用化妆品人数增加一人,月销售增加0.496个单位,色表明使用化妆品人数固定时,人均月收入每增加一元,则月销售量增加0.0092个单位(2)解:参数估计的有关结果如下表:参数估计标签自由度叁数估计标法误差t值Pr>|t|InterceptIntercept134526124306614201809x1x114960050060548192<0001x2x21000920000096
16、811950<0001由图可知线性回归关系显著性检甄的p值小于0.0001,则有线性回归关系显著R2的值为0.9989,与1比较相近津2越大,则线性函数值占Y的比率越大,所以结果显示月销售与使用化妆品的人数及人均月收入有明显的线性关系。(3)解:由公式瓦±tn-P)$(瓦),n=15,p=3,先求出S.975(12),2使用tinv函数,sas语句:dataget_p;y=tinv(0.975,12);run;procprintdata=geLp;run;得到t0975(12)如下图:所以t0975(12)=2.179,则01的日信区间为4.9612.179x0.0605即(4
17、.82817,5.09183)色的置信区间为0.0092±2.179x0.000968即(0.007091,0.011309)(4)解:由(2)得到的参数估计表得到假设0产0和色=0检验的P值均小于0.0001,因而与和小的交叉项对Y的影响,构造全模型:y=00+B1X1+P2x2+P3X1X2由观察数据并利用procreg过程拟合此模型可求得:SSE(F)=56.72083又由(2)得到的方差分析表得到:SSE(R)=5688357,力=12由此得到检甄统计的观温值为:=0.034453.88357-56.72083)/(12-11)56.72083/12检验P值为:Po=P%(尸
18、>F()=P(F(1,12)>0.0344)=0.85596P0远大于一般显著性水平,因此认为打,“2的交叉项对丫的影响不显著,即模型中没有必要引入交叉项(5)解:把“01=220,XQ2=2500代入片3.45261+4.96*1+0.0092不得:估计值必=1117.6526而置信度为0.95的置信区间为:yo±r0.975(12)jAfSE(l+然尸引)y0=1117.6526,r0975(l2)=2.179,VMSE=2.17722,X为设计矩阵,解得值信区间为(1111.1503,1124.15491)(6)解:代码:procregdata=sale;model
19、y=x1x2;outputout=aaaapredlcted=presldual=rstudent=stud;procprint;run;procsortdata=aaaa;bystud;procIml;useaaaa;readallvarstudlntoit;do1=1to15;x=problt(l-0.375)/54.25);z=z/x:end;createcorrelvarstudz:appendfromrp;quit;proccorrdata=correl;run;结果如图所示,其中y列为Y的拟合值,r为Y的残差,stud为Y的学生化残差SAS系统Obs.COLOyxlx2Prstud111622742450161,8960.10428005194221201803254122667-266732-131981332233753802224429-1.42938072773441312052838131241-0.24062-0.11483556786234767699069928-0357B2661692653782169685-0.6848
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 世界经济概论试题及其复习资料及复习重点汇集
- 某电池厂生产环境准则
- 某汽车厂涂装操作细则
- 某化工厂设备检修办法
- AI在葡萄牙语中的应用
- 某铝制品厂铝材加工规范
- AI在地理信息科学中的应用
- 项目2课后习题
- 钠长石矿买卖合同
- 监理大纲完整版
- 2025年四川省从“五方面人员”中选拔乡镇领导班子成员考试历年参考题库含答案详解
- GB/T 17498.6-2026室内固定式健身器材第6部分:跑步机附加的特殊安全要求和试验方法
- Costco开市客数据应用研究
- 2026宁夏农垦酒业有限公司社会招聘3人备考题库及答案详解(名校卷)
- 高低压开关柜投标文件技术标
- 新高考教学教研联盟(长郡二十校)2026届高三年级4月第二次联考英语试卷(含答案详解)
- 基于组态王停车场智能监控方案介绍
- 卸料平台监理实施细则
- 2026年广东省梅州市大埔县八年级生物第二学期期末教学质量检测试题含解析
- 2026年中考物理冲刺押题试卷及答案(共六套)
- 四川省纪委遴选笔试试题及答案
评论
0/150
提交评论