版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三讲回归分析1. 实验目的1、掌握线性回归系统建模的基本方法。2、学会使用SAS系统对线性回归模型进行参数估计、统计推断及残差分析等。2. 实验要求1、数据的初步分析:数字特征、经验分布、相关分析。2、残差分析、回归分析。3. 实验原理3.1、线性回归模型及模型参数的最小二乘估计 设是一可观测的随机变量,它受到个非随机因素和随机误差的影响。假定它们有如下线性关系:(1)其中:是待估参数,则称(1)式为线性回归模型。 对总体进行次()独立观测,得样本:令:则的最小二乘估计:可得正规方程: 若,则有,代入(1)式,并略去误差项得经验回归方程:令称为残差向量,可得:,令是的无偏估计。3.2、回归模
2、型检验原理线性回归关系的显著性检验为检验与之间是否存在显著的线性回归关系,即检验假设:构造如下检验统计量:当为真时,;给定显著性水平,由F分布得临界值(即F分布的上侧分位数),计算F的观测值,若,接受,否则拒绝。在SAS中,对显著性检验问题,其输出结果通常是检验的p值。对上述线性回归关系的显著性检验问题,检验的p值为,若p值小于显著性水平,拒绝,否则接受。回归参数的显著性检验回归关系显著并不意味着每个自变量对Y的影响都显著,我们希望从回归方程中剔除那些对Y的影响不显著的的自变量,从而建立一个较为简单有效的回归方程。若某个自变量对Y无影响,那么它的系数,因此检验的影响是否显著等价与检验假设:。若
3、令,为的主对角线上的第个元素的平方根,则可得到;当为真时,记t的观测值为,则检验准则为:残差分析 在回归分析中,我们通常假定是独立同正态分布的随机变量,有零均值和常值方差,因此,若拟合的回归模型适合于所给的数据,那么残差应该基本上反映误差的这些特性。利用残差的这些特性反过来考察原模型的合理性就是残差分析的基本思想。a)残差正态性的频率检验回归模型中标准化残差可近似认为是取自标准正态总体的样本,理论上属于有68%在(-1,1)内,87%在(-1.5,1.5)内,95%在(-1,1)内,如果残差在某个区间内的频率与上述理论频率有较大的偏差,我们有理由怀疑(从而)的正态假设的合理性。b)残差正态性的
4、QQ图检验 QQ图是做正态性检验的直观方法,将残差按由小到大的排列,以残差为纵坐标、正态期望为横直角坐标系中画出正态QQ图。c)相关系数检验法 通过计算残差和正态期望之间的相关系数判断它们之间关系的强弱,若相关系数接近1,则说明残差为正态性。d)时序残差图分析 以观测时间(或观测值序号)为横坐标,的散点图时序残差图。拟合好的模型的时序残差图中的点应落在以时间轴为中轴线的带状区域,且无明显的趋势性,否则说明回归方程的形式或对误差等方差的存在一定问题。(1)以拟合值为横坐标的残差图分析若模型适当,以拟合值为横坐标的残差图(2)以自变量为横坐标的残差图分析以每个的各观测值为点的横坐标,以残差为纵坐标
5、。同样满意的残差图呈现水平带状。3.3、逐步回归的原理与步骤逐步回归的基本步骤就是依次拟合一系列回归方程,后一个回归方程在前一个的基础上增加或删除一个自变量,其增加或删除某个自变量的准则是用残差平方和的增加或减少量来衡量,一般采用如下的偏检验统计量,设模型已经有个自变量,记个自变量的集合为A,当不再A中的自变量加入到模型当中时,偏检验统计量一般形式为:称为额外回归平方和。F统计量描述了误差平方和的增加或减少量,所以偏检验统计量是逐步回归方法中增加或删除变量所用的基本统计量。4. 相关SAS知识SAS中提供的关于回归最常用的过程是REG过程。语法格式如下:Proc reg options1;Mo
6、del dependent=regressors/options2;Output out=SAS data set keyword=name ;Plot Y轴变量*X轴变量/options3;(当要画的是统计量时须使用keyword.来表示,如:residual.*predicted.)相关说明:在关键词“Model”之后,应指明因变量,等号之后依次列出回归变量(自变量),每个变量之间用空格隔开,“options2”部分提供了最优模型的选择方法和其他拟和结果,主要包括三个主要部分:(1)FORWARD:向前选择最优模型方法。自变量进入模型的控制水平用语句SLENTRY=level表示,默认情况
7、下level=0.5。BACKWARD:向后删除法。保留自变量在模型中的控制水平由语句SLENTRY=level给出,默认情况为level=0.1。STEPWISE:逐步回归法,选取自变量和保留自变量的控制水平语句由SLENTRY=level1和SLSTAY=level2,默认情况为level1= level2=0.15。RSQUARE:利用准则选择最优模型。ADJRSQ:修正的()准则选择最优模型法。CP:利用准则选择最优模型法。注意:在SAS系统中,这6中方法不能同时并用,即在“options2”部分只能写其中的一种。(2)对模型选取细节的选项DETAILS:此选项仅对最优模型选取方法中的
8、FORWARD、BACKWARD和STEPWISE有效,它要求打印出每一步引入和删除的自变量及相关信息。例如一个自变量选入模型时的偏F值,模型的值和一个自变量被删除时模型值以及有关参数估计的信息。NOINT:取消回归模型的常数项。(3)对估计细节内容的选择CORRB:打印出估计的参数的相关系数矩阵。COVB:打印出估计的参数的协方差矩阵。P:打印出因变量的拟合值,同时还包括因变量的观测值合拟和残差。R:打印出有关残差及用于性分析的量,包括:拟合值的标准差、残差、学生化残差及Cook距离。OUTPUT语句中的“keyword=name”部分指定下列的一些或全部的内容:PREDICTED (P)
9、= name;因变量的拟合值RESIDUAL (R) =name;残差STUDENT=name;标准化残差L95M=name;因变量的期望值的95%置信区间的下限U95M=name; 因变量的期望值的95%置信区间的上限L95=name; 因变量真值的95%置信区间的下限U95=name; 因变量真值的95%置信区间的上限COOKD=name; cook距离H=name;杠杆量PRESS=name;用来估计第i组观测值对拟合值的影响DFFITS=name; 用来估计第i组观测值对参数估计的影响(3)“options3“部分包含以下内容:symbol=字符:规定绘图中的符号;overplay:允
10、许多个散点图重叠输出到一张图上。5、举例例题1某公司在各地区销售一种特殊的化妆品.该公司观测了15个城市在某季度内该化妆品的销量Y以及各城市适合使用该化妆品的人数X1和人均收入X2 ,得数据如表3.2所示(见教材94页).假设误差服从正态分布,试建立Y与X1,X2 之间的线性回归方程并讨论相关的统计推断问题.SAS程序如下:goptions vsize=10cm hsize=15cm;data sell;input y x1 x2;cards;162 274 2450120 180 3254223 375 3802131 205 283867 86 2347169 265 378281 98
11、3008192 330 2450116 195 213755 53 2560252 430 4020232 372 4427144 236 2660103 157 2088212 370 2605;run;proc gplot data=sell;plot y*x1='A' y*x2='B'run;proc reg data=sell;model y=x1 x2/noint;output out=sell1 p=p r=r student=stdr;*输出预测值,残差和标准化残差;plot residual.*predicted.;*/画关于预测值的残差图;pl
12、ot residual.*x1;/*画关于变量x1的残差图*/plot residual.*x2;/*画关于变量x2的残差图 */proc print data=sell1;run;结果分析:(1)所建模型线性的显著性分析由运行结果知,F=5679.47,(pr>F)<0.0001比远远要小,且R-Square=0.9989非常接近于1,说明线性关系显著。(2)模型参数的显著性分析由程序运行结果知变量x1和x2的系数和是显著的,但常数项不显著,可考虑将常数项删除。要删除常数项,只需要将上述程序中model语句改为:model y=x1 x2/noint即可。改进后的程序运行结果如下
13、: 由此可见,删除常数项后,模型的F值为38545.4,R-Square=0.9998,比原来的模型要好!6.【本次实验】题目见数据分析教材例题3.4某医科大学儿科医院研究某种代乳粉的营养价值时,用大白鼠做试验,得大白鼠进食量(克)和增加体重(克)间关系的原始数据如下所示,试做直线回归分析。x820780720867690787934679639820y165158130180134167186145120158解:程序:goptions vsize=10cm hsize=15cm;data dairufen;input y x;cards;16582015878013072018086713
14、4690167787186934145679120639158820;run;proc gplot data=dairufen;plot y*x='A'run;proc reg data=dairufen;model y=x;output out=dairufenl p=p r=r student=stdr;由运行结果知,F=60.20,(pr>F)<0.0001比远远要小,且R-Square=0.8827比较接近于1,说明线性关系显著。从程序运行结果知变量的系数是显著的,但常数项不显著,可考虑将常数项删除。要删除常数项,只需要将上述程序中model语句改为:model y=x/noint即可。改进后的程序运行结果如下:程序;goptions vsize=10cm hsize=15cm;data dairufen;input y x;cards;165820158780130720180867134690167787186934145679120639158820;run;proc gplot data=dairufen;plot y*x='A'run;proc reg data=dai
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司减资协议书
- 穿拖鞋上班协议书
- 代理扣款协议书
- 绿化意向合同范本
- 手机按揭合同范本
- 租赁帐篷合同范本
- 粮食供货合同范本
- 疫情餐费合同范本
- 债券分销协议书
- 仓储配送协议书
- 2025中原农业保险股份有限公司招聘67人笔试备考重点试题及答案解析
- 2025中原农业保险股份有限公司招聘67人备考考试试题及答案解析
- 2025年违纪违法典型案例个人学习心得体会
- 2025年度河北省机关事业单位技术工人晋升高级工考试练习题附正确答案
- 交通运输布局及其对区域发展的影响课时教案
- 2025年中医院护理核心制度理论知识考核试题及答案
- GB/T 17981-2025空气调节系统经济运行
- 比亚迪储能项目介绍
- 2025 年高职酒店管理与数字化运营(智能服务)试题及答案
- 2025年9月广东深圳市福田区事业单位选聘博士11人备考题库附答案
- 糖尿病足溃疡VSD治疗创面氧自由基清除方案
评论
0/150
提交评论