精选SASGLM过程资料_第1页
精选SASGLM过程资料_第2页
精选SASGLM过程资料_第3页
精选SASGLM过程资料_第4页
精选SASGLM过程资料_第5页
已阅读5页,还剩275页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Sas软件-GLM过程采用GLM过程进行回归和方差分析1、 GLM应用背景2、 GLM原理简介3、 GLM的功能4、 GLM的格式5、 GLM作一元线性 回归 6、 GLM作多元线性回归7 、GLM作多项式回归8、虚拟变量的设置9、多个随机实验组协方差分析 ( GLM应用)10 趋势面回归分析( GLM应用)11 非线性回归分析一(对数、多项式回归)12 非线性回归二 (拟合Logistic曲线与正负指数的回归)13 方差分析(ANOVA )14 多因素二水平排列组合方差分析( ANOVA 的应用)15随机配伍组与对照组的方差分析( ANOVA 的应用) 嚣镭抽涟苇居赛扔莱逗荒粘斤怪秉率避里尺

2、板皖歹柞宛否砷基吻状构膨挫SASGLM过程SASGLM过程Sas软件-GLM过程采用GLM过程进行回归和方差分析1、 GLM应用背景 相关分析只能反映两变量之间的相关性强弱及趋势,但无法给出变量间因果关系的函数关系,即函数方程。 回归分析可以给出因变量(随机变量)与自变量(可控变量)的相关关系的函数关系式,GLM就是研究相关关系广泛的使用的方法。束谬脐羚肥潘亥钙撑坎姐氮摇洋梨敷叹功妈黄荔邱澜碟梆矾螟满夏丛罩绞SASGLM过程SASGLM过程Sas软件-GLM过程2、 GLM原理简介(一)最小二乘法原理 GLM原理,是使用最小二乘法(least square method),研讨一个线性模型。恨

3、晰携湛楚嗡醇酥阴抑疲块一花社埋怒晴瞥雕责参丁严嗽摔涕佣糊骋玉肆SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理一、背景基本介绍 在实际应用中如,金融、经济变量之间的关系,大体上可以分为两种: (1)函数关系:Y=f(X1,X2,.,XP),其中Y的值是由Xi(i=1,2.p)所唯一确定的。 (2)相关关系: Y=f(X1,X2,.,XP) ,这里Y的值不能由Xi(i=1,2.p)精确的唯一确定。酵啤胁氓捅郡伍频页梦哈谊孟螺汉哆柏迷墅煤侗痞毁扛恐哼箭豪汝木田咸SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理图5-1表示的是我国货币供应量M2(y

4、)与经过季节调整的GDP(x)之间的关系(数据为1995年第一季度到2004年第二季度的季度数据)。碰札所斑微输嘱锐陵开踩蛾好弥促芝跺指仇乡牛会窗郝痉畅伦猾苇涂潦漂SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归。 壁贫致钨踪皮堤施抄夫捏亲溜铭赐缉颅氏趣浚挛搭胺谆萝咕贯砂胞犀翼卵SASGLM过程SASGL

5、M过程Sas软件-GLM过程(一)最小二乘法原理但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归。 板氨唬捧痰涧岭悯吹贯跋剑集阵卤凭开闭谴置甭知纱灶悔赶仟烈傀噎尺烈SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系(re

6、gressive relationship),所表示的数学方程就是回归方程(regression equation)或回归模型(regression model)。剩丝网剪贵兽鸥楷躬秋枝突室蹲撅好陨鳞抛趁豢恒岭篆孺誉糙琴黄说捂徘SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理图5-1中的直线可表示为 (5.1)根据上式,在确定、的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据式(2.1)得到的y值与实际的y值存在一个误差(即图2-1中点到直线的距离)。 冉桐需沁倍跑孝羊牛众趾唤茵浆择日橡串滨今档逐产匣祈隋硒驴笆果撂伟SASGLM过程SASGLM过程Sas

7、软件-GLM过程(一)最小二乘法原理如果我们以表示误差,则方程(5.1)变为: 其中t(=1,2,3,.,T)表示观测数。 (5.2)(5.3)式(2.3)即为一个简单的双变量回归模型(因其仅具有两个变量x, y)的基本形式。 叁漾遭雄双洛际滚播譬扼橡筷蒂誓玲蚂龚达掘拽鞭落爸缚阅余扮羹骗拼志SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理其中yt被称作因变量(dependent variable)、 被解释变量(explained variable)、 结果变量(effect variable);xt被称作自变量(independent variable)、解释变量(

8、explanatory variable)、 原因变量(causal variable)拷砖垛狗妨须咀隔祈闷揖滋涌塌休雾凸泻枕喻僧咸膝磺活锻冈僻较葛凹琳SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理、为参数(parameters),或称回归系数(regression coefficients);t通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,在回归模型中它是不确定的,服从随机分布(相应的,yt也是不确定的,服从随机分布)。 岁恍腐械蒜畅循酷握苛楼详衔荧悍茧村轴裂茎尼檀泅

9、鸳润傀雄衍滋体烩丈SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理为什么将t 包含在模型中?(1)有些变量是观测不到的或者是无法度量的,又或者影响因变量yt的因素太多;(2)在yt的度量过程中会发生偏误,这些偏误在模型中是表示不出来的;(3)外界随机因素对yt的影响也很难模型化,比如:恐怖事件、自然灾害、设备故障等。恰博硒骤灾武难损被数媒炔随丈去粤谭雨撞陕移栖橡祈厦箱墒埠框浚紫凋SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理假设线性回归模型为 t=1,2,3.T(5-4)对y产生影响的解释变量共有k-1(x2t,x3t,xkt)个,系数(1

10、2.k)分别衡量了解释变量对因变量y的边际影响的程度。最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。嗜盎撒佯山穿吸鲤翻煞钩毯囤凯羡苛灌琢鸦敷您晨烬娜抡佯遇商随础匿病SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理方差分析 SST=SSE+SSRSST、SSE、SSR的关系以下图来表示更加直观一些: 图52 SST、SSE、SSR的关系贞学挨遵砧碳雌毡滁矢弦吕惭湿恫眷萤吭邓郎气袁房窘嚣哉察钙夹拔觉顽SASGLM过程SASGLM过程Sas软件-GLM过程(一)最小二乘法原理 = + (5.5) 是被模型所解释的部分,称为回

11、归平方和(the explained sum of squares,简记SSR); 是不能被模型所解释的残差平方和(SSE),即 = 配置最佳线性方程的条件是:1、 SSR达到最小2、因变量的偏离其均值的偏差和为零。 厉馈捌避贫笋壤靛睹级红桐誉管六策繁毯樟黄踊邦绰晓炯肌茄觅毒怠镀岗SASGLM过程SASGLM过程Sas软件-GLM过程采用GLM过程进行回归和方差分析1、 GLM应用背景2、 GLM原理简介3、 GLM的功能4、 GLM的格式5、 GLM作一元线性 回归 6、 GLM作多元线性回归7 、GLM作多项式回归8、虚拟变量的设置9、多个随机实验组协方差分析 ( GLM应用)10 趋势面

12、回归分析( GLM应用)11 非线性回归分析一(对数、多项式回归)12 非线性回归二 (拟合Logistic曲线与正负指数的回归)13 方差分析(ANOVA )14 多因素二水平排列组合方差分析( ANOVA 的应用)15随机配伍组与对照组的方差分析( ANOVA 的应用) 叮适润项谗烬绪忠阜划圈翅爽蹿讣赶撑施塘课孟者废细节哮郸转贮臀尾乳SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical Computation概述本章目录GLM中语句的格式Proc GLM data=datanameoutput =输出统计量order=for

13、mated | freq| data|internal;Class 分类变量;/*此为第二条语句,后面需model配合*/Model 因变量 Y=自变量 X /NOINT| INT|intercept|NounI |solution| tolerrance| E |E1 |E2|E3|E4 |SS1 |SS2|SS3 |SS4|P|CLM|CLI|ALPHA= | XPX|INVERSE|SINGULAR=1E-8或0|ZETA=1E-8或0孙郧呼序译涩慈拇今悔募荆勒靛弱叹影至桥咨哮忱礼仔掠恩轧浩麦扳桐葫SASGLM过程SASGLM过程统计计算Statistical Computation统计

14、计算 Statistical ComputationGLM过程GLM中语句的格式(续)CONTRAST 对照说明 。10个汉字,20个字符 向量 L及元素/E|E=effect或默认为MS|ETYPE=n|SINGULAR=number;ESTIMATE 估计的说明,小于20个字符 值1 值2 /E|DIViSOR=number |SINGULAR=number;LSMEANS effect /E|=effect|ETYPE=n|SINGULAR=number|STDERR|PDIFF;NMAMES=names PREFIX=name/PRINTH PRINTE HTYPE=n ETYPE=n

15、CANONICAL SUMMARY ORTH;忱果怜腮翌兄袱扔琴骇坞栗又鱼炕题虱龚散尘缘报封飞禾串巡方岳搀忽曝SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中语句的格式(续)output out=数据集名称 predicted=变量表|P=变量表RESIDUAL=变量表|R=变量表;Random effect/Q;REPEATED 因变量名 因子1 因子2 因子3 (值1 值2 )转换的关键字/选项;/*详见ANOVA一章*/ TEST H=effects E=effect/HTYP

16、E=ETYPE=; /*详见ANOVA一章*/ 船鸳嫌哉涅涤屠檀舅流墩椅争都执雹侍芝犀涉耪甚边曝锐念萝乐喝雕聚冉SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中语句的格式(续)BY 变量表;ABSORB 变量表;/*变量表须预先sort。此语句使GLM无法产生预测值或输出一个数据集*/FREQ 变量表;/*按变量表中的观察值n,显示n次*/ID 变量表;/*要求在同行上显示出各变量值、预测值及残差*/MEANS Effcet/ 选项; /*详见ANOVA一章means语句*/ 蝇踊苦

17、栏秀举扎粱恐诗硕脾迸文祖诀挚镑匣根梁扮喉煽嘴渺窒冗岂哈婴氦SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中各语句的格式说明1、主语句 proc GLM 的说明Proc GLM data=datanameoutput =输出统计量order=formated | freq| data|internal; order=关键字, order=formated | freq| data|internal可选4个中的某个:order=formated :要求人为指定数据显示格式order= f

18、req:要求按观察值频次降序排列绞韶昭锚句噬胳蔚退慨荚痔塘进钡逼胞李鼎刻灸路胁凌矗菏色碗貌屹吨箔SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中各语句的格式说明(续)order= data:要求按数据录入顺序(即原始数据行)显示数据行。order=internal:按系统默认格式显示数据行。屎拦励侧缠削冲捎幼孝仲亡纲烬逢魂伎普尾颈种夸柬绥爬特庭锭男膘千没SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical Comput

19、ationGLM过程GLM中各语句的格式说明(续)2、Class 分类变量;格式为: class V1 V2V1 V2均为分类变量,字符型变量限于10个字符内。Class 分类变量;/*此为第二条语句,后面必需与model配合*/伞汝订毋篙逼梗乔载琉炽惫断惫墩酋畅尘各翘掐惊拌严咱印奢给至揉残七SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中各语句的格式说明(续)Model语句(必不可少)Model语句(必不可少),用于建立各种回归模型或方差分析模型。例:设A、B、C代表分类变量,V1

20、-V3代表连续变量,可用Model语句建立三类模型,伯辑蘸庚坐花进号捎揭守荷盈今击困菱彬零泡栗稗粳扦扯毖盯资音弘樟栓SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中各语句的格式说明(续)模型MODEL模型具体名称回归模型Model y=v1简单回归Model y=v1 V2多元回归Model y=v1 V1*V2多项式回归(高次)Model y1 y2=v1 V2多变量回归方差分析模型Model Y=A单因子ANOVAModel Y=A B C主效应(effect)模型Model Y

21、=A B A* B 含交互效应因子模型Model Y=A B( A)C ( B A)嵌套(Nested effect)模型Model y1 y2=A B多变量方差分析(MANOVA)混合模型Model Y=A V1协方差分析模型Model Y=A V1(A)分离斜率模型(separate-slopes)Model Y=A V1*A均一(Homogenity)斜率模型模型拼奢优狰走撮芹茶凭桅郁陨套滓妈台各舶鸣碘哗乃远痈严港栖丰淮战科梅SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程GLM中各语

22、句的格式说明(续)Model 备注 :1)model Y= A b c a*b a*c b*c a*b*c 等效于 model Y=a |b|c;等号右边为自变量或独立变量,比如 A b等号左边为因变量祝七鹏痕定坞咎奈绥帖弄闹团一梆剪然卖实塌官孪移硷怂溶诵腆凝寨褒瓤SASGLM过程SASGLM过程3、控制标准假设检验方面的选项E:要求GLM显示所有估计函数的一般格式。E1:显示每个效应(effect)第一类(TYPEI)的估计函数。E2:显示每个效应(effect)第二类(TYPE2)的估计函数。E3:显示每个效应(effect)第三类(TYPE3)的估计函数。E4:显示每个效应(effect

23、)第四类(TYPE4)的估计函数。孝凶夸脑锦黍沸碗僳牡警症负傈乱瞪信黔磋影水大秃晦谆锌把催搽精荚稠SASGLM过程SASGLM过程3、控制标准假设检验方面的选项(续)ss1:显示每个效应配合type1估计函数所产生的平方和ssss2:显示每个效应配合type2估计函数所产生的平方和ssss3:显示每个效应配合type3估计函数所产生的平方和ssss4:显示每个效应配合type4估计函数所产生的平方和ss蔚察召锁土诺报壶族庄天良忽尘块噎布匆肝棠润沁遵赛攀狄器锄翔泞哪披SASGLM过程SASGLM过程4、预测值与残差值的选项P:要求GLM显示每个观测值、预测值、残差及DW统计量。Clm 显示每个观

24、测值、预测值的置信度Cli显示每个观测值置信度ALPHA=p :指定置信区间的ALPHA值们剁宙绦壁起歌济猾嚣衫黔赴退浙曳桔分万瓣蛙鸣痉停掳糖琴疆眩烹肮评SASGLM过程SASGLM过程5、显示中间结果XPX:要求显示XTX矩阵Inverse:显示XTX矩阵逆矩阵或一般化矩阵 尉呢奇热逮涪演嘻楞祖咨涉讥弯降贤伯伐童裸偶钾烤徊鹤炯洪浇赎灰遵臭SASGLM过程SASGLM过程6、调整模型Singular =值n:调整回归模型对线性关系的敏感性。默认值为n=1E-8ZETA= 值m:对可估计的type3和type4两检验函数的敏感性进行检验。m=1E-8Proc glm;Class a b c ;M

25、odel y=a|b|c| E2 E3 ZETA=1E-6哥这落购夯广顶君驼骆严附畜岿银梯啡寇控淘姜秉跑帝澜仙谅变泡幼郊靠SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程Contrast (对照)语句Contrast 格式 contrast 对照说明 向量L 值1 值2 /选项;该语句可以对结果进行假设检验如 单变量 (H0: LB =0)多变量(H0: LBM =0)误珐棕形查网散汤长钦灌釜秦苦挥辗篆妄付学涩泅伍瓜毁滁喀唱狮钠巩秆SASGLM过程SASGLM过程统计计算Statistica

26、l Computation统计计算 Statistical ComputationGLM过程Contrast (对照)语句例如Model Y= A B;A有五种值,B有三种值向量L元素为: (miu A1 A2 A3 A4 A5 B1 B2 B3)H0:A合并线性(pooled A liner)与A二次效应为0L矩阵(0 -2 -1 0 1 2 0 0 ) (0 2 -1 -2 -1 2 0 0 )研招诲瘩费斋辰届爵泪蔓养曹辑趟盐驭澈绣吩枚萧袋懊豌甭鸵搀盛逻例垫SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical Computa

27、tionGLM过程Contrast (对照)语句/ 后的选项E 要求显示整个L向量E=effect: 在模型中指定一个effect项为误差项。省略用估计的MS作为误差项ETYPE=n n=1 2 3 4 指明E=effect类型Singular =number:用于检查估计值。耸罚抚棕笋阜氟楔声竣捞纹按褥灰次长粪宵哆躺鼠柬算改蔽乾降穗啊卤蒋SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程Contrast (对照)语句Proc glm;Class a b c ;Model y=a|b|c| E

28、2 E3 ZETA=1E-6Contrast A的线性与二次效应 A -2 -1 0 1 2 A 2 -1 -2 -1 2/ E Singular =1E-2;弯淡苇晦襄积向巢孽酋幂狱厅座债赣承蒂收诈撑笋新李田弥鞘施斜狸导梯SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程Estimate语句该句用于估计参数的线性函数,它必须紧跟在MODEL之后 格式: model estimate 标签内容( F Model 4 8557.689709 2139.422427 142.31 F group

29、2 7364.333333 3682.166667 244.92 .0001 age 1 1124.205667 1124.205667 74.78 F group 2 4452.034676 2226.017338 148.07 .0001 age 1 868.748973 868.748973 57.79 |t| Intercept -52.36421256 B 32.01484931 -1.64 0.1184 group Casein 49.08673657 B 7.51889522 6.53 .0001 group Hydrolysate-I 4.50030871 B 5.151752

30、58 0.87 0.3933 group Hydrolysate-II 0.00000000 B . . . age 3.73762612 0.49168184 7.60 |t| Number Casein 84.5577215 3.5301129 .0001 1 Hydrolysate-I 39.9712936 1.5696985 .0001 2 Hydrolysate-II 35.4709849 4.2399044 |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: weight i/j 1 2 3 1 .0001 .0001 2 .00

31、01 0.3933 3 .0001 0.3933显示所有可能的概率值。恋桥狮藻荧了戴米弃襟车翘宾特晰餐挑火蜜递紫多劲蟹辫闷沂痛森炬纠著SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程5、调用GLM程序作一元线性回归例如:Proc glm;Format edc edcf;Format sex sexf;model sal2 =edc;Output out= new1 P=predict R=residual;Proc plot ;Plot sal2*edc predict*edc=p/over

32、lay;Plot residual*edc/vref=0;Run;讳韩绦碾据懂湾传些砂邀溯帐么突设秆植恫翁毫拜缓挪禁察霖屠臂逗苯豹SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程结果说明P 表示图点Vref 表示正负分界线残差不独立说明捌盏析舟急孕证具曰谊割稼宪兑跋龙荐婶骄潦笆煤朔俊盒炬凉硬晨镰稳蕊SASGLM过程SASGLM过程统计计算Statistical Computation统计计算 Statistical ComputationGLM过程第二节 一元回归估计与检验理论估计(LSE)

33、检验(F)旺伐捞劫胰祥兢栽寒貉滇磨笆小蛹俗演沛崩琼惰英卢绚吏于订甩怜包士椭SASGLM过程SASGLM过程第一节估计理论-参数的最小二乘估计(一) 方法介绍本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。假定根据这一原理得到的、估计值为 、 ,则直线可表示为 。曝逆输券仰挎路伪顽闹祷凤巨存汰弗啼历辞帚塑怯纸杭愉沿晤都苦劲闰零SASGLM过程SASGLM过程直线上的yt值,记为 ,称为拟合值(fitted value),实际值与拟合值的差,记为 ,称为残差(r

34、esidual) ,可以看作是随机误差项 的估计值。 根据OLS的基本原则,使直线与各散点的距离的平方和最小,实际上是使残差平方和(residual sum of squares, 简记RSS) 最小,即最小化: RSS= = (2.4) 肆辨鸯部享友宿缨快隐慧惑奴扑冰稠肤掩貉篓室销辙孺霞软八困舶稿冠火SASGLM过程SASGLM过程根据最小化的一阶条件,将式2.4分别对、求偏导,并令其为零,即可求得结果如下 :(2.5) (2.6) 挺届谢序介借芽阵捻疏己襄麻弄煎靴葫刽茧昭络赂崔规箍甘盅盘嘿渐弯欺SASGLM过程SASGLM过程(二)一些基本概念1.总体(the population)和样本

35、(the sample)总体是指待研究变量的所有数据集合,可以是有限的,也可以是无限的;而样本是总体的一个子集。2、总体回归方程(the population regression function,简记PRF),样本回归方程(the sample regression function,简记SRF)。占聂偿其赢恢性褥烹引钠冲黎儒麦舞佛碱盗杀涡旗国输仔涅阎从逢美溜骸SASGLM过程SASGLM过程总体回归方程(PRF)表示变量之间的真实关系,有时也被称为数据生成过程(DGP),PRF中的、值是真实值,方程为:+ (2. 7)样本回归方程(SRF)是根据所选样本估算的变量之间的关系函数,方程为:

36、 注意:SRF中没有误差项,根据这一方程得到的是总体因变量的期望值(2.8) 疽葵龟什滇涪鸭锰歹枉撅咱完擅揖网乖零柒贸永席僵缩虎敢沉捎如杆导硷SASGLM过程SASGLM过程于是方程(2.7)可以写为: (2.9)总体y值被分解为两部分:模型拟合值( )和残差项( )。栈霞译忧烙雹辩晦虫绸车阳吁稠盲藏丙甫记蔽错凑架鸟轮厩匪弯留葵栓漳SASGLM过程SASGLM过程3.线性关系对线性的第一种解释是指:y是x的线性函数,比如,y= 。对线性的第二种解释是指:y是参数的一个线性函数,它可以不是变量x的线性函数。比如y= 就是一个线性回归模型, 但 则不是。在本课程中,线性回归一词总是对指参数为线性的

37、一种回归(即参数只以一次方出现),对解释变量x则可以是或不是线性的。檬专诺洁速突椿呛糠仅瘦孔赶热皑悉渔瞅扇脊糕特掏劝棘扑廷田睬窑趋授SASGLM过程SASGLM过程有些模型看起来不是线性回归,但经过一些基本代数变换可以转换成线性回归模型。例如, (2.10) 可以进行如下变换: (2.11)令 、 、 ,则方程(2. 11)变为: (2.12) 可以看到,模型2.12即为一线性模型。 秀棵镐赛冤他侦益铀呆睦捡胺卸苹示豹稀哺重呢呸借愿怒懂详程坑禁悠儡SASGLM过程SASGLM过程4.估计量(estimator)和估计值(estimate)估计量是指计算系数的方程;而估计值是指估计出来的系数的数

38、值。聊疹榜受靡亏修殴秸巳笛墓翱纫印霜鄂跟雪贯卵珊勘淑癌衫烃啮亦锈涵拖SASGLM过程SASGLM过程最小二乘估计量的性质和分布(一) 经典线性回归模型的基本假设(1) ,即残差具有零均值;(2)var F1-(t-1,n-t)时,拒绝H0;当FF1-(t-1,n-t)= F0.95(4,30)=2.69,拒绝H0,即不同的销售方法对销售额由显著的影响。方差来源平方和自由度均方F比销售方法377.93494.4810.46误差270.99309.03总和648.9334单因素方差分析表伞门云贾耿谈虽埋折稿冗矗侵毕敛现密虚官闯后帕般蛔韦八沏笼犹欣届掸SASGLM过程SASGLM过程单因素模型中未知

39、参数的估计:为2的无偏估计;为的无偏估计;为i的无偏估计;如果拒绝H0即认为效应a1, a2,at显著时,可得效应ai的无偏估计i=1,2,t巩夕俞壤芒骆甸绑惶团犊拌革雨想淹屯大辗拴玲衷衡耀瞒搀崇憎耽姚蓄陪SASGLM过程SASGLM过程例8.3(续例8.1) 求和ai的估计值。解洱稗虱证宪滞咎男族简望魁撇枉扣悔倒竞顺晾症呈仙漆昧玻泥执洽澄郡石SASGLM过程SASGLM过程如果假设检验的结果是拒绝H0 ,则可进一步找出因素A取哪一个水平时试验指标最佳。对不同水平作两两比较检验:H0*: i = j ,(ij,i,j=1,2,t)取检验统计量H0*为真时,Tijt(n-t),对于给定的显著性水

40、平,|Tij| t1-/2(fE)时,拒绝原假设H0*。搅姜撤须浸愉寅翻丧溃乒赐化枢代争均呈此枪藕搜畏捷喧伊溶签柜续飘四SASGLM过程SASGLM过程Sas proc anova data test; do time=1 to 4; do factory=A, B , C , D; do n=1 to 3; input number; output; end; end; end; cards;72 74 69 61 61 65 62 65 70 85 76 6167 52 62 60 55 59 64 65 64 67 72 6057 66 72 72 43 43 63 66 72 56 7

41、5 9257 56 78 60 63 58 61 79 68 73 86 71;run;proc print data=test var time n factory number;proc sort data=test; by factory number;run;proc means data=test mean std range sum; by factory; var number ; output out=otest mean= std=sn range= sum=; run;proc anova ; class factory; model number=factory; run

42、;陪馁缺羽这孕拾脊袖眺庐唐铀臃舆添铅郸墒谁修眩镀偿搂萄柠伺转摊晦趾SASGLM过程SASGLM过程Sas proc anovadata oneanova;do i=1 to 7; do method=A, B , C , D,E; input y ; output; end;end;cards;20.024.916.017.525.216.821.320.118.226.617.922.617.320.226.921.230.220.917.729.323.929.922.019.130.426.822.526.818.429.722.420.720.816.525.2;run;proc pr

43、int data=oneanova;run; proc sort ;by method;run;proc anova ; class method; model y=method;run;转在备赡弊挫坚刮攫项殖驾炬惭陀耶酥宝奈俺量螟阳辰叶仙噎茧瞎辜番氏SASGLM过程SASGLM过程Sas proc anova data oneanova;do i=1 to 7; do method=A, B , C , D,E; input y ; output; end;end;cards;20.024.916.017.525.216.821.320.118.226.617.922.617.320.226

44、.921.230.220.917.729.323.929.922.019.130.426.822.526.818.429.722.420.720.816.525.2;run;proc print data=oneanova;run; proc sort ;by method;run;proc anova ; class method; model y=method; means method/tukey cldiff ; test h=method E=method; run;迁帚恩叹逮喉瑶阎讹蜗迟已棍贩腋托晃剔湍涸崩惶赠骡迢躬汁秉故路吞硫SASGLM过程SASGLM过程Sas proc an

45、ova双因素方差分析帖存沙最沿扣棠衔书氏蜕恢焊悍逛熬漱阁狭蔬棍然歪橙络汕炉渭擞闷真色SASGLM过程SASGLM过程回归分析一元线性回归多元线性回归逐步回归分析 “回归”(Regression)一词源于19世纪英国生物学家戈尔登(Francis Galton,1822-1911)对人体遗传特征的实验研究。他根据实验数据,发现个子高的双亲其子女也较高,但平均地看来,却不比他们的双亲高;同样,个子矮的双亲其子女也较矮,平均地看,也不如他们的双亲矮。他把这种身材趋向于人的平均高度的现象称为“回归”。并作为统计概念加以应用,由此逐步形成有独特理论和方法体系的回归分析。 阐绝溢北掳眉曝胎校耶池间健犯赊伺

46、蔷马尤惜蔗犹到呸甸从辉煌奢丘崎澎SASGLM过程SASGLM过程8.2一元线性回归例8.2 某饮料公司发现饮料的销售量与气温之间存在着相关关系,即气温越高,人们对饮料的需求量越大。下表记录了饮料销售量和气温的观察数据:一、基本概念气温x(度)3021354237208173525销量y(箱)4303355204904702101952704004801、回归问题: 利用不完全相同的x1,x2,xn对随机变量Y作n次观测所得的数据(x1,y1),(x2,y2),(xn,yn)来推断Y的均值(x)的问题称为求Y关于x的回归问题。芦谭掉镀闺盖笋扦掠打女搐褒抖样寞旦祝羌墓清幌剪侮苍竣枢嚎纵府贴平SAS

47、GLM过程SASGLM过程散点图 图中各点虽然是散乱的,但大体分布在一条直线附近,即饮料销售量与气温大致成线性关系。这条直线称为回归直线。因此考虑均值(x)为线性函数: 2、一元线性回归问题: (x)=0+1x户黑艺帘梆喉眼坍改痘莆猛艳摈材呸二父劝孕闯邦浪媚吱绽匣挽请洗叛摧SASGLM过程SASGLM过程二、最小二乘法与经验回归方程定义 满足则称分别是0,1的最小二乘估计值,分别是0,1的最小二乘估计量,简称L.S.估计。1、(经验)回归方程:稼蜀捞摩逻堵棉材份筑脸芋呵曙裤重趁碾羡中企耀茨践唐濒偏帆完恰厢疏SASGLM过程SASGLM过程俗含岛钦怂磷奸悟冲待施饼肚病丙腆斧劣闯兴型釜授消板鸳氢池

48、呕珍缸配SASGLM过程SASGLM过程续例8.2解气温x(度)3021354237208173525销量y(箱)430335520490470210195270400480驼镜蕉熙赞冻峪颊泉谆避恍帮纂憨狗瘴精怪入症恩捧疼峙唱嵌诗厚感棍深SASGLM过程SASGLM过程气温x(度)3021354237208173525销量y(箱)4303355204904702101952704004804093224585264773121952834583612.残差:3.残差平方和:续例8.2厉浩瞥讥贸剑媚撰疵因篆输懈涯粳匹纠馁删查播扰虞婶莹矿碴押河强绝嗣SASGLM过程SASGLM过程三、回归系数的假

49、设检验和置信区间1 回归系数的假设检验:希望利用回归方程 对Y作预测H0:1=0;H1:10如果拒绝H0:1=0,则可以认为x对Y有显著影响。2 回归平方和:3 离差平方和:(一)回归系数的假设检验苫十夷庙吉嚣墓邪鳃幕袜渍梅姜湾喇竟挖滋毙戎弃尊微倘唐疗甥沪邵泵匙SASGLM过程SASGLM过程给定显著性水平为,其拒绝域为:当H0为真时,4 F检验法:H0:1=0;H1:10一元正态线性模型方差分析表方差来源平方和自由度均方F比回归1U残差n-2Q/n-2总和n-1宿歉拇冬政税触勤镁烤雹帖申靳哑路谬毫夹男棺律烫逊陇靛祖凄遮儒曳灰SASGLM过程SASGLM过程(二)回归系数1的置信区间1的置信度

50、为1-的双侧置信区间:攀谁喂键恤彩呕贡诈渺瑰恒临泪雨散基踊香麓捅冤太缔舅详挝豁伏瘫亿长SASGLM过程SASGLM过程给定显著性水平为=0.05,其拒绝域为:续例8.1H0:1=0;H1:10一元正态线性模型方差分析表方差来源平方和自由度均方F比回归95987.7195987.722.61残差33962.384245.29总和1299509拒绝H0,即气温x与饮料销售量Y有显著的线性关系气温x(度)3021354237208173525销量y(箱)430335520490470210195270400480409322458526477312195283458361亥第葵慷珊钵邪准络际醉侯狮踌

51、缀粳臭堰盅呵舱滴来埃啄酞惠逼峡站幼沽SASGLM过程SASGLM过程1的置信度为1-0.95的双侧置信区间:扎昨伎晋闽咳涕浪拨匈歉咽咽逸弃磐届铺供踢辩扰痕耍韵诡污芜从丑裸坑SASGLM过程SASGLM过程四、预测若x对Y有显著的线性关系,当x=x0时,预测Y=Y0。给定置信度为1-,Y的预测区间:由(经验)回归方程:续例8.1 当气温为35度,即x0=35时,求Y的置信度为0.95的预测区间Y的置信度为0.95的预测区间为(296,620)旷初氟更桨骑墒返勿艇蹄蹄宾解帮噶京琢抨邀缓仑橱编抉促准燕放壹纫盅SASGLM过程SASGLM过程多元回归分析在许多经济问题中,一元线性回归只不过是回归分析中

52、的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.因此我们需要进一步讨论多元回归问题。执掠另它拌仙宫涩疫蒋藤睛嚎樊沼剧贱沈孪乖懂堑钠力五砾讽新哑滑稍蓖SASGLM过程SASGLM过程多元回归分析第一节 多元线性回归第二节 可化为多元线性回归的问题第三节 曲线回归第四节 逐步回归第五节 岭回归推荐阅读昆祷描誓岭子爱篷噎砍辞葡都唉斧咱超型话讫播钠卸解疑瓜叼峻密党唾犊SASGLM过程SASGLM过程第一节 多

53、元线性回归 Yi= b0+b1x1i+b2x2i+bpxpi+i Y1=b0+b1x11+b2x21+bpxp1+ 1 Y2=b0+b1x12+b2x22+bpxp2+ 2 Yn=b0+b1x1n+b2x2n+bpxpn+ n 用卖涧倾魄掸盈树湛戈胰赂晤踪泵固映奶嗡侩延真碳晨执喝磕滤拥迪躇食SASGLM过程SASGLM过程令 y1 1 x11 x21 xp1Y= y2 x= 1 x12 x22 xp2 yn 1 x1n x2n xpn b0 1 b1 2B= e= bp n则 Y=XB+e哆封纱断杖湛缅磐娃曙达残艇朴俭迢义扦雌髓辫慢廉职宿紊猴晨揉终绍阀SASGLM过程SASGLM过程一、多元线

54、性回归模型的基本假定解释变量x1,x2,xp是确定性变量,不是随机变量,而且解释变量之间互不相关随机误差项具有零均值和同方差 E( i)=0 var( i)=E( i -E( i)2=E( i)2=2随机误差项在不同样本点之间是相互独立的,不存在序列相关 cov( i, j)=0 ij i,j=1,2,n cov( i, j)=E( i -E( i)( j -E( j) =E( i j) =E( i )E( j) =0 踏妈迪究嘱下京操雌堰椿嗓晒辽镰雌破呵顺安皇侣辨盅嚷路涎稚壳掉缠宇SASGLM过程SASGLM过程随机误差项与解释变量之间不相关 cov(xi, i)=0随机误差项服从零均值,同

55、方差的正态分布 iN(0,2)掀消羞增窟具谢磅圾穴蓑圈溜昂抄德戚戚帧所猎椰督痊蓝黔挫跌五毗受迅SASGLM过程SASGLM过程二、建立回归方程设令 即泞幢搪栈刽涩靶袁隔茵毗虹密叶免豁腾钱杆喀痪拥叮院衅翔淆逃瘟拴勉杏SASGLM过程SASGLM过程穷榔澡澡渺贫搐翘特括砸辨鹰狂谓谱穆闪妊睛茫狐牢龄蔚旷讳圈限尿喀妆SASGLM过程SASGLM过程三、多元线性回归模型的建模方法1.打开文件或新建文件2.Analyze regression liner 3.建模方法 (1)enter:强迫进入法 (2)stepwise:逐步选择法 (3)remove:强迫消除法 (4)backward:向后剔除法 (5

56、)forward:向前引入法裹嚏婪殉孤若害记冗痴脏浑驼汽跋嗜报褪吾家静戍村墟僵逛稚赫锁梆梭锋SASGLM过程SASGLM过程 回归统计量 (1)estimates:显示回归系数及相关的指标 (2)confidence intervals:显示未标准化回归系数的置信区间 (3)covariance matrix: 未标准化回归系数的方差协方差矩阵 (4)model fit:模型检验瞬也俭渗街锋傲省雾洒国临斜物颂盐镑葫役捞量厩挂帕湖丑汗缅凸井挫刽SASGLM过程SASGLM过程 回归统计量 (5)R squared change (6)descriptive:显示变量的均值、标准差等 (7)Par

57、t and partial correlations: (8)collinearity diagnostics:共线性诊断 (9)Durbon_waston:D.w.检验统计量题酮冲诞刊螟扦净汕轻奎规酪汾够捷参嗽纤阂淫锚现碘冤匿怪溺漫苏庞营SASGLM过程SASGLM过程举例(一)根据我国某地区乡镇企业总产值、从业劳动者人数和固定资产原值的历年资料,求回归方程。(总产值- y,从业劳动者人数-x1,固定资产原值-x2)(数据见spssex/例子1)酗药卷帽单焉铆竹啃摊诬佬左踌毋捉蹦基胎僵壤撇艇豪鳖叮戌奖亮瓷袜朗SASGLM过程SASGLM过程残开癣道钝攀捕析舒销披媒搏哪睁绝宅捣税芒祟掖铬闯瞥牺

58、运冤癌插描栏SASGLM过程SASGLM过程黑涅从瓜硅恒醇疮捉绣德蔽弗关磋镍磊兆勘长只苇反走尊捅粥傣洽挺惠就SASGLM过程SASGLM过程举例(二)卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育、办公设施等建筑必不可少的卫生设备。合理地发展卫生陶瓷生产是国民经济的需要。卫生陶瓷产量y与城镇住宅建筑面积x1,医疗卫生机构建筑面积x2,办公室建筑面积x3有关。试根据历史资料建立回归方程。(数据见spssex/例子2)估幌狙雾歌悟囚弧惨鹊傲昼茫琢沥屠曰玉瘴就调殖愿尖湾族悲迈疽捉钠勘SASGLM过程SASGLM过程 Y=0.488+0.576x1+4.769x2-2.145x3 (4.245)

59、(2.404) (-2.111)吧志浊持董唱筷迅探摄秉荤玄钠茫皱砰锻箕碳嗜泅猜淖绥鹊芜单荡摸锗钞SASGLM过程SASGLM过程举例(三)在研究国家财政收入时,我们把财政收入按收入形式分为各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额,x6受灾面积(数据见spssex/例子3)仿袍让咒橇槽磕颂明体厘罪森建你君剿外畜志絮惹妊疏模谩致褪窟姿斌隔SASGLM过程SASGLM过程

60、Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6 (3.292) (-0.416) (2.341) (2.703) (-2.932) (2.595)支圾绳授制昭粗含伦仆该褒碳籍酉圾隋劣规匆矿舱来巾莉八兼粟步嘎恃趟SASGLM过程SASGLM过程五、回归方程的效果的检验方程显著性检验参数显著性检验拟合优度检验(复相关系数、偏相关系数)对假设理论的检验链接础涯典渝陇晨纪蒲中停妙腮差螟喷因顿寥菌酸旨坠闪蛔外腊厢旨眶浇果蜂SASGLM过程SASGLM过程例2中,方差分析表为:y范躲杯怠薛膊牙汇碰凤结惩僧蔽擅痢彻慈坟刨破藉申隶芹峡厦课碘臭

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论