SAS统计分析(第七讲)_第1页
SAS统计分析(第七讲)_第2页
SAS统计分析(第七讲)_第3页
SAS统计分析(第七讲)_第4页
SAS统计分析(第七讲)_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-4-41SASSAS统计分析统计分析 第七讲第七讲 景学安景学安2022-4-42 q 多元线性回归多元线性回归 一、一、 基本概念基本概念 多元线性回归简称多元回归,是研究一个应变量与多个自多元线性回归简称多元回归,是研究一个应变量与多个自变量间线性依存关系数量变化规律的一种方法。变量间线性依存关系数量变化规律的一种方法。 二、多元线性回归方程二、多元线性回归方程mmXbXbXbbY22110 式中式中:b0为回归方程常数项为回归方程常数项,亦称为截距;亦称为截距;bj ( j=1,2, ,m )为偏回归系数,为偏回归系数,即在其他自变量固定的条件下,即在其他自变量固定的条件下,X

2、j改变一改变一个单位时应变量的改变量。个单位时应变量的改变量。 2022-4-43 三、多元线性回归方程的应用三、多元线性回归方程的应用v 预测应变量的估计值预测应变量的估计值 v 探索影响应变量探索影响应变量y y的主要因素的主要因素v当当X X为某一定值时,估计应变量为某一定值时,估计应变量 的容许区间的容许区间v当当X X为某一定值时,估计其应变量为某一定值时,估计其应变量 的总体均数的总体均数 的的置信区间置信区间YYStY,iYYYStY,iY2022-4-44 四、分类变量的数量化四、分类变量的数量化 在实际研究中,自变量常常会是分类变量,主要包括三在实际研究中,自变量常常会是分类

3、变量,主要包括三种类型的分类变量:种类型的分类变量:两分类变量两分类变量,如性别(男、女);,如性别(男、女);有序分类变量有序分类变量,如病情(轻度、中度、重度);,如病情(轻度、中度、重度);无序分类无序分类变量变量,如职业(干部、职员、工人、农民)。进行多元回归,如职业(干部、职员、工人、农民)。进行多元回归分析,必须将这样的指标数量化,常用的数量化方法有:分析,必须将这样的指标数量化,常用的数量化方法有: 1.两分类变量两分类变量 可用可用0和和1表示。例如:表示。例如: 0为男,为男,1为女;为女;0为阴性,为阴性,1为阳性。为阳性。 2.有序分类变量有序分类变量 由于有序的分类变量

4、的各类之间有一定由于有序的分类变量的各类之间有一定的数量关系,可以用的数量关系,可以用0,1,2,3,表示。如表示。如0为轻度,为轻度,1为为中度,中度,2为重度。为重度。2022-4-45 3.3.无序分类变量无序分类变量 由于各类别之间无数量关系,常用多个由于各类别之间无数量关系,常用多个0 0,1 1变量表示,即建立多个哑变量变量表示,即建立多个哑变量(dummy variable)。如)。如 表表 无序四分类变量用三个哑变量表示无序四分类变量用三个哑变量表示职业职业分类变量赋值分类变量赋值X1X2X3干部干部职员职员工人工人农民农民100001000010一般来说,一般来说,m个类别的

5、分类变量需要(个类别的分类变量需要(m-1)个哑变量表示。)个哑变量表示。2022-4-46五、五、SAS 语句格式语句格式 同单变量线性回归基本相同。同单变量线性回归基本相同。 proc reg 选项选项; model 应变量应变量=自变量名列自变量名列/ 选项选项;必选语句,定义回归分析模型必选语句,定义回归分析模型 freq 变量名变量名;可选项,定义频数变量。可选项,定义频数变量。 output out=数据集名数据集名 统计量统计量=变量名变量名 统计量统计量=变量名变量名 ; 可选项。可选项。OutputOutput语句创建一个包括对每个观察值计算统计量的新语句创建一个包括对每个观

6、察值计算统计量的新输出的数据集。输出的数据集。2022-4-47 (一)(一)proc reg 语句的语句的选项选项1. data=数据集数据集 指明回归分析所用的数据集。指明回归分析所用的数据集。 2. outest=数据集数据集 指定一个输出数据集,用以存储回归分析所得指定一个输出数据集,用以存储回归分析所得的参数估计的参数估计 。3.simple 输出每个变量的简单统计结果。输出每个变量的简单统计结果。 (二)(二)model语句的语句的/选项选项 1. selection=method 规定变量筛选方法和建立最优模型的准则。规定变量筛选方法和建立最优模型的准则。method的以下几种主

7、要选项:的以下几种主要选项: forward(或(或 f)前进法,按照前进法,按照sle规定的规定的值从无到有依次选值从无到有依次选一个变量进入模型一个变量进入模型 backward(或(或 b)后退法,按照后退法,按照sls规定的规定的值从含有全部值从含有全部变量的模型开始,以次剔除一个变量。变量的模型开始,以次剔除一个变量。2022-4-48 stepwise 逐步法,按照逐步法,按照sle的的值依次选入变量,同时对模型中现值依次选入变量,同时对模型中现有的变量按有的变量按sls的的值剔除不显著的变量。值剔除不显著的变量。 adjrsq 选择最优模型的决定系数准则(选择最优模型的决定系数准

8、则(R2)。)。 应选择应选择R2最大的模最大的模型。型。 cp 选择最优模型的选择最优模型的Cp准则准则。应选择应选择Cp值与(值与(p+1)最接近的模型。)最接近的模型。 aic 选择最优模型的选择最优模型的aic准则。应选择准则。应选择aic值最小的模型。值最小的模型。 注:注:选项选项中中selection语句没有筛选变量的方法时,模型中含有全部自变语句没有筛选变量的方法时,模型中含有全部自变量的回归模型。量的回归模型。 2. sle=概率值概率值 入选标准,规定变量入选模型的显著性水平,前进法入选标准,规定变量入选模型的显著性水平,前进法默认为默认为0.5,逐步法默认为,逐步法默认为

9、0.15。 3. sls=概率值概率值 剔除标准,指定变量保留在模型的显著性水平,后退剔除标准,指定变量保留在模型的显著性水平,后退法默认为法默认为0.1,逐步法默认为,逐步法默认为0.15。 2022-4-49 4. P 输出实际值输出实际值Yi 、预测值、预测值 、残差及其标准误。、残差及其标准误。 5. stb 输出各自变量的标准偏回归系数。输出各自变量的标准偏回归系数。 6. cli 输出输出 x对应对应 值的值的95%容许区间上下限容许区间上下限 7. clm 输出预测值输出预测值 的均值的均值 的的95%可信区间上下限。可信区间上下限。 8. tol 输出各自变量的容许值。输出各自

10、变量的容许值。0tol值值1,越接近于,越接近于0,共线性越严重。,共线性越严重。 9. vif 输出各自变量的方差膨胀因子。输出各自变量的方差膨胀因子。当当vif10时,可认为多元共线性时,可认为多元共线性严重存在。严重存在。YStY,YYStY,iY21)(jjRxtol)(/1)(jjxtolxvifiYiY2022-4-410 10. collin 要求详细分析自变量之间的共线性,给出要求详细分析自变量之间的共线性,给出信息矩阵的特征信息矩阵的特征根、条件指数和方差比,当条件指数根、条件指数和方差比,当条件指数10,方差比,方差比0.5时,可认为存在多元时,可认为存在多元共线性。共线性

11、。 11. collinoint 与选择项与选择项collin作用相同,但不包括回归常数。作用相同,但不包括回归常数。 12. R 进行预测值的残差分析(即异常值识别与强影响分析),输出进行预测值的残差分析(即异常值识别与强影响分析),输出学生化残差值和学生化残差值和Cooks距离距离D值。值。当学生化残差值当学生化残差值2时,所对应的点可能时,所对应的点可能是异常点,当是异常点,当D值值0.5时,可认为对应的变量值对回归函数是强影响点。时,可认为对应的变量值对回归函数是强影响点。 2022-4-411 q 完全多元线性回归完全多元线性回归 例例11-5 27名糖尿病人的血清总胆固醇、甘油三酯

12、、空腹胰岛素、糖化名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测定值列于表血红蛋白、空腹血糖的测定值列于表11-4中,试建立血糖与其他指标的多元中,试建立血糖与其他指标的多元线性回归方程。线性回归方程。data ex11_5;infile e:sasxsas7ex11_5.txt;input x1-x4 y ;proc reg;model y=x1-x4/stb;run;2022-4-412 The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Mean S

13、ource DF Squares Square F Value Pr F Model 4 133.71069 33.42767 8.28 0.0003 Error 22 88.84117 4.03823 Corrected Total 26 222.55185 Root MSE 2.00954 R-Square 0.6008 Dependent Mean 11.92593 Adj R-Sq 0.5282 Coeff Var 16.850152022-4-413 Parameter Estimates Parameter Standard Standardized Variable DF Est

14、imate Error t Value Pr |t| Estimate Intercept 1 5.94327 2.82859 2.10 0.0473 0 x1 1 0.14245 0.36565 0.39 0.7006 0.07758 x2 1 0.35147 0.20420 1.72 0.0993 0.30931 x3 1 -0.27059 0.12139 -2.23 0.0363 -0.33948 x4 1 0.63820 0.24326 2.62 0.0155 0.397742022-4-414q 逐步回归逐步回归 v 简介简介 逐步回归是筛选自变量的常用的方法之一。筛选自逐步回归是筛

15、选自变量的常用的方法之一。筛选自变量的方法还有前进法,后退法和最优回归子集法。逐步回归变量的方法还有前进法,后退法和最优回归子集法。逐步回归法是依据事先给定的两个显著性水平法是依据事先给定的两个显著性水平SLE和和SLS,将自变量逐,将自变量逐个引入方程,同时每引入一个新变量后,对已选入的变量要进个引入方程,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著的变量剔除,这样保证最后所得的变量行逐个检验,将不显著的变量剔除,这样保证最后所得的变量都有显著性。都有显著性。v自变量间的多重共线性自变量间的多重共线性(multicollinearity) 多重共线性是指在进行多元回归时,自

16、变量间存在线性相关多重共线性是指在进行多元回归时,自变量间存在线性相关关系。共线关系存在,可使估计系数方差加大,系数估计不稳关系。共线关系存在,可使估计系数方差加大,系数估计不稳定,结果分析困难。出现以下现象提示可能存在自变量之间的定,结果分析困难。出现以下现象提示可能存在自变量之间的共线关系。共线关系。 2022-4-415整个回归方程的统计检验整个回归方程的统计检验PP P 的矛盾现象。的矛盾现象。 偏回归系数的估计值明显与实际情况不符,或者是偏回归系偏回归系数的估计值明显与实际情况不符,或者是偏回归系数的符号与专业知识的情况相反。据专业知识,该自变量与应数的符号与专业知识的情况相反。据专

17、业知识,该自变量与应变量间关系密切,而偏回归系数检验结果变量间关系密切,而偏回归系数检验结果P P 。 增加(或删除)一个变量,或者改变(或去除)一个观察值,增加(或删除)一个变量,或者改变(或去除)一个观察值,引起回归系数估计值发生大的变化。引起回归系数估计值发生大的变化。多重共线性是引起上述问题的重要原因。多重共线性是引起上述问题的重要原因。v解决多重共线性的办法解决多重共线性的办法找出存在共线性且不重要的那些自变量,剔除出方程,另行找出存在共线性且不重要的那些自变量,剔除出方程,另行回归分析。回归分析。 用主成分回归或岭回归等有偏估计替代最小二乘估计。用主成分回归或岭回归等有偏估计替代最

18、小二乘估计。 用逐步回归等方法筛选自变量。用逐步回归等方法筛选自变量。 2022-4-416 例11-6 data ex11_6;infile e:sasxsas7ex11_5.txt;input x1-x4 y ;proc reg;model y=x1-x4/stb selection=cp aic adjrsq;model y=x1-x4/tol vif collin collinoint R;model y=x1-x4/selection=stepwise sle=0.15 sls=0.15 stb;run;2022-4-4172022-4-4182022-4-4192022-4-420

19、2022-4-4212022-4-4222022-4-4232022-4-4242022-4-4252022-4-4262022-4-4272022-4-4282022-4-429第八章第八章 协方差分析协方差分析v 概念概念 协方差分析协方差分析(analysis of covariance)是把线性回归与方差是把线性回归与方差分析结合起来,检验两个或多个修正均数间有无差别的方法。分析结合起来,检验两个或多个修正均数间有无差别的方法。如研究不同的饲料对动物体重的增长情况,但每只动物的进食如研究不同的饲料对动物体重的增长情况,但每只动物的进食量是不同的,对体重的增长是有影响的,进食量即为混杂因

20、素,量是不同的,对体重的增长是有影响的,进食量即为混杂因素,亦称为协变量。协方差分析检验的意义是:亦称为协变量。协方差分析检验的意义是:用直线回归的方法用直线回归的方法找出食量(协变量找出食量(协变量x)与所增体重与所增体重(应变量应变量y)的线性关系,求得当的线性关系,求得当食量化为相等时(即扣除食量的影响),各饲料组动物所增体食量化为相等时(即扣除食量的影响),各饲料组动物所增体重的修正均数,然后用方差分析检验各修正均数间的差别。重的修正均数,然后用方差分析检验各修正均数间的差别。2022-4-430v 协方差分析的应用条件协方差分析的应用条件 1. 1. 各处理组资料各处理组资料(x,y

21、)(x,y)来自正态总体分布,且总体方差来自正态总体分布,且总体方差相等。相等。 2. 2. 各处理组的总体直线回归系数各处理组的总体直线回归系数i 相等相等( (回归线平行回归线平行) ),且都不为且都不为0 0。 3.3.协变量是定量变量,且与处理因素不存在交互作用。协变量是定量变量,且与处理因素不存在交互作用。 4.4.各处理组的协变量均数差别不能太大。各处理组的协变量均数差别不能太大。2022-4-431v 协方差分析常用公式协方差分析常用公式 修正均数间比较的修正均数间比较的F F值值组内剩余修正均数MSMSF 如修正均数间有差别,必要如修正均数间有差别,必要时再作两两比较。时再作两

22、两比较。公共回归系数公共回归系数 bcxxxycllb组内(或误差)的组内(或误差)的各修正均数的计算各修正均数的计算)(XXbYYicii2022-4-432v SAS常用语句格式常用语句格式 Proc glm data=data=; Class 分组变量分组变量; ;/ /* * 指明分组变量指明分组变量, , 必须放在必须放在modelmodel语句前语句前 * */ / Model 应变量应变量= =分组变量分组变量 协变量协变量/选项选项 ; Lsmeans 分组变量分组变量/选项选项; / /* * 输出各组变量的最小二乘输出各组变量的最小二乘均数(修正均数)均数(修正均数)* *

23、/ / run; 2022-4-433 model 语句常用的语句常用的选项选项 solution / /* * 输出回归方程中各参数的估计值输出回归方程中各参数的估计值 * */ / lsmeans 语句常用的语句常用的选项选项 stderr / /* * 输出修正均数的标准误输出修正均数的标准误 * */ / pdiff / /* * 输出修正均数间两两比较的概率值输出修正均数间两两比较的概率值 * */ /2022-4-434一、完全随机设计资料的协方差分析一、完全随机设计资料的协方差分析 例例8-1 8-1 为研究为研究A A、B B、C C三种饲料喂养三种饲料喂养8 8头猪一段时间,

24、测得头猪一段时间,测得每头猪的初始重量(每头猪的初始重量(X)X)和增重(和增重(Y Y),数据见表),数据见表8-38-3。试分析三。试分析三种饲料对猪的催肥效果是否不同?种饲料对猪的催肥效果是否不同?A饲料B饲料 C饲料 X1Y1X2Y2X3Y3127815131417858384901716191897909994222430328991105110 表表8-3 三种饲料喂养猪的进食量与增重(三种饲料喂养猪的进食量与增重(kg)2022-4-435data ex8_1;do food=1 to 3;do i=1 to 8;input x y ;output;end;end;cards;1

25、5 85 13 83 11 65 12 76 12 80 16 91 14 84 17 9017 97 16 90 18 100 18 95 21 103 22 106 19 99 18 9422 89 24 91 20 83 23 95 25 100 27 102 30 105 32 110;proc glm;class food;model y=food x/solution;lsmeans food/stderr pdiff;run;2022-4-436SAS计算结果 The GLM ProcedureDependent Variable: y Sum of Source DF Squa

26、res Mean Square F Value Pr F Model 3 2328.343765 776.114588 68.20 .0001 Error 20 227.614568 11.380728 Corrected Total 23 2555.958333 R-Square Coeff Var Root MSE y Mean 0.910947 3.658599 3.373534 92.20833 (以上说明总体模型有统计学意义,(以上说明总体模型有统计学意义,P= FFOOD 2 1317.583333 658.791667 57.89 .0001X 1 1010.760432 101

27、0.760432 88.81 FFOOD 2 707.218765 353.609382 31.07 .0001 SS修正均数修正均数 MS修正均数修正均数 F值值 P值值X 1 1010.760432 1010.760432 88.81 .0001(从从Type SS 结果看,三种饲料修正均数间的差异有统计学意义,结果看,三种饲料修正均数间的差异有统计学意义,P0.0001,说明三种饲料对猪的体重影响是不同的。,说明三种饲料对猪的体重影响是不同的。 协变量协变量P |t| Intercept 35.93518188 B 6.57547140 5.47 .0001 food 1 12.7932

28、4180 B 3.40898947 3.75 0.0013 food 2 17.33559201 B 2.40915113 7.20 .0001 food 3 0.00000000 B . . . x 2.40156919 0.25483321 9.42 |t| Number 修正均数修正均数 标准误标准误 1 94.9586305 1.8403872 .0001 1 2 99.5009807 1.2033114 .0001 2 3 82.1653887 1.9643967 |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: y 两两比较的概

29、率值两两比较的概率值 i/j 1 2 3 1 0.0424 0.0013 2 0.0424 .0001 3 0.0013 FModel 14 73529.47080 5252.10506 49.39 FX 1 6175.030521 6175.030521 58.07 |t| Number 1 67.4301552 4.9702654 .0001 1 2 75.1023493 4.8681166 .0001 2 3 59.0591621 8.3787077 |t| for H0: LSMean(i)=LSMean(j) Dependent Variable: y i/j 1 2 3 1 0.0

30、828 0.5117 2 0.0828 0.2105 3 0.5117 0.21052022-4-444q 两条或多条回归直线的比较两条或多条回归直线的比较 对两条或多条回归直线进行比较,即检验其总体回归对两条或多条回归直线进行比较,即检验其总体回归直线的斜率是否相等(回归直线是否平行),检验其总体直线的斜率是否相等(回归直线是否平行),检验其总体截距是否相等。如两者都相同即可合并为一条回归直线。截距是否相等。如两者都相同即可合并为一条回归直线。例例11-4 某地方病研究所调查了某地方病研究所调查了8名正常儿童和名正常儿童和10名大骨节名大骨节病儿童的年龄与其尿肌酐含量病儿童的年龄与其尿肌酐含量(mmol/24h),正常儿童数据,正常儿童数据见表见表11-1,大骨节病儿童数据见表,大骨节病儿童数据见表11-3。是比较两样本尿肌。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论