方差、相关与回归分析SAS3910_第1页
方差、相关与回归分析SAS3910_第2页
方差、相关与回归分析SAS3910_第3页
方差、相关与回归分析SAS3910_第4页
方差、相关与回归分析SAS3910_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、l方差分析方差分析 方差分析的过程方差分析的过程 单因素方差分析单因素方差分析 二因素方差分析二因素方差分析l相关分析相关分析 相关分析的过程相关分析的过程l回归分析回归分析 一元回归一元回归 多元回归多元回归l 方差分析是检验两个或两个以上样方差分析是检验两个或两个以上样本均数间差异是否显著的方法。本均数间差异是否显著的方法。 在在比较几个组时,比较几个组时,H H0 0假设通常是设各假设通常是设各组平均值相等组平均值相等。l检验两个均数间差别的显著性可以用检验两个均数间差别的显著性可以用t t检检验法,也可用方差分析法。验法,也可用方差分析法。l样本均数间所以有差别,可能有两样本均数间所以

2、有差别,可能有两 种原种原因造成:因造成: 首先它们必须有抽样误差(个体间变异的影首先它们必须有抽样误差(个体间变异的影响;响; 其次,如果各组所接受的不同处理方法是有其次,如果各组所接受的不同处理方法是有不同的作用的,那么,它也是由于处理不同不同的作用的,那么,它也是由于处理不同所造成的。所造成的。如果处理是没有作用的,即各样本均数来自同如果处理是没有作用的,即各样本均数来自同一总体,那么用方差分析的方法可以算出个体间变一总体,那么用方差分析的方法可以算出个体间变异异 2的估计值组内均方(的估计值组内均方(M.S组内组内)。这时,由方)。这时,由方差分析法算出的组间均方(差分析法算出的组间均

3、方(M.S组间组间),也是个体),也是个体间变异间变异2的估计值。如以组内均方除组间均方,的估计值。如以组内均方除组间均方,称之为称之为F值,即值,即F=M.S组间组间/M.S组内组内,则由于组间和,则由于组间和组内均方都是个体间变异组内均方都是个体间变异2的估计值,因之,如的估计值,因之,如无抽样误差则无抽样误差则F应该等于应该等于1。但由于组间和组内均。但由于组间和组内均方都只是方都只是2的估计值,由于抽样误差的关系,组的估计值,由于抽样误差的关系,组间均方和组内均方都不正好等于间均方和组内均方都不正好等于2,因之,因之F也不正也不正好等于好等于1,而可以大于或小于,而可以大于或小于1。但

4、由于样本来自相同总体,但由于样本来自相同总体,F值一般不会距值一般不会距1很远,其分布情况(很远,其分布情况(F分布)与组间和组内自由分布)与组间和组内自由度有关。度有关。与此相反,如果处理是确有作用的,即各样与此相反,如果处理是确有作用的,即各样本均数不是取自相同总体,这时用方差分析计算本均数不是取自相同总体,这时用方差分析计算出来的组内均方仍是个体间变异出来的组内均方仍是个体间变异2的估计值。但的估计值。但组间均方则不仅是个体变异所致,同时也由于处组间均方则不仅是个体变异所致,同时也由于处理的作用不同所致。理的作用不同所致。l方差分析的基本思想是把全部数据方差分析的基本思想是把全部数据关于

5、总均值的离均差平方和分解成关于总均值的离均差平方和分解成几个部分,每一部分表示某因素或几个部分,每一部分表示某因素或交互作用所产生的效应,将各部分交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要或否认某些因素或交互作用的重要性。性。l 总变异组间变异组内变异总变异组间变异组内变异 其中:组间变异由各因素所引起;其中:组间变异由各因素所引起;组内变异由个体差异或者说由误差组内变异由个体差异或者说由误差引起的引起的。l完全随机设计资料的方差分析(单因素完全随机设计资料的方差分析(单因素方差分析)方差分析)l随机区组设计资料的方

6、差分析(两因素随机区组设计资料的方差分析(两因素方差分析)方差分析)l拉丁方设计资料的方差分析(三因素方拉丁方设计资料的方差分析(三因素方差分析)差分析)lR*C析因设计资料的方差分析(有交互析因设计资料的方差分析(有交互因素的方差分析)因素的方差分析) lSAS系统中,系统中,ANOVA过程可以过程可以处理以上情形的方差分析,但它处理以上情形的方差分析,但它要求每个分类因子的组合观察数要求每个分类因子的组合观察数相等,即数据是均衡的。若不均相等,即数据是均衡的。若不均衡,就要求用衡,就要求用GLM过程进行处过程进行处理。理。1. 过程格式:过程格式:PROC ANOVA DATA=数据集数据

7、集;CLASS 变量;变量;MODEL 因变量效应;因变量效应;MEANS 效应效应/选择项选择项;2. 说明说明 (1) 程序中,程序中,CLASS语句和语句和MODEL语句是必需的,并且语句是必需的,并且CLASS语句必须出现语句必须出现在在MODEL语句之前。语句之前。 (2) CLASS语句中的变量是分类变量,语句中的变量是分类变量,可以是数值型,也可以是字符型。可以是数值型,也可以是字符型。 (3) MODEL语句指明因变量和自变语句指明因变量和自变量(因子变量)效应,其效应可以是主效量(因子变量)效应,其效应可以是主效应、交互效应、嵌套效应和混合效应。应、交互效应、嵌套效应和混合效

8、应。1)主效应模型)主效应模型 MODEL y=a ;(单因素方差分析模型)(单因素方差分析模型) MODEL y=a b;(二因素方差分析模型)(二因素方差分析模型) MODEL y=a b c;(三因素方差分析模型)(三因素方差分析模型) 模型中,模型中,a ,b ,c 是主效应,是主效应,y 是因变是因变量。量。 2)交互效应模型)交互效应模型 MDOEL y=a b a*b MDOEL y=a b c a*b a*c b*c a*b*c; 模型中,模型中, a ,b ,c 是主效应,是主效应, a*b,a*c,b*c,a*b*c 是交互效应,是交互效应,y 是因变量。是因变量。(4)

9、MEANS语句是选择语句,计算语句是选择语句,计算并输出所列的效应对应的因变量均数,若并输出所列的效应对应的因变量均数,若指明了选择项,则将进行主效应均数间的指明了选择项,则将进行主效应均数间的检验。常用的选择项如下:检验。常用的选择项如下:SNK(Q检验)均数间两两比较检验)均数间两两比较 DUNCAN 一组均数与其余各组比较一组均数与其余各组比较ALPHAp用以确定检验的显著性水平。用以确定检验的显著性水平。缺省值是缺省值是0.05。 例例1完全随机设计资料的方差分析完全随机设计资料的方差分析(单因素方差分析)(单因素方差分析) 某劳动卫生教研组研究棉布、府绸、某劳动卫生教研组研究棉布、府

10、绸、的确凉、尼龙四种衣料内棉花吸附十硼氢的确凉、尼龙四种衣料内棉花吸附十硼氢量。每种衣料各做五次测量,所得数据如量。每种衣料各做五次测量,所得数据如表表9-4。试检验各种衣料间棉花吸附十硼氢。试检验各种衣料间棉花吸附十硼氢量有没有显著差别量有没有显著差别?棉布棉布府绸府绸的确凉的确凉尼龙尼龙2.332.483.064.002.00 2.343.065.132.932.683.004.612.732.342.662.802.332.223.063.60程序如下:程序如下:DATA an; DROP i; DO i=1 TO 5; DO a=1 TO 4; INPUT x ; OUTPUT; EN

11、D; END; CARDS; 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60PROC ANOVA; CLASS a; MODEL x=a;RUN; 用用4种不同方法治疗种不同方法治疗8名患者,其血浆凝名患者,其血浆凝固时间的资料如表固时间的资料如表9-5,试作方差分析。,试作方差分析。 数据步中,变量数据步中,变量a代表不同治疗方法,代表不同治疗方法,其水平数是其水平数是4,变量,变量b代表区组因素,其水代表区组因素,其水平数是平数是8。过程步

12、中,用。过程步中,用CLASS语句指明语句指明两个因素两个因素a和和b,用,用MODEL语句指明二因语句指明二因素的效果模型。素的效果模型。受试者编受试者编号号(区组)(区组) 处理组处理组 1 2 3 4 18.49.49.812.2212.815.212.914.439.69.111.29.849.88.89.912.058.48.28.58.568.69.99.810.978.99.09.210.488.49.49.810.0DATA an; DO b=1 TO 8; DO a=1 TO 4; INPUT x ; OUTPUT; END; END;CARDS; 8.4 9.4 9.8 1

13、2.2 12.8 15.2 12.9 14.4 9.6 9.1 11.2 9.8 9.8 8.8 9.9 12.0 8.4 8.2 8.5 8.5 8.6 9.9 9.8 10.9 8.9 9.0 9.2 10.4 7.9 8.1 8.2 10.0PROC ANOVA; CLASS a b; MODEL x=a b;RUN; 研究酵解作用对血糖浓度的影响,我研究酵解作用对血糖浓度的影响,我们从们从8名健康人中抽取了血液并制备成血滤名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成液。每一个受试者的血滤液又分成4份,然份,然后随机地把各份血滤液分别放置后随机地把各份血滤液分别放置0、

14、45、90、135分钟后测定其中血糖浓度(资料分钟后测定其中血糖浓度(资料见表见表9-9)。试比较放置时间对血糖浓度有)。试比较放置时间对血糖浓度有无影响。无影响。受试者编号受试者编号(区组号)(区组号)放置时间(分)放置时间(分)045951351234567895951069810211210595 9594105979811210392 89889795971019790 8384909088948880 DATA an; DO a=1 TO 8; DO b=0 TO 135 BY 45; INPUT x ; OUTPUT; END; END; CARDS; 95 95 89 83 95

15、 94 88 84 106 105 97 90 98 97 95 90 102 98 97 88 112 112 101 94 105 103 97 88 95 92 90 80 PROC ANOVA; CLASS a b; MODEL x=a b; MEANS b/SNK; RUN; 在医学上人的身高与体重、体温与脉在医学上人的身高与体重、体温与脉搏次数、年龄与血压、药物剂量与疗效等搏次数、年龄与血压、药物剂量与疗效等均有一定的联系。说明客观事物或现象相均有一定的联系。说明客观事物或现象相互关系的密切程度并用适当的统计指标表互关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务。把客

16、观事示出来,这是相关分析的任务。把客观事物或现象间的关系用函数形式表示出来,物或现象间的关系用函数形式表示出来,则是回归分析所要解决的问题。则是回归分析所要解决的问题。 CORR过程计算变量间的相关系数,包括PEARSON积矩相关系数等,同时给出单变量描述统计。 REG过程是SAS中通用的基本的回归分析过程,它是用最小二乘法原理求解线性回归方程的有效过程。此外,因为逐步回归分析的方法在实际工作中应用甚广,故将其单独提出来介绍如何使用REG过程进行逐步回归分析。 10.1.1 相关分析相关分析相关是研究随机变量之间相互关系的统计分析方法,它研究随机变量之间相互关系的密切程度。 线性相关,又称简单

17、相关。其统计指标是PEARSON 相关系数 r 。 当研究多个随机变量之间的相互关系时,可对变量进行多元线性相关分析。多元线性相关的统计量是全相关系数R和各偏相关系数。在多元线性相关分析中,变量之间的关系是错综复杂的,两个变量间的简单线性相关系数往往不能正确说明两者的真实关系,只有在其它变量固定,即扣除了其它变量的影响后,计算两变量间的偏相关系数才能反映此两变量的真实情况。 当变量不服从正态分布时,例如当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分非参数相关分析方法,如等级相关分析法等。析法等。1. 过程格式过程格式

18、 PROC CORR 选择项选择项; VAR 变量表;变量表; WITH 变量表;变量表; PARTIAL 变量表;变量表; WEIGHT 变量;变量; FREQ 变量;变量; BY 变量表;变量表;2.说明说明 (1) PROC CORR 语句语句 PROC CORR 选择项选择项; PROC CORR 语句的选择项主要有:语句的选择项主要有: PEARSON 计算通常的计算通常的PEARSON积矩积矩相关,是缺省值。相关,是缺省值。 KENDALL 计算肯德尔计算肯德尔-b系数。系数。 SPEARMAN 计算斯皮尔曼等级相计算斯皮尔曼等级相关系数。关系数。HOEFFDING 计算霍夫丁统计

19、计算霍夫丁统计量。量。OUTP=dataset 产生含有产生含有PEARSON 相关的一个新数据集。相关的一个新数据集。NOMISS 将带有某一变量缺项将带有某一变量缺项值的观测值从所有计算中除去。值的观测值从所有计算中除去。 NOSIMPLE 抑制简单统计。抑制简单统计。(2) VAR 语句语句 (3) WITH 语句语句 WITH 变量表;变量表; 指明特别配对的变量名,指明特别配对的变量名, 与与VAR语句语句配对使用,配对使用,VAR语句列出相关矩阵上部出语句列出相关矩阵上部出现的变量,现的变量,WITH语句列出左侧出现的变量。语句列出左侧出现的变量。 (4) PARTIAL 语句语句

20、 PARTIAL 变量表;变量表; 指明求偏相关系数时需要固定的偏变指明求偏相关系数时需要固定的偏变量名。量名。 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL; PROC CORR; VAR HEIGHT WEIGHT VITAL; PROC CORR NOSIMPLE; VAR HEIGHT WEIGHT; WITH VITAL; PROC CORR NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN;10.2.1 简介简介 回归是研究随机变量和非随机变量之间的数量依

21、存关系的统计分析方法。当自变量X与因变量Y之间呈直线关系时,称为直线回归。直线回归要求因变量是服从正态分布的且方差相等。 当自变量不只一个时,可进行多元线当自变量不只一个时,可进行多元线性回归分析。研究一个因变量与多个自变性回归分析。研究一个因变量与多个自变量之间的线性依存关系,称为多元线性回量之间的线性依存关系,称为多元线性回归。归。 REG 过程是用最小二乘法原理求过程是用最小二乘法原理求解线性回归方程的过程。解线性回归方程的过程。1. 过程格式过程格式 PROC REG 选择项选择项; MODEL 因变量因变量=自变量自变量 /选择项选择项; VAR 变量;变量; FREQ 变量;变量;

22、 WEIGHT 变量;变量; BY 变量;变量; (1)PROC REG 语句语句 PROC REG 选择项选择项;(略)(2)MODEL 语句语句 MODEL 因变量因变量=自变量表自变量表/选择项选择项; 指明因变量和自变量,指明因变量和自变量, 选择项是有关选择项是有关回归计算、估计、预测值和残差,常用回归计算、估计、预测值和残差,常用的选择项有:的选择项有: STB 打印标准回归系数打印标准回归系数 CORRB 打印估计的相关矩阵打印估计的相关矩阵 COLLINOINT请求进行自变量的共线请求进行自变量的共线 性分析性分析 P 计算预测值及残差计算预测值及残差 R 请求分析残差请求分析

23、残差 CLM 打印因变量均值打印因变量均值95%的的 置信界限的上下限置信界限的上下限 CLI 对各预测值打印对各预测值打印95%的的 置信界限的上下限置信界限的上下限(1) 简单线性回归分析简单线性回归分析 仍以上节相关分析资料为例,进行以仍以上节相关分析资料为例,进行以身高估计肺活量的线性回归分析,同时要身高估计肺活量的线性回归分析,同时要求打印出各观测点上因变量均值的求打印出各观测点上因变量均值的95%置置信区间。信区间。 DATA ABC; INFILE d:panyancorr.dat; INPUT NO HEIGHT WEIGHT VITAL ; PROC REG; MODEL VITAL=HEIGHT/C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论