ch04 SAS基本统计分析功能.doc_第1页
ch04 SAS基本统计分析功能.doc_第2页
ch04 SAS基本统计分析功能.doc_第3页
ch04 SAS基本统计分析功能.doc_第4页
ch04 SAS基本统计分析功能.doc_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章 SAS基本统计分析功能教学要求:l 了解几种假设检验、线性回归、方差分析、拟合优度检验、列联表检验的原理背景l 掌握SAS语言进行均值假设检验l 掌握SAS语言进行线性回归与方差分析l 掌握SAS语言进行拟合优度检验与列联表检验引言:前面介绍SAS的编程来进行初步的统计分析、报表、绘图。本章我们讲述用SAS进行统计检验、线性回归、方差分析、拟合优度检验和列联表检验。4.1 假设检验4.1.1 正态性检验(univariate过程)1.背景原理:正态分布是一种最常见的分布,也是一种最重要的连续型分布,它以均值为对称轴呈对称的钟型分布。检验的零假设Ho:数据资料服从正态分布。备择假设H1:数据资料不服从正态分布。当样本量n2000时,应选用shapiro-wilk检验法,检验统计量为W值越接近于1,P值越大,表明资料越服从正态分布,反之W越偏离1,P值越小,表明资料越不服从正态分布。当n2000时,应用Kolmogorov-smirnov 检验法,检验统计量为D值越大,P值越小,表明资料越不服从正态分布,反之,D值越小,P值越大,表明资料越服从正态分布。2.举例在proc univariate语句中加上normal选项可以进行正态性检验。【例1】检验数据集sasuser.gpa中变量gpa是否服从正态分布?输出结果中正态检验部分为:分析:检验的零假设为Ho:gpa变量服从正态分布,其中shapiro-wilk检验的统计量为w=0.966294,检验的p值小于0.0001,当然小于给定的显著性水平=0.05,故应拒绝零假设,即有95%把握认为gpa非正态。说明:使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计” “描述性统计”“分布”,除了可以检验变量是否服从正态分布外,还可以检验对数正态、指数和韦布尔分布。4.1.2 单样本均值的T检验(univariate过程)1.原理背景设总体XN(,2),、2未知,给定检验水平,对常数0要检验设X1,X2,Xn为X的简单随机样本,在H0成立时有其中S为变量的标准差,n为样本量。检验的拒绝域为: 补充P值检验法:t1-/2(n-1)/2t0p/2分位数t1-/2(n-1)满足 Pr|t| t1-/2(n-1)= 设由已经得到的样本具体计算得到的t值为t0,若|t0| t1-/2(n-1),则拒绝H0,否则接受H0。对大量重复试验而言,t是随机变量,且服从t分布t (n-1)。当|t0| t0Pr|t| t1-/2(n-1)= 反之亦然。令p= Pr|t| t0,则|t0|所以,假设检验的p值方法为:对给定的显著水平,当p时,接受H0此例介绍的p值检验法对其他统计检验也使用,一般说来,检验的p值是检验统计量取其观测值及更极端值得概率,统计软件对假设检验都会计算检验的p值。 2.应用举例在SAS中用univariate过程默认进行某个变量均值为零(0=0)的t检验,若要检验=0,则需进行变量代换。例2:检验数据集sasuser.class中学生的身高均值与63有无显著性差异。程序:输出结果为:分析:先作正态性检验。Ho:变量y服从正态分布,其中shapiro-wilk检验的统计量为w=0.979083,检验的p值=0.9312=0.05,故应接受零假设,即有95%把握认为变量y正态。故采用单样本均值T检验。对变量y的零假设为Ho: 0=0。由输出结果知T检验的统计量t=-0.5638,双边检验的p值为0.5798=0.05,故接受原假设,即有95%的把握接受学生的平均身高为63。说明:l 当变量服从正态分布时,优先采用t检验,当变量服从非正态时,可以采用符号秩(signed Rank)检验,符号检验(sign)的检验功效较差,一般不常用它。l 对同一问题不同的检验方法一般是一致的,但有时也有互相矛盾的结果。l 使用SAS软件中的分析家,打开数据集后,利用菜单“统计” “假设检验”“均值的单样本T检验”可以进行双边和单边检验。4.1.3 两独立样本均值检验(TTest过程、npar1way过程)1.原理背景假设两组样本来自两个独立总体,需要检验两个总体的均值或中心位置是否一样。如果两个总体都服从正态分布,则可使用两独立样本均值的T检验。有关公式如下:设两个样本的均值为,方差为,观测量为。两个样本方差相等与不相等时使用的检验统计量是不一样的,所以应该先对方差的齐性进行检验。l 方差齐性检验的零假设为0:两个独立样本的来自方差相等的总体,即,检验统计量为l 方差齐时,检验两样本的均值是否相同的零假设为H0:两个独立样本的来自均值相等的总体,即,检验统计量为其中为合并方差。l 方差不齐时,检验两样本的均值是否相同,用校正t检验。检验零假设为H0:两个独立样本的来自均值相等的总体,即,检验统计量为2.Ttest过程格式:PROC TTEST 选项; CLASS 变量名; VAR 变量名; BY 变量名; RUN;说明:(1)proc语句中的“选项”有:Data=数据集,指明要分析的数据集;Cochran 要求在方差不齐时用Cochran和Cox法计算t检验的概率水平;(2)Class语句中的变量必须是一个两水平的分组变量,系统会把数据集中的观测按这个变量的两个水平分成比较的两组。(3)by 语句和var语句作用同前。【例3】某克山病区测得11例克山病人与13名健康人的血磷值(mmol/L)如表,据此判断该地急性克山病人与健康人的血磷值是否相同?患者组0.841.051.21.391.531.671.81.872.072.11健康组0.540.640.640.760.811.161.21.341.351.481.581.87程序为:输出为:分析:(1) 先作正态性检验如下:零假设为Ho:患者组的血磷值变量x服从正态分布,其中患者组的shapiro-wilk检验的统计量为w=0.959147,检验的p=0.7610=0.05,故应接受零假设,即有95%把握认为x正态。零假设为Ho:健康组的血磷值变量x服从正态分布,其中健康组的shapiro-wilk检验的统计量为w=0.927983,检验的p=0.3207=0.05,故应接受零假设,即有95%把握认为x正态。(2) 因此可采用两独立样本均值的T检验。由ttest过程输出先作方差齐性检验如下:0:患者组和健康组来自方差相等的总体,即,检验的统计量F=1.01, P=1.000=0.05,故应接受零假设,即有95%把握认为患者组和健康组方差满足齐性。再作T检验。H0:患者组和健康组来自均值相等的总体,即。选择方差齐性一行的结果知t=2.51,p=0.02=0.05,故应接受零假设,即有95%把握认为男生和女生的gpa无显著性差异。4.1.4 两相关样本均值检验(Univariate过程)1.原理背景:适用于有两种情况,一种是将研究对象按一定的条件先配对,每对中的两个对象随机分配到实验组和对照组,一个试验由若干对组成,称为配对试验设计;另一种情况是同一批研究对象经过某种处理前后的指标值比较,或者是同一批样品经过两种不同方法的测定结果的比较。此时这两个变量不再独立,而是相关的,检验两个相关变量的均值是否相等,等价于检验这两个变量间的差值变量的均值是否为零。当差值变量服从正态分布时,可用配对样本T检验的统计量为其中X为两个样本的差值变量, 、S分别为差值变量的均值和标准差。 2.实例分析为了检验两个相关样本的均值是否有显著差异,先用一个数据步计算差值,然后对差值变量用univariate过程可以实现检验差值变量的均值是否显著为零。【例5】用克矽平雾化吸入治疗矽肺患者7人,没得治疗前后的血清粘蛋白(mg/L)7对观测值如表,据此能否认为治疗会引起血清蛋白的变化?( =0.05)患者号1234567治疗前65737330735673治疗后343603726433750程序为:输出部分结果:分析:先作正态性检验如下:零假设为Ho:差值变量x服从正态分布,由输出结果知shapiro-wilk检验的统计量为w=0.896832,检验的p=0.3122=0.05,故应接受零假设,即有95%把握认为x正态。故可采用两相关样本均值T 检验。H0:治疗前后的差值变量x的均值为0。由输出结果知T检验的统计量t=5.879298,双边检验的p值为0.0011=0.05,故拒绝原假设,即有95%的把握认为治疗后血清蛋白有下降。注:l 使用SAS软件中的“分析家”,打开数据集后,利用菜单“统计” “假设检验”“均值的双样本成对T检验”,除了可以进行单边和双边检验。l 如果数据不服从正态分布可以采用非参数检验,如符号检验、符号秩检验,在SAS中可用univariate过程实现。【例6】为了检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量,在一个农场中选择了10块田地,每块等分为两部分,其中任指定一部分使用新的复合肥料,另一部分使用原肥料,小麦成熟后称得各部分小麦的产量(单位:kg)如下:田块12345678910新复合肥459367303392310342421446430412原肥料414306321443281301353391405390用符号检验法检验新复合肥是否会显著提高小麦产量?( =0.05)程序为:输出为:分析:先作正态性检验如下:零假设为Ho:差值变量diff服从正态分布,由输出结果知shapiro-wilk检验的统计量为w=0.835307,检验的p=0.0388=0.05,故应拒绝零假设,即有95%把握认为差值变量diff不服从正态分布。故采用符号秩非参数检验。H0:差值变量diff的均值为0。由输出结果知符号秩检验的统计量S=20.5,双边检验的p值为0.0332 =0.05,故接受Ho,即第1组数据服从正态分布。类似可得第二、三、四、五组数据的shapiro-wilk统计量为w=0.937882、0.964898、0.985353、0.935122,检验的p=0.6415、0.8097、0.9326、0.6248 =0.05,故这四组数据也服从正态分布。(2)方差齐性检验。Ho:5组数据的方差相等。正态分布由Leneve方差齐性检验的F=1.53,p=0.2451 =0.05,故这5组数据满足方差齐性。(3)方差分析。Ho:5组数据的均值相等。由方差分析表中F=4.31,p=0.0162 =0.05,故拒绝Ho,即不同品种的油菜的平均亩产有显著差异。4.2.2非参数单因素方差分析前节方差分析中的正态性或方差齐性不能满足时,可采用非参数检验方法,如Krushal-Wallis 检验。这种检验不要求数据来自正态总体,也不要求各组的方差齐,甚至指标可以是有序变量(只有大小,没有差距如大、中、小,或很好、好、一般、不好,很不好等)。在SAS软件中可以使用npar1way过程,进行非参数Krushal-Wakkus检验,一般格式为:Proc npar1way data=数据集 wilcoxon; Class 因素变量; Var 指标变量; Run;注:这种用法与4.1.3节中两个独立样本比较是完全一样的,当因素为两个水平时,npar1way过程执行wilxocon的秩和检验,当多个水平时执行Krushal-Wallis检验。【例2】对上例1采用Krushal-Wallis检验法,检验不同品种的油菜的平均亩产是否相同。( =0.05)输出为:分析:H0: 不同品种的油菜的平均亩产相同,由输出结果中的Krushal-Wallis检验的2统计量为9.9185 p=0.0418 ,所以接受H0,说明事故发生与星期几没有关系。注明:检验的是等概率情形时,选项testp语句可以省略。4.4.2 两个离散变量的列联表独立性检验1.列联表的输入与制表列联表的概念:根据两个离散变量的交叉分类取值把样本进行分类,得到每一小类的观测个数制成表格的形式称为列联表,如根据学生的性别和来源把学生分为4组,得到如下统计表:学生性别、来源分布表男生女生本地46外地147输入方式一:枚举法 每一行为一个样本观测,即一个学生的信息记录,如:data class; input sno sex$ from$; label sno=编号 sex=性别 from=来源; cards;1 男 本地2 女 外地3 男 外地. /*所有学生的记录*/;run;然后使用freq过程可以制成列联表,使用tables语句指定行变量和列变量,proc freq data=class; tables from*sex;run;输入方式二:频数表法 没有具体每行样本观测的信息,只有汇总的频数表,则需要设置一个代表观测频数的变量,如/*输入方式二:频数法*/data class2; input from$ sex$ numcell; label from=来源 sex=性别numcell=单元格频数; cards;本地 男 4本地 女 6外地 男 14外地 女 7;run;然后用freq过程可以制成列联表,使用tables语句指定行变量和列变量,weight语句指定单元格频数变量proc freq data=class2; tables from*sex; weight numcell;run;两种方式的输出结果一样,如下图,每一个格子中有4个数:Frequency(频数)、percent(百分比)、Row Pct(行百分比)、Col Pct(列百分比)。在表的右侧有行总计的频数及百分比,在表的下侧有列总计的频数及百分比。说明:简化形式的列联表,可以在tables语句中加上nofreq、nopercent、norow 、nocol等选项。如/*简化形式的列联

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论