It计算机课件 SAS讲义_第1页
It计算机课件 SAS讲义_第2页
It计算机课件 SAS讲义_第3页
It计算机课件 SAS讲义_第4页
It计算机课件 SAS讲义_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS入门课程讲义

广西工学院统计学教研室

2010年4月

目录

-第一章SAS系统简介

-第二章SAS数据集的建立

■第三章制作列表报告

-第四章数据的描述性统计

-第五章置信区间和假设检验

■第六章回归分析

■第七章方差分析

-第八章多元统计分析

第一章SAS系统简介

■主要内容:使学生掌握SAS的界面使用和基

本编程使用,为学习和应用SAS的其他专业

功能奠定坚实的基础。

■使用SAS进行数据的一些简单分析和处理

3

推荐教材

■1.SAS系统的帮助以及在线文档,都是学习

SAS的很好的工具。

/documentation/online

doc/sas9doc.html

-2.《SAS系统BaseSAS软件使用手册》高惠

璇等编译,中国统计出版社1997

■3.《SAS系统SAS/STAT软件使用手册》高惠璇

等编译,中国统计出版社1997

■4.《实用统计方法与SAS系统》高惠璇北京

大学出版社2001

4

数据类型

■a.横截面数据集(cross-sectionaldata

set):即给定时点对个人、家庭、企业、

国家或一系列其他单位采集的样本所构

成的数据集(应该忽略细小的时间差别)

-名词术语

数据集:数据的集合,由样本(行)和

变量(列)组成

5

数据类型

■b,时间序列数据集(timeseriesdata

set):

是由一个或几个变量在不同时间的观测

值所构成的。

■c.混合横截面数据集(pooledcross

sectiondataset):

有些数据既有横截面数据的特点又有时

间序列的特点,但每一时点的样本不同。

6

数据类型

■d,综列数据集(paneldataset):

由横截面数据集中每个样本的一个时间

序列组成。(定点长期调查)

■其他专门数据类型:

1、离散数据(discretedata):通常在考

察个人、家庭或企业的决策行为时,通

过问卷调查获得,由此发展出“离散选

择模型”。定量数据与定性数据

7

数据集类型

2、持续数据(survivaldata):用于考察

变量从开始到结束或调查终止前所经过

的时间长度,如失业持续时间、罢工持

续时间,股市牛熊市持续时间

8

数据处理的应用

■“今天,我们不得不生存在全球化和信息革

命影响下的世界,我们只有两个选择:适应它,

或者被它抛弃。”

■——英特尔公司主席安德鲁・格鲁夫

■1995年尼葛洛庞帝的《数字化生存》一书指明

了即将到来的数字时代,而在未来一长段时间,

数字化生存仍将是人类的主要生存方式,在经

济学领域也不外如是。

9

SAS系统入门

SAS系统概况

■大型集成、跨平台软件系统

-完备的数据访问(Access)、管理

(manage)、分析(analyze)和呈现

(present)及应用舁发(develop)的功能

■在数据处理、统计分析和IT应用领域,

SAS系统已经成为国际上的标准软件系统。

10

SAS的发展历程

■SAS(StatisticalAnalysisSystem)系统1966年由

美国]匕卡罗来纳州(NorthCarolina)州立大

学开始研制

■1976年成立美国SAS软件研究所,并开始对SAS

系统进行维护、开发、销售和培训等工作

■1985年推出了SAS/PC(6.02)版本

11

■1989年推出SAS/PC(6.04)版本

■1997年下半年推出适用于多种操作系统

的6.12版本

-2000年2月又正式推出SAS系统8版本

■2002年推出全新的SAS9版本

12

SAS在中国的发展

■SAS公司于1989年在北京成立了办事处

■1997年,SAS软件研究所正式宣布成立

大中国区

■1999年3月在国内设立独资公司——赛仕

软件(上海)有限公司。

13

SAS的成绩

■全球十大独立软件开发商之一

■世界六大洲近50个国家或地区设有分公

司及分支机构

■应用遍及120多个国家和地区(包括中国)

的31000多个机构中

■全球《财富》100强企业中,约有98%在

应用SAS系统。

SAS系统窗口的组成

■程序窗口(PROGRAMEDITOR)

■运行记录窗口(LOG)

■输出窗口(OUTPUT)

■资源浏览器窗口(EXPLORER)

>结果窗口(RESULTS)

15

第二章SAS数据集的建立

-SAS程序的书写格式

1、SAS程序由语句组成,语句用分号结束;

2、SAS语句可以从某一行的任意位置开始;

3、几个SAS语句可以写在同一行上,但每句要

使用分号。

16

4、一个语句也可以写成几行,只要语句中的单

词不被断开就可以。在一个语句中各个单词之

间至少要有一个空格。

5、SAS程序中一般不区分大小写(字符串中要

区分大小写)

6、用/*注释的内容*/来对程序进行注释

17

SAS程序的结构

■SAS数据集

样本(观测、记录)、变量(字段、域)、

表(数据集)、数据库

■许多SAS语句都是以关键词开始并用它识别

语句的类型(如data、input、proc)

■绝大部分的SAS语句都可分为两步:

DATA步和PROC步

18

SAS的变量及格式

■变量属性(名称、类型、输入格式、输出格式、

标签)

名称:不多于8个字符,第一个须是字母

类型:数值型、字符串型($)

输入格式:数据被SAS读取的格式,分自由格

式和固定格式两种

输出格式:数据呈现给人们的格式

19

SAS文件及命名

-1、SAS数据集文件(后缀为sas7bdat)

■2、SAS程序文件(后缀为sas)

-3、SAS日志文件(后缀为log)

-4、SAS输出文件(后缀为list)

20

SAS数据集的分类

■临时数据集和永久数据集

(一)临时数据集存放在work数据库中

(二)永久数据集存放在永久数据库中,除了work

数据库之外,其他的数据库都是永久数据库。

1、SAS文件的2级命名方式:目录,文件名

2、使用Libname语句创建永久数据集,

libname自建SAS数据库名,目录地址,;

(程序Libname)

21

b创建与读取永久SAS数据集

-1、创建永久数据集

永久数据集的扩展名是sas7bdat。

(程序libname)

-2、读取永久数据集

(read例)

建立SAS数据集的5种方法

1、用data步输入数据建立。newdata例2、利

用infile语句从外部调入数据文件建立SAS数据

集,注意:infile语句必须放在input语句的前面。

(Infile例)

3、利用“导入数据”功能建立。(Excel例)

4、利用EFI(externalfileinterface)功能导入

(classifydata例)。

5、data步利用set语句建立。(Setl例)

23

《查看SAS数据集的内容_

-1、使用contents过程查看数据的相关信息。

proccontentsdata=数据集名position;

(Contents例)

■2、用print过程来显示数据。

&SAS数据集的加工

-一、两个SAS数据集的合并

1、两个SAS数据集的串接(set语句);(set2例)

2、两个SAS数据集的并接(merge语句).

■二、变量值的排序(sort语句)(sort例)

■三、对变量的选择(drop语句和ke印语句)。

(Dropl,2例、keep例)

3

-四、对观测的选择。程序例子:obsl、

obs2>obs_if>obs_if_then>obs_where

-五、产生新变量及其观测值,利用赋值

语句:丫3「213后=表达式;

(例newvariable)

SAS运算符

■数学运算符:

+—***(塞运算)

■比较运算符:

=(EQ)人=(NE)>(GT)<(LT)

>=(GE)<=(LE)in

■逻辑运算符:

&(AND)I(OR)八(Not)

■其它:><(最小值)<>(最大值)

11(连接)

27

运算次序一

■第一级**(十一)前缀入><<>

■第二级*/

-第三级+—

■第四级II

■第五级其余比较算符

■第六级&

■第七级:I

注意:括弧可改变运算顺序,括弧里的先计算。

28

运算次序二

■对于相同优先级的算符,左边的运算先

做。但有两个例外:

■1,对最高优先级,右边的运算先做

■2,当两个比较算符围着一个量时,这个

表达式看成是有一个and出现一样被计

算。

如:12<age<20,

等价于:12<age&age<20

29

SAS函数

■SAS函数返回由它的参数计算得到的结

果,它的一般形式为:

SAS函数名(参数1,参数2,…)

参数之间由逗号隔开。SAS函数的参数可

以是参数、变量、表达式或者其它函数。

■SAS函数分为13种类型,共147个函数。

下面我们介绍一些常用的SAS函数。

30

;SAS函数(一)

-数学函数:

abs(x)x的绝对值;sign(x)符号函数

max(x,y,…)x,y,…中的最大值

min(x,y,…)x,y,…中的最小值

mod(x,y)x/y的余项;sqrt(x)x的平方根

exp(x)e的x次幕;log(x)自然对数

log10(x)以10为底的对数

SAS函数(二)

Iog2(x)以2为底的对数

sin(x)cos(x)tan(x)三角函数

arsin(x)artan(x)反三角函数

■样本统计函数

sum(x,y,…)计算参数和

mean(x,y〃,.)计算算术平均值

var(x,y,…)计算方差

std(x,y,…)计算标准差

占SAS函数(三)

-概率分布函数

Probbnlm(pznzr)参数为p,n的二项分布函数,

P{X<=r}的值

Probnorm(x)标准正态分布函数,P{Xv=x}

Probchi(x,df)自由度为df的卡方分布函数,

P{Xv=x}的值

Probf(x,dfl,df2)F分布probt(xAdf)t分布

SAS函数(四)

■随机数函数

Uniform(seed)产生[0,1]区间上均匀分布

的随机数

Rannor(seed)产生N(0,l)的随机数

Ranbin(seed,n,p)产生二项分布的随机数

■时间函数

DATA步中常用语句

■IF语句(条件转移语句)

1、简单if语句

一般格式:if条件表达式;

2、if…then语句

if条件表达式then执行语句;

3、if.・・then...else语句

if条件表达式then执行语句1;

else执行语句2;(if_then_else例)

■DO语句

1、简单do语句(常与IF…THEN一起使用)

do;

SAS语句;…

end;(dol>if_then_do例)

2、循环DO语句(do2例)

do指标变量=初值to终值(by增量);

SAS语句;

end;

■循环do语句可采用条件控制形式。一般形式:

dountil表达式;

SAS语句;

end;

(表示循环语句执行到括号中的表达式满足为止,do_until例)

或者:dowhile表达式;

SAS语句;end;

(表示循环语句执行到括号内的表达式不满足为止,do_while例)

■循环语句还可以采用嵌套形式,即在循环语句do…end内部,

可嵌入另一个d。…end循环语句,称为嵌套循环。

(do_do例)

■GOTO语句

GOTO语句告诉SAS系统立即转向执行GOTO

语句中指出的语句,并从那一点开始继续执行.

(go_to例,do3例)

>LABEL语句

LABEL语句的作用是对变量进行说明。格式:

label变量名1='标记1'变量名2='标记2'…

(label例)

■LENGTH语句

变量长度的缺省值是8,但有时长度超过了8个

字符,这时可用length语句定义变量的长度。

(length例)

■Delete语句

告诉SAS系统停止处理当前观测值,且不写入

正在创建的数据集中。Delete语句通常用作IF

语句中的THEN字句或作为有条件的执行DO语

句的一部分。(deletel例)

第三部分制作列表报告

■在PROCPRINT中使用其他语句可以产生一些

比较复杂的报表,例如产生:

1、标题和脚注(TitlesandFootnotes)

2、用户定制的表头(ColumnHeading)

3、格式化的数据值

4、总和(ColumnTotals)

5、小计(Columnsubtotals)

6、按组分页

§3-1产生列表报告

■一、产生简单的列表

1、产生一个最简单的列表的程序形式:

Procprintdata=数据集名;

Run;

在缺省情况下,列表报告的最左面出现

OBS列,给出了观测号;报告按原数据

集的顺序显示。(例lonpar)

■二、Noobs选项

在print过程中,可以用noobs选项去掉obs列

□(例noobs)

■三、VAR语句

使用var语句可以控制print过程中变量的出

现与否以及出现的顺序,它的一般形式是:

VAR变量1变量2…;

(例var)

■四、where语句:选择数据集的观测

where条件表达式;

例1:between...and:选择变量值在某一范围的

观测:(例where)

where变量名between...and

where变量名notbetween...and

例2:contains,选择变量中包含某一特殊字

符串的观测:

where变量名contains'字符串,;

■五、Sum语句:计算变量的总和(显示在该变量所在

列的下方)。一般格式:(例sum)

sum变量名;

■六、ID语句。使用了id语句后,

(1)最左面的obs列被取消;

(2)Id/by语句所指定的变量被排列在报告的最左边;

(3)Id/by语句所指定的变量只在每个组的开始处出现一

次。(id_by)

■七、Pageby语句:使产生的报告按组分页。

pageby变量名;

(例pageby)

、■§3-2改进列表报告

■一、标题(title)和脚注(footnote)

在SAS的所有报告中,都可以加入标题和脚注:

titlen'标题文本一

footnoten'脚注文本,;(Wtitle_footnote)

Title语句和Footnote语句具有如下特点:

1、n的范围从1到10,即最多有10个标题和脚注。

2、标题出现在每页的顶部,脚注出现在底部。

3、缺省的标题是'TheSASSystem',缺省的脚注不

出现.

4、没有n的title和footnote等于titlel和footnotel;

在使用了title和footnote语句后,所定义的标题和脚注将一直保持

有效,直到另一个title和footnote语句被执行.

使用以下两个简单语句,可以取消所有的标题和脚注:

titlel;footnote1;(例titlel)

二、Label语句:制作自定义的表头(给变量产生一个标签).

变量的标签具有以下属性:

1、最大长度为40的字符串

2、在print过程中必须使用label或split选项才能被显示

3、如果在过程步中被定义就只在该过程中有效;而如果在数据步

中被定义,就随数据集一直有效(例由bel_2)

■三、Split语句:控制表头的分割

split='符号';

(例split)

第四部分、数据的描述性统计

、.§4-1常用统计量的含义

-

・N—非缺失值观测的数目Nmiss—缺失值观测的数目

Min一最小值Max—最大值Range一极差(max-min)

Sum—观测值的加权和Mean—均值

Variance—方差StdDev—标准差SStdMean—标准误

CV一变异系数Mode—众数

USS一平方和CSS一校正平方和

Skewness一偏度系数Kurtosis—峰度系数

T—检验mean=O的T值Median—中位数

Q3一上四分位数Q1一下四分位数

.§4-2变量的概括描述_

■一、PROCMEANS过程(means例、means」例)

procmeansdata=数据集选项;

var变量名;

run;

其中的选项包括:nmeanstdvarminmaxsumuss

cssrangeskewnesskurtosistprt等。

■例:用means过程对fitness数福集市的变量age,

runtime按变量group并算均值和方差,并将结巢存入

数据集new中。

(means_2例)

■在means_2例的程序中,

①选项noprint的作用是表示不将计算结果在output

窗口输出;

②利用dass分类比用by来分类的优点是:用dass分

类不需先对数据集进行排序。

二、PROCUNIVARIATE过程(univariate例、univariate_l

例)

procunivariate€1313=数据集名选项;

var变量名;

run;

其中的“选项〃可以包括:

(1)plot:对所分析的变量画茎叶图、箱线图、正态概率图

*

(2)freq:生成包括变量值、频数、百分数和累计百分数的

表;

(3)normal:对数据进行正态性检验,并输出检验的P值(

如果p值小于给定的显著性水平,则拒绝原假设,认为数

据不是来自正态分布,反之则认为数据来自正态分布)

(例univariate_2)

■在基本的语句中,对每个变量的分析输出都包含四部分:

第一部分为该变量与矩(moment)相关的统计量,如均

值、方差等

第二部分为位置检验:总体均值=0的检验统计量及p值.

第三部分是和次序统计量、分位数有关的统计量。表头

的"定义5'、表示使用SAS计算分位数的定义5,

''数据按比例分布的经验分布函数

第四部分分别列出了最小和最大的5个观测值以及它们对

应的观测序号。

■如果需要把univariate中的一些统计量的输出结果作进一步

的处理,这时需把上述过程的计算结果存入一个新的SAS数

据集中,为此需利于output语句。(univariate_3例)

procunivariatedata=^据集名noprint;

var变量名;

outputout=新的数据集名统计量=变量名;run;

其中统计量可以用以下关键名:mean,var,std,n,css,uss,

sum,min,max,sumwgt,stderr,cv,skewness,kurtosis,T,

prt,range,ql,q3等等

■Univariate过程还可对某一变量进行分组分析。在进行分组

分析之前,必须先对变量进行排序。(例Univariate_4)

■PROCCORR过程

PROCCORR过程是用以计算SAS数据集中变量间的相关系数

矩阵和协方差矩阵。基本语句为:

proccorrdata=数据集options;

var变量名;

run;

其中options(选项)包括:

©pearson:要求输出pearson相关系数矩阵

②spearman:要求输出spearman相关系数矩阵

③cov:要求输出协方差矩阵(例corr)

、■§4-3变量分布的图形描述

■Proccapability过程

该过程有univariate过程同样的分析功能,又有很强的用图形

表现数据分析的能力,而且还能进行分布拟合和分布检验。基

本语句(capability」例):

Proccapabilitydata二数据集名选项;

var变量名;

run;

若需画直方图,则只要在程序中增加语句histogram。

(capability_histogram例)

-若需高分辨率的图形显示,只需在过程语句中加上选项

graphics.(例capability_graphics)

■说明:⑴上例中PROC语句中的选项noprint是不要求输出概

括性统计量而只要求作直方图,这时而把varoxygen与

合为一句:

histogramhistogramoxygeno

⑵横轴上的分组范围是系统自动选的。若想自己设定,

只要在histogram语句中加进表明各个区间中点位置的选项即

可。纵轴的标度有三种选择:百分数、频数、比例,通过在

histogram语句中加入选项vscle=来设定,缺省为百分数。

vscle=percent/cout/proportion

(例capability_2)

■过程capability还提供了显示对分析数据拟合多种分布的功能.

如:正态分布(normal)、对数正态分布(lognormal)、指数

分布(exponential)、伽玛分布(gamma)、贝塔分希(beta)

、威布尔分布(weibull)等,还可以设定曲线的宽度、颜色等.

(例capability_normal,capability_norm_2)

说明:在capabilitynormal例子中,选项normal要求显示拟合

的正态分布密度曲线,(L=2)是要求拟合密度曲线用虚线表示

,缺省为L=l。Inset一句是杷变量oxygen的数据个数、均值

和标准差也显示在图上,4」和4.2都是指明格式的。

另外,还可以显示数据的经验分布和拟合的累积分布

曲线,这只要将语句histogram换成cdfplot即可。

(例capability_3)

§4-4频数统计

cfreq过程:描述样本中各变量取了什么值,以及取各个值的

频数是多少等。基本语句(例freq」):

procfreqdata=数据集选项;

tables变量名/选项;run;

说明:1、作列联表:只要在变量名之间加一个*号。

2、tables语句有如下两个选项:

①nocum一不要累积频数和累积百分数;

②nopercent一不要百分数和累积百分数。

3、若需改变输出结果中的排列次序,在freq语句中加入选项:

order=internal/freq/data/formatted

Internal—按变量的值排列;freq—按频数降序排列;

data一按数据集中值出现的次序排列;

formatted—按变量格式化的值排列。(例freq_2)

4

■Procformat过程:对变量规定一个格式。如进行变量

分组。

例:对数据集fitness中的变量age分组,小于39岁的为

Young,39到50岁的为Middle,50岁以上的为Old。然

后对它进行频数分析。(例freq_3,例freq_format)

,第五章置信区间和假设检验

4§5-1置信区间的计算

■一、用MEANS过程计算置信区间

方法一:首先建立一个数据集,然后调用MEANS过程,计算所

需的统计量;再计算分位数,确定置信区间的上、下限。

方法二:利用CLM过程,得到均值的95%置信区间

procmeansdata=数据集dm;

var变量名;

run;

例1、某种零件的重量服从正态分布。现从中抽容量为9的样本,得观测值为:

4.84.75.05.24.74.95.04.64.7(单位:KG)。现在来估计零件的平均重

量及平均重量的置信水平为0.95的置信区间。

(^Jconfidence_means>例confidence_means_l)

-二、用capability过程计算置信区间

Capability过程的intervals语句提供了正态分布总体均值和方差

的各种类型的置信估计。基本语句为(^i]confidence_capability):

proccapabilitydata二数据集名;

intervals变量名/method=4,6alpha=atype二选项;

run;

说明:①method=4为计算均值的置信区间,method=6为计算标准差

的置信区间;缺省时提供6种不同的区间,包括预测区间、允许限等.

(2)alpha=<a,则置信水平为1-a.缺省为a=0.010.050.10c

(§)type=lower/twosided/upper:分别表示计算置信下限、区间、

上限,缺省为置信区间。

r.§5-2总体参数的检验

■总体均值的检验

■一、用univariate过程进行t检验

univariate过程的缺省输出结果包括了均值为零的t检验的结果。

为了检验问题:HO:u=uO,只要事先将变量的所有观测值减去uO

,得到一个新变量,再对新变量进行均值为零的检验。即

“0:〃=="0:〃一=0

例:已知某物质的比重为1L53,现购得该物质若干,为检验所购物质比重

是否为是.53,用某种方法重复测得其值为:11.4911.5111.5211.53

1L471L551L5011.46。假定测定值服从正态分布,问所购物质比重

均值是否为11.53。(例test」)

二、用MEANS过程进行t检验

Means过程也提供了检验HO:u=uO的t检验法。基本语句为:

procmeansdata=数据集meanstdtprt;

var变量名;

run;

(例test_2)

■独立样本均值、方差的比较(TTEST过程)

TTEST过程是专用于进行独立样本均值比较的t检验法。该过程首先

对两正态总体的方差是否相等进行检验,然后给出了接受方差相等假

定的条件下两样本的t检验和不接受方差相等假定的条件下两样本的

近似t检验。基本语句为:

procttestdata=数据集名;

class分类变量名;

var分析变量名;

run;

使用这一过程要求将两个样本中被比较均值的变量的观测值记在同一

分析变量下,分类变量只能取两个值。

例:甲、乙两台机床加工同样产品,从它们的产品中各随机抽若干产

品,测得产品直径为:

甲:20.519.819.720.420.120.019.019.9

乙:19,720.820.519.819.420.619.2

假定甲、乙两台机床生产的产品直径服从正态分布。试比较甲、乙两

台机床生产的产品在质量上有无显著差异。(例ttest)

■配对样本均值的比较(means过程、univariate过程)

ttest过程只能用于独立样本的比较,相依样本的比较可以用means或

univariate过程来进行。基本语句:

procmeansdata=^据集名tprt;

var分析变量名;

run;

例:为了比较用来做鞋子后跟的两种材料的质量,选取了15名男子,

每人穿一双新鞋,两只鞋的后跟用不同材料做成,其厚度均为10mm.

过了一个月再测量其厚度,得到数据如下:

材料x6.67.08.38.25.29.37.98.57.87.56.18.96.19.49.1

TOy7.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1

问两种材料制成的后跟在耐穿行上是否有显著差异。(例tesjmeans)

练习:下面给出患头痛的病人服用两种药(ASPIRIN和TYLENOL)后感

到头不痛了所用的时间(单位:分):

ASPIRIN:4042483562356235

TYLENOL:353742223829

写出读这些数据和进行t检验的SAS程序,请问一种药品的药效是否比

另一种的显著。

&§5-3分布拟合检验

■一、Capability过程

进行分布函数的检验实际上是拟合分布的一部分,所使用的程序与拟

合分布是相同的,如在前面capability_normal例子中,关心的是拟合

分布的图形,在histogram语团中使用了noprint选项,若不使用该选

项,就可显现检验结果。

-结果说明:

第一部分:为检验拟合分布的结果。首先指出拟合的是正态分布,给

出均值和标准差。接着是卡方检验和其他三种经验分布的检验结果。

第二部分:列举了不同的分位数,有样本分位数和拟合分位数。便于

比较不同部位样本数据与拟合分布的符合程度。

-可以在一段程序中同时对同一数据拟合几种不同分布的检验。

(例test_3)

二、Univariate过程

univariate过程也提供了对正态分布的检验的功能。

当样本容量不超过2000时,一般使用Shapiro-Wilks统计量W,

当样本容量超过2000时,一般使用Kolomogorov统计量D。

(例test_3)

第六章回归分析

4§6-1相关系数

■瓠CORR过程计算相关系数

相关系数是用来刻画变量间相关程度的一个量。Corr过程涉及到很多

按不同公式定义的相关系数,其中最常用的是pearson相关系数,也

是corr过程缺省时的输出结果。一般格式是:

proccorrdata=数据集选项;

var变量名;

with变量名;

partial变量名;

run;

说明:①这是计算var中的变量与with中的变量之间的相关系数。如果

省略With,就按var中列举的变量计算其两两之间的相关系数。如果var

也省略,就对数据集中所有数值型变量计算相关系数。

-②过程corr也自动计算变量的各个常用统计量,并对相关系数

是否为零进行检验。选项nosimple和noprob分别表示不输出单

变量的常用统计量和检验的信息。Partial语句是计算偏相关系

数时,指明排除变量用的。

■例6-1对于数据集fitness,计算oxygen、maxpulse、rstpulse与

runtime、runpulse>weight之间而相关系数。

(例relation_corr)

-为了直观的了解数据的分布和相关系数的大小,可以通过gplot

过程画散点图。

■例6-2对于数据集fitness,画出maxpulse与runpulse之间的数据

分布的散点图。(例gplotjinear)

y§6-2一元线性回归

■REG过程

SAS系统里面有很多具有回归分析功能的过程,其中功能

最全面的是过程REG。基本语句为:

procregdat+数据集;

model因变量名=自变量名/选项;

run;

例6-3从上一节关于数据集fitness的相关分析和所画的散点图

中可以看出,变量runtime与变量oxygen之间线性相关的程

度很强。试用数据集fitness的数据拟合变量runtime预测

oxygen的一元线性回归。(例reg_l)

-输出结果说明:

(1)第一部分为方差分析,对应于模型的F统计量的值为84.01,相

应的p值为0.0001v0.05=a,模型的作用是显著的。并且R人2和校正

R人2分别为0.7434和0.7345。

(2)第二部分列举了回归方程中两个参数的数值和有关的显著性检

验的结果。由此得到的回归方程为:

OXYGEN=82.42177-3.31056*RUNTIME

T检验的结果表明两个回归系数都是显著的不为零。

■预测与置信限

若要利用拟合的回归方程对原数据集的数据进行预测,可在model语

句中使用选项p

例6-4对例6-3的数据集fitness的数据进行预测。(例reg_2)

程序说明:

(1)在reg_2.sas中,对数据按自变量runtime进行排序,是为了在以

后显示时更为清楚,而数据排序是不影响回归拟合的结果的。

(2)在model语句中增加选项p,就是要求输出预测的结果。

(3)语句idruntime是要求输出结果时增加变量runtime作为标识变量

,便于比较不同自变量和因变量的取值。

输出结果说明:

输出的结果除了方差分析和回归参数估计检验外,还包括原数据集中

的自变量、因变量和用拟合回归预测的结果。

-例6-5利用例6-3得到的拟合的回归方程对另一些数据进行预测,要

得到当runtime=8,9,10,ll,12,13,14对,因变量oxygen的预测值。

(例reg_3)

-若需要得到预测值的置信限,可在model语句中加入选项di,则程序

会提供预测值的95%的置信上限和置信下限。(例reg_4)

■类似的,在model语句中加入选项dm可输出对回归均值的95%置信

区间。

§6-3HI归线的作图

-Ji-

要对拟合回归的数据作散点图并附加回归线,有两种方式可以实

现,一种是利用过程REG带有的作图功能;另一种是用过程gplot。

■利用reg过程作图

为了利用过程reg制作高分辨率的图形,首先必须在proc语句中

加入选项graphics。然后增加plot语句,指明作图的纵轴变量和横轴

变量。一般格式为:

procregdata*据集名graphics;

model因变量名=自变量名;

plot纵轴变量名*横轴变量名;

symbol格式选项;

run;

-程序说明:

(1)其中纵轴变量名和横轴变量名不仅可以是回归的因变量和自变

量,还可以是回归分析中得到的其他统计量,比如:预测值(p.)、预

测误差(r.)等。

(2)symbol语句是定义输出图形的格式的。具体参见GPLOT过程中

对symbol语句中选项的说明。

■例6-6利用数据集fitness中的数据,拟合用变量runtime预测oxygen

的一元线性回归,并作出散点图,以及拟合的回归线。(例reg_plot)

-例6-7在例6-6的基础上,输出观测值和预测值置信区间曲线。

(例reg_plot_2)

■利用GPLOT过程作图

过程gplot为制作散点图和拟合回归线提供了丰富的功能。基本程序:

procgplot€)313=数据集;

plot纵轴变量名*横轴变量名;

symbolv=符号5=点的颜色d二线的颜色1=连线选项亚二线的宽度

h二字符的高度;run;

程序说明:(1)v=是规定用什么符号来表示各个散点,常用的有6种:

plus—(缺省值)star—'*'squar一小方块

diamond一小菱形trangle一三角形none—没有符合

(2)i=规定对散点间如何插值连线的:

i=none:散点间不连线;i=rl:拟合一元线性回归线

i=r:拟合回归;i=rq:拟合二次回归线;

i=rc:拟合三次回归

■例6-8利用数据集fitness中的数据制作oxygen关于runtime的回归和

散点图。(例gplot」)

-在上例中,若要附加回归线的95%的置信限,只需将选项i=rl改为

i=rlclm95o若要附加预测值的90%的置信限,只需用i=rlcli90。

(例gplot_2)

4§66多元线性回归

-使用编程拟合多元线性回归与拟合一元线性回归是类似的,同样使用

过程reg。只要在Model语句中将所要进入回归的自变量的变量名都填

入。基本语句为:

procregdata=^据集;

model因变量=自变量1自变量2/选项;

run;

-例6-9对于数据集fitness,拟合变量OXYGE关于变量AGE、WEIGHT

、RSTPULSE、MAXPULSE、RUNPULSE、RUNTIME这6个变量的线性

回归方程。(例reg_69)

输出说明:(1)输出结果与一元线性回归的输出是完全相仿的,只

是进入回归的自变量有6个,从参数的估计值容易得到拟合的回归方

程为:

■OXYGEN=102.23834-0.21992*AGE-0.07238*WEIGHT

-0.00084421*RSTPULSE+0.30473*MAXPULSE

-0.37316*RUNPULSE-2.68052*RUNTIME

■从参数估计检验部分可以看出,变量RSTPULSE和WEIGHT的回

归系数,不能拒绝它们为。的原假设。

-不过,在这里必须小心看待这些参数,因为它们都是在其它变量

加入回归的前提下进行显著性检验的,完全可能是因为自变量之间存

在较强的相关性而掩盖它们对回归的贡献。所以在剔除不显著的回归

变量时,必须逐个执行。

-因为REG过程具有连续的功能,在执行了提交的部分语句时,仍

可继续提交语句让它执行,直至提交quit语句或执行其它过程而终止.

若需从已加入的回归变量中剔除RSTPULSE,可直接提交如下的程序:

deleterstpulse;print;run;

-模型的自动选择(逐步回归)

若希望由程序自动的进行变量的选择,则可在model语句中加入选项

selection,一般用法为:

selection=none/forward/backward/stepwise/rsquare/cp/adjrsq

其中none是缺省的情况,即不进行选择,全部变量都进入回归;

Forward:向前回归;backward:向后回归;stepwise:逐步回归;

rsquare,cp,adjrsq是提供全部可能的回归,分别用R人2,C(p)和

Adj-R人2进行排序。

-例6-10在例6-9中,利用逐步回归选择的方法,拟合OXYGEN关于其

它6个变量的线性回归方程。(例reg_610)

■输出结果说明:

(1)在输出报告中,提供了进入的回归变量逐次改变后回归方差分析和拟

合的信息。

(2)在报告的最后,给出了用逐步回归法,RUNTIME,AGE,RUNPULSE,

MAXPULSE四个变量进入回归,所有进入回归的变量在0.15的水平下是显著

的,未进入回归的候选变量在0.15的水平下是不显著的。同时还概要地提供

了每个变量变化时,R人2,C(p)等统计量的变化。

(3)在向前、向后和逐步回归的变量选择的过程中,都有一个判断是否可

进入或剔除的显著水平,在程序中分别由model语句中的选项$厄讨》二和

5咳3丫=设定的。缺省的情况是:

ForwardBackwardStepwise

Slentry0.500.15

Slstay0.100.15

■多项式回归

多项式回归可化成多元线性回归来完成。

-例6-11数据engine.txt是一组检验某种发动机性能试验的数据。原料

是柴油和某种气体的混合物。在各种不同速度(speed)下,测量发

动机产生的马力(power)。单位为:转/分钟。试建立变量power关于

speed的回归方程。(例reg_611_l、例reg_611_2)

解题过程说明:我们首先画一个power关于speed的散点图。从散点

图可以发现,power与speed之间不能很好的拟合一条直线,它的尾

部有向下弯曲的趋势。我们然后试用二次曲线来拟合。得到拟合的曲

线方程:

power=-36.78699+8.01383*speed-0.15792*(speed)A2

§6-4HI归诊断

-对于拟合回归的数据都有一定的假定,因此需要对数据进行鉴别,看

它是否符合这些假定。在某些假定不成立时,是否可以剔除或修整个

别数据,使得接近这些假定;另外,还需要分析是否有个别观测对整

个结果有特别大的影响等。这些就是回归诊断的任务。对于一个拟合

的回归方程,需要在拟合回归后进行回归诊断。一般来讲,回归诊断

主要包括下面几项内容:异方差检验、自相关性检验、异常值检验。

-这里我们主要利用残差分析,进行异常值(重要观测案例)的诊断。

-进行残差分析,只要在model语句中加入选项r,即可。

-例6-12考虑数据集fitness。拟合OXYGEN关于RUNTIME的回归方程

o并进一步进行残差分析。(例reg_612)

■输出结果说明:

(1)输出结果除了一般的回归参数、检验和方差分析外,还包括因

变量及其预测值,预测的标准误、残差、残差的标准误和标准化的残

差(即学生化残差studentresidual);

(2)在输出的结果中,还包括了一列标准化残差按其数据绘制的图

形,标准化残差每增加0.5,就用一个*号表示,由此可方便的找出标

准化残差绝对值较大的观测。

(3)最后一列Cook距离(Cook'D)统计量,是从回归系数的改变来

衡量一个观测的影响。一般建议的判别标准是:当|D(i)|>4/n时,该

观测应作为对回归有较大影响的,应加以关注。

(4)当发现了异常的观测案例或特别有影响的观测,都不是简单的

将其删除,而是要加以特别关注,从各方面进一步加以研究讨论。

■作残差图

利用残差图,可以方便地得到残差分布的总体情况。由于残差和预测

值(拟合值)几乎是不相关的,在作残差关于预测值的图时,我们总

可以得到一个斜率接近于0,在X轴周围散布的散点图。

-例6-13在例6-12中,作残差关于预测值的残差图。

,第七章方差分析

4§7-1单因素方差分析

■dfl粗程/ANOVA过程

对于方差分析,常用的过程有ANOVA过程和GLM过程。它们的用法和得到的

结果是基本相同的。基本语句为:

procanovadata=^据集;

class自变量;

model因变量=自变量;run;

说明:①dass后的变量名指明描述因素的分类变量(自变量),也就是因

子;

②model语句后等号左侧为因变量(分析变量),右侧为自变量

(因子)。由于过程GLM和ANOVA都可用于更一般的多因素

的方差分析,这时dass后的内容与等号右侧的内容就不一致了。

在单因素情形下,都是填一个因子名(自变量);

③在上面的基本语句中,把anova换为glm,输出结果一样;

④ANOVA和GLM过程的不同之处:当每个因子(自变量)的重复

试验次数不相等时,不能用anova过程,只能用GLM过程。

-例7-1茶是世界上最为广泛的一种饮料,任何一种茶叶中都含有叶酸

,它是一种维生素B。现要研究各产地的绿茶的叶酸含量是否有显著

差异,选了四个产地,分别记为A1,A2,A3,A4,对各个产地的绿茶分

别测定了5个茶叶样品中叶酸的含量,试验结果见下表:

因子A的水平数据(毫克)

A17.96.26.68.68.9

A25.77.59.86.18.4

A36.47.17.94.55.0

A46.87.55.05.36.1

问:四个产地的绿茶的叶酸含量是否有显著差异?

输出结果说明:

(1)第一部分为分类的信息,说明因子A有四个水平(产地);

(2)第二部分为方差分析表。原假设为:因子A不显著,即四个产

地的叶酸含量没有显著性差异,四个均值相等。检验均值相等的F统计

量的值为L81,相应的P值为0.1853>0.05=a,所以接受原假设,即

四个产地的绿茶的叶酸含量没有显著的差异。接着是R人2等汇总信息

,为0.253736,它表示全部校正平方和中只有25.3%可以被产地的不

同加以说明。

(3)如果将提交的程序中调用的过程改为GLM,而其它语句都不改

变,也可以得到完全相同的结果。

-例7-2(例7-1续)如果每个地区绿茶的测试样本量不同,A1地区测

试了7个样本,A2地区测试了5个样本,A3和A4地区均测试了6个样本

,共测试了24个样本,得到了24个叶酸含量数据,见下表:

因子A的水平数据(毫克)

A17.96.26.68.68.910.19.6

A25.77.59.86.18.4

A36.47.17.94.55.04.0

A46.87.55.05.36.17.4

问:各地区之间是否有显著差异?(例glm_4)

程序说明:在这个例子中,由于在每个因子水平处的重复试验次数

不相等,故不能用anova过程分析,必须使用glm过程进行分析。

■输出结果说明:

从方差分析表可以看出,检验均值相等的F统计量的值为3.75,

相应的P值为0,0276<0・05=a,所以拒绝原假设,故因子A显著,即四

个产地的绿茶的叶酸含量是有显著的差异的。

■方差均匀性检验

方差分析的模型要求不同水平下观测结果方差是相同的。过程GLM和

ANOVA都提供了这方面的功能。为了进行不同水平下观测结果的方

差是否相同的检验,只需要加入如下的means过程和选项hovtest

means分类变量名/hovtest=levene/bf/obrien/bartlett

其中hovtest等号后选择的是检验方差相等的各个检验法的名称。缺

省时则使用levene检验法。

■例7-2要求同时使用levene和Brown-Forsythe检验法对例7-1的问题

进行检验。(例glm_2)

-输出结果说明:

除了输出一般方差分析的结果外,还输出了方差均匀性检验的结果。

其中:(1)第一部分提供了用levene检验法的F统计量的值为1.06,

相应的p值为0.3924>0.05=a;(2)第二部分提供了用Brown-

检验法的统计量的值为相应的值为

ForsytheF0.42,p0.74>0.05=ao

两种检验法都表明可以接受四个产地的方差无显著性差异。

■非参数检验(nparlway过程)

在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和

NPAR1WAY过程来实现,NPAR1WAY过程是一个单因素的非参数方

差分析过程,可进行成组设计的两样本(WILCOXON法)或多样本比

较(KRUSKAL-WALLIS法)的秩和检验。若要对两个或多个均值(或

中位数)的等式用非参数方法进行检验,过程nparlway提供了这一功

能。基本语句为:

procnparlwaydata=数据集选项;

class变量名;

var因变量名;

run;

-说明:(1)选项指定采用的非参数检验法的名称,可供选择的median

(中位数检验法)、Wilcoxon(秩得分检验法)、anova(通常的方差分析).

缺省时,系统提供所有6种非参数检验法和通常的方差分析检验。

(2)dass语句后指明表示因素的分类变量名,与过程GLM中的

class语句一样。

(3)var语句后填入表示效果的分析变量名。

-例7-3对例7-1中的数据集廿,使用非参数方法比较四个产地的绿茶中

叶酸的含量。(例nparlway)

■输出结果说明:

(1)第一张表为秩得分检验结果。关于每个水平下秩得分和的有关结

果。检验用的是卡方统计量,其值为4.5594,对应的p值为

0,2071>0.05=a,故接受原假设,其中原假设是:不同水平下的均值

相同。

(2)第二张表为中位数得分的检验结果,第一部分是关于每个水平

下中位数得分和的有关结果,检验用的统计量是卡方统计量,其值为

0.76,对应的p值为0.8590>0.05=a,故不能拒绝原假设。

(3)由于中位数得分检验法并不敏感,所以它校其他检验法难于发

现分布间的差异。一般我们采用Wilcoxon秩得分检验法。

y§7-2多因素方差分析

-过程GLM也可用于多因素方差分析,其用法与单因素方差分析是相同

的。只需在CLASS语句和model语句中分别填入表示因素的多个自变

量。一般格式为:

procglmdata=数据集名;

class自变量1自变量2…;

model因变量=自变量1自变量2…;run;

■例7-4某农业试验小组作小麦试验,小麦品种(A)有三个品种A1,A2,A3,肥

料(B)有四个水平:B1,B2,B3,B4,小麦亩产(turnout单位:Kg)数据如下:

BlB2B3B4

Al178180176178

A2173174175174

A3177178176177

试就小麦品种和肥料的不同对小麦产量的影响进行分析。(程序:glm_3)

-输出结果说明:

(1)在方差分析表中,可以看到检验模型显著性的F统计量为6.44,

相应的p值为0.0211v0.05=a,拒绝原假设,即模型是显著的。

(2)从后面提供的I型和HI型的两个检验表中,可看到小麦品种

(A)的F检验统计量为14.18,检验p值是0。053VoQ5=a,所以小麦

品种的影响是显著的;肥料(B)的检验p值为0.3654>0.05=a,从而

肥料不显著。

第八章多元统计分析

§8-1主成分分析

对同一个体进行多项观察时,必定涉及多个随机变量X,

M,这些变量之间一般都具有相关性,一时难以综合。

这时就需要借助主成分分析(principalcomponent

analysis)来概括诸多信息的主要方面。我们希望有一个或几

个较好的综合指标来概括信息,而且希望综合指标互相独立

地各代表某一方面的性质。任何一个度量指标的好坏除了可

靠、真实之外,还必须能充分反映个体间的差异。如果有一

项指标,不同个体的取值都大同小异,那么该指标不能用来

区分不同的个体。由这一点来看,一项指标在个体间的差异

越大越好。因此我们把“差异大”作为“好”的标准来寻求

综合指标。

>-

1.主成分的一般定义

设有随机变量X,笈,…,Xp,其样本均数记为门,月,…,月,

样本标准差记为S1,S2,…,Sp。首先作标准化变换

X「

X/二

s,

我们有如下的定义:

(1)若。1=即凶+〃12%2+…+〃1/0,♦+-+…+*=i,且使Par(Ci)

最大,则称Ci为第一主成分;

(2)若。2=〃21/+〃22%2+・・・+〃2/〃,…+咤=1,(〃21,〃22,…,〃2p)

垂直于(〃11,〃12,…,〃12),且使外(。2)最大,则称。2为第二主陵

分;

(3)类似地,可有第三、四、五…主成分,至多有2个。

>-

2.主成分的性质

主成分G,。2,…,G具有如下几个性质:

(1)主成分间互不相关,即对任意Z•和力G和G的相关系数

Corr{Ci,Q)=0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论