定量数据的统计描述_第1页
定量数据的统计描述_第2页
定量数据的统计描述_第3页
定量数据的统计描述_第4页
定量数据的统计描述_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据的统计描述,Means过程 Summary过程 Univariate过程,定量数据统计指标计算的三种过程,Means过程格式: Proc means ; Var 变量列表;(规定需要计算的数值变量及顺序) Class 变量名列表;(分组计算) Freq 变量;(该语句指定一个数值型的变量,它的值表示输入数据集中相应观测出现的频数。该变量的值应为正整数。若freq变量值,Means过程,Proc means中的其它选项包括 Maxdec=n;规定输出结果中的小数部分的最大位数(0-8)。缺省时是2。 Fw=n;给出该过程用来打印每个统计量的域宽。缺省是12。 Alpha=a;设置计算置信区间

2、的置信水平a。a在0-1之间。假如,若规定a=0.05,则得到均值的95%的置信区间 Missing要求该过程把class变量的缺失值作为有效分组值处理,Means过程,Proc means data=class; Var height; Run; 在上述用法中,没有指定输出的统计量,缺省的会对每个选定的变量计算有效记录(N)、均值(Mean)、标准差(Std)、最大值(Maximum)和最小值(Minimum)五个统计量,Means过程最简单的用法,可以用means过程 计算的统计量分别 用关键词表示,Proc means data=class mean var clm alpha=0.01

3、 maxdec=3 fw=8; Var height weight; Output out=mclass mean= var=vh vw lclm=lc uclm=uc; Run,Means过程示例,该程序要求输出的结果占8个字符,其中小数位为3。把运行结果输出到数据集mclass中,包括变量 height(height的均值) weight(weight的均值) vh(height的方差) vw(weight的方差) Lc(置信度为99%的置信下限) uc(置信度为99%的置信上限,1、统计关键字=代表统计值的变量名称串 Proc means data=class; Var height w

4、eight; Class sex; Output out=test mean=m_h m_w; Run,Output的四种方式,这种界定方式自动计算出var指令所列举之所有变量的统计值。 因此,等号右边所列举的变量,必须与var指令中所列举的变量前后对应而且数目相同,2、统计关键字(变量名称串)=代表统计值的变量名称串 Proc means data=class; Var height weight; Class sex; Output out=test mean=m_h m_w std(height)=v_h; Run,Output的四种方式,这种界定方式将产生var指令所列举之部分变量的统

5、计值。 例如,上例文件test中包括变量m_h, m_w 和v_h,3、统计关键字= Proc means data=class; Var height weight; Class sex; Output out=test mean=; Run,Output的四种方式,这种表达方式在等号右边是空白,未界定任何代表统计值的变量名称。因此,将以原变量的名称来代表。例如,在上例中,输出文件test中变量height与weight分别代表相应的均值。 须注意,若使用这种界定方式,则一个var变量,只能产生一种统计值,而不能同时产生其他统计值。这是因为一个var变量的名称只能同时代表一种统计值,4、统计

6、关键字(变量名称串)= Proc means data=class; Var height weight; Class sex; Output out=test mean=m_h m_w max(height)=; Run,Output的四种方式,这种表达方式在等号右边是空白,未界定任何代表统计值的变量名称。在等号左边的括号内列举部分var指令中所提到的变量。因此,这些变量的统计值,仍以变量的原名表示。例如,在上例中,输出文件test中变量m_h和m_w分别代表height与weight的均值,height代表height的最大值。 须注意,一个在var指令中界定的变量名称只能代表一种统计值。

7、因此,使用这种界定方式时,不要同一个变量重复界定在不同的统计值关键字之后,Output 语句中 的统计 关键字,频数语句(freq语句):通过不同的sas过程被用来指定一个变量,这个变量的值表示在相应的这个观测中其他变量值出现的频数。 当freq语句出现时,过程处理这个数据集就好像每个观测出现n次一样,其中n是那个观测中freq变量的值。 如果在某个观测中,freq变量的值小于1,这个观测在分析中不使用;如果freq变量的值不是整数,仅取整数部分使用,Freq语句,Freq语句,对40名麻疹易感儿童接种麻疹疫苗一个月后,测得其血凝抑制抗体滴度如下,求其平均滴度,Data a; Input f

8、x; Cards; 1 4 5 8 6 16 2 32 7 64 10 128 4 256 5 512 ; Proc means; Var x; Freq f; Output out=b mean(x)=m_x; Run,By与class的区别,Class sex school;的分组结果: 组别 sex school 1 男和女 重点和非重点 男 重点和非重点 女 重点和非重点 男和女 重点 男和女 非重点 男 重点 男 非重点 女 重点 女 非重点,By sex school;的分组结果: 组别 sex school 1 男 重点 男 非重点 女 重点 女 非重点,设有两个分组变量:sex

9、(分男,女)及school(下分重点和非重点,By与class的区别,Class sex; By school;的分组结果: 组别 sex school 男和女 重点 男 重点 女 重点 男和女 非重点 男 非重点 女 非重点,示例,Proc means data=class; Class sex age; var height weight; output out=class1 mean= min=h w; Run,types :对_type_进行选择输出,proc means data = class; var height; class sex age; types sex*age; o

10、utput out=height mean=; run; proc print data=height; run,两个过程类似,都是用来对数值变量计算单个变量的基本统计量。而且这两个过程使用的语句和选项都相同。它们的差别 缺省时,summary不打印输出计算结果;means总是打印输出计算的统计量,除非你在proc means过程中明确规定选项noprint。如果使用summary过程时希望打印输出统计量,必须在proc summary语句中规定选项print。 若省略var语句,summary过程只给出观测个数(Nobs);而means过程对输入数据集中除用在by,Id,freq,class

11、,weight语句之外的所有数值变量计算统计量,means过程与summary过程的区别,Proc univariate Var By Freq Weight Id Output Probplot qqplot Histogram,选项串; 变量名称串; 变量名称串; 变量名称; 变量名称; 变量名称串; Out=统计值输出文件名称/统计值关键字符串; ; ;,PROC UNIVARIATE 过程,Proc univariate选项串,Data=sas数据集名 Noprint Freq 要求生成包括变量值,频数、百分数和累计频数的频数表 Normal 要求计算关于输入数据服从正态分布的假的检验

12、统计量。 Plot 要求生成一个茎叶图(或水平直方图),一个盒形图和一个正态概率图 Mu0= 设定t检验的样本均值是否等于mu0=,设置的值必须和var语句顺序对应,Univariate的输出(缺省)包括五个部分 第一部分是矩统计量; 第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距; 第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验; 第四部分为各个重要的分位数; 第五部分是观测数据的五个最低值和五个最高值,例如: Proc univariate data=class ; Var height

13、weight; Class sex; Id name; Run; 结果解释见课本98页,Probplot,Proc univariate data=class; Var height; probplot/normal(mu=60.6 sigma=5 color=red L=2 W=3 ) ctext=blue square grid pctlorder= 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95,99; inset mean=m(height); label height=gaodu

14、; title height; footnote h; Run; Color 定义曲线的颜色;L和W分别定义线型和线的宽度;ctext=定义字体的颜色; Sqare画个方块把图像包起来;grid在每个横坐标上画一个垂线;pctlorder=指定横坐标的百分位数,蓝颜色的必须指定; Inset 给图形附加说明,label给变量加标签,Position= Height= font= ctext=分别指定插入文字说明的位置、高度、字体及颜色 Cframe=和cshadow=分别规定文字说明框和阴影的颜色 Position可取N,NE,E,SE,S,SW,W,NW,常用字体见 http:/www.sf

15、u.ca/sasdoc/sashtml/gref/z1onts.htm#zt-lists,常用颜色: WHITE BLACK RED GREEN BLUE CYAN MAGENTA GRAY PINK ORANGE BROWN YELLOW,Inset语句选项,Qqplot,proc univariate data=class; qqplot height / normal(mu=est sigma=est color=green) square ctext=blue; inset mean=m(height); title height2; footnote h2; Run,Histogra

16、m,proc univariate data=class noprint; histogram weight; inset n = Number of observations mean=mean of weight/ position=ne; title Mean of weight; footnote This is a footnote; run,Inset 中的position=ne; 是来调整插入文字的位置,ne表示northeast,n表示north,其余类似,Histogram,proc univariate data=class; histogram height / norm

17、al(mu=est sigma=est color=red) midpoints =45 50 55 60 65 70 75 80 85 90 ctext=blue; run,Output语句的选项串,该语句要求创建一个包含指定统计量的输出数据集。新数据集中的变量个数和名字用户可以自己规定。使用该语句时要求有var语句。在一个单变量过程中可以使用多个output语句,每个output语句创建一个输出数据集 首先列出统计量的关键词,接着是一个等号,然后是包含统计量的一个或多个变量名。例如 output out=new mean=ave1 ave2 var=v,Output 语句示例,Proc u

18、nivariate data=class; Var height weight; Output out=test mean=m_h m_w var=v_h; Run; Univariate 中的output选项不能用 统计量(变量名)=名字;如上例中不能用 var(height)=v_h 不可以用 统计量(变量名)=;如上例不能用 var(height)或var,Output 语句示例,Proc univariate data=class mu0=62; Var height; Output out=t_test t=t_value probt=p_value; Run; 对变量height的均值做t检验( mu0=62,Output 语句示例,Proc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论