第五章 计量资料的统计描述.ppt_第1页
第五章 计量资料的统计描述.ppt_第2页
第五章 计量资料的统计描述.ppt_第3页
第五章 计量资料的统计描述.ppt_第4页
第五章 计量资料的统计描述.ppt_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学数据处理与SAS软件应用MedicaldataprocessingandtheapplicationofSAS 生物医学工程研究所Add 教学八楼三层东Tel 82035Lecturer 张玉华Email zhangyh 目录 第一章概述第二章SAS编程基础第三章建立数据集第四章数据步程序设计第五章描述性统计分析与作图第六章二项分布和Poisson分布第七章单组或两组资料均数的比较第八章方差分析第九章卡方检验第十章基于秩次的非参数检验第十一章相关与回归 数据步Data 过程步Proc 资料类型 定性数据 qualitativedata 将事物按其不同的属性加以归类 从而得知每一类事物的数量 又称分类数据 categoricaldata 计数资料 countingdata 男 女住院病人数 不同职业住院病人数等二项分类数据 binarydata 把每一个体分配到两种可能的类别中的一类里 性别 婚姻状况划为 已 婚或 未 婚 数据输入计算机时 通常须经过量化处理 即编码 后 再将编码输入 如对性别指标的编码规则可事先约定男为0 女为1 多项分类数据 polytomousdata 是对具有多类属性的事物进行分类所得到的数据 如婚姻状况细分为 未婚 在婚 离异 丧偶及再婚等 血型 有的属性指标其分类是无序的 如婚姻状况 血型 职业 民族等 即各类之间不存在等级或程度上的差别 彼此间只有质的差别 有的属性指标其分类是有序的 如病情的多项分类 一般分轻 中 重 危重等 中 各类之间存在等级或程度上的差别 资料类型 定量数据 quantitativedata 通常是使用仪器或某种尺度进行测定或衡量所取得的数据 如身高 体重 血压等指标是使用仪器进行测量而得到的数据 年龄这一指标则是以历法作为尺度 对人的年龄加以衡量而得到的数据 有时根据研究的需要 可以将定量数据变换成有序分类数据 即等级化数据 参数和统计量的区别 参数 parameter 指总体的统计指标 如总体均数 总体率等 总体参数是固定的常数 多数情况下 总体参数不易知道 但可通过随机抽样抽取有代表性的样本 用算得的样本统计量估计未知的总体参数 统计量 statistic 是指样本的统计指标 如样本均数 样本率等 样本统计量可用来估计总体参数 称为参数估计值 总体参数是固定的常数 统计量是在总体参数附近波动的随机变量 误差 error 误差 error 是指测量值 实际值 与真值 理论值 之差 由于医学领域所研究的变量通常是随机变量 不能保证获得绝对正确的数据 但所获数据的准确度 accuracy 和可靠度 reliability 却是必须考虑的 准确度是指所测得的数据能否真正反映该变量的实际水平 可靠度是指所测定的数据是否能重复 如果调换另一位测定者去测定 是否可以测出相同或相似的结果 误差 error 的种类 随机误差 randomerror chanceerror 由于研究对象本身具有变异性 在测量工作中 即使仪器设备在使用前先经过严格校正 但每次测量后进行读数时也仍然会有误差 实际上不可能取得绝对准确的测定值 随机误差的分布是有一定的规律可循的 所以随机误差的大小可以通过一定的方法计算出来 通过合理的统计学设计 可以有效地控制随机误差 偏差 bias 偏差是由非随机因素所造成的测定值与真值之间的差别 引起偏差的原因很多 可由于对观察个体的选择不当 测量器材设备未经校正或测定者操作失误等引起 科学研究应力求杜绝偏差 否则将会导致统计学推论不可信 第五章描述性统计分析与作图Chapter5Statisticaldescriptionandgraphics 第五章描述性统计分析与作图 5 1常用统计描述过程FREQ过程MEANS过程UNIVARIATE过程5 2SAS的高级绘图功能GSLIDE过程GCHART过程GPLOT过程5 3均数可信区间的估计5 4正态性检验 garbagein garbageout 5 1常用统计描述过程 概述FREQ过程MEANS过程UNIVARIATE过程 概述 可用于统计描述的SAS过程 11章 概述 计量资料常用统计指标的分类 位置度量 描述一组数据的集中趋势 可作为总体的一个代表值 均数mean 中位数median 众数mode 几何均数geometricmean和分位数percentile变异度量 描述资料的离散趋势 全距range 四分位间距quartileinterval 方差variance 标准差standarddeviation和变异系数coefficientofvariation分布度量 描述资料的分布形态 偏度 skewness 对称性对称分布 0 正偏态分布 0 负偏态分布0 平阔峰 0 概述 计量资料常用统计指标定义 中位数 median M 把一组变量值按大小顺序排列 位置居中的那个数值 若n为奇数 百分位数 percentile 把一组数据从小到大排列 分割成100等份 每等份含1 的观察值 分割界限上的值就是百分位数 用符号Px表示 中位数即P50 几何均数 geometricmean G 是将n个观察值X的乘积再开n次方所得的根 等比或对数变换后呈正态资料众数 mode 是一组观察值中出现频率最高的那个观察值全距 range R 极差 一组观察值中最大值与最小值之差 概述 计量资料常用统计指标定义 四分位数间距 quartile Q 是上四分位数Qu P75 和下四分位数QL P25 之差 方差 variance 取离均差平方和 sumofsquaresofdeviationsfrommean SS 的均数标准差 standarddeviation 是方差的平方根 变异系数 coefficientofvariation CV 标准差的另一表示方式 即将标准差转化为均数的倍数 以百分数的形式表示 常用于比较度量单位不同或均数相差悬殊的两组 或多组 资料的变异程度 概述 计量资料常用统计指标的选用 正态分布资料 选用均数和标准差表示位置和变异度量对数正态分布或数据成倍数关系的资料 表示位置和变异度量应用几何均数和标准差若资料为极度偏态分布 未知分布或分布不规则以及一端或两端无界资料时 应用中位数和四分位数间距表示位置和变异度量指标 概述 计量资料常用统计指标选用 续 在两组数值变量变异度比较中 当变量的单位不同或两组的均数相差较大时 应用变异系数作变异性度量的指标 数据是否服从正态分布或对数正态分布 可计算分布度量指标来检验 MEANS过程和UNIYARIATE过程可基本满足数值变量的各类统计指标的计算 5 1 1FREQ过程 功能简介 可生成一维至n维的频数表和交叉表 对于二维表 计算检验统计量和关联度 对n维表 可进行分层分析 计算第一层和交叉层的统计量 能将结果输出到SAS数据集中 频数表的用途 频数表可以揭示资料分布类型和分布特征便于选取适当的统计方法 进一步计算指标和统计处理便于发现某些特大或特小的可疑值 FREQ过程由下列语句控制 PROCFREQ option list TABLESrequest s WEIGHTvariable BYvariable 1 variable n OUTPUTstatistic keywords 5 1 1FREQ过程 语句说明 PROC Procedure 5 1 1FREQ过程 语句说明1 PROCFREQ语句 格式 PROCFREQ option list 常用的选择项有 DATA SAS dataset SAS数据集 PAGE要求FREQ每页只输出一张表 否则按每页行数允许的空间输出几张表 5 1 1FREQ过程 语句说明2 TABLES语句 格式 TABLESrequest list request list 请求式 由一个或多个由 号联连起来的变量组成 一维频数表 在TABLES语句中简单地命名这一变量 例 PROCFREQ TABELSX 产生变量X的每一水平的一维频数表 5 1 1FREQ过程 语句说明2 TABLES语句 续 二维频数表 用星号 连接两个变量第一个变量的值形成表的行第二个变量的值形成表的列例 PROCFREQ TABLESA B 产生一个列联表 A的值构成表的行 B的值构成表的列 5 1 1FREQ过程 语句说明2 TABLES语句 续 n维列联表 用 联接给定的三个或n个变量名 最后一个变量形成表的列倒数第二个变量的值形成表的行其它变量的每一级水平 或水平组合 形成一层 且每层都形成分立的列联表 例 PROCFREQ TABLESC A B FREQ过程可有多个TABLES语句 每个TABLES语句也可以有多个请求式 如果没有TABLES语句 FREQ过程对数据集中的每一变量都生成一个一维频数表 TABLESCAB 拼图上的奇妙女人 埃斯切尔的不可能的盒子 疯狂的螺帽 你知道直钢棒是怎样神奇地穿过这两个看似互成直角的螺帽孔的吗 5 1 1FREQ过程 语句说明2 TABLES语句 续 请求式常用书写方法 左栏与右栏意义 TABLESA BC TABLESA BA C TABLES AB CD TABLESA CA DB CB D TABLES ABC D TABLESA DB DC D TABLES A C TABLESABC TABLES A C D TABLESA DB DC D 不要求 5 1 1FREQ过程 语句说明2 TABLES语句 续 option list 选择项列表 在TABLES语句的斜杠 后面使用 一般选择项 MISSING 象分析非缺项值那样分析缺项值 且在百分数计算和其他统计计算时包括缺项值 若没有规定该选择项 则FREQ过程产生的列联表中每一变量的缺项值从表中删除 但缺项的总频数在每个表下面输出 LIST 不用列联表而是用列表格式打印二维或多维表格 当需要统计检验和联合测量时 不能使用此选项 5 1 1FREQ过程 语句说明2 TABLES语句 续 请求统计分析的选择项CHISQ 请求卡方 2 检验和基于卡方的有关测量 检验包括Pearson卡方 似然比卡方和Mantel Haenszel卡方 测量值包括斐 phi 系数 列联系数和克莱姆系数V Cramer v 对于2 2表也包括费雪尔 Fisher 精确检验 FISHER 要求对大于2 2的表进行Fisher精确检验 其它 此外还有CMH CMH1 CMH2 ALL MEASURES ALPHA 等选择项 5 1 1FREQ过程 语句说明2 TABLES语句 续 请求增加表格信息的选择项EXPECTED 请求打印在独立 或齐性 假设下的期望格频数DEVIATION 请求打印出各格的格频数和期望值的偏差CELLCHI2 请求打印出每一格对总 2 卡方 统计的贡献CUMCOL 请求在格中打印累计列百分数MISSPRINT 要求打印缺项值频数SPARSE 使过程打印出在请求表中各个变量水平的所有可能组合的信息 即使某些水平的组合不在数据中 此选择项影响在LIST选择项下的打印输出和输出的数据集 5 1 1FREQ过程 语句说明2 TABLES语句 续 禁止打印选择项 请求减少表格信息的选择项 NOFREQ 禁止打印列联表中的格频数 NOPERCENT 禁止打印列联表中的百分数 NOROW 禁止打印列联表中各格的行百分数 NOCOL 禁止打印列联表中各格的列百分数 NOCUM 禁止打印一维频数表和用LIST格式的频数表的累计频数和累计百分数 NOPRINT 禁止打印表格 但由CHISQ MEASURES CMH和ALL所指定的统计值例外 5 1 1FREQ过程 打印输出内容 一维频数表 打印下面统计量 FREQUENCY每种值的频数CUMULATIVEFREQUENCY累计频数PERCENT该值占总数的百分数CUMULATIVEPERCENT累计百分数 5 1 1FREQ过程 打印输出 二维表二维表可以以列联表 缺省 和清单 指定LIST选择项 的形式打印 列联表的每个表格包含下列统计量 FREQUENCY频数 PERCENT代表该格的频数占总频数的百分数ROWPCT行百分数 该格频数占该行总频数的百分数COLPCT列百分数 该格频数占该列总频数的百分数如指定CHISQ选择项 对每个二维表打印联合检验和测量 5 1 1FREQ过程 应用实例例5 1 1 1 对101名正常成年女子的血清总胆固醇 mmol L 含量的资料作频数表 该表的最低下限为2 30 组距为0 3 资料 2 354 783 914 153 604 503 304 064 153 582 704 833 924 173 664 524 123 554 593 785 033 263 963 953 293 323 924 194 804 064 524 175 254 953 524 263 783 702 783 263 185 083 573 983 803 864 284 502 914 844 213 954 594 553 513 274 735 264 364 344 613 873 584 134 284 913 954 233 754 573 513 253 844 754 485 353 582 683 413 073 195 133 983 003 843 633 994 334 263 503 684 534 834 133 933 025 715 354 413 873 91 5 1 1FREQ过程 应用实例例5 1 1 1 程序 Dataprg5 1 Inputx low 2 3 dis 0 3 z x mod x low dis 函数mod x y 计算x y的余项 Modulus取模 商 x low dis x所在组段序号余 x low dis x与所在组段下限的差值 5 1 1FREQ过程 应用实例例5 1 1 1 续 Cards 2 354 783 914 153 604 503 304 064 153 582 704 833 924 173 664 524 123 554 593 785 033 263 963 953 293 323 924 194 804 064 524 175 254 953 524 263 783 702 783 263 185 083 573 983 803 864 284 502 914 844 213 954 594 553 513 274 735 264 364 344 613 873 584 134 284 913 954 233 754 573 513 253 844 754 485 353 582 683 413 073 195 133 983 003 843 633 994 334 263 503 684 534 834 133 933 025 715 354 413 873 91Procfreq tablesz Run 5 1 1FREQ过程 应用实例例5 1 1 1 续 程序说明 创建数据集prg5 1 用low定义最低下限 用dis定义组距用mod x y 函数 函数功能是计算x y的余项 新建变量z 该变量就是将原始变量转化成该数据所在组段的下限的值用FREQ过程计算下限值的频数 则得到各个组段的频数 5 1 1FREQ过程 应用实例例5 1 1 1 续 运行结果 第1列z的变量值是各组段的下限值 从结果可以看出 3 8 4 1组段的频数最多 向两侧逐渐减少 5 1 1FREQ过程 应用实例例5 1 1 2 MISSING LIST选择项的应用 程序 DATAFREQ1 INPUTAB CARDS 1221 2 1121PROCFREQ TABLESA B TITLE TWOWAYCONTINGENCYTABLE 5 1 1FREQ过程 应用实例例5 1 1 2 PROCFREQ TABLESA B MISSING TITLE TWOWAYCONTINGENCYTABLEWITHMISSINGSTATEMENT PROCFREQ TABLESA B LIST TITLE TWOWAYFREQUENCYTABLE RUN 5 1 1FREQ过程 应用实例例5 1 1 例5 1 1 2输出结果 5 1 1FREQ过程 应用实例例5 1 1 5 1 1FREQ过程 应用实例例5 1 1 2 5 1 1FREQ过程 应用实例补充 SCORE为含学生成绩的数据集 用VFMT 格式把学生的平均成绩分成A B C三等 由FREQ过程产生每一分数段的学生人数和占总数的百分数等信息 DATASCORE LENGTHNAME 12 INPUTNAMESEXGROUP T1 T3 V MEAN OFT1 T3 CARDS WANGDONG11907060XUEPING22859588 5 1 1FREQ过程 应用实例补充 PROCFORMAT VALUEVFMTLOW 80 C 80 90 B 90 HIGH A PROCFREQ FORMATVVFMT TABLESV RUN 5 1 2MEANS过程 功能简介 MEANS过程用来对数据集中的数值变量计算简单的描述性统计量 该过程对数据集中由VAR语句指定的一些数值变量的全部非缺失的观测计算简单的描述统计量 如使用BY语句 可把数据按BY变量分为几个观测组 并对每个观测组计算数值变量的描述统计量 在BY组内还可用CLASS语句进一步分组 MEANS过程可将若干统计量的计算结果输出到指定的SAS数据集 供进一步分析计算时调用 5 1 2MEANS过程 语句说明 MEANS过程由下列语句控制 procmeans选择项 var变量名表 by变量名表 class变量名表 freq变量名表 outputout SAS数据集统计量关键词 变量名表 格式 procmeans选择项 常用的选择项 data sas数据集名noprint 不打印任何描述性统计量 多用在将这些描述性统计量输出到SAS数据集时 maxdec n 规定输出结果的小数部分的最大位数 n取值为0 8 alpha value 设置计算置信区间的置信水平 0 1 默认值为alpha 0 05 均值的95 置信区间 统计量关键词 指定需要输出的统计量 缺省时 输出n mean std min max五个统计量 5 1 2MEANS过程 语句说明 procmeans语句 Decimal小数 5 1 2MEANS过程 语句说明 var语句 格式 var变量名表 功能 指定需要计算的数值变量及次序 若省略该语句 数据集中除去by class freq语句中列出的变量外 所有数值变量依次被分别计算 var variable 5 1 2MEANS过程 语句说明 by语句 格式 by变量名表 使用by语句后 MEANS过程先按by变量的取值形成多个观测组 然后按组分别计算各组对应的描述性统计量 注意在使用by浯句前 要求对by变量已排过序 5 1 2MEANS过程 语句说明 class语句 格式 class变量名表 其作用与by语句类似 用class变量定义分类变量 形成观测组 分别计算各观测组的描述性统计量 所不同的是class语句不要求该变量事前已排序 而且结果在输出时 按class变量的不同取值 以单表的形式输出 5 1 2MEANS过程 语句说明5 freq语句 格式 freq变量名表 该语句指定一个数值型的频数变量 它的值表示输入数据集中相应观测出现的频数 该变量的值应为正整数 若freq 1或缺失 相应的观测不参加计算若此值不是正整数则取整数部分 freq语句仅当输入数据集为频数表资料时才使用 5 1 2MEANS过程 语句说明6 output语句 格式 outputout SAS数据集统计量关键词 变量名表 该语句要求MEANS过程将指定的统计量 以指定的名称输出到新的SAS数据集中 OUT SAS数据集 用于命名输出数据集名 可用两级数据集名建立永久SAS数据集 统计量关键词 变量名表 用以规定在新数据集中所包含的统计量 并对这些统计量的变量命名 5 1 2MEANS过程 程序实例例5 1 2 1 用MEASN过程计算例5 1 1 1数据的描述性统计量 程序 procmeansdata prg5 1 varx run 程序说明 对VAR语句所指定的变量的全部非缺失值的观测计算简单的描述性统计量 5 1 2MEANS过程 程序实例例5 1 2 1 结果说明 结果中首先会指明本次分析变量是什么 然后给出一些简单的描述性统计量 包括没有缺失值的例数 N 均数 Mean 标准差 StdDev 最小值 Minimum 和最大值 Maximum 5 1 2MEANS过程 程序实例例5 1 2 2 其他一些统计量 stderr 均数的标准差 即标准误 sum 和variance 方差cv 变异系数nmiss 缺失变量值的观测的例数range 极差uss 平方和css 离均差平方和 t 检验假设为总体均数为0的studentt检验的校验统计量t值prt 总体均数为0的检验假设中 t值所对应的概率值 P值 sumwgt 权重变量值的和skewness 偏度系数kurtosis 峰度系数clm 双侧95 可信区间的下限 lclm 和上限 uclm uncorrectedsumofsquare x2 ConfidenceLimitsformean 5 1 2MEANS过程 程序实例例5 1 2 2 指定输出统计量 对例5 1 1 1的数据指定输出统计量程序 procmeansdata prg5 1nmeanstdstderrcvclm varx run 5 1 2MEANS过程 程序实例例5 1 2 2 补充对例5 1 1 2的分析 Procmeansdata freq1nnmissusscssvar vara Run 5 1 2MEANS过程 程序实例例5 1 2 3 频数表资料 用freq语句 将例5 1 1 1的数据编制成频数表的资料进行描述性统计 5 1 2MEANS过程 程序实例例5 1 2 3程序 dataprg5 4 inputxf cards 2 4512 7533 0563 3583 65173 95204 25174 55124 8595 1555 4525 751procmeans freqf varx run x 表示各个组段的组中值f 表示相应组段的频数 5 1 2MEANS过程 程序实例例5 1 2 3 频数表资料 用freq语句 程序说明 在创建数据集时应设置两个变量 一个变量表示各个组段的组中值 另一个变量为相应组段的频数 在MEANS过程中 用freq语句指明一个变量为频数变量 本例为f 用var语句指明哪个变量为组中值变量 本例为x 5 1 2MEANS过程 程序实例例5 1 2 3 结果说明 MEANS过程给出的结果中 每个统计量均在小数点后保留7位有效数字 用户可以通过使用MAXDEC浯句改变结果的有效位数 5 1 2MEANS过程 程序实例例5 1 2 4 将上个程序的结果保留2位有效数字的程序 procmeansmaxdec 2 freqf varx run 5 1 2MEANS过程 程序实例例5 1 2 5 求几何均数 69例类风湿关节炎 RA 患者血清EBV VCA lgG抗体滴度的分布结果如下 求其平均抗体滴度 SAS系统无法直接计算几何均数 必须编写SAS程序 用MEANS过程间接计算 几何均数 geometricmean 是将n个观察值X的乘积再开n次方所得的根 若对各观察值X取对数 对数值均值取反对数即为G 适用对象 当一组观察值不呈正态分布 且其差距较大时 若用均数表示其平均水平会受少数特大或特小值的影响 数值按大小顺序排列后 各观察值呈倍数或近似倍数关系 等比 对数正态分布资料 如抗体的滴度 药物的效价等 计算方法 直接计算法当观察例数不多 如n小于30 时频数表法当观察例数很多时采用 5 1 2MEANS过程 程序实例例5 1 2 5 dataprg5 8 inputxf y log10 x cards 1042034010801016011320156401412802procmeansnoprint vary freqf outputout bmean logmean datac setb g 10 logmean procprintdata c varg run 5 1 2MEANS过程 程序实例例5 1 2 5 程序说明 4个步骤 创建数据集prg5 8 有3个变量 x为抗体滴度的倒数 f为某抗体滴度所对应的频数 y是x的对数 用MEANS过程计算y的描述性统计量 将计算所得到的均数输出到数据集b中 用变量名logmean表示 新建数据集c 调用数据集b中的内容 新产生变量f 该变量的值为变量logmean的反对数 将数据集c的结果显示在OUTPUT窗口内 5 1 2MEANS过程 程序实例例5 1 2 5 结果显示这组数据的几何均数为150 641 即平均抗体滴度为1 150 641 DATASCORE LENGTHNAME 12 INPUTNAMESEXGROUP T1 T3 CARDS SUNHONG23899787ZHAOBIN23669886HUANGSHAN23677576 5 1 2MEANS过程 程序实例补充CLASS BY区别 procmeans vart1t2t3 classgroup title statisticswithclassvariable procsort bygroup procmeans bygroup vart1t2t3 title statisticswithbyvariable Run 5 1 2MEANS过程 程序实例例5 1 2 5 5 1 3UNIVARIATE过程 功能简介 完成与MEANS过程类似的基本统计量计算描述单变量极端值计算分位数生成若干个描述变量分布的统计图 如茎叶图 盒式图 正态概率图等 和频数表对资料进行正态性检验和对总体均数是否为零进行假设检验 t检验 中位数检验及符号秩和检验 等 5 1 3UNIVARIATE过程 语句说明 UNIVARIATE过程由下列语句控制procunivariate选择项 var变量名表 by变量名表 freq变量名表 outputout SAS数据集统计量关键词 变量名表 5 1 3UNIVARIATE过程 语句说明1 procunivariate语句 格式 procunivariate选择项 常用的选择项有 data sas数据集名noprint 同MEANS过程 freq 要求生成包括变量值 频数 百分比和累积百分比的频数表 normal 计算变量是否服从正态分布的假设检验的统计量和P值 plot 要求生成茎叶图 盒式图和正态概率图 5 1 3UNIVARIATE过程 语句说明2 output语句 格式 outputout SAS数据集统计量关键词 变量名表 统计量关键词除在MEANS过程中介绍的之外 还有 Q3 上四分位数或75 分位数 Q1 下四分位数或25 分位数 QRANGE 四分位数间距 即Q3 Ql P1 P5 P10 P90 P95 P99 为第1 x 分位数 MSIGN 符号统计量 PROBM 大于符号统计量的绝对值的概率 SIGNRANK 符号秩统计量 PROBS 大于符号秩统计量的概率 NORMAL 正态性检验统计量 PROBN 数据来自正态分布的概率值 5 1 3UNIVARIATE过程 语句说明2 output语句 若要计算任意的百分位数 可在OUTPUT中使用下列选择项 PCTLPTS 百分位数 指明要计算的百分位数 PCTLNAME 输出变量名的后缀 一般用来注明所要计算的是哪个百分位数 PCTLPRE 输出变量名的前缀 一般用来注明是计算哪个变量的百分位数 以上三项需要一起结合使用 PCTL percentile PTS percents PRE prefix 5 1 3UNIVARIATE过程 语句说明2 output语句 例 procunivariate vartestatestbtestc outputpctlpts 33 366 7pctlpre abcpctlname p33 3p66 7 run 程序执行后将对var语句中所列的三个变量testa testb testc分别计算33 3 和66 7 的百分位数值 变量名依次为ap33 3 ap66 7 bp33 3 bp66 7 cp33 3 cp66 7 SAS规定变量名中不能出现 这类符号 所以用 代表 5 1 3UNIVARIATE过程 语句说明 由于PROCUNIVARIATE语句中增加选项PLOT NORMAL和FREQ 在OUTPUT语句中增加任意百分位数的计算功能 使其应用范围大大增加 注意在UNIVARIATE过程中不使用CLASS语句 这与MEANS过程不同 5 1 3UNIVARIATE过程 程序实例例5 1 3 1 某地118名链球菌咽喉炎患者的潜伏期如下 试计算其简单描述性统计量 潜伏期 天 12 24 36 48 60 72 84 96 108 患者人数41732241812542 5 1 3UNIVARIATE过程 程序实例例5 1 3 1 程序 dataprg5 7 inputxf cards 1843017423254246618781290510241142 procunivariate varx freqf run 5 1 3UNIVARIATE过程 程序实例例5 1 3 1 5 1 3UNIVARIATE过程 程序实例例5 1 3 1 5 1 3UNIVARIATE过程 程序实例例5 1 3 1结果说明 首先输出执行过程的名称及处理变量的名称 整个分析结果输出的统计量分5部分 矩 位置和变异性的基本测度 位置检验 分位数和极值的观测 位置检验中给出的结果的意义 Studentt检验 给出了假定总体均数为0的t值 Pr t 给出了在H0成立的条件下 出现大于 t 的概率 符号 给出检验总体均数为0的假设检验的符号统计量M的值 Pr M 给出在H0成立的条件下 大于等于 M 的概率 符号秩 给出检验总体均数为0的假设检验的符号秩和统计量S的值 Pr S 给出在H0成立的条件下 出现大于等于 S 的概率 5 1 3UNIVARIATE过程 程序实例例5 1 3 2 UNIVARIATE过程输出用户自己定义的百分位数 以例5 1 3 1的数据为例 程序 procunivariate varx freqf outputout pctpctlpre ppctlpts 2 597 5 procprintdata pct run 5 1 3UNIVARIATE过程 程序实例例5 1 3 2 结果说明 数据集pct只有一个观测 而有两个变量 变量名分别为 p2 5 和 p97 5 其值分别表示2 5 和97 5 分位数的值 这两个数值说明链球菌咽喉炎患者潜伏期的双侧95 的参考值范围为18 102天 百分位数法 5 2SAS的高级绘图功能 概述GSLIDE过程GCHART过程GPLOT过程其他SAS绘图方法 其他SAS绘图方法 用ASSIST视窗中的Graphics对话框Analysis菜单中的级联菜单InteractiveDataAnalysisAnalysis菜单中的级联菜单Analyst 打开数据集后 用Graph菜单 概述 功能简介 SAS软件中的graph模块具有极强的绘图功能 它可以将统计分析的结果绘制成平滑的曲线图 精美多彩的条形图 直方图 三维图 等高 等值 图以及各种立体几何图形 从而使结果生动形象 概述 GRAPH模块中的过程 概述 GRAPH模块中的语句 5 2 1GSLIDE过程 gslide过程可产生一页彩色报表 包括正文 标题和脚注 并可选择文字的字体 大小和颜色 语句组成procgslide选择项 titlen 标题内容 footnoten 脚注内容 note 正文的注解 5 2 1GSLIDE过程 语句说明1 procgslide 格式 procgslide选择项 常用的选择项有 gout 输出文件名 可以把图形存入某文件中 border 所画的边框框住所有的报表内容 包括标题 脚注在内 frame 只框住正文 标题与脚注在框外 cframe red 将文本边框的颜色定为红色 也可定义为blue green等颜色 Lframe n 规定文本边框的线型n n的取值范围为1 46 默认值为1 wframe m 规定文本边框的线型粗细 单位为像素点 5 2 1GSLIDE过程 语句说明2 titlen footnoten和note语句 这些语句均为可选语句 可根据设置产生标题 脚注和注释等内容 其中n指定产生标题或脚注的行 在一个程序中 可有多个title或footnote语句 注意 title和footnote语句可出现在程序的任何位置 而note语句则只能出现在procgslide语句之后 即只能出现在过程内部 5 2 1GSLIDE过程 语句说明2 titlen footnoten和note语句 这些语句可选择以下选择项 c red green blue yellow white 规定正文的颜色 f 字型 规定正文字型 可为swiss italic script等 j c 对齐方式为居中 j L为标题左对齐 j R为标题右对齐 h 2cm 表示 注解 的高度为2厘米 font justify 5 2 1GCHART过程 功能简介 GCHART过程可产生水平条形图或垂直条形图 直方图 圆形图 星形图 区域图等 用以显示变量值的分布或变量之间的相关程度 5 2 1GCHART过程 语句组成 procgchart选择项 主语句hbar变量表 水平条形图vbar变量表 垂直条形图block变量表 区域图pie变量表 圆形图star变量表 星形图axisn 定义坐标轴by变量表 legendn 插图的注解patternn 图案模型titlen 标题名称 标题内容footnoten 脚注 脚注内容note 注解 内容说明 至少要有一个语句 任选语句 5 2 1GCHART过程 语句说明1 procgchart语句 格式 procgchart选择项 可用选择项有 data sas数据集名 gout 文件名 表示图形以指定的文件名保存 5 2 1GCHART过程 语句说明2 hbar和vbar语句 格式 hbar变量表 vbar变量表 常用选项 discrete 画出不连续 不累积的条形图 type freq cfreq 累积频数 percent cpercent 累积百分比 sum 另一变量的和 mean 另一变量的均值 默认值 type freqsumvar 变量 通常用于计算均值 和 默认为计算和 midpoints 值 指定中点值 一般用系统约定值 levels n 将区间变量的数据分为n组 5 2 1GCHART过程 语句说明2 hbar和vbar语句 group 变量 给变量的每个值画一组条形 subgroup 变量 变量必须是离散型 而且将每一条形分为几段 每段的长度表示该变量的一个取值所对应的频率 和等 ascending descending 在每一组内 升序 降序排列条形 默认 变量值的顺序autoref 对横轴画格线 axis 值 X坐标轴的刻度 其余的选项还有许多 且可以选择圆形图 星形图等 选择的图形不同 可用的选择项也不同 5 2 1GCHART过程 程序实例例5 2 2 1 dataprg5 9 inputxy cards 112439416525636749 11 24 39 416 525 636 7491122334455667788991010 procgslide title1c bluef centxi First c green lineTitle title3c blackf swiss SAS c black histogramplot procgchart vbarxy run 5 2 1GCHART过程 程序实例例5 2 2 1 程序说明 程序中分别绘制变量x的y的垂直条图 并添加了两个标题 FirstLineTitle 及 SAShistogramplot 分别指定了不同的颜色及字体 5 2 1GCHART过程 程序实例例5 2 2 2 下表给出了两种脱落牙再植的4种不同效果 要求绘制百分条图 以比较其不同的再植效果在各种脱落牙中所占的比例 5 2 1GCHART过程 程序实例例5 2 2 2 程序 datap1 inputleveltype freq cards 112412202112227311232134144210procgchart hbartype subgroup levelascendingsumvar freq run 5 2 1GCHART过程 程序实例例5 2 2 2 程序说明 本程序中字符型变量type表示两种脱落牙 用level1 4表示不同的再植结果 分别绘制两种脱落牙的水平条形图 在每个水平条形图中 以不同的种植效果作为subgroup 并有ascending选项使其按效果由好到差排列 每种种植效果的频数作为sumvar计算其和 在程序中 用户也可以根据需要添加标题及脚注等 以使显示结果更加清楚明了 5 2 1GCHART过程 程序实例例5 2 2 2 5 2 1GPLOT过程 功能简介 gplot过程在坐标系上可产生一对变量的散点图或曲线图 如果用户不定义坐标系及其刻度 系统则采用默认 内定 的指标 5 2 1GPLOT过程 语句组成 procgplot选择项 主语句 ploty x 绘图语句 可画各对变量的散点图 曲线图 bubbley x z 气泡图 按z值在 x y 处画圆 z负画虚线圆 plot2y x 与POLT配对 但两语句的横坐标应相同 以便把两条曲线合成为一图 左右显示两个不同的纵坐标 bubble2y x z 与plot2作用相似 并把纵轴也画在右边 By变量 对by后面的变量的每个值画一幅图 symboln 指定画图的连线 默认为 号 patternn 指定图案花纹 titlen footnoten note 5 2 1GPLOT过程 语句组成1 procgplot语句 常用选项 data 数据集名gout 文件名 输出图形存入指定文件 uniform 同一个程序中 图形的坐标刻度相同 5 2 1GPLOT过程 语句组成2 plot语句 格式 ploty x option list 功能 绘图语句 主要绘制线图 散点图等 可根据设置的选择项不同而绘制不同的图形 常用的选择项 overlay 同一坐标系中重迭n个图 但只标注首变量的名字及变量标签 grid 给坐标系画网格 frame 给坐标系画出边框 haxis axisn 或值 定义横轴刻度 如haxis 10to100by10 若haxis axisn 则用先前定义的axisn刻度 vaxis axisn 或值 与haxis意义相同 对纵轴定义刻度 hminor n 或vminor n 在横轴 或纵轴 两个粗刻度内再细分为n段 5 2 1GPLOT过程 语句组成3 symboln语句 格式 symboln 功能 指定画图的连线 默认 选择项 i join 表示用最简单的连线和折线画图 i needle 点与点之间不连 但每点向横轴画垂线 i Rabcdefg 回归拟合 其中abcdef分别表示不同的回归 如a L表示线性回归 v star 其余选项还有许多 且选择的图形不同 可用的选择项也不同 5 2 1GPLOT过程 程序实例例5 2 3 1题目 数据如下表 用gplot过程绘图 表某地1975 1990年痢疾与百日咳的死亡率 5 2 1GPLOT过程 程序实例例5 2 3 1程序 dataa inputyear xy cards 19751 450 2219800 820 0519850

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论