已阅读5页,还剩96页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基础统计描述与SAS 第二讲基础统计描述与SAS 主讲人 张国权 邮编 zhanggq 手机SAS程序结构 程序结构在SAS系统中任何一个完整的处理过程均可分为两大步 数据步和过程步数据步 将不同来源的数据读入SAS系统建立起SAS数据集 由DATA语句开始 以RUN语句结束 数据可以由外部或过程读入 或者由CARDS语句开始 直接输入数据 数据输入完后提行单独加 结束过程步 调用SAS系统中已编好的各种过程来处理和分析数据集中的数据 每一个过程步均以PROC语句开始 RUN语句结束 并且每个语句后均以 一SAS基础服务过程 CHART GPLOT 绘图 SORT 排序 PRINT 按要求输出结果 STANDARD 数据标准化 BaseSAS功能1 Base SAS软件是SAS系统的基本部分 主要用于 信息存储和检索 数据修改与程序设计 报表生成 基础统计计算 文件管理 2 Base SAS软件还提供了几十个Base SAS过程 主要用于基础统计计算 生成报表 绘图及文件管理等方面 是更简捷 易用 有效的方法 3 按用途可归为四大类 基础统计计算 报表生成 得分方法 实用方法 二 过程简介 1 SAS基础统计过程 分别计算单个变量的关于位置 变异性及形状等方面的基础统计量 关于检验均值假设的有关统计量 关于检验正态性假设的有关统计量 还有两个变量的有关相关性统计量 例 MEANS SUMMARY UNIVARIATE CORR FREQ TABULATE CHART 2 SAS报表过程 生成一些信息显示 显示的信息可以是数据的列表 或图形显示 许多统计过程也用报表来输出结果 例 PRINT PLOT CHART FORMS CALENDAR TIMEPLOT TABULATE 3 SAS得分过程 用来产生包含新变量的输出数据集 这些新变量是输入数据集中数据的变换 例 STANDARD RANK 4 SAS实用过程 完成中间操作或数据处理的特殊形式 例 SORT FORMAT TRANSPOSE APPEND CONTENTS DAASETS 1对数据排序的sort过程简介sort过程常用于将数据集分类排序 以便其它SAS过程通过使用BY语句 可以直接调用它 语句说明PROCSORT选择项 BY descending 递减 变量 程序段 procsortdata a1out list1 byname procprint title 按姓名排序 procsortdata a1out list2 byroomname procprint title 按房间号码和姓名排序 run 1 学生成绩按平均分排序后输出title 0401班学生成绩排名 datac0401 inputname 1 10sex mathchinese avg math 0 5 chinese 120 100 0 5 cards 李明男9298张红艺女89106王思明男8690张聪男98109刘颍女80110 procprint run procsortdata c0401 bydescendingavg procprint run 0401班学生成绩原始输出 0401班学生成绩排名Obsnamesexmathchineseavg1李明男929886 83332张红艺女8910688 66673王思明男869080 50004张聪男9810994 41675刘颍女8011085 83330401班学生成绩按平均分排序 递减 后输出0401班学生成绩排名Obsnamesexmathchineseavg1张聪男9810994 41672张红艺女8910688 66673李明男929886 83334刘颍女8011085 83335王思明男869080 5000 学生成绩按分组排序程序dataa inputNAME xyg datalines a83 00101b119 95112c145 22163d129 98234e37 95311f103 49472g39 95493h37 95511i65 79522j69 95634k100 79721l33 12892m88 05913n97 95991 procsortdata aout b bygx run procprintdata b varNAMEgxy run ObsNAMEgxy1e137 95312h137 95513a183 00104n197 95995k1100 79726l233 12897i265 79528f2103 49479b2119 951110g339 954911m388 059112c3145 221613j469 956314d4129 9823 学生成绩按分组递增排序输出 2 学生成绩按分类输出dataa inputNAME xyg datalines a83 00101b119 95112c145 22163d129 98234e37 95311f103 49472g39 95493h37 95511i65 79522j69 95634k100 79721l33 12892m88 05913n97 95991 dataaa seta ify 80thenyy 优秀 procprintdata aa varNAMEgyyxy run 学生成绩按分类输出 ObsNAMEgyyxy1a1不称职83 00102b2不称职119 95113c3不称职145 22164d4不称职129 98235e1不称职37 95316f2称职103 49477g3称职39 95498h1称职37 95519i2称职65 795210j4称职69 956311k1称职100 797212l2优秀33 128913m3优秀88 059114n1优秀97 9599 2对数据集进行转置的TRANSPOSE过程OBSABCOBS NAME COL1COL2COL311231A14724562B25837893C369一 简介该过程读入一个SAS数据集并通过转置创建一个新的数据集作为它的唯一输出集 原数据集中的行变为列 列变为行 dataa inputxyz cards 123456789 proctranspose varxyz procprint run 语句说明1 proctranspose语句中的选择项 data out phefix name2 var语句3 copy语句4 by语句5 id语句三 例题例3 使用COPY语句的转置结果dataa inputxyz cards 123456 proctranspose copyz procprint run Obsz NAME COL1COL213x1426y25 使用ID语句后转置结果 datab inputabx cards 12x34y56 78z proctranspose idx procprint run Obs NAME xyz1a1372b248 对数据进行标准化的standard过程procstandardm 0s 1 var变量表 Freq变量 Weight变量 By变量 语句说明freq 该语句用来指定输入SAS数据集中的一个数值变量 它的值表示该观测重复的次数 weight 该语句规定输入SAS数据集中的一个数值变量 它的值用来对相应观测加权 by 由by变量定义的几个观测组分开的分析结果 二 输出SAS数据集包含给定变量的标准化变量 标准化值计算公式 3 数据标准化dataa inputNAME xyg datalines a83 00101b119 95112c145 22163d129 98234e37 95311f103 49472g39 95493h37 95511i65 79522j69 95634k100 79721l33 12892m88 05913n97 95991 Procprint varxy run procstandardm 0s 1 varxy run Procprint varxy run 数据标准化 标准化前Obsxy183 00102119 95113145 22164129 9823537 95316103 4947739 9549837 9551965 79521069 956311100 79721233 12891388 05911497 9599 标准化后数据Obsxy10 01735 1 3465021 03053 1 3130731 72344 1 1459541 30555 0 911995 1 21793 0 6446060 57919 0 109827 1 16309 0 042978 1 217930 023879 0 454550 0573010 0 340480 42496110 505160 7257712 1 350371 29397130 155831 36082140 427291 62821 44 秩得分过程 rank 简介通过SAS数据集中的观测计算一个或几个数值变量的秩得分 这些秩得分被输出到新的SAS数据集中 语句procrankties mean var变量表 Ranksrankx Run 二 秩及秩的应用rank把数值从最小到最大排列 对最小值赋予秩1 对第二小值赋予秩2 等等一直到秩为n 即未丢失的观测个数 出现结值时 其秩可以赋予平均秩或最高秩 最低秩 许多非参数统计方法使用秩而不用原始变量值 例如 对一个数据集首先通过rnak得到响应变量的秩 然后使用anova glm过程至秩拟合方差分析模型 三 实例测得两组数据 并对每个数据求比率得分 1 556791213151821 2 171820253443dataaa inputxg datalines 5151617191121131151181211172182202252342432442 procrankties mean varx Ranksrankx run Procprint run Obsxgrankx得分1511 52511 53613 04714 05915 061216 071317 081518 0918110 51021113 0111729 01218210 51320212 01425214 01534215 01643216 01744217 0 分支结构如果需要在某条件满足时执行某一操作 可以用IF条件THEN程序块ELSE程序块的结构 其中Else语句及其后的程序块可以省略 需要注意的是 如果程序块只有一句 则可直接写出 否则应以DO开始 以END结束 5 条件语句与用循环语句 比如 ifmax a 0THENDO PUT X为正数 x 2 x PUTx END 注意SAS的分支结构的写法与其它语言有些不同 它不用ENDIF结束 循环结构SAS数据步可以使用循环结构 主要的是两种 计数DO循环和当型 直到型循环 计数DO循环的写法是 DO计数变量 起始值TO结束值BY步长 循环体语句 END 在循环体中可以用LEAVE语句跳出循环 相当于C语言的break语句 用CONTINUE语句可以立即结束本轮循环并转入下一轮循环的判断与执行 当型循环的语法是 DOWHILE 循环继续条件 循环体语句 END 程序先判断循环继续条件是否成立 成立时执行循环体语句 再判断循环继续条件 如此重复 直到循环继续条件不再成立 直到型循环的写法是 DOUNTIL 循环退出条件 循环体语句 END 程序先执行循环体 然后判断循环退出条件是否成立 成立则结束循环 否则继续 注意每轮循环都是先执行循环体再判断是否退出 如 data DOi 1TO20BY2 j i 3 puti3 j5 END run 可以输出一个1 3 5 7 19的立方表 用循环语句输入数据例 dataa labeli 姓名 j 学期 x 常识 y 算术 z 制图 doi 1to6 doj 1to2 inputxyz output end end cards 1413281514201014151513181914222010289101410121098251110249912131115 title 学生成绩 procprintdata alabel run 6SAS函数 一 SAS函数的定义SAS函数是一个子程序 它由0个或几个自变量返回一个结果值 每个SAS函数都有一个关键词名字 为了引用函数 要写出它的名字 然后写出一个自变量或几个自变量 它们用括号括起来 这个函数对这些自变量执行某种运算 SAS函数的形式functionname argument 例如 INT 1 453 SUM X1 X2 MIN SUM cash credit 1000 二 SAS函数自变量和结果1 SAS函数的自变量1 自变量的类型 自变量可以是简单的变量名 常数或者表达式 这个表达式还可以包含其它的函数 例如 m max cash credit n sqrt 2500 h min sum ofx1 x10 y 2 自变量的个数 有些函数不需要自变量 如DATE 有些只需要一个自变量 有些函数是对几个自变量作分析处理 所有函数都不允许超过2000个自变量 如果函数的自变量是表达式 则先计算作为自变量的表达式 如 LOG x y 这个函数 是先计算x y 然后调用对数函数LOG来计算x y的对数 3 自变量的表示法 一般地 当函数有几个自变量时 它们必须用逗号分隔开 不过 以下三种写法均是合法的 functionname OFvariable1 variablen functionname OFvariablevariable functionname variable variable 例如 sum ofx1 x5 sum ofx1x2x3x4x5 sum x1 x2 x3 x4 x5 是等价的 2 函数的结果作为函数结果的目标变量 因变量 其取值通常取决于自变量 当自变量是字符变量时 因变量取字符为值 当自变量为数值变量时 因变量取数值为值 对大多数函数而言 数值目标变量的长度是8个字节 字符目标变量的长度为200个字节 三 函数的分类SAS函数主要分为以下四类 数学函数abs 求绝对值mod var1 var2 求var1除以var2后的余数sqrt 求平方根值log 计算以e为底的对数值log10 计算以10为底的对数值 样本统计函数max 求最大值min 求最小值mean 求均数std 求标准差sum 求和随机函数normal 产生一个正态分布的伪随机数rannor 产生一个标准正态分布的随机数日期时间函数year 从变量中抽取 年份 值month 从变量中抽取 月份 值day 返回变量的天数值 data x 0 5 y sin x put Sinefunctionvalueof x is y run 结果将在运行记录窗口显示一行Sinefunctionvalueof0 5is0 4794255386在PUT语句中使用 变量名 来指定输出项可以显示带有变量名的输出结果 比如把上程序中的PUT语句改为putx y 则结果在LOG窗口显示为X 0 5Y 0 4794255386 二利用SAS作样本数据描述性统计 1 PROCUNIVARIATE 2 PROCMEANS定量资料的描述 配对t检验 一个样本对应总体与一个已知总体的比较t检验 SAS过程 一 univariate过程 一 过程简介该过程是单变量过程 用来估计描述统计量的过程 除可以完成类似means过程的基本统计量的计算外 还可以计算其它统计量 计算变量值分布的位置参数 生成若干个描述变量分布的图 对数据进行正态性检验 描述极端值的情况 二 语句结构procunivariate选择项 var变量表 by变量表 freq变量 weight变量 id变量表 outputout 输出数据集关键字 名1名2 三 输出结果1 prob T 的含义及判断标准A学生t统计量大于T绝对值的概率 B如PRT 则拒绝原假设 检验总体均值为0的假设 2 proc w的含义及判断标准A检验数据来自正态总体假设时 相应的显著性概率 B如PRT 拒绝原假设 检验数据来自正态总体的假设 或W 拒绝原假设 DATAEX1 inputx cards 75 054 864 064 847 462 266 952 062 265 062 265 057 563 555 266 673 564 057 057 063 969 058 056 957 550 052 272 057 055 448 557 075 550 562 963 461 058 561 552 561 069 562 5 procunivariatenormalplot varx RUN 例1给出了43个试验田的小麦产量 数据如下 试作统计描述 并检验数据是否符合正态分布 75 054 864 064 847 462 266 952 062 265 062 265 057 563 555 266 673 564 057 057 063 969 058 056 957 550 052 272 057 055 448 557 075 550 562 963 461 058 561 552 561 069 562 5SAS程序 TheUNIVARIATEProcedureVariable xMoments 容量 N43 权重和 SumWeights43 均值 Mean60 744186 总和 SumObservations2612 标准差 StdDeviation6 91021681 方差 Variance47 7510963 偏度系数 kewness0 18055079峦 峰度系数 Kurtosis 0 2825567 未校正平方和 UncorrectedSS160669 36 未校正平方和 CorrectedSS2005 54605 变异系数 CoeffVariation11 3759312 标准误 StdErrorMean1 05379818BasicStatisticalMeasuresLocationVariability 均值 Mean60 74419 标准差 StdDeviation6 91022 中位数 Median61 50000 方差 Variance47 75110 众数 Mode57 00000 极差 Range28 10000 内间距Q3 Q1 64 8 56 9 7 9 InterquartileRange7 90000 作均值为0的检验H0 u0 0TestsforLocation Mu0 0Test Statistic pValue t检验 Student stt57 64309Pr t M S D 0 1500Cramer vonMisesW Sq0 050824Pr W Sq 0 2500Anderson DarlingA Sq0 307263Pr A Sq 0 2500不拒绝H0 TheUNIVARIATEProcedureVariable xQuantiles Definition5 百分位数与四分位数的估计QuantileEstimate100 Max75 599 75 595 73 5P X 69 5 90 90 69 5P X 64 8 75 75 Q364 850 Median61 525 Q156 910 52 05 50 01 47 40 Min47 4 分别列出5个最小值与最大值和它们的序号ExtremeObservations Lowest Highest ValueObsValueObs47 4569 54248 53172 02850 02673 51750 53475 0152 0875 533 数据的探索性分析画出数据的盒子图径叶图 描述数据的集中和波动趋势 StemLeaf Boxplot74052 72052 70 68052 66692 64008005 Q362222594598 600053 Q258052 5690000557 Q1548243 520253 50052 4851 4641 TheUNIVARIATEProcedureVariable xNormalProbabilityPlot75 61 47 2 10 1 2 画出分布形态图 从直观上检验数据的是否正态分布 当 与 重合较多表明数据基本符合正态分 画出直方图的输出 1 给定中位数及间隔procchart VBAR变量 MIDPOINTS 44TO76BY4 2 proccapabilitygraphics varX histogram run 3 procgchart vbarx run dataEX1 inputx cards 75 054 864 064 847 462 266 952 062 265 062 265 057 563 555 266 673 564 057 057 063 969 058 056 957 550 052 272 057 055 448 557 075 550 562 963 461 058 561 552 561 069 562 5 procunivariatedata EX1normalplot varx RUN procchartdata EX1 VBARX MIDPOINTS 44TO76BY4 proccapabilitygraphicsnoprint varX histogram run procgchart vbarx run DATAt INPUTx gr 2 x1 gr INT x gr CARDS 7 428 6523 0221 6121 3121 469 9722 7314 9420 1821 6223 0720 388 4017 3229 6419 6921 6923 9017 4519 0820 5224 1423 7718 3623 0424 2224 1321 5311 0918 8918 2623 2917 6715 3818 6114 2717 4022 5517 5516 1017 9820 1321 0014 5619 8919 8217 4814 8918 3719 5017 0818 1226 0211 3413 8110 2515 9415 8318 5424 5219 2626 1316 9918 8918 4620 8717 5113 1211 7517 4021 36PROCFREQDATA t TABLESx1 PROCGCHARTDATA t VBARx1 DISCRETETYPR FREQSPACE 0 VBARx TYPR FREQMIDPOINTS 7TO29BY2SPACE 0 RUN 二 计算描述统计量的MEANS SUMMARY过程一 简介对数值变量计算单个变量的基本统计量 如果使用by语句 可把数据按by变量分为几个观测组 并对每个观测组计算数值变量的描述统计量 二 语句介绍procmeans选择项 var变量表 by变量表 class变量表 freq变量 weight变量 id变量 output选择项 MEANS过程所计算的统计量是用关键词及其含义如下 N 输入的观测值个数NMISS 每个变量所含缺失值的个数MEAN 变量的平均数STD 变量的标准差MIN 变量的最小值MAX 变量的最大值RANGE 变量的极差SUM 变量所有值的和VAR 变量的方差USS 每一变量原始数据的平方和 未校正平方和 CSS 每一变量的离均差平方和 校正平方和 CV 变异系数STDERR 每一变量的标准误 平均数的标准差 T 在H0 0时的t值PRT 在H0 0的假设下 统计量t大于t临界值绝对值的概率 MEANS过程所计算的统计量是用关键词及其含义如下 SKEWNESS 偏斜度KURTOSIS 峭度CLM 置信区间的上限和下限LCLM 置信区间的下限UCLM 置信区间的上限ALPHA 值 选用的统计显著性水平 DATAEX2 INPUTX CARDS 20 321 522 019 822 523 725 424 323 226 818 721 924 422 826 221 4 PROCMEANSmeanstdstderrnCLM procchartdata EX2 VBARX MIDPOINTS 14TO28BY2 RUN 结果输出TheMEANSProcedureAnalysisVariable XLower95 Upper95 MeanStdDevStdErrorNCLforMeanCLforMean 22 80625002 27082030 56770511621 596215324 0162847 DATAEX2 INPUTX CARDS 20 321 522 019 822 523 725 424 323 226 818 721 924 422 826 221 4 PROCMEANSmeanstdstderrnCLM proccapabilitygraphicsnoprint varX histogram run procgchart vbarx run proccapabilitygraphicsnoprint varx histogram midpoint 20to28by1vscale count run Datazhili inputname x1x2x3 cards Zhang141328Li101415Liu191422Yang91014Zeng9825He9912 Procprintdata zhili Procmeansdata zhili varx1x2x3 run 在这个例子中 我们看到 data input cards proc var run是关键词 zhili是数据集名 name x1 x2 x3是变量名 means是过程名 data 是means语句中的选项 是特殊字符 TheMEANSProcedureVariableNMeanStdDevMinimumMaximum x1611 66666674 08248299 000000019 0000000 x2611 33333332 65832038 000000014 0000000 x3619 33333336 562519812 000000028 0000000 三 用菜单系统INSIGHT或分析员应用 1 启动SAS系统 进入INSIGHT环境 打开CLASS数据集 Analyze Multivariate Y s 选Y变量Age Height Weight Output 在弹出Output窗口选Univariate OK OK 显示结果 2 在分布窗口指定SEX 性别 为GROUP变量及Y变量Age Height Weight 在Output窗口选Univariate OK OK 3 启动SAS系统 进入分析员应用 打开CLASS数据集 Statistics HypothesisTests Two Sample testforMeans 指定分析变量 Weight 和分组变量 Sex OK 则显示结果 SAS常用功能键 按功能键 F9 激活Keys窗口 可查看功能键的定义 2SAS提供的基本运行环境 SAS常用的交互式运行方式 1 用SAS编程实现各种任务2 用SAS提供的菜单系统实现各种任务3 用SAS ASSIST进入SAS ASSIST 使用工具栏图标发命令ASSIST下拉菜单选Globals ASSIST4 用SAS桌面系统发命令DESKTOP下拉菜单选Globals Desktop 2SAS提供的基本运行环境 SAS菜系统 SAS系统提供几个交互式地心菜单系统用来完成各种上分析任务 1 SAS INSIGHT软件2 分析员应用 ANALYST 3 市场研究应用 MARKET 4 SAS LAB软件5 SAS ETS软件的时间序列预报 SASAWS是Windows环境下使用显示管理系统运行SAS系统的工作界面 SASAWS的请窗口是标题为SAS的窗口SASAWS还包括 1 所有条形的SAS窗口 含最小化的窗口 2 子窗口和对话框3 菜单条 工具栏 命令框 状态栏 2SAS提供的基本运行环境 应用工作界面 AWS 正态性检验 对随机变量X 其密度如果存在函数为 则称X付出正态分布 记为 讨论参数的区间估计及进行统计检验时 我们都是假定总体分布为正态分布 但正态性假定是否成立 对于数据分析结论的可靠性是至关重要的 为此我们要对于数据正态性作统计检验 例1下面给出了100个农场的小麦产量 检验其正态性 数据如下 菜单操作如下 数据的输入 在Editor窗口关态下 点击菜单栏的Solutions进入分析员模块 如图 在分析员模块的表格下输入数据 如下图 点击菜单的Solutions 进入Descriptive 然后再进入Distributions的检验模块 如下图 出现Distributions对话框 点击y选入Analysis框内 如图 点击Fit按扭 选择Normal 目的是检验是否服从正态 若须进行其它分布检验此处可选择其它的分布类型项 然后点击OK按扭 返回后 点击Plot按扭可可选择画图的类型 此处选择画直方图 Histogram 选择完后点击OK返回 返回后点击OK 即可得到正态检验结果 结果略 如若要查看直方图 则击活Analyst窗口 双击Histogramfory 即可 习题 对棉花品种进行了试验 对每个试点的棉花的单铃重 g 测得如下表 试部所测得的单单铃重是否符合正态分布 2 3 启动Analyst模块 选择Solutions菜单下的Analysis 然后再选择下面的Analyst 如图 得到Analyst界面 四 数据集相关操作 一 依分布产生数据利用Data菜单中RandomVariates可以产生服从特定分布的随机数 可以选择的分布类型包括 正态分布均匀分布二项分布卡方分布泊松分布指数分布Beta分布Gama分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安徽电子信息职业技术学院单招职业适应性测试必刷测试卷带答案解析
- 2026年云南锡业职业技术学院单招综合素质考试题库及答案解析(名师系列)
- 2026年浙江警官职业学院单招职业适应性测试必刷测试卷附答案解析
- 2026年四川工业科技学院单招职业技能考试必刷测试卷及答案解析(名师系列)
- 地震损伤木结构评估
- 房屋搬迁平移协议书
- 房屋沁水调解协议书
- 房屋翻新易合同范本
- 房屋装修包工协议书
- 房屋转卖合同协议书
- 2026年高考总复习优化设计一轮复习英语(人教版)-主题 1 Morals and Virtues 道德与美德
- 教科版(2024)科学二年级上册第一单元《造房子》测试卷(含答案)
- 用电安全知识培训资料课件
- 建筑电气控制技术 第3版 习题及答案 第九章 三菱 FX₂N系列可编程序控制器
- 2026届福建省厦门市双十中学高三上化学期中学业水平测试模拟试题含解析
- 【《基于PLC的农业设施智能化控制系统设计》18000字(论文)】
- 2025至2030中国纤维铺设系统行业项目调研及市场前景预测评估报告
- 知道智慧树工程图学课后章节测试满分答案满分测试答案
- 2025年保密教育线上培训试题参考答案
- 业扩物资管理办法
- 心内科室简介
评论
0/150
提交评论