




已阅读5页,还剩141页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5讲SAS系统与基础统计分析 1 统计基本概念2 频率分布和常用描述统计量3 计算描述统计量的常用过程4 直方图和分布的拟合检验5 参数估计6 假设检验 SAS分析的特点 1 SAS将常用的统计方法用过程实现 是一个高品位的程序系统 2 SAS是一个迅速发展的系统 融入最新的方法 不断适应用户的新需求 3 SAS既可由编程也可用图形界面交互地实现分析功能 4 SAS将各种专门分析方法融入为用户提供的直接使用的专用系统中 应用系统 如何学习SAS统计分析的功能会找 针对问题和数据选用合适的分析工具 会用 选PROC 过程 选Option 选项 写Statement 语句 或选用菜单系统 会解释 对SAS提供的计算结果给出解释和分析 统计基本概念 总体 分布及其它特征 抽样 样本 分布及其它特征 计算统计量 统计量 描述 推断 统计基本概念 参数是总体的特征量 统计量是由样本观测值计算而得到的 统计量可用于估计总体的参数 统计基本概念 总体 子样 子样 子样 子样 子样 对同一个总体可以获得多个不同的样本 这些样本的观测值不全相同 相应的统计量也不一样 这是由抽样偶然性引起的 但当样本的容量增大时 由不同样本计算的统计量之间的差异逐渐缩小 这是统计的规律性 利用样本计算得到的各种统计量 包括图形 可以 1 进行描述统计 即描述样本的各种主要特征 2 进行推断统计 即扩大所收集到的信息的使用范围 用样本的特征来推断总体的特征 总体的分布 1 变量在SAS数据集中 把变量分为以下两类 1 数值型变量 numericalvariable 用数值进行记录 2 字符型变量 characteristicvariable 用字符进行记录 在概率统计学中 把研究的变量分为连续型和离散型随机变量 2 分布作为总体的指标 即随机变量X 最重要的是了解它可能取什么值 以及取各个不同值的个体所占的比例 一个变量 离散型随机变量 取不同数值的比例就称为这个变量的分布 分布最完整地描述了变量取值的特性 3 累计分布 cumulativedistribution 一般地 若一个变量X 指离散型随机变量 所有可能取到的值为x1 x2 xn 则X的分布列为 x1 x2 xn p1 p2 pn 其中pi P X xi 表示变量X取值xi的概率 或比例 用表示累计分布 4 累计分布函数 cumulativedistributionFunction 对于取值可能充满某个区间的数值型变量 例如测量的误差 某个地区学生的体重 我们无法或者没有必要将其可能的值一一列举 而只需要给出它落在不同范围的比例 例如误差为正的比例 误差绝对值小于0 1的比例 对这类变量 常用累计分布函数表示其在不同范围内取值的可能性 F x P X x 其中P X x 表示变量X取值不超过x的概率 比例 这个比例随x的增加而增加 作为x的函数F x 就称为累计分布函数 也简称分布函数 5 分布密度函数对于连续型随机变量X 它的分布特征可以用以下定义的函数来描述 如果存在一个函数f x 使得则称f x 为随机变量X的分布密度函数 对于连续型随机变量 其分布函数的导数就是分布密度函数 用SAS完成常规统计的常用方法和过程 1 用编程实现各种任务 2 用SAS提供的菜单系统实现各种任务 用SAS INSIGHT 发命令insight用分析员应用 ANALYST 发命令analyst用SAS ASSIST等 用SAS系统作常规统计分析 在交互式运行方式下常用的做法有 SAS系统内七种常用的描述性统计程序旨在形容样本 Sample 的平均数标准差偏度峰度等统计值或为样本的数据绘图 制表格 1 PROCMEANS2 PROCSUMMARY3 PROCUNIVARIATE4 PROCCHART5 PROCTABULATE6 PROCCORR7 PROCPLOT 完成基础统计分析的几个常用过程FREQ 计算变量取值的频数 MEANS 分类计算变量的常用统计量 SUMMARY 分类计算变量的常用统计量 UNIVARIATE 计算单变量的统计量和分布的拟合检验 CORR 计算变量间的相关系数 频率分布和常用描述统计量 进行统计分析首先应该对我们手头上的数据特征有一个比较明确的了解 比如数据的频率分布或者其他对数据的描述的统计量 这有助于我们对数据的特征 可能的分布有一个比较全面的了解 用于帮助我们决定进一步的研究方法和方向 我们将介绍如何用编程进行描述性数据分析 FREQ过程 频数过程 FREQ过程用于产生1至N维的频数和交叉表 FREQ语句格式 PROCPREQ 选择项 TABLES变量名 WEIGHT变量名 BY变量名 RUN 5 WEIGHT语句统计计算中我们统称假设每条观测记录对频数计算的贡献为1 使用WEIGHT语句可以定义每个观测值出现的频数为这个观测对应的权重 权重不能为负 6 BY语句对由BY变量定义的几组观测分别进行分析 但要求先按BY变量排序 频率分布和常用描述统计量FREQ 频数 过程 频数表是变量取值分布的描述 PROCFREQDATA 数据集名 TABLES变量 RUN PROCFREQDATA 数据集名 TABLES变量 变量变量 变量 nocolnorownocumnofreqnopercentmissinglistout 数据集outpct WETGHT变量名 BY变量名 RUN 一般是分类变量 频率分布和常用描述统计量FREQ 频数 过程 定义输出格式的FORMAT过程 PROCFORMATlibrary DST VALUE格式名范围1 格式化值1 范围n 格式化值n RUN 例 procformat valueagefmtlow 39 YOUNG 39 50 MIDDLE 50 high OLD run 把自定义的格式存放到永久库DST中 当age 39 YOUNG当39 age 50 MIDDLE当age 50 OLD 频率分布和常用描述统计量FREQ 频数 过程 定义输出格式的FORMAT过程 procformat 用于Fitness数据集 valueoxyfmt32 5 37 5 32 5 37 7 37 5 42 5 37 5 42 5 42 5 47 5 42 5 47 5 47 5 52 5 47 5 52 5 52 5 57 5 52 5 57 5 57 5 62 5 57 5 62 5 run 当37 5 oxygen 42 5 37 5 42 5 Procfreqdata fitness formatageagefmt oxygenoxyfmt tablesgroupage nocum tablesage oxygen nocum tablesgroup age listnocum tablesgroup age out outoutpct run procprintdata out run bstat21 sas 要求输出集中还包含列百分数和行百分数 频率分布和常用描述统计量描述统计量 使用各种统计量描述变量取值的不同特征 均值 中位数 描述变量取值的中心位置 方差 标准差 极差 描述变量取值的离散程度 峰度 偏度 描述变量取值分布的形状 次序统计量 分位数 可描述变量取值的分布 频率分布和常用描述统计量描述统计量 次序统计量 样本 Sample 次序统计量 OrderStatistics 4 3 11 3 15 8 1 3 3 4 5 8 11 频率分布和常用描述统计量描述统计量 描述数据中心位置的统计量 样本观测值 4 3 11 3 1 5 8 频率分布和常用描述统计量描述统计量 描述数据离散程度的统计量 样本观测值 4 3 11 3 1 5 8 n 7 频率分布和常用描述统计量 5描述统计量 与均值方差有关的统计量 标准差 StdDev 标准误 StdError 变异系数 CV 未校平方和 USS 校正平方和 CSS X标准差的估计 频率分布和常用描述统计量描述统计量 偏度 Skewness 偏度 Skewness 精确地 0 0 0 频率分布和常用描述统计量描述统计量 峰度 Kurtosis 峰度 Kurtosis 精确地 0 0 0 0 0 频率分布和常用描述统计量描述统计量 分位数 Quantile 0 4分位数 频率分布和常用描述统计量描述统计量 分位数 Quantile p分位数 附近的一个数 小于p 分位点的样本数约占样本总数的100p 0 5 分位数即中位数 0 25 分位数 Q1 称下四分位数 0 75 分位数 Q3 称上四分位数 样本观测值 4 3 11 3 1 5 8 1 3 3 4 5 8 11 4 3 8 34 频率分布和常用描述统计量描述统计量 众数 Mode 众数 Mode 是指样本数据中变量取值频数统计中对应频数最大的那个值 样本观测值 4 3 11 3 1 5 8 n 7 在这个样本数据中 可以看出3出现的频数是2 是所有取值频数中最大的一个 所以Mode 3 相关系数 相关系数 coefficientofcorrelation 是描述变量之间线性联系程度的一个常用指标 相关系数的计算公式 相关系数 CorrelationCoef 正相关 一个变量数值增加时另一个变量也增加 负相关 一个变量数值增加时另一个变量减少 37 计算描述统计量的常用过程MEANS过程 变量的概括描述 PROCMEANSDATA 数据集名 VAR变量名列 RUN PROCMEANSDATA 数据集名maxdec 位数fw 域宽noprint输出统计量名列 VAR变量名列 CLASS变量名列 BY变量名列 ID变量名 OUTPUTOUT 数据集名记入数据集统计量名列 RUN bstat31 sas 38 计算描述统计量的常用过程SUMMARY过程 变量的概括描述 ProcSummary与ProcMeans有很相同的功能与用法 后者缺省为print 将结果输出到OUTPUT窗 前者缺省为noprint 不输出结果到OUTPUT窗 PROCSummaryDATA 数据集名maxdec 位数fw 域宽print输出统计量名列 VAR变量名列 CLASS变量名列 BY变量名列 ID变量名 OUTPUTOUT 数据集名记入数据集统计量名列 RUN 比较SUMMARY程序与MEANS程序相同 都可以用来计算数值变量的描述性统计值差异 1 输出文件不同SUMMARY程序只能产生含统计值的输出文件而不能产生报表输出文件 MEANS程序则可以同时产生两种输出文件 2 执行分组的指令不同虽然而两个程序都可以将输入的文件按某个或某些变量的值将观察体加以分组 然后对各组分别进行分析但两程序用不同的指令来执行分组 在MEANS程序中BY指令是唯一可用来执行分组的指令 但在SUMMARY程序中可使用如下的三种方法来执行分组 CLASS指令 BY指令或同时使用CLASS及BY指令 N分组内或所有观察体的有效观察体总数NMISS分组内或所有观察体中含遗漏数据的观察体个数MEAN平均数STD标准差MIN最小值MAX最大值RANGE最大值与最小值的差SUM变量值的总和VAR变异数USS未矫正的平方和CSS矫正后的平方和CV变异系数 CoefficientofVariation STDERR平均数的标准误Tt检定用来检定母群之平均数等于0的虚无假设是否成立PRT上述t检定的显著性SUMWGTWEIGHT变量的总和 可输出统计量名列 VAR变量名称串 列举所有参与分析的数值变量之名称CLASS变量名称串列举一个或多个分组变量BY变量名称串与CLASS指令相同之处 两者是界定分组变量的两点相异之处 BY指令分组时一定要用PROCSORT将观察体按分组变量排列 虽用同样的分组变量 但BY指令所产生的组别和CLASS指令不同 ID变量名称串列举的变量叫识别变量 它将与各统计值同时出现在输出文件内 比方说有两个分组变量SEX 下分男女 及SCHOOL 下分重点中学和非重点中学 CLASSSEXSCHOOL 本指令产生九种分组 1 男女混合重点和非重点混合 2 男重点和非重点混合 3 女重点和非重点混合 4 男女混合重点 5 男女混合非重点 6 男重点 7 男非重点 8 女重点 9 女非重点PROCSUMMARY将分别计算九种分组的统计值请注意若用CLASS指令分组 则不必先用PROCSORT将观察体按分组变量的值加以排列 BYSEXSCHOOL 男重点 2 男非重点 3 女重点 4 女非重点若写CLASSSEX BYSCHOOL 六个分组 1 重点男女混合 2 重点男 3 重点女 4 非重点男女混合 5 非重点男 6 非重点女必须学会如何巧妙的使用CLASS或BY指令 48 在procmeans或procsummary中 可用多个output语句 它有三种方式规定输出数据集中的统计量 statistic keyword 仅适用于一个统计量多个变量 statistic keyword name list statistic keyword variable list name list 可指定仅对某些变量计算这一统计量 缺省情形是在输出数据集中由变量 stat 来注明统计量名 49 计算描述统计量的常用过程MEANS和SUMMARY过程的OUTPUT语句 例 设输入数据集有变量X1 X5 以下给出OUTPUT语句及选项OUT 生成输出数据集包含统计量和名字 1 outputout b1mean 输出数据集 1中包含5个变量的均值 变量名为X1 X5 2 outputout b2mean m1m2var x3 输出数据集 2中包含变量X1 X2的均值 变量名为m1 m2 以及x3的方差 变量名字仍为X3 3 outputout b3mean x3x4 m3m4std x5 s5 输出数据集 3中包含变量X3和X4的均值 存放均值的变量名为m3和m4 变量X5的标准差存放在S5中 Bstat32 sas 50 计算描述统计量的常用过程MEANS和SUMMARY过程的OUTPUT语句 4 outputout b4mean max x1 sum x3 autoname 输出数据集 4中包含 5个变量的均值 变量名为x1 Mean x5 Mean 变量X1的最大值 变量名为x1 Max 变量X 的总和 变量名为x3 Sum Bstat32 sas 5 当使用Class语句时 与由OUTPUT语句生成的数据集内容有关的选项和语句 PROC的选项nway WAYS语句和TYPES语句 见Bstat33 sas MEANS过程 MEANS过程 均值过程 用于对数值型变量产生针对单个变量的简单描述性统计值 语句格式为 PROCMEANS 选择项 VAR变量名列表 BY变量名列表 CLASS变量名列表 FREQ变量名列表 WEIGHT变量名列表 ID变量名列表 OUTPUTOUT SAS数据集统计量 RUN procmeansdata Hbs fitness varruntimeoxygen idage run SAS系统2005年05月01日星期日上午11时30分09秒16MEANS过程变量标签N均值标准偏差最小值最大值 RUNTIMEMin torun1 5miles3110 58612901 38741418 170000014 0300000OXYGENOxygenconsumption3147 37580655 327230537 388000060 0550000 procmeansdata Hbs fitnessRANGESUMVARUSSCSSCVSTDERRTPRTSUMWGT varruntimeoxygen idage run SAS系统2005年05月01日星期日上午11时30分09秒17MEANS过程变量标签极差总和方差未校平方和校正平方和偏差系数 RUNTIMEMin torun1 5miles5 8600000328 17000001 92491783531 8057 747535513 1059624OXYGENOxygenconsumption22 66700001468 6528 379384870429 86851 381544811 2446223 变量标签标准误差t值Pr t 权重总和 RUNTIMEMin torun1 5miles0 249186942 48 000131 0000000OXYGENOxygenconsumption0 956798849 51 000131 0000000 procsortdata Hbs fitnessout sorted bygroup run procmeansdata sorted varweight bygroup run SAS系统2005年05月01日星期日上午11时30分09秒18 Experimentalgroup 0 MEANS过程分析变量 WEIGHTWeightinkgN均值标准偏差最小值最大值 1080 54600006 637314068 150000089 4700000 Experimentalgroup 1 分析变量 WEIGHTWeightinkgN均值标准偏差最小值最大值 1078 33700007 935821866 450000091 6300000 Experimentalgroup 2 分析变量 WEIGHTWeightinkgN均值标准偏差最小值最大值 1173 81363649 319317959 080000091 6300000 procsummarydata Hbs fitnessprint varruntimeoxygen idage run PROCSummaryDATA 数据集名maxdec 位数fw 域宽print输出统计量名列 VAR变量名列 CLASS变量名列 BY变量名列 ID变量名 OUTPUTOUT 数据集名记入数据集统计量名列 RUN procsummarydata Hbs fitnessRANGESUMVARUSSCSSCVSTDERRTPRTSUMWGTprint varruntimeoxygen idage run procsortdata Hbs fitnessout sorted bygroup run procsummarydata sortedprint varweight bygroup run procsummarydata sortedprint varweight classgroup run SAS系统2005年05月01日星期日上午11时30分09秒23SUMMARY过程分析变量 WEIGHTWeightinkgExperimentalgroup观测的个数N均值标准偏差最小值最大值 0101080 54600006 637314068 150000089 47000001101078 33700007 935821866 450000091 63000002111173 81363649 319317959 080000091 6300000 Procsummarydata Hbs fitnessprint varweight formatageagefmt oxygenoxyfmt classgroupage run UNIVARIATE过程 1 UNIVARIATE过程简介UNIVARIATE过程除了可以完成与MEANS过程相同的基本统计量外 还可以计算变量的极端值 分位数 生成频率表 并支持对数据进行正态性检验 UNIVARIATE与MEANS过程不同的功能包括 描述变量极端值的情况 计算分位数 如中位数 1 4和3 4分位数 生成若干个描述变量分布的图 生成频率表 对数据进行正态性检验 UNIVARIATE语句格式如下 PROCUNIVARIATE 选择项 VAR变量 BY变量 FREQ变量 WEIGHT变量 ID变量 OUTPUTOUT SAS数据集 关键词 新变量名 RUN 65 计算描述统计量的常用过程UNIVARIATE过程 单变量特征的概括描述 RPOCUNIVARIATEDATA 数据集名 VAR变量名 RUN RPOCUNIVARIATEDATA 数据集名noprintmu0 值plotnormal VAR变量名列 BY变量名列 ID变量名 OUTPUTOUT 数据集名关键名 变量名 PCTLPTS p1 p2 PCTLPRE 前缀词 RUN 用户另指定要求计算的p1 p2 分位数 应用实例 procunivariatedata hbs fitness varruntimeoxygen idage run SAS系统2005年05月01日星期日上午11时30分09秒5UNIVARIATE过程变量 RUNTIME Min torun1 5miles 矩N31权重总和31均值10 586129观测总和328 17标准偏差1 38741409方差1 92491785偏度0 51465208峰度0 13604218未校平方和3531 7975校正平方和57 7475355变异系数13 1059624标准误差均值0 24918693基本统计测度位置变异性均值10 58613标准偏差1 38741中位数10 47000方差1 92492众数 极差5 86000四分位极差1 74000 位置检验 Mu0 0检验 统计量 P值 学生tt42 48268Pr t M S 0001分位数 定义5 分位数估计值100 最大值14 0399 14 0395 13 0890 12 6375 Q311 3750 中位数10 4725 Q19 6310 8 925 8 631 8 170 最小值8 17极值观测 最小值 最大值 值AGE观测值AGE观测8 17422511 9540288 63383112 635718 65442412 885468 9250413 0844308 95491714 034513 procunivariatedata hbs fitnessnoprint varruntime outputout percentsp10 op10p90 op90median medianq1 q1q3 q3pctlpts 2080pctlpre pqrange iqrangerange range procprintdata percents run SAS系统2005年05月01日星期日上午11时30分09秒7Obsop90q3medianq1op10rangeiqrangep20p80112 6311 3710 479 638 925 861 749 411 5 procsortdata hbs fitnessout sorted bygroup run procunivariatedata sorted varweight bygroup run SAS系统2005年05月01日星期日上午11时30分09秒26 Experimentalgroup 2 UNIVARIATE过程变量 WEIGHT Weightinkg 矩N11权重总和11均值73 8136364观测总和811 95标准偏差9 31931786方差86 8496855偏度0 16392555峰度0 26444806未校平方和60801 4789校正平方和868 496855变异系数12 6254691标准误差均值2 80988006基本统计测度位置变异性均值73 81364标准偏差9 31932中位数73 71000方差86 84969众数76 32000极差32 55000四分位极差12 13000位置检验 Mu0 0检验 统计量 P值 学生tt26 26932Pr t M 0 0010符号秩S33Pr S 0 0010 SAS系统2005年05月01日星期日上午11时30分09秒26 Experimentalgroup 2 UNIVARIATE过程变量 WEIGHT Weightinkg 分位数 定义5 分位数估计值100 最大值91 6399 91 6395 91 6390 82 7875 Q379 3850 中位数73 7125 Q167 2510 61 245 59 081 59 080 最小值59 08极值观测 最小值 最大值 值观测值观测59 082876 322361 243076 322967 252579 382270 872482 783173 372191 6326 procunivariatedata Hbs fitnessplotnormal varweight run procunivariatedata Hbs fitnessPLOTS varGroup run 统计检验的基本原理与方法 假设检验的基本概念1 问题的提出2 假设检验的步骤一个完整的假设检验过程 通常包括以下四个步骤 1 提出原假设 NullHypothesis 和备择假设 AlternativeHypothesis 2 确定适当的检验统计量并计算检验统计量的值 3 规定显著性水平 4 做出统计决策 4 p值的进一步说明5 实际显著性性和常识进行综合考虑 作出最后的判断 6 关于实际显著性和统计显著性的重要一点7 参数方法与非参数方法 样本平均数的检验 u检验与t检验 非参数检验 1 检验2 符号检验3 秩和检验法 直方图和分布的拟合检验概念和定理 总体分布函数和样本经验分布 对母体和样本都可考虑它们各自的分布 样本直方图 总体分布密度 样本经验分布 总体累计分布 直方图和分布的拟合检验概念和定理 中心极限定理 直方图和分布的拟合检验概念和定理 中心极限定理 样本容量足够大时 样本均值接近正态分布 样本均值接近总体均值 样本标准差为 直方图和分布的拟合检验标准正态分布密度 85 直方图和分布的拟合检验其它分布 直方图和分布的拟合检验检验样本是否为某个分布的图示法 QQ图 检验样本是否为正态分布的 图法 类似地可检验样本是否为对数正态 指数和Weibull分布 87 直方图和分布的拟合检验UNIVARIATE过程 变量分布的图形描述 PROCUNIVARIATEDATA 数据集名noprint VAR变量名列 HISTOGRAM变量名列 midpoints 中点列normal mu 均值sigma 标准差图象选项 exp theta 阈值图象选项 lognormal theta 阈值图象选项 INSET统计量关键名 显示名 格式 QQPLOT变量名列 square PROBPLOT变量名列 BY变量名列 ID变量名 RUN 直方图和分布的拟合检验UNIVARITE过程 例子 procunivariatedata Hbs fitness varoxygen idage run procunivariatedata Hbs fitness varoxygen histogram run procunivariatedata Hbs fitnessnoprint histogramoxygen title Histogram run 直方图和分布的拟合检验UNIVARITE过程 例子 procunivariatedata HBs fitnessnoprint histogramoxygen midpoints 32to60by4normal L 2color orangew 4 insetnmean 4 1 std 4 2 Run procunivariatedata Hbs fitness vargroup histogram run procunivariatedata HBs fitnessnoprint histogramoxygen midpoints 32to60by2normal L 2color orangew 4 insetnmean 4 1 std 4 2 Run 直方图和分布的拟合检验UNIVARITE过程 例子 procunivariatedata Hbs fitnessnoprint histogramoxygen midpoints 32to60by4normal L 1w 2 lognormal L 2w 3theta 30 exponential L 8w 4theta 30 run quit Bstat41 sas Histogram2005年05月01日星期日上午11时30分09秒33UNIVARIATE过程FittedDistributionsforOXYGEN 正态 分布的参数参数符号估计值均值Mu47 37581标准偏差Sigma5 327231 正态 分布的拟合优度检验检验 统计量 P值 Kolmogorov SmirnovD0 14046087Pr D0 119Cramer vonMisesW Sq0 08473813Pr W Sq0 179Anderson DarlingA Sq0 54053923Pr A Sq0 157 正态 分布的分位数 分位数 百分比观测值估计值1 037 388034 98285 039 203038 613310 039 442040 548725 044 811043 782650 046 774047 375875 050 388050 969090 054 297054 202995 059 571056 138399 060 055059 7688 Histogram2005年05月01日星期日上午11时30分09秒33UNIVARIATE过程FittedDistributionsforOXYGEN 对数正态 分布的参数参数符号估计值阀值Theta30比例Zeta2 806582形状Sigma0 325986均值47 45656标准偏差5 845174 对数正态 分布的拟合优度检验检验 统计量 P值 Kolmogorov SmirnovD0 18946559Pr DW Sq0 041Anderson DarlingA Sq0 76778476Pr A Sq0 043 对数正态 分布的分位数 分位数 百分比观测值估计值1 037 388037 75415 039 203039 683110 039 442040 900625 044 811043 286050 046 774046 553275 050 388050 624090 054 297055 1372 指数 分布的参数参数符号估计值阀值Theta30比例Sigma17 37581均值47 37581标准偏差17 37581 指数 分布的拟合优度检验检验 统计量 P值 Kolmogorov SmirnovD0 40733003Pr DW SqA Sq 0 001 指数 分布的分位数 分位数 百分比观测值估计值1 037 388030 17465 039 203030 891310 039 442031 830725 044 811034 998750 046 774042 044075 050 388054 088090 054 297070 009395 059 571082 053399 060 0550110 0185 直方图和分布的拟合检验练习题 1 打开FITNESS数据集 编程完成以下分析计算 计算变量OXYGEN和RUNTIME的均值 方差 标准差 偏度和峰度 指定GROUP为BY变量后 分别计算三组数据的以上几个描述统计量 画RUNTIME的直方图中 拟合一条正态分布曲线 直方图和分布的拟合检验练习题 3 对变量Weight绘制直方图和QQ图 并检验该变量的分布是否为正态分布 0 05和 0 15 4 变量Weight的标准差和极差是什么 这些值说明什么 打开CLASS数据集 可类似完成题1中的练习 这里分类变量为SEX或AGE 数值变量为WEIGHT和HEIGHT 另要求 1 计算AGE的频数分布表 并要求输出按年龄由大到小的频数表 2 绘制AGE的条形图 参数估计点估计 总体的特征量 参数 用样本相应的特征量 统计量 来估计称为参数的点估计 用样本均值估计总体均值 用样本方差估计总体方差 像这种用样本的统计量估计总体的参数 称为点估计 注意到 样本是具有随机性的 不同的样本将产生总体均值的不同的估计值 这些估计值之间的差异就是总体均值估计量的差异 所以不能把样本均值作为总体均值绝对精确的估计 而是需要用总体均值的置信区间来估计总体均值 我们把具有一定可靠性和精度的估计称为置信估计 中心极限定理告诉我们 对几乎任何总体的独立随机样本 当样本容量足够大时 样本均值的分布接近于正态分布 样本均值接近于总体均值 参数估计点估计 参数估计正态分布 参数估计正态分布 正态分布描述落入不同范围的概率 例如 近似地有 3 原则 68 的数据落入以均值为中心一倍标准差的范围内 95 的数据落入以均值为中心两倍标准差的范围内 99 的数据落入以均值为中心三倍标准差的范围内 若样本均值的分布为正态的 当构造置信区间时就可用正态分布给定的概率 这一概率对应于置信水平 所以 构造一个95 的置信区间 这个置信区间就有95 的概率包括总体均值 95 就为置信水平 参数估计置信区间 ConfidenceInterval 双侧 置信区间 置信下限 置信上限 置信水平或置信度 称为显著性水平 单侧 或 区间估计 以一定的置信度 概率 给出参数的范围 它是带有一定可靠度和精度的估计 参数估计置信区间 ConfidenceInterval 的求法 假设总体为N 2 置信区间 ConfidenceInterval 的求法 上述图形是样本均值的分布密度曲线 铃型区域包含了分布密度曲线下的区域面积的95 当构造一个95 的置信区间时 这个置信区间 包含以总体均值为中心的样本均值分布密度曲线下面积的95 它应以95 的概率包含总体均值 所以 若样本均值X落入样本均值所服从分布的铃型区域时 所构造的置信区间包含总体的均值 置信度为95 置信区间 ConfidenceInterval 的求法 2 SAS软件用以下公式生成均值的置信区间 其中 X是样本均值 t 2是对应于置信水平 和样本容量n有关的一个t分布的临界值 是均值X的标准误 置信区间 ConfidenceInterval 的求法 t分布是一个自由度为n 1的对称的分布 SAS软件中有专门的函数计算它的分位数 置信区间的长度取决于置信水平 数据的波动和样本容量 置信水平1 越高 置信区间长度越大 样本方差s2越大 置信区间长度越大 在相同的置信水平和方差的情况下 增加样本的容量n可以减少置信区间的长度 置信区间 ConfidenceInterval 的求法 选择置信水平和样本容量使置信区间有实用价值是重要的 一个很高的置信水平和很小的样本容量可使置信区间长得毫无实用价值 计算置信区间的两种方法 当总体方差未知时 使用t值法 当总体方差已知时 使用z值法 由于总体方差一般不知道 所以大多使用t值法 SAS中均值的置信区间也是使用此法求出 用编程方法计算总体均值置信区间 1 PROCMEANS 正态均值 alpha 0 05 双侧 CLM 或单侧 LCLM UCLM 2 PROCUNIVARIATE 正态均值及标准差 双侧 CIBASIC 或单侧 CIBASIC type Lower Upper 任选 ALPHA 值 3 直接计算 112 置信区间或置信上 下限的计算 MEANS过程 PROCMEANSDATA 数据集名输出统计量名列maxdec 位数fw 域宽noprintalpha 0 1LCLMUCLM VAR变量名列 CLASS变量名列 BY变量名列 ID变量名 OUTPUTOUT 数据集名记入数据集统计量名列 RUN 113 参数估计置信区间和置信限的计算 UNIVARIATE过程 PROCUNIVARIATEDATA 数据集CIBASIC VAR变量名列 BY变量名列 RUN UNIVARIATE过程语句还有一些其它的选项 用于求分位数的置信限 检验H0 0等 注意事项遗漏数据的处理VAR指令中的变量则该观察体将被排除在这个变量的计算过程之外 然而若在其他变量上无遗漏数据仍会被纳入其他VAR变量的计算过程内 这些含遗漏数据的观察体个数及它们占总观察体数的百分比将被纳入报表输出文件 2 WEIGHT指令中的变量观察体的加权变量值就是0 这些观察体仍然而会被纳入百分位数的计算以及极端分数的挑选 3 FREQ指令中的变量观察体将被剔除在所有计算过程之外 4 BY指令中的变量观察体在分析的过程中自成一个分组 5 ID指令中的变量需要识别观察体的地方仍以遗漏值 呈现 115 参数估计练习 练习1 打开数据集FITNESS 用MEANS过程求变量OXYGEN均值的点估计和置信度为95 97 5 的置信区间 procmeansdata Hbs fitnessnmeanstdstderrtmaxdec 4fw 6alpha 0 025CLMLCLMUCLM varOXYGEN run 116 procmeansdata Hbs fitnessnmeanstdstderrtmaxdec 4fw 6alpha 0 025CLM varOXYGEN run procmeansdata Hbs fitnessnmeanstdstderrtmaxdec 4fw 6alpha 0 025LCLMUCLM varOXYGEN run procmeansdata Hbs fitnessnmeanstdstderrtmaxdec 4fw 6alpha 0 025LCLM varOXYGEN run 117 procmeansdata Hbs fitnessnmeanstdstderrtmaxdec 4fw 6alpha 0 05CLM varOXYGEN run procmeansdata Hbs fitnessnmeanstdstderrtmaxdec 4fw 6alpha 0 05LCLMUCLM varOXYGEN Run 118 练习2 打开数据集FITNESS 用univariate过程求变量OXYGEN均值的点估计和置信度为95 97 5 的置信区间 procunivariatedata Hbs fitnessCIBASIC type TwosidedALPHA 0 05 varOXYGEN run procunivariatedata Hbs fitnessCIBASIC type LowerALPHA 0 025 varOXYGEN run procunivariatedata Hbs fitnessCIBASIC type TwosidedALPHA 0 025 varOXYGEN run 119 参数估计练习 打开CLASS数据集 计算变量HEIGHT均值的90 和97 5 的置信区间 120 作业1参数估计 1 打开数据集FITNESS 用univariate过程求变量RUNTIME均值的点估计和置信度为95 97 5 的置信区间 打开CLASS数据集 用means过程计算变量WEIGHT均值的90 和97 5 的置信区间 假设检验的基本思想 投钱币的例子 统计假设检验的两类错误 一般 P 第I类错误 P 以真当假 a 在假设检验中 原假设是受保护的 限制第I类错误不超过a 证据不足时不能否认原假设 统计假设检验的基本步骤 确立和解决一个假设检验问题有以下几个步骤 1 根据问题确立原假设H0 NullHypo 和备择假设H1 AlternativeHypo 原假设是最初考虑的 受保护的 两者在逻辑上是对立的H0通常是一个等式 2 确定一个显著性水平a Significancelevel 它是衡量稀有性 小概率 的标准 常用a 0 05 0 10等 一个拒绝原假设所需要证据数量 或在传统检验法中 当构造的检验统计量大于由a得到的临界值 统计假设检验的基本步骤 3 收集证据 采样 选定合适的检验统计量 并由样本观测值计算统计量的观测值和衡量观测结果极端性的p值 如p P Z z 比如单总体均值检验中 当已知总体方差时 用Z统计量 总体方差未知时 用t统计量 4 运用决策规则判决 比较p和a作判断 p值 a 证据有力 拒绝原假设 p值 a 不能拒绝原假设 或接受原假设 在SAS系统中 用户只需根据软件提供的p值就可应用于不同的显著性水平 作出拒绝或接受原假设的决定 统计假设检验的基本步骤 传统的统计检验与显著性概率值 p值 设总体X N 2 随机样本Xi i 1 n 检验H0 0 0已知 H1 0 只考虑 2 20已知时均值的检验 传统的统计检验与显著性概率值 p值 取检验统计量为 按传统的检验方法 对给定的显著性水平 查标准正态分布表得临界值u 如 0 05时 u 1 96 使得u 满足 P Z u 如 0 05 则否定域为 Z u 传统的统计检验与显著性概率值 p值 由样本值xi i 1 n 计算X及Z值 若 Z u 则否定H0 否则H0相容 或者 当时否定H0 否则H0相容 传统的统计检验与显著性概率值 p值 利用统计软件 如SAS系统 还可以通过计算显著性概率值 p值 给出检验结果 且由此得出的结论更丰富 假设在H0成立情况下 检验统计量Z N 0 1 由样本值计算得到Z的绝对值为d 可以计算以下概率值 p P Z d 常称此概率值为显著性概率值 或简称为p值 对给定的显著性水平 当p值 时 则在显著性水平 下否定假设H0 在这种情况下 可能犯 以真当假 的第一类错误 且 就是犯第一类错误的概率 当p值 时 则在显著性水平 下H0相容 在这种情况下 可能犯 以假当真 的第二类错误 且犯第二类错误的概率 为 P Z u 当 1 0 其中检验统计量Z N a 1 传统的统计检验与显著性概率值 p值 传统的统计检验与显著性概率值 p值 p值的直观含义可以这样看 检验统计量 Z 的大小反映X与 0的偏差大小 当H0成立时 Z 值应较小 现由观测数据计算 Z 值为d 当H0成立时统计量Z N 0 1 由标准正态分布可以计算 Z d 的概率值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子宫瘢痕妊娠课件
- 年度安全检查培训总结
- 年度员工安全培训内容课件
- 辽宁公务员考试真题2025
- 威尼斯的小艇课件巴巴
- 平顶山安全生产培训课件
- Fmoc-GGFG-PAB-PNP-生命科学试剂-MCE
- Ferroptosis-inducer-8-生命科学试剂-MCE
- E-Z-Tamoxifen-N-β-D-glucuronide-d5-生命科学试剂-MCE
- 农发行丽水市缙云县2025秋招金融科技岗笔试题及答案
- 咖啡基础培训课件
- 人才服务合同书
- 2025年工会财务大赛理论题库(附答案)
- 2025-2026学年统编版八年级上册道德与法治教学计划含教学进度表
- 矿井顶板事故防治课件
- 2025年中国电力投资集团校园招聘笔试题型分析及备考策略
- 抗生素课件教学课件
- 销售法律知识培训
- 中国慢性胃炎诊治指南(2022年)解读
- 糖尿病低血糖症诊疗指南
- 直升机发动机油封课件
评论
0/150
提交评论