统计软件SAS基础2幻灯片.ppt_第1页
统计软件SAS基础2幻灯片.ppt_第2页
统计软件SAS基础2幻灯片.ppt_第3页
统计软件SAS基础2幻灯片.ppt_第4页
统计软件SAS基础2幻灯片.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

描述统计 描述统计概述 在对数据进行深入加工之前 应该对数据有所印象 可以借助于图形和简单的运算 来了解数据的一些特征 由于数据是从总体中产生的 其特征也反映了总体的特征 对数据的描述也是对其总体的一个近似的描述 大量的数字既繁琐又不直观 我们可以用 平均 差距 或百分比等来概括大量数字 由于定性变量主要是计数 比较简单 常用的概括就是比例或百分比 下面主要介绍关于定量变量的数字描述 2 17 34 58 常用的位置统计量 位置 一般是关于数据中某变量观测值的 中心位置 或者数据分布的中心 center或centertendency 和这种 位置 有关的统计量就称为位置统计量 locationstatistic 位置统计量不一定都是描述 中心 了 比如百分位数 常用的位置统计量有 样本均值 mean 样本中位数 median 它是数据按照大小排列之后位于中间的那个数 如果样本量为奇数 或者中间两个数目的平均 如果样本量为偶数 由于中位数不易被极端值影响 所以中位数比均值稳健 robust 上下四分位数 或分别称为第一四分位数和第三四分位数 firstquantile thirdquantile 则分别位于 按大小排列的 数据的上下四分之一的地方 样本中出现最多的数值 称为众数 mode 17 34 58 3 数值的分散程度 数据中数值的分散程度由尺度统计量 scalestatistic 来描述 尺度统计量是描述数据散布 即描述集中与分散程度或变化 spread或variability 的度量 统计中有许多尺度统计量 一般来说 数据越分散 尺度统计量的值越大 极差 range 就是极大值和极小值之间的差 两个四分位数之差 称为四分位数极差或四分位间距 interquantilerange 它描述了中间半数观测值的散布情况 另一个常用的尺度统计量为样本标准差 standarddeviation 度量样本中各数值到均值距离的一种平均 标准差实际上是方差 variance 的平方根 如果记样本中的观测值为x1 xn 则样本方差为 17 34 58 4 分布形状 反映分布形状 通常用偏度和峰度统计量 偏度是用于衡量分布的不对称程度或偏斜程度的指标当 0时为正偏或右偏 长尾巴拖在右边 当 0时为负偏或左偏 长尾巴拖在左边 偏度公式 17 34 58 5 若知道分布有可能在偏度上偏离正态分布时 可用偏离来检验分布的正态性 右偏时一般算术平均数 中位数 众数 左偏时相反 即众数 中位数 平均数 正态分布三者相等 峰度是用于衡量分布的集中程度或分布曲线的尖峭程度的指标 峰度指标 的计算公式如下 峰度指标 0时 表示分布比正态分布更集中在平均数周围 分布呈尖峰状态 0 分布为正态分布 0时 表示分布比正态分布更分散 分布呈低峰态 PP图 QQ图 许多统计方法要求变量服从正态分布 为此SAS提供了多种检验方法 主要有PP图 QQ图和一些非参数检验法 P P图 以样本的累计频率作为横坐标 以按正态分布计算的相应累计概率作为纵坐标 把样本值表现为坐标系中的散点 Q Q图 以样本的分位数作为横坐标 以按照正态分布计算的相应分位点作为纵坐标 把样本表现为坐标系的散点 如果数据服从正态分布 则PP QQ图中的散点应该基本呈一条直线状 SAS的univariate过程中用qqplot语句 probplot语句分别可画QQ图和PP图 还可以检验对数正态分布 lognormal选项 beta分布 beta选项 Weibull分布 weibull选项 17 34 58 6 非参数检验法 非参数检验法主要有Kolmogorov Smirnov检验 D检验 和Shapiro Wilk W检验 等 检验的原假设都是 总体服从正态分布 SAS中规定 当样本含量n 2000时 结果以Shapiro Wilk W检验 为准 当样本含量n 2000时 结果以Kolmogorov Smirnov D检验 为准 对于K S检验 SAS还可由UNIVARIATE过程的HISTOGRAM语句带上表示分布的关键词选项来实现对相应分布的检验 HISTOGRAM语句与分布对应的关键字选项有 beta 分布 具有 参数和 形状参数 exponential 指数分布 具有 两个参数 gamma 分布 具有 参数 lognormal 对数正态分布 具有 参数 normal 正态分布 具有 参数 weibulll 韦伯分布 具有 c参数 17 34 58 7 描述统计的实现方法 描述性统计就是主要分析变量集中 离散趋势以及探索变量的分布 SAS中有多种方法过程可以实现描述统计 这里简要介绍两种 UNIVARIATE等过程来计算描述性统计量 UNIVARIATE过程的一般形式 PROCUNIVARIATE 选择项 VAR变量表 BY变量表 FREQ变量 WEIGHT变量 ID变量表 OUTPUT 选择项 RUN 17 34 58 8 Univariate过程语法说明 选择项 为可选项 常用选项如下 1 data 指定SAS数据集 如果省略这一项 则指定最新建立的数据集 2 noprint 不打印输出到输出窗口 3 Vardef df wgt n wdf 方差计算中规定除数 df表示除数使用自由度 n 1 为默认值 weight wgt表示用权数和作为除数 n表示观测个体数 样本含量 做除数 wdf表示用权数和减1做除数 4 Freq 要求生产包含变量值 频数 百分数和累计频数的频数表 5 Normal 要求计算关于输入数据服从正态分布的假设的检验统计量 6 plot 生成直方图或茎叶图 一个盒形图和一个正态概率图 7 Pctldef 值 规定计算百分位数方法 取值为1 2 3 4和5 8 Round 指定变量数值四舍五入的单位 17 34 58 9 示例 某地区家庭中随机抽查了100户居民 调查到每户家庭人均收入数据 单位 百元 试用UNIVARIATE等过程对上述数据进行描述统计 程序如下dataincome inputx cards 27139628739946626929533042532422811322617632023040448712774234523164336343330436141388293464200392265403259426262221355324374347261287113135291176342443239302483231292373346293236223371287400314468337308359352273267277184286214351270330238248419330319440427314414299265318415372238323412493286313412run procunivariatedata incomeplotnormal varx run 输出结果分类整理为 矩 位置和变异性基本测度 位置检验 正态性检验 分位数 极值观测 图 七部分内容 17 34 58 10 对示例做KS检验 procunivariatedata incomenoprint 调用UNIVARIATE过程 varx 指定分析的变量 histogram noplot HISTOGRAM语句 不显示直方图 normal mu estsigma est 检验正态分布 参数使用估计值 lognormal zeta estsigma esttheta est 检验对数正态 exponential sigma esttheta est 检验指数分布 weibull sigma estc esttheta est 检验韦伯分布 run 17 34 58 11 过程FREQ 变量可分为数值型变量 连续型变量 和分类变量 离散型变量 而分类变量又分为名义变量 如性别分为 男 女 种族分为白 黄 黑 和有序变量 年级分为一 二 三 四 成绩等级分为优 良 中 差 对分类变量计算均值一般是无意义的 0 1变量的均值可看作占比 即便用数值表示类别也只是某些特征的代号 没有数值计算的意义 对这些变量 重要的是了解它们取哪些值以及取每个值的频数 过程FREQ就提供了这些方面的功能 FREQ过程产生一维至n维的频数表和列联表 对二维表计算统计量并进行检验 对n维表则作分层分析并在层内计算统计量 通过FREQ过程可以帮助分析变量值在数据中如何分布 FREQ过程还可用拟合优度检验方法讨论单个离散变量的分布 检验两个离散变量的独立性残联表检验 有序变量的关联性度量 17 34 58 12 Freq常用语法语法 FREQ过程常用语法语法格式PROCFREQ 选择项 TABLES变量表式 选择项 WEIGHT权重变量 OUTPUT 选择项 BY变量表 RUN 其中的TABLES语句是实现上述任务的关键 TABLES语句变量表式空格分隔的单独变量名或 连接的几个变量名组成 如 TABLESA BA C 等价于TABLESA BC WEIGHT语句通过权重变量来确定汇总的统计项目所对应的原始记录数 17 34 58 13 FREQ语法简要说明 1 FREQ语句的 选择项 为可选项 常用选项如下 Data 指定SAS数据集 用来说明要做FREQ的数据集名 如果省略这一项 则指定最新建立的数据集 ORDER FREQ DATA INTERNAL FORMATTED 此选项规定变量水平的记录排列次序 ORDER FREQ表示按频数下降的次序排列 最大的频数的水平第一个出现 ORDER DATA表示按输入数据集中出现的次序排列 ORDER INTERNAL表示按非格式化值的次序排列 ORDER FORMATTED表示按格式化值的次序 默认时为RDER INTERNAL 2 BY 指定分组变量 3 TABLES 指定需条件频数的变量表 可选的 选择项 提供一些专门的统计项目 4 WEIGHT 指定权重变量 5 OUTPUT 指定输出结果到数据集 17 34 58 14 TABLES语句的常用选项 TABLES语句的选项放在 的后面 主要有 CHISQ选项 对每组变量作卡方检验 包括Pearson卡方 似然比卡方和Mantel Haenszel卡方 还有与检验有关的关联指标包括Phi系数 列联系数和Cramer sV 对于2 2表 给出Fisher精确概率 注意 一般对单元格内最小频数T和样本总量n 当T 5且n 40选Person卡方检验 当140选连续校正卡方检验 当n 40或T 5 有的教材上称样本量小于30 时选Fisher精确检验 似然比卡方在大样本下与Person卡方近似 AGREE选项 进行配对卡方检验 ALPHA p选项 给出显著水平 EXACT选项 对大于2 2的列联表计算Fisher精确概率 同时也给出CHISQ选项的全部统计量 MEASURES选项 对每层的二维表计算一系列关联指标及相应的标准误 包括Pearson和Spearman相关系数 以及Gamma和Kendall系数等 对于2 2表 还给出常用的危险度指标及其标准误 CMH选项 给出Cochran Mantel Haenszel统计量 可检验在调整了TABLES语句中其它变量后 行变量与列变量之间的关联程度 对于2 2表 还给出相对危险度估计及其可信区间 还给出各层关联度指标是否齐性的Breslow检验 ALL选项 给出CHISQ MEASURES CMH所需的统计量 17 34 58 15 单变量频数统计与两变量交叉频数统计示例 对sashelp class数据集中的sex age变量作频数统计 程序procfreqdata sashelp class tablessexagesex age run 可以看到输出了sex age变量各自的频数表和交叉列联的频数表 17 34 58 16 单个离散变量的拟合优度卡方检验 检验离散变量的取值规律是否符合某种给定的比例 Pearson提出的卡方检验的零假设为 17 34 58 17 统计量为 其中 ni为事件Ai的观测频数 pi为事件Ai的频率 SAS的Freq过程中tables语句后跟 chisq选项 并用选项testp 变量各离散取值的概率 可完成离散变量与指定概率分布之间的拟合优度卡方检验 示例 某工厂近5年来发生了63次事故 按事故发生的星期号分类如表 问事故的发生是否与星期几有关 17 34 58 18 思路分析 采用拟合优度卡方检验六种情况发生的概率是否相等 H0 Pr X i 1 6 i 1 2 6 程序为 dataaccident inputnonum cards 1921031148513612run procfreqdata accident tablesno chisqtestp 0 16670 16670 16670 16670 16670 1667 weightnum run 示例的SAS输出结果分析 因为零假设H0为 Pr X i 1 6 i 1 2 6 由输出拟合优度卡方检验的统计量 2 1 667 p 0 8991 对于给定的显著性水平 0 05 p 所以接受H0 说明事故发生与星期几没有关系 注 检验的是等概率情形时 选项testp 可以省略 17 34 58 19 两个离散变量的列联表独立性检验 检验两个离散变量的取值是否独立 列联表卡方检验 检验的零假设为H0 离散变量X与变量Y相互独立 检验统计量 17 34 58 20 另外属性变量因为没有数值概念所以不能计算相关系数 但对于两个有序变量 SAS可以在FREQ语句后用measures选项计算类似于相关系数的关联性量度 其中一种关联性量度叫做KendalTau b统计量 取值在 1到1之间 值接近于1表示正关联 接近于 1表示负关联 接近于0表示没有相关关系 并且该统计量值加减两倍渐近标准误差ASE约可作为KendallTau b的95 置信区间 无序分类变量相关性度量 系数 在2x2表格中值为 1 1 但行或列数 2时 无界 列联系数c c 2x2表格 关联度 procfreqdata 数据集 tablesrow column chisqmeasures weightnum run 注意 若某单元格内频数 5或总数 30 应使用Fisher精确检验 列联表卡方检验示例 为了探讨吸烟与慢性支气管炎有无关系 调查了339人 情况表 17 34 58 21 程序为 databron inputsmoke bron num labelsmoke 吸烟 bron 慢支病 num 频数 cards 吸烟患病43吸烟不患病162不吸烟患病13不吸烟不患病121run procfreqdata bron tablessmoke bron chisqexactmeasures weightnum run 结果分析 零假设H0 吸烟与慢性支气管炎相互独立由输出结果中peraons卡方独立性检验统计量为 2 7 4688 p 0 0063 对于给定的显著性水平 0 05 p 故拒绝H0 即认为吸烟与患慢性支气管炎间不是相互独立的 17 34 58 22 相对危险度RR与比值比OR 判断结局 疾病 和暴露 因素 联系强弱的指标1 相对危险度 RR P Y 1 X 1 P Y 1 X 0 p1 p0p1 暴露于某个危险因素下发病的概率p0 不暴露于某个危险因素下发病的概率 对照 2 比值比 OR P Y 1 X 1 P Y 0 X 1 P Y 1 X 0 P Y 0 X 0 Y 1 患某种疾病 Y 0 不患某种疾病X 1 暴露于某个危险因素 X 0 不暴露于某个危险因素可以简单地表述成 OR p1 q1 p0 q0 p1 暴露于某个危险因素下发病的概率q1 暴露于某个危险因素下不发病的概率p0 不暴露于某个危险因素下发病的概率q0 不暴露于某个危险因素下不发病的概率注意 SAS仅对2x2表格进行RR估计 17 34 58 23 示例 为了判断患心脏病是否与吸烟有关调查了862个人调查结果如表 17 34 58 24 dataheart doa 1to2 dob 1to2 inputf output end end cards 243185156278run procfreq weightf tablesa b chisqRELRISK run a 1为患心脏病 a 2为未患心脏病 b 1为吸烟 b 2为不吸烟 示例 数据集Graduate sas7bdat中有研究生对自身所选专业的兴趣等因素的数据 试用列联表分析这些因素是否有关联 17 34 58 25 procfreqdata lib graduate tablesinterest major chisqmeasures exactFISHER MC FISHER检验要求较多内存 时间 用MontCaro模拟估计 run 注意 这里分析兴趣与专业关系时用的是未经汇总的原始记录表 故无需weight语句 另外非2x2表要做精确检验 必须明确用Fisher选项或exact语句告知SAS 本例输出结果中报告有不少单元格内频数少于5 卡方检验不准确 要看Fisher精确检验 发现检验概率非常小 故认为两变量有关 Kendall sTau b 0 6826 相关分析 相关关系是指在一定范围内 一个变量任一取值xi 虽然没有另一变量的某个确定值yi与之对应 但却有一个特定的yi的条件概率分布与之对应 此时称两变量有相关关系 相关模型中 无自变量与依变量的区别 不具有预测特性 仅表示两变量偕同变异 简单相关分析就是计算出两变量的相关系数以及对相关程度做显著性检验 原假设H0为 相关系数为 0 常见相关系数有Pearson Spearman和Kendall 等 Pearson相关系数通常是分析连续型变量且两变量都服从正态分布 Kendall 相关系数适用于两个均为有序分类变量情况 Spearman秩相关系数适用与不满足正态的连续变量或等级数据 相关系数在0 0 3 0 3 0 5 0 5 0 8和0 8 1内变动时 依次分别称为 轻微相关 低度相关 中度相关和高度相关 SAS系统的CORR过程能计算变量间的相关系数 包括Pearson Spearman Hoeffding Kendall等相关系数及其他统计量 17 34 58 26 不同类型变量的相关分析 一 两个连续变量的相关分析1 Pearson相关系数 积差相关系数 适用条件如下 1 两变量呈直线相关关系 如果是曲线相关可能不准确 2 极端值会对结果造成较大的影响 3 两变量符合双变量联合正态分布 2 Spearman秩相关系数对原始变量的分布不做要求 适用范围较Pearson相关系数广 即使是等级资料也可适用 但其属于非参数方法 检验效能较Pearson系数低 二 有序分类变量的相关分析有序分类变量的相关性又称为一致性 即行变量等级高的列变量等级也高 如果行变量等级高而列变量等级低 则称为不一致 常用的统计量有 Gamma Kendall的tau b Kendall的tau c等 三 无序分类变量的相关分析最常用的为卡方检验 用于评价两个无序分类变量的相关性 根据卡方值衍生出来的指标还有列联系数 Phi Cramer的V Lambda系数 不确定系数等 17 34 58 27 单相关 复相关和偏相关 单相关 两个因素之间的相关关系叫单相关 即研究时只涉及一个自变量和一个因变量 复相关 三个或三个以上因素的相关关系叫复相关 即研究时涉及两个或两个以上的自变量和因变量 在某一现象与多种现象相关的场合 当假定其他变量不变时 其中两个变量之间的相关关系称为偏相关 在一个多元相互作用的系统内 要考察两个变量之间的相关程度 就应该排除系统内其它变量的影响 计算出偏相关系数 SAS的CORR过程同样可以通过PARTIAL语句来控制其他变量的干扰 对两变量间的偏相关系数进行计算 17 34 58 28 CORR过程 一般格式 PROCCORRDATA 数据集名称 选项 VAR变量表 列出相关矩阵上部出现的变量 WITH变量表 列出相关矩阵左侧出现的变量 PARTIAL变量表 指明求偏相关系数时需控制的变量 WEIGHT变量 FREQ变量 BY变量 RUN 17 34 58 29 相关分析示例 某学校随机抽取18名学生 测定其智商 IQ 连同当年数学和语文成绩 数据见下表 试考察他们的相关性 17 34 58 30 数据输入 dataiq inputnomathchineseIQ cards 178839528476100361701004525875593821056897897798891108989512096561761073759211485361124543601367708814757896159597125168892113179992125188188102run 对示例数据画散点图计算相关矩阵 symbol1v dotcv redh 1 symbol2v starcv greenh 2 procgplotdata iq plotchinese IQ 1math IQ 2 overlay run quit 可以看到散点分步是否呈直线状 proccorrpearsonkendallspearman varmathchineseIQ run 结果 三个变量的三种相关系数的矩阵都算出来了 还做了显著性检验 H0 0 17 34 58 31 偏相关分析 排除IQ影响 考察math和chinese相关性 其他因素影响下的math和chinese相关系数 proccorrnosimple varchinese withmath run 去除IQ变量的影响 计算math和chinese的偏相关系数 proccorrnosimple varmathchinese partialIQ run 结果看到偏相关系数小得多 math和chinese分值关系没有原先那么密切 17 34 58 32 等级相关分析示例 简单相关分析和偏相关分析通常被广泛应用于定量数据或连续型数据的研究中 对于某些定性数据 尤其是顺序数据可以借助了非参数统计分析的思想 计算等级相关系数或秩相关系数 例 为评价目前我国高等院校研究生的教学和培养效果 研究生导师及研究生本人进行了研究生培养状况调查 数据详见Graduate sas7bdat数据集 考察研究生对自身所选专业的兴趣与其他因素之间的相关关系 具体变量情况如表6 2所示 17 34 58 33 SAS程序与结果 proccorrdata lib GraduateSpearmanKendallHoeffding 调用相关分析过程 其中关键字Spearman Kendall Hoeffdmg分别表示计算斯皮尔曼 肯德尔 霍夫丁相关系数 varInterestMajorTeachingTutor run 从斯皮尔曼和肯德尔两个相关系数的大小和方向来看 本例所分析的专业兴趣与其他变量的相关关系状况基本一致 17 34 58 34 Insight的数据探索功能 Insight是一个很强大的数据探索分析工具 它能联动的分析和图形化显示多个变量各自数字特征与相互之间的变化联系 Insight有非常强的图形功能 可以绘制如直方图或条形图 盒形图或散布图 连线图 等高线图 旋转图等 进一步Insight地还有分布拟合和检验 Distribution 线性模型的拟合 Fit 和多变量分析 multivariate 17 34 58 35 均值检验与比较 单样本均值的T检验的原理背景设总体X N 2 2未知 给定检验水平 对常数 0要检验 17 34 58 36 设X1 X2 Xn为X的简单随机样本 在H0成立时有 其中S为标准差 n为样本量 检验的拒绝域为 P值检验法 分位数t 2 n 1 满足P t t 2 n 1 设由已经得到的样本计算得到的t值为t0 若 t0 t 2 n 1 则拒绝H0 否则接受H0 对大量重复试验而言 t是随机变量 且服从t分布t n 1 当 t0 t 2 n 1 时 有 P t t0 Pr t t 2 n 1 令p Pr t t0 则 t0 所以 P值检验法为 对给定的显著水平 当p 时 接受H0 univariate过程检验均值估计置信区间 在SAS中可用univariate过程检验均值 默认做均值为零 0 0 的t检验 若要检验 0 则用过程选项 mu0 数值 另外 如要估计均值的置信区间 可再加上过程选项 cibasic alpha p值 示例Procunivariatedata sashelp classmu0 60cibasic alpha 0 01 Varweight Run 单变量方差的检验在SAS中没有直接的过程给予计算 可自己编程实现 在SAS9 3之前INSIGHT和Analyst模块中都可以方便实现计算 但SAS9 4后都不支持了 17 34 58 37 单变量方差检验示例 检验DX 10 DX 10 procmeansdata tmp varx outputout ht1vn nobs mean mean std std var var run datavstat setht1v df nobs 1 chisq df var 10 此10为检验值 prob probchi chisq df prob 2 min 1 prob prob two tailedprobability fileprint put 5 SampleStatisticsforx 11 N 18 Mean 28 Std Dev 43 Variance 8 nobs 4 16 mean best6 30 std best6 44 var put 5 HypothesisTest 8 Nullhypothesis 32 Varianceofx 10 8 Alternative 32 Varianceofx 10 put 15 Chi square 32 Df 42 Prob 15chisq8 3 28df6 40probpvalue7 4 run 17 34 58 38 datatmp inputx cards 3422163432293547536run prob 1 probchi chisq df 右侧检验 两独立样本均值检验 TTest过程 假设两组样本来自两个独立总体 需要检验两个总体的均值或中心位置是否一样 如果两个总体都服从正态分布 则可使用两独立样本均值的T检验 方差齐性检验的零假设为 0 两个独立样本的来自方差相等的总体 即 12 22 检验统计量为 17 34 58 39 方差齐时 检验两样本的均值是否相同的零假设为H0 两个独立样本的来自均值相等的总体 即 1 2 方差不齐时 检验两样本均值是否相同 用校正t检验 检验零假设为H0 两独立样本来自均值相等的总体 即 1 2 Ttest过程 格式 PROCTTEST 选项 CLASS变量名 pairedvariables 进行配对均值比较的变量 以交乘项形式出现 VAR变量名 BY变量名 RUN 说明 1 proc语句中的 选项 有 Data 数据集 指明要分析的数据集 Cochran要求在方差不齐时用Cochran和Cox法计算t 检验的概率水平 选项sides 2 L U 表示双侧 单侧检验 2 Class语句中的变量必须是一个两水平的分组变量 系统会把数据集中的观测按这个变量的两个水平分成比较的两组 3 by语句和var语句作用同前 4 paired语句指定要配对比较均值的变量 以X Y形式出现 17 34 58 40 示例 测得11例克山病人与13名健康人的血磷值 mmol L 如表 据此判断该地急性克山病人与健康人的血磷值是否相同 17 34 58 41 程序为 dataxuelz inputgroup x cards a0 84a1 05a1 2a1 39a1 53a1 67a1 8a1 87a2 07a2 11b0 54b0 64b0 64b0 76b0 81b1 16b1 2b1 34b1 35b1 48b1 58b1 87run procunivariatedata xuelznormal varx bygroup run procttestdata xuelz varx classgroup run 结果分析 1 先作正态性检验如下 零假设为Ho 患者组的血磷值变量x服从正态分布 其中患者组的shapiro wilk检验的统计量为w 0 959147 检验的p 0 7610 0 05 故接受零假设 即有95 把握认为x正态 零假设为Ho 健康组的血磷值变量x服从正态分布 其中健康组的shapiro wilk检验的统计量为w 0 927983 检验的p 0 3207 0 05 故接受零假设 即有95 把握认为x正态 2 因此可采用两独立样本均值的T检验 由ttest过程输出先作方差齐性检验如下 0 患者组和健康组来自方差相等的总体 即检验的统计量F 1 01 P 1 000 0 05 故应接受零假设 即有95 把握认为患者组和健康组方差满足齐性 再作T检验 H0 患者组和健康组来自均值相等的总体 即 选择方差齐性一行的结果知t 2 51 p 0 02 0 05 故应拒绝零假设 即有95 把握认为患者组与健康组血磷值的均值有显著差异 且是患者组比健康组的均值要高 17 34 58 42 两相关样本均值检验 Univariate过程 适用于有两种情况 一种是将研究对象按一定的条件先配对 每对中的两个对象随机分配到实验组和对照组 一个试验由若干对组成 称为配对试验设计 另一种情况是同一批研究对象经过某种处理前后的指标值比较 或者是同一批样品经过两种不同方法的测定结果的比较 此时这两个变量不再独立 而是相关的 检验两个相关变量的均值是否相等 等价于检验这两个变量间的差值变量的均值是否为零 当差值变量服从正态分布时 可用配对样本T检验的统计量为 17 34 58 43 其中X为两个样本的差值变量 S分别为X的均值和标准差 为了检验两个相关样本的均值是否有显著差异 先用一个数据步计算差值 然后对差值变量用univariate过程可以实现检验差值变量的均值是否显著为零 示例 用克矽平雾化吸入治疗矽肺患者7人 没得治疗前后的血清粘蛋白 mg L 7对观测值如表 据此能否认为治疗会引起血清蛋白的变化 0 05 17 34 59 44 dataxueqdb inputx1x2 x x1 x2 cards 6534733673373026734356377350run procunivariatedata xueqdbnormal varx run 或 procttestdata xueqdb pairedx1 x2 run 分析 先作正态性检验如下 由输出结果知shapiro wilk检验的统计量为w 0 896832 检验的p 0 3122 0 05 故应接受零假设 即有95 把握认为x正态 故采用两相关样本均值T检验 H0 治疗前后的差值变量x的均值为0 由输出结果知T检验的统计量t 5 879298 双边检验的p值为0 0011 0 05 故拒绝原假设 即有95 的把握认为治疗后血清蛋白有下降 示例 检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量 在一个农场中选择了10块田地 每块等分为两部分 其中任指定一部分使用新的复合肥料 另一部分使用原肥料 小麦成熟后称得各部分小麦的产量如表 用符号检验法检验新复合肥是否会显著提高小麦产量 0 05 17 34 59 45 程序为 dataxiaomai inputx1x2 diff x1 x2 cards 459414367306303321392443310281362301421353450391430401412380run procunivariatedata xiaomainormal vardiff run 分析 先作正态性检验如下 由输出结果知shapiro wilk检验的统计量为w 0 835307 检验的p 0 0388 0 05 故应拒绝零假设 即有95 把握认为差值变量diff不服从正态分布 故采用符号秩非参数检验 H0 差值变量diff的均值为0 由输出结果知符号秩检验的统计量S 20 5 双边检验的p值为0 0332 0 05 故拒绝原假设 即有95 的把握认为新复合肥会显著提高小麦产量 方差分析概述 方差分析可看成是均值检验的发展 用来研究分类变量 因素 对数值型变量 指标 有无显著性影响 使用方差分析 可以找出哪些因素对于实验结果具有明显影响 还可以确定因素的哪个取值导致的结果更好一些 方差分析的核心思想是 把样本与平均值的离差平方和分解为两部分 一部分来源于不同因素之间的差异 另一部分来源于同组之内的差异 如果来自于不同因素之间的差异占到一个比较大的比例 那么就有理由相信各个因素之间是具有明显差异的 方差分析中所作的原假设H0是 各个数据分组之间无明显差异 可用F检验对其进行判断 46 17 34 59 单因素方差分析 单因素方差分析是前节我们讨论过两个独立样本均值检验的一个自然延续 当有一个分类变量把观测分为多组 不止2组 时 这时要检验多组独立样本均值有无显著性差异 等价于检验这个因素的各个取值水平会不会影响到指标的取值 单因素方差分析模型 17 34 59 47 其中 i i 是分类变量 因子A 的第i个水平的效应 零假设H0 1 2 r 0 平方和分解式 St S SA即总偏差平方和 误差的偏差平方和 因子A的偏差平方和 统计量 单因素方差分析的前提条件是独立性 正态性和方差齐性 方差分析的主要任务 1 检验在各个水平下的均值是否相等 即检验 H0 1 2 t H1 1 2 t不全相等 2 作出未知参数 1 2 t 2的估计 17 34 59 48 称 为总平均 称 为因素A在第i个水平Ai下的主效应 它反映了在水平Ai下总体均值与总平均的差异 显然 anova过程 对满足独立性 正态性和方差齐性的均衡数据 可用anova过程来完成方差分析 一般格式为 Procanovadata 数据集名 Class因素变量 Model指标变量 因素变量效应表 Means因素变量 hovtest leveneLSD Run 17 34 59 49 示例 为寻求适应本地区的高产油菜品种 今选了五种不同品种进行试验 每一品种在四块试验田上试种 得到在每一块田上的亩产量如表 17 34 59 50 试问不同品种的平均亩产是否相同 0 05 程序 dataa inputpz x cards a1256a1222a1280a1298a2244a2300a2290a2275a3250a3277a3230a3322a4288a4280a4315a4259a5206a5212a5220a5212run procunivariatedata anormal varx bypz run procanovadata a classpz modelx pz meanspz thovtest levene 多重比较T检验 LSD 与levene方差齐性检验 run quit 结果分析 1 正态性检验 Ho 第1组数据服从正态分布 由输出结果中shapiro wilk统计量为w 0 975665 p 0 8762 0 05 故接受Ho 即第1组数据服从正态分布 类似可得第二 三 四 五组数据的shapiro wilk统计量为w 0 937882 0 964898 0 985353 0 935122 检验的p 0 6415 0 8097 0 9326 0 6248 0 05 故这四组数据也服从正态分布 2 方差齐性检验 Ho 5组数据的方差相等 正态分布由Leneve方差齐性检验的F 1 53 p 0 2451 0 05 故这5组数据满足方差齐性 3 方差分析 Ho 5组数据的均值相等 由方差分析表中F 4 31 p 0 0162 0 05 故拒绝Ho 即不同品种的油菜的平均亩产有显著差异 17 34 59 51 非参数单因素方差分析 方差分析中的正态性或方差齐性不能满足时 可采用非参数检验方法 如Krushal Wallis检验 这种检验不要求数据来自正态总体 也不要求各组的方差齐 甚至指标可以是有序变量 只有大小 没有差距如大 中 小 或很好 好 一般 不好 很不好等 在SAS软件中可以使用npar1way过程 用选项wilcoxon进行非参数Krushal Wakkus检验 多组数据 或wilcoxon检验 两组数据 17 34 59 52 npar1way过程 一般格式为 Procnpar1waydata 数据集wilcoxon Class因素变量 Var指标变量 Run 注 这种用法与4 1 3节中两个独立样本比较是完全一样的 当因素为两个水平时 npar1way过程执行wilxocon的秩和检验 当多个水平时执行Krushal Wallis检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论