




已阅读5页,还剩93页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章SAS基本统计分析功能 返回 目录 4 1假设检验4 2回归分析4 3方差分析4 4属性数据分析 返回 4 1假设检验 正态性检验 univariate过程 单样本均值的T检验 univariate过程 两独立样本均值检验 TTest过程 npar1way过程 两相关样本均值检验 Univariate过程 返回 4 1 1正态性检验 univariate过程 1 背景原理 正态分布是一种最常见的连续型分布它以均值为对称轴呈对称的钟型分布 检验的零假设Ho 数据资料服从正态分布 备择假设H1 数据资料不服从正态分布 当样本量n 2000时 应选用shapiro wilk检验法 检验统计量为W值越接近于1 P值越大 表明资料越服从正态分布当n 2000时 应用Kolmogorov smirnov检验法 检验统计量为D值越小 P值越大 表明资料越服从正态分布 2 举例 在procunivariate语句中加上normal选项可以进行正态性检验 例1 检验数据集sasuser gpa中变量gpa是否服从正态分布 输出结果中正态检验部分为 分析 检验的零假设为Ho gpa变量服从正态分布 其中shapiro wilk检验的统计量为w 0 966294 检验的p值小于0 0001 当然小于给定的显著性水平 0 05 故应拒绝零假设 即有95 把握认为gpa非正态 说明 使用SAS软件中的 分析家 打开数据集后 利用菜单 统计 描述性统计 分布 除了可以检验变量是否服从正态分布外 还可以检验对数正态 指数和韦布尔分布 4 1 2单样本均值的T检验 univariate过程 1 原理背景设总体X N 2 2未知 给定检验水平 对常数 0要检验零假设为设X1 X2 Xn为X的简单随机样本 在H0成立时有其中S为变量的标准差 n为样本量 检验的拒绝域为 补充P值检验法 分位数t1 2 n 1 满足Pr t t1 2 n 1 设由已经得到的样本具体计算得到的t值为t0 若 t0 t1 2 n 1 则拒绝H0 否则接受H0 对大量重复试验而言 t是随机变量 且服从t分布t n 1 当 t0 t0 Pr t t1 2 n 1 反之亦然 令p Pr t t0 则 t0 所以 假设检验的p值方法为 对给定的显著水平 当p 时 接受H0 2 应用举例 在SAS中用univariate过程默认进行某个变量均值为零 0 0 的t检验 若要检验 0 则需进行变量代换 例2 检验数据集sasuser class中学生的身高均值与63有无显著性差异 输出结果为 分析 先作正态性检验 Ho 变量y服从正态分布 其中shapiro wilk检验的统计量为w 0 979083 检验的p值 0 9312 0 05 故应接受零假设 即有95 把握认为变量y正态 故采用单样本均值T检验 对变量y的零假设为Ho 0 0 由输出结果知T检验的统计量t 0 5638 双边检验的p值为0 5798 0 05 故接受原假设 即有95 的把握接受学生的平均身高为63 说明 当变量服从正态分布时 优先采用t检验 当变量服从非正态时 可以采用符号秩 signedRank 检验 符号检验 sign 的检验功效较差 一般不常用它 对同一问题不同的检验方法一般是一致的 但有时也有互相矛盾的结果 使用SAS软件中的分析家 打开数据集后 利用菜单 统计 假设检验 均值的单样本T检验 可以进行双边和单边检验 4 1 3两独立样本均值检验 TTest过程 npar1way过程 1 原理背景假设两组样本来自两个独立总体 需要检验两个总体的均值或中心位置是否一样 如果两个总体都服从正态分布 则可使用两独立样本均值的T检验 两个样本方差相等与不相等时使用的检验统计量是不一样的 所以应该先对方差的齐性进行检验 设两个样本的均值为 方差为 观测量为有关公式如下 方差齐性检验的零假设为 0 两个独立样本的来自方差相等的总体 即 检验统计量为 4 1 3两独立样本均值检验 TTest过程 npar1way过程 方差齐时 检验两样本的均值是否相同的零假设为H0 两个独立样本的来自均值相等的总体 即 检验统计量为其中为合并方差 方差不齐时 检验两样本的均值是否相同 用校正t检验 检验零假设为H0 两个独立样本的来自均值相等的总体 即 检验统计量为 2 Ttest过程 格式 PROCTTEST 选项 CLASS变量名 VAR变量名 BY变量名 RUN 说明 1 proc语句中的 选项 有 Data 数据集 指明要分析的数据集 Cochran要求在方差不齐时用Cochran和Cox法计算t 检验的概率水平 2 Class语句中的变量必须是一个两水平的分组变量 系统会把数据集中的观测按这个变量的两个水平分成比较的两组 3 by语句和var语句作用同前 例3 某克山病区测得11例克山病人与13名健康人的血磷值 mmol L 如表 据此判断该地急性克山病人与健康人的血磷值是否相同 输出为 分析 1 先作正态性检验如下 零假设为Ho 患者组的血磷值变量x服从正态分布 其中患者组的shapiro wilk检验的统计量为w 0 959147 检验的p 0 7610 0 05 故应接受零假设 即有95 把握认为x正态 零假设为Ho 健康组的血磷值变量x服从正态分布 其中健康组的shapiro wilk检验的统计量为w 0 927983 检验的p 0 3207 0 05 故应接受零假设 即有95 把握认为x正态 分析 2 因此可采用两独立样本均值的T检验 由ttest过程输出先作方差齐性检验如下 0 患者组和健康组来自方差相等的总体 即 检验的统计量F 1 01 P 1 000 0 05 故应接受零假设 即有95 把握认为患者组和健康组方差满足齐性 再作T检验 H0 患者组和健康组来自均值相等的总体 即 选择方差齐性一行的结果知t 2 51 p 0 02 0 05 故应拒绝零假设 即有95 把握认为患者组与健康组血磷值的均值有显著差异 且是患者组比健康组的均值要高 注 使用SAS软件中的 分析家 打开数据集后 利用菜单 统计 假设检验 均值的双样本T检验 可以进行单边和双边检验 如果数据不服从正态分布可以采用非参数检验 检验两个独立样本的中心位置是否相同的非参数方法有wilxocon秩和方法 使用npar1way过程加wilcoxon选项 如教材P123 例4 检验数据集sasuser gpa中男 女生的gpa分数有无显著差异 分析 在例1中我们讨论过变量gpa是非正态分布 故要采用wilxocon秩和非参数检验方法 零假设为H0 男生和女生来自中心位置相同的总体 由输出结果的wilcoxon秩和检验中用正态近似得到的双边检验的z 0 5276 p 0 5978 0 05 故应接受零假设 即有95 把握认为男生和女生的gpa无显著性差异 4 1 4两相关样本均值检验 Univariate过程 1 原理背景相关样本的有两种情况 一种是将研究对象按一定的条件先配对 每对中的两个对象随机分配到实验组和对照组 一个试验由若干对组成 称为配对试验设计 另一种情况是同一批研究对象经过某种处理前后的指标值比较 或者是同一批样品经过两种不同方法的测定结果的比较 此时这两个变量不再独立 而是相关的 4 1 4两相关样本均值检验 Univariate过程 检验两个相关变量的均值是否相等 等价于检验这两个变量间的差值变量的均值是否为零 当差值变量服从正态分布时 可用配对样本T检验的统计量为其中X为两个样本的差值变量 S分别为差值变量的均值和标准差 2 实例分析 为了检验两个相关样本的均值是否有显著差异 先用一个数据步计算差值 然后对差值变量用univariate过程可以实现检验差值变量的均值是否显著为零 例5 用克矽平雾化吸入治疗矽肺患者7人 没得治疗前后的血清粘蛋白 mg L 7对观测值如表 据此能否认为治疗会引起血清蛋白的变化 0 05 输出部分结果 分析 先作正态性检验如下 零假设为Ho 差值变量x服从正态分布 由输出结果知shapiro wilk检验的统计量为w 0 896832 检验的p 0 3122 0 05 故应接受零假设 即有95 把握认为x正态 故可采用两相关样本均值T检验 H0 治疗前后的差值变量x的均值为0 由输出结果知T检验的统计量t 5 879298 双边检验的p值为0 0011 0 05 故拒绝原假设 即有95 的把握认为治疗后血清蛋白有下降 注 使用SAS软件中的 分析家 打开数据集后 利用菜单 统计 假设检验 均值的双样本成对T检验 除了可以进行单边和双边检验 如果数据不服从正态分布可以采用非参数检验 如符号检验 符号秩检验 在SAS中可用univariate过程实现 例6 为了检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量 在一个农场中选择了10块田地 每块等分为两部分 其中任指定一部分使用新的复合肥料 另一部分使用原肥料 小麦成熟后称得各部分小麦的产量 单位 kg 如表 用符号检验法检验新复合肥是否会显著提高小麦产量 0 05 分析 先作正态性检验如下 零假设为Ho 差值变量diff服从正态分布 由输出结果知shapiro wilk检验的统计量为w 0 835307 检验的p 0 0388 0 05 故应拒绝零假设 即有95 把握认为差值变量diff不服从正态分布 故采用符号秩非参数检验 H0 差值变量diff的均值为0 由输出结果知符号秩检验的统计量S 20 5 双边检验的p值为0 0332 0 05 故拒绝原假设 即有95 的把握认为新复合肥会显著提高小麦产量 作业 P157习题1 3 5 7 4 2方差分析 4 2 1单因素方差分析4 2 2非参数单因素方差分析4 2 3多因素方差分析思路 检验多组独立样本均值有无显著性差异 等价于检验这个因素的各个取值水平会不会影响到指标的取值 4 2 1单因素方差分析 1 背景简介单因素方差分析模型 其中为分类变量 因子A 的第i个水平的效应 零假设平方和分解式 即总偏差平方和 误差的偏差平方和 因子A的偏差平方和统计量 4 2 1单因素方差分析 前提条件是独立性 正态性和方差齐性 当数据满足这些条件时 可采用anova过程来进行单因素方差分析 一般格式为 Procanovadata 数据集名 Class因素变量 Model指标变量 因素变量效应表 Means因素变量 hovtest levene Run 2 案例分析 例1 摘自魏宗舒 概率论与数理统计 例8 1 为寻求适应本地区的高产油菜品种 今选了五种不同品种进行试验 每一品种在四块试验田上试种 得到在每一块田上的亩产量如表 试问不同品种的油菜的平均亩产是否相同 0 05 分析 1 正态性检验 Ho 第1组数据服从正态分布 由输出结果中shapiro wilk统计量为w 0 975665 p 0 8762 0 05 故接受Ho 即第1组数据服从正态分布 类似可得第二 三 四 五组数据的shapiro wilk统计量为w 0 937882 0 964898 0 985353 0 935122 检验的p 0 6415 0 8097 0 9326 0 6248 0 05 故这四组数据也服从正态分布 2 方差齐性检验 Ho 5组数据的方差相等 正态分布由Leneve方差齐性检验的F 1 53 p 0 2451 0 05 故这5组数据满足方差齐性 3 方差分析 Ho 5组数据的均值相等 由方差分析表中F 4 31 p 0 0162 0 05 故拒绝Ho 即不同品种的油菜的平均亩产有显著差异 4 2 2非参数单因素方差分析 前节方差分析中的正态性或方差齐性不能满足时 可采用非参数检验方法 如Krushal Wallis检验 这种检验不要求数据来自正态总体 也不要求各组的方差齐 甚至指标可以是有序变量 只有大小 没有差距如大 中 小 或很好 好 一般 不好 很不好等 在SAS软件中可以使用npar1way过程 进行非参数Krushal Wallis检验 一般格式为 Procnpar1waydata 数据集wilcoxon Class因素变量 Var指标变量 Run 注 当因素为两个水平时 npar1way过程执行wilxocon的秩和检验 当多个水平时执行Krushal Wallis检验 例2 对上例1采用Krushal Wallis检验法 检验不同品种的油菜的平均亩产是否相同 0 05 分析 零假设H0 不同品种的油菜的平均亩产相同由输出结果中的Krushal Wallis检验的统计量 2 9 9185p 0 0418 0 05 故拒绝H0 即不同品种的油菜的平均亩产有显著不同 注 在同等条件下Krushal Wallis检验的功效比方差分析工效低 所以此处p值0 0418比方差分析中的p值0 0162要大 4 2 3多因素方差分析 原理说明 固定水平的双因素方差分析模型 检验因素A的主效应显著性的原假设和统计量为 其它同理类似 例3 为了提高一种橡胶的定强 考虑三种不同的促进剂 因素A 四种不同分量的氧化锌 因素B 对定强的影响 对配方的每种组合重复试验两次 总共试验了24次 得到如下表 试分析因素A和因素B的主效应和交互效应 以及最好的实验配方 分析 1 对于检验促进剂 因素A 的主效应 H0 三种促进剂对橡胶的定强的主效应为0 由输出结果的详细方差分析表中 因素A对应的F统计量为19 40 p值为0 0002 小于给定的显著性水平 0 05 故因素A对橡胶定强的主效应是显性的 同理可得氧化锌 因素B 的主效应是显著的 A和B的交互效应不显著 2 为了得到最好配方 由输出结果的每种水平下 指标定强stren的均值 可得促进剂 因素A 在第3水平使指标达最大值 氧化锌在第4水平时使指标达最大 故最佳配方为 第3种促进剂和第4种氧化锌分量 作业 P16015 16 17 4 3回归分析 4 3 1直线回归4 3 2非线性回归4 3 3二分类变量的Logistic回归 4 3 1直线回归 1背景概述 多元线性回归分析简介 假定因变量y与k个解释变量x1 x2 xk具有线性关系 即总体回归模型 或样本回归模型 残差 最小二乘法 总离差平方和的分解式 总平方和TSS 解释平方和ESS 残差平方和RSS即判定系数 回归模型的显著性检验 F检验 Ho b1 b2 bk 0 H1 b1 b2 bk至少有一个不为0 检验统计量变量 如xi 显著性检验 t检验 H0 bi 0 H1 bi 0检验统计量 2 reg过程 格式 Procregdata 数据集名选项 Var可参与建模的变量列表 Model因变量 自变量表 选项 Print输出结果 Plot诊断图形 Run 3 应用举例 例1 对数据集sasuser class中建立以weight为因变量 height和age为自变量的线性回归模型 并作简要回归分析 思路 先考察weight与height age间的线性关系 可用散点图和相关分析 确定有线性关系后再作回归分析 分析 由散点图和相关分析可知weight和height age间有较强的线性关系 1 回归方程为 判定系数 说明因变量Y的变异中由模型能解释的部分占到77 29 模型拟合效果较好 2 回归模型的显著性检验检验的零假设Ho b1 b2 0 由输出结果的方差分析表中F统计量为27 23 检验的p值小于0 0001 在 0 05的显著性水平下 应拒绝H0 说明模型是显著成立的 分析 3 变量的显著性检验对变量height而言 检验的零假设Ho b1 0 由输出结果的参数估计部分的t统计量值为3 97 双边检验p值为0 0011 所以在 0 05的显著性水平下 应拒绝H0 说明height变量对weight变量有显著性影响 类似可得对变量age t统计量值为 0 41 双边检验p值为0 6865 在 0 05的显著性水平下 应接受H0 说明模型是age变量对weight变量影响不显著性 说明 1 如果要自动挑选最优变量 可在model语句中增加选项 selection 选择方法 选择方法有none 全用 默认 forward 逐步引入法 backward 逐步剔除法 stepwise 逐步筛选法 等 如modelweight heightage selection stepwise run 2 要输出其它结果可以print语句 如PrintcliRun 说明 3 若是一元线性回归 可以在因变量和自变量的散点图上加上回归直线和均值置信界限 程序如下 procregdata sasuser class modelweight height plotweight height conf95 run 4 若是要输出多元线性回归中残差对预测值诊断图 可用如下语句 plotresidual predicted run 4 3 2非线性回归 许多情况下变量间呈曲线关系 求解变量间的曲线关系的方程 可以直接拟合所选择的曲线方程式 但有时也可以变量代换成直线方程 再应用直线回归的方法求解 例2 某地大气中氰化物测定结果如下 散点图分析表明Y和X间呈现指数函数关系案 现求回归方程 方法一 分析 logy与x间的直线回归方程为 代入logy log10y 得指数方程为 方法二 分析 指数方程为 4 3 3二分类变量的Logistic回归 Logistic过程 模型简介 设P为某事件发生的概率 取值范围为0 1 1 p为事件不发生的概率 将比数p 1 p 取自然对数得ln p 1 p 即Logit变换 记为LogitP 则LogitP的取值范围为 到 以LogitP为因变量 建立线性回归模型为 记 则模型变形为 数据要求 因变量为二分类变量 自变量可以是分类变量或等间隔测度的变量 例8 3 数据集data09 02 sav是乳腺癌患者的数据 变量包括 age 年龄 time 患病时间 pathscat 肿瘤扩散等级 pathsize 肿瘤大小 histgrad 肿瘤史 ln yesno 癌变部位的淋巴结是否含有癌细胞 建立一个Logistic模型 并预测一个肿瘤大小为1cm 肿瘤史为1年 肿瘤扩散等级 2cm患病时间为1个月的60岁人癌变部位的淋巴结是否含有癌细胞 给定显著性水平 0 05 结果分析 结论 Logistic回归模型拟合结果为 则故该病人癌变部位的淋巴结会含有癌细胞 作业 P15016补充 某调查中收集了350大学生的数据信息 研究恋爱与否 变量V 与年龄 age 地区 Location 各科平均成绩 score 性别 sex 及身高 height 等变量的关系 各变量定义如下 假设收集数据如下表 试建立Logistic模型 并分析22岁农村男生 身高170cm 平均成绩为560时的恋爱概率 4 4属性数据分析 4 4 1单个离散变量的拟合优度卡方检验4 4 2两个离散变量的列联表独立性检验4 4 3两个离散变量的关联度分析 4 4 1单个离散变量的拟合优度卡方检验 1 功能 检验离散变量的取值规律是否符合某种给定的比例 Pearson提出的卡方检验的零假设为 统计量为 其中 ni为事件Ai的观测频数 pi为事件Ai的频率 例1 某工厂近5年来发生了63次事故 按事故发生的星期号分类如下 问事故的发生是否与星期几有关 思路分析 采用拟合优度卡方检验六种情况发生的概率是否相等 H0 Pr X i 1 6 i 1 2 6 结果分析 零假设H0 Pr X i 1 6 i 1 2 6 由输出拟合优度卡方检验的统计量 2 1 667 p 0 8991 对于给定的显著性水平 0 05 p 所以接受H0 说明事故发生与星期几没有关系 注明 检验的是等概率情形时 选项testp语句可以省略 4 4 2两个离散变量的列联表独立性检验 1 列联表的输入与制表列联表的概念 根据两个离散变量的交叉分类取值把样本进行分类 得到每一小类的观测个数制成表格的形式称为列联表 如根据学生的性别和来源把学生分为4组 得到如下统计表 方式一 枚举法 每一行为一个样本观测 即一个学生的信息记录 然后使用freq过程可以制成列联表 使用tables语句指定行变量和列变量 方式二 频数表法 没有具体每行样本观测的信息 只有汇总的频数表 则需要设置一个代表观测频数的变量 然后使用freq过程可以制成列联表 使用tables语句指定行变量和列变量 weight语句指定单元格频数变量 两种方式的输出结果一样 如下图 每一个格子中有4个数 Frequency 频数 percent 百分比 RowPct 行百分比 ColPct 列百分比 在表的右侧有行总计的频数及百分比 在表的下侧有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 元旦营销策划方案(3篇)
- 高端人群保险营销方案(3篇)
- 内网安全培训课件
- 化学品上岗安全培训课件
- 5G无线资源动态分配-洞察及研究
- 创伤的救治流程
- 化学仪器室安全守则培训课件
- 七年级上册(2024) 第二单元 写作 学会记事 公开课一等奖创新教案+(共18张)
- 2025年秋部编版语文四上 语文园地七(公开课一等奖创新教案+)
- 12 在牛肚子里旅行(+公开课一等奖创新教案+备课素材)
- 中国禁毒法课件
- 浅谈机关干部身心健康
- 湖南省多测合一收费指导标准(试行)2024年版
- 企业融资培训课件
- 期货技术指标培训课件
- 项目融资合同及还款计划安排说明
- 咖啡知识培训课件
- 施工进度管理的措施
- 富时新加坡海峡时报指数历史行情(1999年08月31日-2025年3月28日)
- 换药室工作制度
- DB42∕T 1496-2019 公路边坡监测技术规程
评论
0/150
提交评论