SAS04 SAS基本统计分析功能.ppt

上传人：a*** IP属地：河南上传时间：2020-02-25 格式：PPT 页数：98 大小：1004KB 积分：24 举报 版权申诉

已阅读5页，还剩93页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章SAS基本统计分析功能返回目录 4 1假设检验4 2回归分析4 3方差分析4 4属性数据分析返回 4 1假设检验正态性检验 univariate过程单样本均值的T检验 univariate过程两独立样本均值检验 TTest过程 npar1way过程两相关样本均值检验 Univariate过程返回 4 1 1正态性检验 univariate过程 1 背景原理正态分布是一种最常见的连续型分布它以均值为对称轴呈对称的钟型分布检验的零假设Ho 数据资料服从正态分布备择假设H1 数据资料不服从正态分布当样本量n 2000时应选用shapiro wilk检验法检验统计量为W值越接近于1 P值越大表明资料越服从正态分布当n 2000时应用Kolmogorov smirnov检验法检验统计量为D值越小 P值越大表明资料越服从正态分布 2 举例在procunivariate语句中加上normal选项可以进行正态性检验例1 检验数据集sasuser gpa中变量gpa是否服从正态分布输出结果中正态检验部分为分析检验的零假设为Ho gpa变量服从正态分布其中shapiro wilk检验的统计量为w 0 966294 检验的p值小于0 0001 当然小于给定的显著性水平 0 05 故应拒绝零假设即有95 把握认为gpa非正态说明使用SAS软件中的分析家打开数据集后利用菜单统计描述性统计分布除了可以检验变量是否服从正态分布外还可以检验对数正态指数和韦布尔分布 4 1 2单样本均值的T检验 univariate过程 1 原理背景设总体X N 2 2未知给定检验水平对常数 0要检验零假设为设X1 X2 Xn为X的简单随机样本在H0成立时有其中S为变量的标准差 n为样本量检验的拒绝域为补充P值检验法分位数t1 2 n 1 满足Pr t t1 2 n 1 设由已经得到的样本具体计算得到的t值为t0 若 t0 t1 2 n 1 则拒绝H0 否则接受H0 对大量重复试验而言 t是随机变量且服从t分布t n 1 当 t0 t0 Pr t t1 2 n 1 反之亦然令p Pr t t0 则 t0 所以假设检验的p值方法为对给定的显著水平当p 时接受H0 2 应用举例在SAS中用univariate过程默认进行某个变量均值为零 0 0 的t检验若要检验 0 则需进行变量代换例2 检验数据集sasuser class中学生的身高均值与63有无显著性差异输出结果为分析先作正态性检验 Ho 变量y服从正态分布其中shapiro wilk检验的统计量为w 0 979083 检验的p值 0 9312 0 05 故应接受零假设即有95 把握认为变量y正态故采用单样本均值T检验对变量y的零假设为Ho 0 0 由输出结果知T检验的统计量t 0 5638 双边检验的p值为0 5798 0 05 故接受原假设即有95 的把握接受学生的平均身高为63 说明当变量服从正态分布时优先采用t检验当变量服从非正态时可以采用符号秩 signedRank 检验符号检验 sign 的检验功效较差一般不常用它对同一问题不同的检验方法一般是一致的但有时也有互相矛盾的结果使用SAS软件中的分析家打开数据集后利用菜单统计假设检验均值的单样本T检验可以进行双边和单边检验 4 1 3两独立样本均值检验 TTest过程 npar1way过程 1 原理背景假设两组样本来自两个独立总体需要检验两个总体的均值或中心位置是否一样如果两个总体都服从正态分布则可使用两独立样本均值的T检验两个样本方差相等与不相等时使用的检验统计量是不一样的所以应该先对方差的齐性进行检验设两个样本的均值为方差为观测量为有关公式如下方差齐性检验的零假设为 0 两个独立样本的来自方差相等的总体即检验统计量为 4 1 3两独立样本均值检验 TTest过程 npar1way过程方差齐时检验两样本的均值是否相同的零假设为H0 两个独立样本的来自均值相等的总体即检验统计量为其中为合并方差方差不齐时检验两样本的均值是否相同用校正t检验检验零假设为H0 两个独立样本的来自均值相等的总体即检验统计量为 2 Ttest过程格式 PROCTTEST 选项 CLASS变量名 VAR变量名 BY变量名 RUN 说明 1 proc语句中的选项有 Data 数据集指明要分析的数据集 Cochran要求在方差不齐时用Cochran和Cox法计算t 检验的概率水平 2 Class语句中的变量必须是一个两水平的分组变量系统会把数据集中的观测按这个变量的两个水平分成比较的两组 3 by语句和var语句作用同前例3 某克山病区测得11例克山病人与13名健康人的血磷值 mmol L 如表据此判断该地急性克山病人与健康人的血磷值是否相同输出为分析 1 先作正态性检验如下零假设为Ho 患者组的血磷值变量x服从正态分布其中患者组的shapiro wilk检验的统计量为w 0 959147 检验的p 0 7610 0 05 故应接受零假设即有95 把握认为x正态零假设为Ho 健康组的血磷值变量x服从正态分布其中健康组的shapiro wilk检验的统计量为w 0 927983 检验的p 0 3207 0 05 故应接受零假设即有95 把握认为x正态分析 2 因此可采用两独立样本均值的T检验由ttest过程输出先作方差齐性检验如下 0 患者组和健康组来自方差相等的总体即检验的统计量F 1 01 P 1 000 0 05 故应接受零假设即有95 把握认为患者组和健康组方差满足齐性再作T检验 H0 患者组和健康组来自均值相等的总体即选择方差齐性一行的结果知t 2 51 p 0 02 0 05 故应拒绝零假设即有95 把握认为患者组与健康组血磷值的均值有显著差异且是患者组比健康组的均值要高注使用SAS软件中的分析家打开数据集后利用菜单统计假设检验均值的双样本T检验可以进行单边和双边检验如果数据不服从正态分布可以采用非参数检验检验两个独立样本的中心位置是否相同的非参数方法有wilxocon秩和方法使用npar1way过程加wilcoxon选项如教材P123 例4 检验数据集sasuser gpa中男女生的gpa分数有无显著差异分析在例1中我们讨论过变量gpa是非正态分布故要采用wilxocon秩和非参数检验方法零假设为H0 男生和女生来自中心位置相同的总体由输出结果的wilcoxon秩和检验中用正态近似得到的双边检验的z 0 5276 p 0 5978 0 05 故应接受零假设即有95 把握认为男生和女生的gpa无显著性差异 4 1 4两相关样本均值检验 Univariate过程 1 原理背景相关样本的有两种情况一种是将研究对象按一定的条件先配对每对中的两个对象随机分配到实验组和对照组一个试验由若干对组成称为配对试验设计另一种情况是同一批研究对象经过某种处理前后的指标值比较或者是同一批样品经过两种不同方法的测定结果的比较此时这两个变量不再独立而是相关的 4 1 4两相关样本均值检验 Univariate过程检验两个相关变量的均值是否相等等价于检验这两个变量间的差值变量的均值是否为零当差值变量服从正态分布时可用配对样本T检验的统计量为其中X为两个样本的差值变量 S分别为差值变量的均值和标准差 2 实例分析为了检验两个相关样本的均值是否有显著差异先用一个数据步计算差值然后对差值变量用univariate过程可以实现检验差值变量的均值是否显著为零例5 用克矽平雾化吸入治疗矽肺患者7人没得治疗前后的血清粘蛋白 mg L 7对观测值如表据此能否认为治疗会引起血清蛋白的变化 0 05 输出部分结果分析先作正态性检验如下零假设为Ho 差值变量x服从正态分布由输出结果知shapiro wilk检验的统计量为w 0 896832 检验的p 0 3122 0 05 故应接受零假设即有95 把握认为x正态故可采用两相关样本均值T检验 H0 治疗前后的差值变量x的均值为0 由输出结果知T检验的统计量t 5 879298 双边检验的p值为0 0011 0 05 故拒绝原假设即有95 的把握认为治疗后血清蛋白有下降注使用SAS软件中的分析家打开数据集后利用菜单统计假设检验均值的双样本成对T检验除了可以进行单边和双边检验如果数据不服从正态分布可以采用非参数检验如符号检验符号秩检验在SAS中可用univariate过程实现例6 为了检验一种新的复合肥料和原来使用的肥料相比是否显著地提高了小麦的产量在一个农场中选择了10块田地每块等分为两部分其中任指定一部分使用新的复合肥料另一部分使用原肥料小麦成熟后称得各部分小麦的产量单位 kg 如表用符号检验法检验新复合肥是否会显著提高小麦产量 0 05 分析先作正态性检验如下零假设为Ho 差值变量diff服从正态分布由输出结果知shapiro wilk检验的统计量为w 0 835307 检验的p 0 0388 0 05 故应拒绝零假设即有95 把握认为差值变量diff不服从正态分布故采用符号秩非参数检验 H0 差值变量diff的均值为0 由输出结果知符号秩检验的统计量S 20 5 双边检验的p值为0 0332 0 05 故拒绝原假设即有95 的把握认为新复合肥会显著提高小麦产量作业 P157习题1 3 5 7 4 2方差分析 4 2 1单因素方差分析4 2 2非参数单因素方差分析4 2 3多因素方差分析思路检验多组独立样本均值有无显著性差异等价于检验这个因素的各个取值水平会不会影响到指标的取值 4 2 1单因素方差分析 1 背景简介单因素方差分析模型其中为分类变量因子A 的第i个水平的效应零假设平方和分解式即总偏差平方和误差的偏差平方和因子A的偏差平方和统计量 4 2 1单因素方差分析前提条件是独立性正态性和方差齐性当数据满足这些条件时可采用anova过程来进行单因素方差分析一般格式为 Procanovadata 数据集名 Class因素变量 Model指标变量因素变量效应表 Means因素变量 hovtest levene Run 2 案例分析例1 摘自魏宗舒概率论与数理统计例8 1 为寻求适应本地区的高产油菜品种今选了五种不同品种进行试验每一品种在四块试验田上试种得到在每一块田上的亩产量如表试问不同品种的油菜的平均亩产是否相同 0 05 分析 1 正态性检验 Ho 第1组数据服从正态分布由输出结果中shapiro wilk统计量为w 0 975665 p 0 8762 0 05 故接受Ho 即第1组数据服从正态分布类似可得第二三四五组数据的shapiro wilk统计量为w 0 937882 0 964898 0 985353 0 935122 检验的p 0 6415 0 8097 0 9326 0 6248 0 05 故这四组数据也服从正态分布 2 方差齐性检验 Ho 5组数据的方差相等正态分布由Leneve方差齐性检验的F 1 53 p 0 2451 0 05 故这5组数据满足方差齐性 3 方差分析 Ho 5组数据的均值相等由方差分析表中F 4 31 p 0 0162 0 05 故拒绝Ho 即不同品种的油菜的平均亩产有显著差异 4 2 2非参数单因素方差分析前节方差分析中的正态性或方差齐性不能满足时可采用非参数检验方法如Krushal Wallis检验这种检验不要求数据来自正态总体也不要求各组的方差齐甚至指标可以是有序变量只有大小没有差距如大中小或很好好一般不好很不好等在SAS软件中可以使用npar1way过程进行非参数Krushal Wallis检验一般格式为 Procnpar1waydata 数据集wilcoxon Class因素变量 Var指标变量 Run 注当因素为两个水平时 npar1way过程执行wilxocon的秩和检验当多个水平时执行Krushal Wallis检验例2 对上例1采用Krushal Wallis检验法检验不同品种的油菜的平均亩产是否相同 0 05 分析零假设H0 不同品种的油菜的平均亩产相同由输出结果中的Krushal Wallis检验的统计量 2 9 9185p 0 0418 0 05 故拒绝H0 即不同品种的油菜的平均亩产有显著不同注在同等条件下Krushal Wallis检验的功效比方差分析工效低所以此处p值0 0418比方差分析中的p值0 0162要大 4 2 3多因素方差分析原理说明固定水平的双因素方差分析模型检验因素A的主效应显著性的原假设和统计量为其它同理类似例3 为了提高一种橡胶的定强考虑三种不同的促进剂因素A 四种不同分量的氧化锌因素B 对定强的影响对配方的每种组合重复试验两次总共试验了24次得到如下表试分析因素A和因素B的主效应和交互效应以及最好的实验配方分析 1 对于检验促进剂因素A 的主效应 H0 三种促进剂对橡胶的定强的主效应为0 由输出结果的详细方差分析表中因素A对应的F统计量为19 40 p值为0 0002 小于给定的显著性水平 0 05 故因素A对橡胶定强的主效应是显性的同理可得氧化锌因素B 的主效应是显著的 A和B的交互效应不显著 2 为了得到最好配方由输出结果的每种水平下指标定强stren的均值可得促进剂因素A 在第3水平使指标达最大值氧化锌在第4水平时使指标达最大故最佳配方为第3种促进剂和第4种氧化锌分量作业 P16015 16 17 4 3回归分析 4 3 1直线回归4 3 2非线性回归4 3 3二分类变量的Logistic回归 4 3 1直线回归 1背景概述多元线性回归分析简介假定因变量y与k个解释变量x1 x2 xk具有线性关系即总体回归模型或样本回归模型残差最小二乘法总离差平方和的分解式总平方和TSS 解释平方和ESS 残差平方和RSS即判定系数回归模型的显著性检验 F检验 Ho b1 b2 bk 0 H1 b1 b2 bk至少有一个不为0 检验统计量变量如xi 显著性检验 t检验 H0 bi 0 H1 bi 0检验统计量 2 reg过程格式 Procregdata 数据集名选项 Var可参与建模的变量列表 Model因变量自变量表选项 Print输出结果 Plot诊断图形 Run 3 应用举例例1 对数据集sasuser class中建立以weight为因变量 height和age为自变量的线性回归模型并作简要回归分析思路先考察weight与height age间的线性关系可用散点图和相关分析确定有线性关系后再作回归分析分析由散点图和相关分析可知weight和height age间有较强的线性关系 1 回归方程为判定系数说明因变量Y的变异中由模型能解释的部分占到77 29 模型拟合效果较好 2 回归模型的显著性检验检验的零假设Ho b1 b2 0 由输出结果的方差分析表中F统计量为27 23 检验的p值小于0 0001 在 0 05的显著性水平下应拒绝H0 说明模型是显著成立的分析 3 变量的显著性检验对变量height而言检验的零假设Ho b1 0 由输出结果的参数估计部分的t统计量值为3 97 双边检验p值为0 0011 所以在 0 05的显著性水平下应拒绝H0 说明height变量对weight变量有显著性影响类似可得对变量age t统计量值为 0 41 双边检验p值为0 6865 在 0 05的显著性水平下应接受H0 说明模型是age变量对weight变量影响不显著性说明 1 如果要自动挑选最优变量可在model语句中增加选项 selection 选择方法选择方法有none 全用默认 forward 逐步引入法 backward 逐步剔除法 stepwise 逐步筛选法等如modelweight heightage selection stepwise run 2 要输出其它结果可以print语句如PrintcliRun 说明 3 若是一元线性回归可以在因变量和自变量的散点图上加上回归直线和均值置信界限程序如下 procregdata sasuser class modelweight height plotweight height conf95 run 4 若是要输出多元线性回归中残差对预测值诊断图可用如下语句 plotresidual predicted run 4 3 2非线性回归许多情况下变量间呈曲线关系求解变量间的曲线关系的方程可以直接拟合所选择的曲线方程式但有时也可以变量代换成直线方程再应用直线回归的方法求解例2 某地大气中氰化物测定结果如下散点图分析表明Y和X间呈现指数函数关系案现求回归方程方法一分析 logy与x间的直线回归方程为代入logy log10y 得指数方程为方法二分析指数方程为 4 3 3二分类变量的Logistic回归 Logistic过程模型简介设P为某事件发生的概率取值范围为0 1 1 p为事件不发生的概率将比数p 1 p 取自然对数得ln p 1 p 即Logit变换记为LogitP 则LogitP的取值范围为到以LogitP为因变量建立线性回归模型为记则模型变形为数据要求因变量为二分类变量自变量可以是分类变量或等间隔测度的变量例8 3 数据集data09 02 sav是乳腺癌患者的数据变量包括 age 年龄 time 患病时间 pathscat 肿瘤扩散等级 pathsize 肿瘤大小 histgrad 肿瘤史 ln yesno 癌变部位的淋巴结是否含有癌细胞建立一个Logistic模型并预测一个肿瘤大小为1cm 肿瘤史为1年肿瘤扩散等级 2cm患病时间为1个月的60岁人癌变部位的淋巴结是否含有癌细胞给定显著性水平 0 05 结果分析结论 Logistic回归模型拟合结果为则故该病人癌变部位的淋巴结会含有癌细胞作业 P15016补充某调查中收集了350大学生的数据信息研究恋爱与否变量V 与年龄 age 地区 Location 各科平均成绩 score 性别 sex 及身高 height 等变量的关系各变量定义如下假设收集数据如下表试建立Logistic模型并分析22岁农村男生身高170cm 平均成绩为560时的恋爱概率 4 4属性数据分析 4 4 1单个离散变量的拟合优度卡方检验4 4 2两个离散变量的列联表独立性检验4 4 3两个离散变量的关联度分析 4 4 1单个离散变量的拟合优度卡方检验 1 功能检验离散变量的取值规律是否符合某种给定的比例 Pearson提出的卡方检验的零假设为统计量为其中 ni为事件Ai的观测频数 pi为事件Ai的频率例1 某工厂近5年来发生了63次事故按事故发生的星期号分类如下问事故的发生是否与星期几有关思路分析采用拟合优度卡方检验六种情况发生的概率是否相等 H0 Pr X i 1 6 i 1 2 6 结果分析零假设H0 Pr X i 1 6 i 1 2 6 由输出拟合优度卡方检验的统计量 2 1 667 p 0 8991 对于给定的显著性水平 0 05 p 所以接受H0 说明事故发生与星期几没有关系注明检验的是等概率情形时选项testp语句可以省略 4 4 2两个离散变量的列联表独立性检验 1 列联表的输入与制表列联表的概念根据两个离散变量的交叉分类取值把样本进行分类得到每一小类的观测个数制成表格的形式称为列联表如根据学生的性别和来源把学生分为4组得到如下统计表方式一枚举法每一行为一个样本观测即一个学生的信息记录然后使用freq过程可以制成列联表使用tables语句指定行变量和列变量方式二频数表法没有具体每行样本观测的信息只有汇总的频数表则需要设置一个代表观测频数的变量然后使用freq过程可以制成列联表使用tables语句指定行变量和列变量 weight语句指定单元格频数变量两种方式的输出结果一样如下图每一个格子中有4个数 Frequency 频数 percent 百分比 RowPct 行百分比 ColPct 列百分比在表的右侧有行总计的频数及百分比在表的下侧有

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SAS04 SAS基本统计分析功能.ppt

文档简介

温馨提示

最新文档

评论

SAS04 SAS基本统计分析功能.ppt

文档简介

温馨提示

最新文档

评论

相关文档