第六章 SAS基本统计分析.ppt_第1页
第六章 SAS基本统计分析.ppt_第2页
第六章 SAS基本统计分析.ppt_第3页
第六章 SAS基本统计分析.ppt_第4页
第六章 SAS基本统计分析.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chapter6SAS基本统计分析 Chapter6SAS基本统计分析 一 单变量检验二 回归分析三 方差分析四 列联表分析 下一页 返回本节首页 一 单变量检验 对单个变量 我们需要作正态性检验 两独立样本均值相等的检验 成对样本均值相等的检验 正态性检验 单变量均值检验 两独立样本的均值检验 成对总体均值检验 上一页 下一页 返回本节首页 正态性检验 Univariate过程可以检验一个变量是否服从正态分布 具体的用法如下 PROCUNIVARIATEDATA 数据集nomal VAR变量名 RUN 例如 我们要检验SASUSER GPA中height是否服从正态分布 只要用如下UNIVARIATE过程 procunivariatedata sasuser gpanormal varheight run 上一页 下一页 在输出的结果中我们只关心正态性检验的部分 在检验中 我们的零假设是变量服从正态分布 如果检验的p值小于0 05水平 应当拒绝零假设 否则应当接受零假设 在结果中给出了4种不同方法得出的P值 显然它们的值都大于0 05 所以我们应当接受零假设 即身高是服从正态分布的 如果想直观地了解身高的分布情况 可以在过程中添加histogram语句画出它的直方图 probplot语句画出它的概率分布图 程序如下 上一页 下一页 procunivariatedata sasuser gpanormal varheight Histogramheight probplotheight run 概率分布图画出的是变量分布函数的图形 横轴是分位数 范围从0到100 竖轴是变量的值 上一页 下一页 单变量均值检验 所谓单变量均值检验就是检验变量的均值是否等于某个给定的值 例如 通过计算可以得出身高的样本平均值为99 9 那么就可以猜测是否身高这个变量的均值应该是99 9呢 然后可以用单变量检验来检验猜测的结果 如果一个变量服从正态分布 那么可以用T检验来对它进行均值检验 上一页 下一页 T检验的一般格式为 PROCTTESTDATA 数据集H0 均值 VAR检验变量 RUN 例2 检验身高的均值是否为99 9 数据同上例 程序如下 procttestdata sasuser gpah0 99 9 Varheight run 需要注意的是 必须在第一句的末尾注明零假设 均值 99 9 上一页 下一页 在检验结果中 上面一部分是变量的统计量 均值 均值的置信区间 标准差 标准差的置信区间 下面一部分是t检验的结果 P值为0 9984大于0 05 所以 应当接受零假设 即均值为99 9 试试如果我们将零假设改为均值为80 则结果如何呢 上一页 下一页 返回本节首页 两独立样本的均值检验 T检验还可以用来检验方差相同的两独立样本的均值是否相等 这一类检验问题是经常要用到的 例如 在科学实验中经常使用两组实验对象 在不同的条件下进行实验 然后对实验结果进行对照 通过比较均值来判断两组实验结果是否具有显著差异 从而得出试验的结论 两样本均值T检验的用法为PROCTTESTDATA 数据集 CLASS分类变量 VAR检验变量 RUN 上一页 下一页 例 我们要检验SASUSER GPA数据集中男生和女生的身高height是否具有相等的平均值 可用如下程序 procttestdata sasuser gpa classsex varheight run 过程中用CLASS语句指定分组变量 用VAR语句指定要比较的变量 检验的零假设是两族样本的均值相等 上一页 下一页 标准的两样本t检验要求两总体方差相等 所以第三部分结果检验两样本方差是否相等 如果检验的结果为相等 则可使用精确的两样本t检验 看第二部分结果的Equal那一行 如果方差检验的结果为不等 则只能使用近似的两样本t检验 看第二部分结果的Unequal那一行 这里我们看到方差检验的p值为0 5981不显著 所以可以认为方差相等 所以我们看Equal行 p值为0 063在0 05水平下是不显著的 所以应认为男 女生的height没有显著差异 但在0 1水平下是显著的 即有差异 上一页 下一页 实际上 使用t检验还可以检验两个独立样本的均值之差是不是一个给定的值 方法是在第一行的末尾加上一个H0 差值 例检验女生身高均值与男生身高的均值的差是否为10 程序如下 procttestdata sasuser gpah0 10 classsex varheight run 上一页 下一页 返回本节首页 成对总体均值检验 在实际中 经常遇到两个总体是相关的测量结果的比较 例如一个班级所有同学的数学成绩与语文成绩进行比较 显然一个人的语文成绩和数学成绩之间具有很大的相关性 在现实中 有很大的可能一个学生语文成绩较好那么数学成绩也比较好 这个时候就不能够说语文成绩和数学成绩是独立的 因此也不能使用前面的检验方法了 但是 在这个时候我们考虑两个样本的差值 然后对它们的差进行检验 检验的方法仍然是使用前面的t检验 上一页 下一页 例 一个公司生产某种打印机 它有20个固定的客户 每个客户的需求量都有记录 在公司进行了大张旗鼓的广告宣传后 这20个客户的需求量发生了变化 广告前后的需求量见下表 现在希望知道这次广告宣传是否起到了显著的作用 上一页 下一页 返回本节首页 首先建立一个数据集 然后计算出前后两次销量的差datasales Infile x sales txt inputnooldnew run dataminus setsales d new old keepd run 这样就将新的销量与旧的销量的差计算出来了 现在只需要检验差的均值是否为零 如果为零 那么表示前后的销量没有明显变化 即广告基本无效 如果不为零则表示广告是有效的 使用t检验 procttestdata minus vard run 上一页 下一页 可以看到检验的P值为0 4067 大于0 05 所以应当接受零假设 即差值的均值为零 也就是说 进行广告宣传前后的产品销量没有明显变化 上一页 下一页 返回本节首页 二 回归分析 用SAS INSIGHT进行曲线拟合 用SAS INSIGHT进行线性回归分析 用REG过程进行回归分析 上一页 下一页 返回本节首页 用SAS INSIGHT进行曲线拟合 两个变量Y和X之间的相关关系经常可以用一个函数来表示 一元函数可以等同于一条曲线 实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系 最基本的 曲线 是直线 通常我们在研究两个变量之间的关系时 可以先绘制二者的散点图并从中了解变量关系的大概形式 例如是直线还是其他曲线形式 上一页 下一页 例如 我们要研究SASUSER GPA数据集中学生体重与身高之间的相关关系 1 先画出两者的散点图 Analyze Scatterplot 从图中可以看出 身高越高的人一般体重越重 2 把体重作为因变量 身高作为自变量拟合一条回归直线 Analyze Fit YX 并选体重为Y变量 身高为X变量 3 在拟合了直线后 还可以拟合多项式曲线 上一页 下一页 4 在拟合的直线 也可以用样条曲线来作非参数回归的曲线拟合 光滑样条为分段的三次多项式 曲线在每一段内是一个三次多项式 在两段的连接点是连续 光滑的 为拟合样条曲线 只要选 Curves Spline 使用缺省的GCV准则 广义交叉核实 来选取光滑系数 光滑系数c越大 得到的曲线越光滑 但拟合同时变差 光滑系数c小的时候得到的曲线较曲折 而拟合较好 就可以在散点图的基础上画出样条曲线 可以用光滑系数c的滑块来调整曲线的光滑程度 拟合优度 对于本例 GCV准则得到的样条曲线与回归直线几乎是重合的 说明直线拟合可以得到满意的结果 上一页 下一页 返回本节首页 用SAS INSIGHT进行线性回归分析 上面我们已经看到 用菜单 Analyze Fit YX 就可以拟合一条回归直线 这是对回归方程Y aX b 的估计结果 这样的线性回归可以推广到一个因变量 多个自变量的情况 此时线性模型写成矩阵形式为Y X 上一页 下一页 判断回归结果优劣的一个重要指标为复相关系数平方 决定系数 R平方 ESS TSS 其中TSSYi mean Y 的平方和 它代表在因变量的变差中用模型能够解释的部分的比例 所以越大说明模型越好 上一页 下一页 返回本节首页 用REG过程进行回归分析 SAS STAT中提供了几个回归分析过程 包括REG 回归 RSREG 二次响应面回归 ORTHOREG 病态数据回归 NLIN 非线性回归 TRANSREG 变换回归 CALIS 线性结构方程和路径分析 GLM 一般线性模型 GENMOD 广义线性模型 等等 我们这里只介绍REG过程 REG过程的基本用法为 PROCREGDATA 输入数据集选项 MODEL因变量 自变量表 选项 RUN 上一页 下一页 REG过程是交互式过程 在使用了RUN语句提交了若干个过程步语句后可以继续写其它的REG过程步语句 提交运行 直到提交QUIT语句或开始其它过程步或数据步才终止 上一页 下一页 例 对SASUSER GPA中的WEIGHT用HEIGHT和AGE建模 procregdata sasuser gpa modelweight heightage run 注意 程序窗口的标题行显示 PROCREGRunning 表示REG过程还在运行 并没有终止 上一页 下一页 由于REG过程是个交互式过程 因此当我们发现变量AGE的作用不显著时 我们可以再提交如下语句 modelweight height run 上一页 下一页 REG提供了自动选择最优自变量子集的选项 在MODEL语句中加上 SELECTION 选择方法 的选项就可以自动挑选自变量 比如 我们用如下程序 modelweight heightage selection stepwise run 选择方法有NONE 全用 这是缺省 FORWARD 逐步引入法 BACKWARD 逐步剔除法 STEPWISE 逐步筛选法 MAXR 最大增量法 MINR 最小增量法 RSQUARE 选择法 ADJRSQ 修正选择法 CP Mallows的统计量法 从结果中可见只有变量HEIGHT进入了模型 而变量AGE则不能进入模型 上一页 下一页 返回本节首页 三 方差分析 统计学中用方差分析来研究分类变量 所谓 因素 对数值型变量 所谓 指标 的影响 主要目的是研究某些因素对于指标有无显著的影响 对有显著影响的因素 一般希望找出最好水平 用ANOVA过程进行单因素方差分析 用NPAR1WAY进行非参数单因素方差分析 上一页 下一页 返回本节首页 用ANOVA过程进行单因素方差分析 在前面 我们使用ttest过程来检验两组数据的均值有无显著差异 如果分组多于两个时 就无法使用ttest过程 例如 数据集SASUSER SCORE中为4个班级同一门课的考试成绩 现要比较这四个班级的成绩有无显著差别 这里 因素是班级 指标为成绩 当各种班级的成绩有显著差异时 说明因素的取值对指标有显著的影响 所以 方差分析的结论是因素对指标有无显著影响 上一页 下一页 注意 经典的方差分析只判断因素的各水平有无显著差异 而不管两个因素之间是否有差异 比如说我们的四个班级中即使有三个班级的成绩没有显著差异 只有一个班级的成绩比这三个都好 结论也是说因素是显著的 或因素的各水平间有显著差异 上一页 下一页 方差分析把指标的方差分解为由因素的不同取值能够解释的部分 和剩余的不能解释的部分 然后比较两部分 当能用因素解释的部分明显大于剩余的部分时认为因素是显著的 方差分析假定观测是彼此独立的 观测为正态分布的样本 且因素各水平分成的各组的方差相等 在这些假定满足时 就可以用ANOVA过程来进行方差分析 其一般写法为 上一页 下一页 PROCANOVADATA 数据集 CLASS因素 MODEL指标 因素 RUN 上一页 下一页 对于上面的班级成绩 我们用 procanovadata sasuser score classcla modelscore cla run 运行结果可以分为四个部分 上一页 下一页 第一部分是因素水平的信息 我们看到因素只有一个CLA 它有4个水平 分别是1 2 3 4 共有150个观测 上一页 下一页 第二部分就是经典的方差分析表 表前面指明了因变量 指标 为score 第一列来源 Source 说明方差的来源 是模型的 可以用方差分析模型解释的 误差的 不能用模型解释的 还是总和 第二列为自由度 DF 第三列为平方和 SumofSquares 其大小代表了各方差来源作用的大小 第四列为均方 MeanSquare 即平方和除以自由度 第五列F值 Fvalue 是F统计量的值 其计算公式为模型均方除以误差均方 用来检验模型的显著性 如果不显著说明模型对指标的变化没有解释能力 第六列是F统计量的p值 由于这里p值大于0 05 我们的检验水平 所以模型是不显著的 因素对指标没有显著影响 上一页 下一页 第二部分 第三部分 第四部分 上一页 下一页 第三部分是一些与模型有关的简单统计量 第一个是复相关系数平方 与回归模型一样仍代表总变差中能被模型解释的比例 第二个是变异系数 第三个是根均方误差 第四个是指标的均值 第四部分是方差分析表的细化 给出了各因素的平方和和F统计量 因为是单因素所以这一行与上面的 模型 一行相同 多因素方差过程与单因素相似 只是将原来的单因素换为因素列表 因素列表中不但可以包括各个因素 还可以包括他们的交互作用因素 上一页 下一页 返回本节首页 用NPAR1WAY进行非参数单因素方差分析 当方差分析的正态分布假定或方差相等假定不能满足时 对单因素问题 可以使用非参数方差分析的Kruskal Wallis检验方法 这种检验不要求观测来自正态分布总体 不要求各组的方差相等 甚至指标可以是有序变量 变量取值只有大小之分而没有差距的概念 比如磨损量可以分为大 中 小三档 得病的程度可以分为重 轻 无 等等 上一页 下一页 如 为了分析上面的各班成绩的子中各班成绩有无显著差异 取定0 10的检验水平 可以用如下的NPAR1WAY过程 procnpar1waydata sasuser scorewilcoxon classcla varscore run 上一页 下一页 返回本节首页 结果分为两个部分 第一部分是各组的秩和的情况 包括观测个数 N 秩和 SumofScores 在各组无显著差异的零假设下的期望秩和 ExpectedUnderH0 在零假设下的标准差 StdDevUnderH0 平均秩和 MeanScore 为秩和除以组内观测数 下面的 AverageScoresWereUsedforTies 是说当名次相同时 如两个第2 用名次的平均值 2 3 2 2 5 上一页 下一页 返回本节首页 上一页 下一页 第二部分为Kruskal Wallis检验的结果 包括近似的统计量 自由度 检验的p值 Prob CHISQ 现在p值0 9628大于预定的水平0 10所以结论是各班的成绩没有显著差异 上一页 下一页 返回本节首页 四 列联表分析 对于数值型变量 如果分析它们之间的关系 最常用的方法就是回归分析和方查分析 但是 对于一些取离散值的变量要检验它们之间是否独立 只能使用列联表的检验方法 列联表检验的零假设是 因素X与因素Y独立 列联表检验的核心是X2检验 比较频数与理论均值的差 如果差异达到一定的程度则说明两个因素之间具有一定的关系 因此否定零假设 上一页 下一页 返回本节首页 列联表检验是通过在FREQ过程中添加X2检验的选项实现的 一般用法如下 PROCFREQDATA 数据集 TABLES因素A 因素B CHISQ WEIGHT试验结果 RUN 上一页 下一页 例 为了判断患心脏病是否与吸烟有关 调查了862个人 调查结果如下表所示 上一页 下一页 心脏病与吸烟的关系 首先 将表格中的信息输入数据集datasasuser heart inputyxf cards 11243101850115600278 run 然后进行列联表检验 procfreq weightf tablesa b chisq run 上一页 下一页 结果大体分为3个部分 第1部分是一个2 2的频数统计表 在每一格内有4行数字 第一行数字是频数 Frequency 第二行数字是百分比 Percent 第三行数字是行百分比 RowPct 第四行数字是列百分比 ColPct 上一页 下一页 结果的第二部分是卡方检验的结果 第三部分是Fisher精确检验的结果 卡方检验要求每个单元格的频数不少于5 否则的话就要看Fisher精确检验的结果 在这个例子中 只需要看卡方检验的结果 P值为小于0 0001 在0 05水平下应当拒绝零假设 即认为抽烟对心脏病确实存在影响 上一页 下一页 FREQ过程进行列联表检验可以使用nopct norow

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论