




免费预览已结束,剩余75页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章SAS的描述统计功能 2 1描述性统计的基本概念2 2在SAS中计算统计量2 3统计图形 2 1描述性统计的基本概念2 1 1统计学的基本概念2 1 2表示数据位置的统计量2 1 3表示数据分散程度的统计量2 1 4表示数据分布形状的统计量2 1 5其它统计量 2 1 1统计学的基本概念1 总体与样本总体 population 总体是指所研究对象的全体组成的集合 样本 sample 样本是指从总体中抽取的部分对象 个体 组成的集合 样本中包含个体的个数称为样本容量 容量为n的样本常用n个随机变量X1 X2 Xn表示 其观测值 样本数据 则表示为x1 xn 为简单起见 有时不加区别 2 参数与统计量参数 parameter 参数是用来描述总体特征的概括性值 如总体平均值 总体方差 2 总体比例 等 统计量 statistics 统计量是用来描述样本特征的概括性值 如样本均值 样本方差 s2 样本比例 P 等 2 1 2表示数据位置的统计量如果要用简单的数字来概括一组观测数据x1 xn 可以使用 位置统计量 来作为数据的总体代表 常见的位置统计量有 均值 中位数 分位数 众数等 1 均值 Mean 均值是所有观测值的平均值 是描述数据取值中心位置的一个度量 2 中位数 Median或Med 中位数是描述观测值数据中心位置的统计量 大体上比中位数大 小 的数据为观测值的一半 中位数的一个优点是它不受个别极端数据的影响 具有稳健性 中位数的计算方法是 首先将数据从小到大排序为 x 1 x n 然后计算 3 众数 Mode 观测值中出现最多的数称为众数 众数用得不如均值和中位数普遍 在属性变量分析中 常需考虑频数 因此众数用得多些 4 百分位数 Percentile 分位数也是描述数据分布和位置的统计量 0 5分位数就是中位数 0 75分位数和0 25分位数又分别称为上 下四分位数 并分别记为Q3和Q1 2 1 3表示数据分散程度的统计量1 极差 Range 与半极差 Interquartilerange 极差就是数据中的最大值和最小值之间的差 极差 max xi min xi 上 下四分位数之差Q3 Q1称为四分位极差或半极差 它描述了中间半数观测值的散布情况 2 方差 Variance或Var 方差是由各观测值到均值距离的平方和除以观测量减1 3 标准差 Standarddeviation或StdDev 方差的开方称为标准差 标准差的量纲与原变量一致 4 变异系数 CoefficientofVariation或CV 变异系数是将标准差表示为均值的百分数 是观测数据分散性的一个度量 它在比较用不同单位测量的数据的分散性时是有用的 2 1 4表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标 1 偏度 skewness 偏度是刻画数据对称性的指标 偏度的计算公式为 在SAS中 关于均值对称的数据其偏度为0 左侧更为分散的数据 其偏度为负 称为左偏 右侧更为分散的数据 其偏度为正 称为右偏 2 峰度 kurtosis 峰度描述数据向分布尾端散布的趋势 峰度的计算公式为 利用峰度研究数据分布的形状是以正态分布为标准 假定正态分布的方差与所研究分布的方差相等 比较两端极端数据的分布情况 若 近似于标准正态分布 则峰度接近于零 尾部较正态分布更分散 则峰度为正 称为轻尾 尾部较正态分布更集中 则峰度为负 称为厚尾 2 1 5其它统计量1 均值的标准误 StdErrorMean或StdMean或Stderror 2 校正平方和 Correctedsumofsquares 3 未校正平方和 Uncorrectedsumofsquares 4 k阶原点矩其中A1即为均值 5 k阶中心矩 2 2在SAS中计算统计量2 2 1用INSIGHT计算统计量2 2 2用 分析家 计算统计量2 2 3编程实现描述性统计 2 2 1用INSIGHT计算统计量INSIGHT可以非常方便地计算各种统计量 1 实例数据 例2 1 表2 1为两个不同地区居民家庭收入和支出情况的抽样调查 单位 元 试分别统计收入和支出情况 将表2 1中数据通过Excel导入到SAS数据集Mylib sryzc中 4个变量名分别为 ID R ID Income和Outgo 相应的标签名为家庭编号 地区编号 家庭总收入和家庭总支出 2 在INSIGHT中打开数据集在菜单中选择 Solution 解决方案 Analysis 分析 InteractiveDataAnalysis 交互式数据分析 打开 SAS INSIGHTOpen 对话框 在对话框中选择数据集 Mylib sryzc 单击 Open 打开 按钮 即可在INSIGHT中打开数据窗口 如图所示 3 计算统计量选择菜单 Analyze 分析 Distribution Y 分布 打开 Distribution Y 对话框 在数据集sryzc的变量列表中 选择Income为分析变量 选择R Id 为分组变量 单击 Output 输出 按钮 在打开的对话框中包含描述性统计量选项 选择选项矩统计量和分位数 取消默认的选项 BoxPlot MosaicPlot 和 Histogram BarChart 单击 OK 按钮 即可得到变量Income按 R Id 分组的各种矩统计量 Moments 和分位数 Quantiles 如图所示 2 2 2用 分析家 计算统计量1 启动 分析家 选择主菜单 Solutions 解决方案 Analysis 分析 Analyst 分析家 打开 分析家 窗口 选择主菜单 File 文件 OpenBySASName 打开 SelectAMember 对话框 选择数据集Mylib sryzc 2 通过SummaryStatistics菜单计算描述性统计量选择主菜单 Statistics 统计 Descriptive 描述性统计 SummaryStatistics 汇总统计量 打开 SummaryStatistics 对话框 选择变量列表中的Income 单击 Analysis 按钮 选定分析变量 如图所示 单击 Statistics 按钮 打开 SummaryStatistics Statistics 对话框 对话框中列出可以计算的所有统计量 如右图所示 描述性统计量如下图所示 3 通过Distributions菜单计算描述性统计量选择主菜单 Statistics 统计 Descriptive 描述性统计 Distributions 分布 打开 Distributions 对话框 选择变量列表中的Income 单击 Analysis 按钮 选定分析变量 单击 OK 按钮 即可得到关于变量Income的矩统计量和基本统计测度 2 2 3编程实现描述性统计SAS提供有多个不同的过程来实现统计量的计算 它们在功能范围上有许多的重复 下面介绍用FREQ MEANS和UNIVARIATE这三个过程来计算简单的描述统计量 FREQ过程常用来计算分类变量取值的频数 而MEANS和UNIVARIATE过程则对数值型变量计算均值 标准差等统计量 1 FREQ过程FREQ过程包括多个控制频数输出与检验的语句和选项 格式如下 PROCFREQDATA TABLES FORMAT RUN 其中PROCFREQ语句调用FREQ过程 标志FREQ过程的开始 TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算 可以多次使用 例如 统计数据集Mylib sryzc中变量R Id和Income频数的代码如下 procfreqdata mylib sryzc tablesR IdIncome RUN 显示结果如图所示 2 MEANS过程 1 语法格式MEANS过程的一般格式 PROCMEANSDATA VAR BY CLASS RUN PROCMEANS语句后的选项主要用来指定所要计算的统计量 默认情况下 MEANS过程会给出频数 均数 标准差 最大值和最小值等 其余统计量的计算均需要在选项中指定 VAR语句引导所要进行分析的所有变量的列表 SAS将对VAR语句所引导的所有变量分别进行描述性统计分析 BY语句与CLASS语句所指定的分类变量用来进行分组统计 但输出格式不同 如对数据集Mylib sryzc中的Income变量计算简单统计量 只要用如下MEANS过程 procmeansdata mylib sryzc varIncome run 结果如图2 15所示 2 使用统计量关键字列表在PROCMEANS语句中使用统计量关键字列表 procmeansdata mylib sryzcnmeanmedianp1p5p95p99q1q3maxmin varIncome run 结果如图2 16所示 可以计算的描述性统计量关键字及其含义见下表 3 使用CLASS语句和BY语句使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值 由CLASS语句和BY语句指定的变量在分析中起分组 类 的作用 被称为分类变量 两个语句的区别是 使用BY语句时要求数据集须按BY变量排序 使用CLASS语句无此要求 使用BY语句时输出按BY变量的每个值分别提供一个表 使用CLASS语句则将所有结果排列在一个表之中 使用BY语句之前先排序 如下代码可以在上例中按变量R Id分组统计 procsortdata mylib sryzc byR Id run procmeansdata mylib sryzcnmeanmedianp1p5p95p99q1q3maxmin varIncome byR Id run 使用CLASS语句分组较为简单 如下代码也可以在上例中按变量R Id分组统计 procmeansdata mylib sryzcnmeanmedianp1p5p95p99q1q3maxmin varIncome classR Id RUN 3 UNIVARIATE过程UNIVARIATE过程的一般格式为 PROCUNIVARIATEDATA VAR BY CLASS HISTOGRAM OUTPUTOUT RUN UNIVARIATE过程和MEANS过程的格式非常相似 相同的语句和选项其含义也相同 所不同的是某些统计量只能在UNIVARIATE过程中计算 如众数 而且UNIVARIATE过程中具有绘图功能 其中 HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图 其后的选项用来指示SAS添加不同类型的拟合图形 如正态分布的分布密度曲线 输出包括五个部分 第一部分是矩统计量 各统计量已在2 1 1中作了介绍 第二部分为基本的位置和分散程度统计量 位置统计量包括均值 中位数 众数 分散程度统计量包括标准差 方差 极差 四分位间距第三部分为关于均值等于零的三种检验的结果 包括t检验 符号检验和符号秩检验 第四部分为各个重要的分位数 第五部分是观测数据的五个最低值和五个最高值 2 3统计图形2 3 1定量变量的图形表示2 3 2分类变量的图形表示 2 3 1定量变量的图形表示1 直方图对于数值型变量 常用直方图 histogram 来展示变量取值的分布 将变量取值的范围分成若干区间 在等间隔区间的情况 每个区间的长度称为组距 考察数据落入每一区间的频数与频率 在每个区间上画一个矩形 它的宽度是组距 它的高度可以是频数 频率或密度 频率 组距 在高度是密度的情况 每一矩形的面积恰是数据落入区间的频率 这种直方图可以估计总体的概率密度 图2 22密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式 另外也提供了设定分组的方法 2 盒形图盒形图 boxplot 又称箱图 箱线图 盒子图 是用更为简洁的方法表现数据在数轴上的分布及其特点的图形 图2 23的左边是根据居民家庭的收入情况所绘的盒形图 右边是分地区情况所绘的盒形图 3 散点图通常得到的数据可能有两个变量 比如家庭的收入和支出情况的数据 这里家庭总收入是一个变量 而家庭总支出是第二个变量 希望通过图形了解收入和支出的关系 这时可以用一个变量为横坐标 如家庭总收入 另一个为纵坐标 这里是家庭总支出 来作图 图2 24 这种图称为散点图 ScatterPlot 4 线图线图 LinePlot 用来表示变量间的取值变化情况 有单式和复式两种 图2 25 在复式线图中可用不同颜色的实线来标志区别 如图2 25右所示 2 3 2分类变量的图形表示分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例 常用的有条形图 饼图和马赛克图 1 条形图条形图 BarChart 给出分类变量取每个值的频数 如图2 26所示为变量R ID取值的条形图 2 饼图通常 饼图 PieChart 可以对分类变量描述其频数取值的比例 对于数值变量 则像直方图那样应先计算各区间取值的频数 再按比例画出 图2 27中给出的是家庭支出分组频数的饼图 要注意的是 如果有太多的分组 那么饼图就不那么好看了 3 马赛克图马赛克图 MosaicPlot 一般不对单个变量作 而是对两个分类变量来作 这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例 如图2 28所示 2 4用SAS绘制统计图形2 4 1用INSIGHT绘制统计图形2 4 2用 分析家 绘制统计图形2 4 3编程绘制统计图2 4 4图形的调整与输出 2 4 1用INSIGHT绘制统计图形INSIGHT模块可以画出多种统计图形 而且图形清晰 美观 1 绘制直方图选择菜单 Analyze 分析 Histogram BarChart Y 直方图 条形图 打开 Histogram BarChart Y 对话框 在数据集的变量列表中 选择变量 然后单击 Y 按钮 单击 Output 输出 按钮 在打开的对话框中选择 Labels 标签 选项 如图所示 以便输出的图形显示中文标签名 单击 OK 按钮返回对话框 单击 OK 按钮 即可得到直方图如图2 30左所示 单击图形框左下角处的三角形 在打开的菜单中选择 Values 值 即可在图中显示频数值 如图2 30右所示 2 绘制条形图INSIGHT模块对分类变量绘制条形图 首先单击R Id变量名上边的变量作用按钮 在弹出的菜单中选择 Nominal 列名型 如图左所示 选择菜单 Analyze Histogram BarChart Y 打开 Histogram BarChart Y 对话框 在数据集的变量列表中选择变量 然后单击 Y 按钮 如图右所示 单击 Output 输出 按钮 在打开的对话框中选择 Labels 标签 选项 单击 OK 按钮返回对话框 单击 OK 按钮 即可得到条形图如图2 34左所示 如果选择Income freq 见2 2 2节 作为分析变量 则可以得到图2 34右所示的条形图 3 绘制盒形图选择菜单 Analyze BoxPlot MosaicPlot Y 可以对区间型变量作盒形图 对分类型变量作马赛克图 打开 BoxPlot MosaicPlot Y 对话框 在数据表sryzc的变量列表中 选择income变量 然后单击 Y 按钮 income变量被选定 如图左所示 单击 Output 按钮 在打开的对话框中选择 Labels 选项 取消 YAxisVertical 如图右所示 单击 OK 按钮 即可得到盒形图如图2 36左所示 在 BoxPlot MosaicPlot Y 对话框中选定多个分析变量 可以将多个盒形图画在一个坐标系下 这样便于比较变量的取值情况 如图所示 图形分析 从图中可以看到支出数据在均值两边的分布近似对称 说明低于和高于平均支出的家庭几乎各占一半 收入数据的二分之一分位数在均值的左边 说明大部分人的收入低于平均收入 另外 10号家庭的收入是一个极端值 它不具有代表性 4 绘制马赛克图选择 Analyze 分析 BoxPlot MosaicPlot Y 盒形图 马赛克图 命令 可以对分类变量作马赛克图 下面以2 2 2中修改过的数据集sryzc为例 作出R Id变量和Income freq变量的马赛克图 4 绘制马赛克图首先将R Id变量改为 列名型 参见图2 33左 选择菜单 Analyze 分析 BoxPlot MosaicPlot Y 盒形图 马赛克图 打开 BoxPlot MosaicPlot Y 对话框 在数据集sryzc的变量列表中 选择R Id变量 然后单击 Y 按钮 R Id变量被选定 单击 OK 按钮 得到结果如图2 38所示 5 绘制散点图选择菜单 Analyze ScatterPlot YX 打开 ScatterPlot YX 对话框 在变量列表中 选择Income 单击 Y 按钮 Income变量被选定为Y轴变量 选择Outgo 单击 X 按钮 Outgo变量被选定为X轴变量 如图左所示 单击 OK 按钮 即可得到散点图如图右所示 可以看出收入与支出有一定的线性相关关系 在数据集窗口选中所有1号地区的观测号 图2 40是在散点图中区分两个地区的情况 细点为2号地区 粗点为1号地区 从该图可以看出1号地区比2号地区在收入和支出水平上都要高出许多 6 绘制线图选择菜单 Analyze 分析 LinePlot YX 分布 打开 LinePlot YX 对话框 在数据集sryzc的变量列表中 选择ID变量 单击 X 按钮 ID变量被选定为X轴 然后选择Income变量 单击 Y 按钮 如图左所示 单击 OK 按钮 即可得到线图如图右所示 若在 LinePlot YX 对话框中 将ID变量选定为X轴 选择Income变量和Outgo变量 单击 Y 按钮 单击 Output 输出 按钮 在打开的对话框中选择 Labels 标签 选项 如图左所示 以便输出的图形显示中文标签名 两次单击 OK 按钮 得到关于Income变量和Outgo变量的复式线图 图右 2 4 2用 分析家 绘制统计图形1 绘制饼图在 分析家 中打开数据集mylib sryzc 选择主菜单 Graphs PieChart 打开 PieChart 对话框 选择变量列表中的Income 单击 Chart 按钮 选定分析变量 如图左所示 所得饼图如图右所示 2 绘制条形图选择主菜单 Graphs BarChart Horizontal 打开 HorizontalBarChart 对话框 选择变量列表中的INCOME 单击 Chart 按钮 选定分析变量 选择R ID变量 单击 StackBy 按钮 再选中3 D选项 如图左所示 单击 OK 按钮 得到水平条形图 如图右所示 2 4 3编程绘制统计图SAS可以把存贮在SAS数据集中的数据以图形的方式形象直观地显示出来 在SAS GRAPH模块的支持下 SAS可以作散点图 曲线图 直方图 扇形图 三维曲面图 等高线图 地图 等等 1 GCHART过程 1 语法格式GCHART过程用于绘制直方图 饼形图 扇形图 三维直方图等表示变量分布的图形 其语法格式为 PROCGCHARTDATA RUN GCHART过程可以使用的图形关键字及其所绘制的图形类型见表2 5 图形关键字后的变量名用以指定进行图形描述时的分组变量 可以是数值型的 此时以各组的组中值为分组的标志 也可以是字符型的 选项比较重要的有 TYPE 统计量关键字 表示以图形对变量 SUMVAR所指定的变量 的哪一种统计量进行描述 比如频数 FREQ 均数 MEAN 总计 SUM 频数百分比 PCTN 等 SUBGROUP 变量名 分组变量 指定要进行分组 各组段内再分组 的变量 SUMVAR 变量名 数值变量 指定要进行统计计算的变量 也就是 TYPE 统计量关键字 选项中统计量的计算所依据的变量 2 画条形图 直方图 使用VBAR关键字可以画条形图 例如 画出数据集Mylib sryzc中Income变量的条形图的代码如下 procgchartdata mylib sryzc vbarIncome run 结果如图所示 其中绘图用的变量用VBAR语句给出 如果把VBAR改成HBAR则条形方向变为横向 用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同 它在横轴标的是区间的中点值 而在INSIGHT中横轴标的是区间的端点值 可以指定分组的变量 例如在每个区段内再分段 可以用如下代码 procgchartdata mylib sryzc vbarIncome subgroup R Id run 结果如图所示 3 画三维条形图使用BLOCK关键字可以画三维条形图 例如 画出数据集mylib sryzc中Income变量的三维条形图的代码如下 procgchartdata mylib sryzc blockIncome group R Id run 结果如图所示 4 画饼形图使用PIE关键字可以画饼形图 PIE3D关键字可以画三维饼形图 例如 画出数据集mylib sryzc中Income变量的三维饼形图的代码如下 procgchartdata mylib sryzc PIE3DIncome run 结果如图所示 2 使用GPLOT过程绘制散点图和连线图通常用散点图和连线图可以表示 一个变量随另一个变量的变化 变量之间的关系 数据值的分布 1 GPLOT过程的一般格式PROCGPLOTDATA PLOT SYMBOLn RUN 常用的选项见表2 6 表2 6PLOT语句的选项 SYMBOL语句用来控制表示点的符号和点间的连线 其中n是不同SYMBOL语句的序号 可以是1 99 缺省为1 选项见表2 7 表2 7SYMBOL语句的选项 2 散点图绘制家庭总收入对家庭总支出的散点图 代码
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 驻村工作队疫情防控工作总结模版
- 湖南省湘一名校联盟2024-2025学年高一下学期期中考试历史试题(原卷版)
- 山东省济宁市2025年高考模拟考试语文试题及答案(济宁三模)
- 机械制图基础知识规范
- 中职学生政治思想个人总结模版
- 前台收银年终总结模版
- 症状性癫痫综合征的临床护理
- 学前儿童发展 课件 第11章 学前儿童情绪的发展
- 解码新质生产力
- 离心泵操作与维护培训
- 注册安全工程师中级建筑施工安全生产专业实务(建筑施工安全类案例)模拟试卷1(共426题)
- 2025届广西柳州市名校高考冲刺押题(最后一卷)化学试卷含解析
- 统编版高中语文必修下册 文言文翻译及文言知识总结
- 业主投诉处理制度
- 风电砼塔吊装安全交底
- 第17课 明朝的灭亡和清朝的建立 教案2024-2025学年七年级历史下册新课标
- 2025年博士思政面试题及答案
- 储备林可行性研究报告
- 汽车车载网络控制技术 课件 模块3 汽车车载网络系统故障检测与诊断
- 想应聘铁路简历模板
- 生物安全管理体系文件
评论
0/150
提交评论