第2讲.SPSS描述性统计分析.ppt

上传人：1*** IP属地：浙江上传时间：2020-04-21 格式：PPT 页数：30 大小：954.51KB 积分：20 举报 版权申诉

免费预览已结束，剩余25页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第二章SPSS描述性统计分析本章主要内容 SPSS频数分析SPSS描述统计分析SPSS探索性分析SPSS列联表分析统计分析的目的是研究总体的数量特征但是实践中能够得到的往往是从总体中随机抽取的一部分观察对象它们构成了样本通过对样本样本的研究来对总体的实际情况作出可能的判断因此在数据收集整理完毕进行深入分析之前首要的工作就是去了解数据的整体情况随后才能做深入的推断为了实现上述的分析往往有两种实现方式 1 数值计算通过数值来准确的反映数据的基本统计特征 2 图形绘制即绘制常见的基本统计图形通过图形来直观展现数据的分布特点通常两种方式混合使用 SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在菜单栏的分析描述统计子菜单中 SPSS频数分析概述频数分析是描述性统计中最常用的方法之一他能够了解变量取值的状况对把握数据分布特征非常有用频数分析过程是专门为产生频数表而设计的它不仅可以产生详细的频数表还可以按要求给出某百分位的数值以及常用的条形图饼图等统计图整体分析与设计的内容 SPSS频数分析一操作实践数据产品的销售量 sav 1 菜单分析描述统计频率 2 对话框中左侧选择一个或多个待分析变量移入右侧 3 显示频率表格勾选该复选框可输出频数分析表整体分析与设计的内容 SPSS频数分析二几个重要的设置对话框统计量按钮对应的对话框 1 四分位数显示25 50 75 的分位数 2 割点勾选后可输入数值A 将数据平分为A等分例如输入5 表示输出20 40 60 80 的百分位数 3 百分位数选中后可激活右侧的文本框和列表可输入更改和删除自定义的百分位数输出反映数据离散程度的统计量输出反映数据集中程度的统计量输出描述数据分布形状及特征的统计量整体分析与设计的内容 SPSS频数分析图表按钮对应的对话框注 1 选择直方图选项则不能再设置图表值选项 2 在选中直方图选项后可以进一步选择在直方图上显示正态曲线 3 仅适用于连续型的数值型变量格式按钮对应的对话框将所有变量集中在一个图形中输出以便比较每个变量单独输出一个图形控制频数表输出的分类数量当频数表的分组数大于设定值时禁止其输出用以避免产生巨型表格整体分析与设计的内容 SPSS的频数分析基本统计信息汇总表 N表示进行统计分析的样本总量 Valid表示有效样本量 Missing表示缺失样本数目 Percentiles列出了销售数据的四分位数频数分析表 Frequency表示变量值落在某个区间或类别中的次数 Percent是各频数占总样本数的百分比 ValidPercent是有效百分比 CumulativePercent是累积百分比指各百分比逐级累加起来的结果三输出结果分析整体分析与设计的内容 SPSS的频数分析从图形特征看数据呈右偏分布历史销售数据总体数值偏大同时最大值 27 差不多是最小值 14 的一倍说明这种产品的销售量不是很稳定具有较大的波动性整体分析与设计的内容 SPSS的描述统计分析一原理统计量是研究随机变量变化综合特征的重要工具描述性统计量的分类如下整体分析与设计的内容 SPSS的描述统计分析 1 集中趋势集中趋势是指一组数据向某一中心值靠拢的倾向均值 Mean 反映了某变量所有取值的集中趋势或平均水平均值往往会受到异常大和异常小的数值影响所以对于严重的偏态分布均值会失去应有的代表性众数 Mode 分布数列中最常出现的标志值频数或频率最大众数适用于单峰对称的情况对于多峰的分布则不适用中位数 Median 指将分布数列中各单位的标志值依其大小顺序排列位于中间位置的标志值称为中位数中位数来描述连续变量会损失很多信息例如其他变量比中位数大多少或小多少等整体分析与设计的内容 SPSS的描述统计分析 2 刻画离散程度的描述性统计量离散程度是指一组数据远离其中心值的程度即考察数据分布的疏密程度全距 Range 也称范围是数据中最大值和最小值之差又称极差 Range 最大值最小值全距说明了数据的整体变动范围但不能反映其间变量分布情况标准差 StandardDeviation 指变量取值距离均值的平均离散程度的统计量方差 Variance 是标准差的平方方差在使用上存在一点不足量纲不统一整体分析与设计的内容 SPSS的描述统计分析 3 刻画分布形态的描述性统计量分布形态是指数据是否对称偏斜程度如何分布陡缓程度如何等偏度 Skewness 是描述变量取值分布形态对称性的统计量当偏度值为0 说明数据对称分布当偏度值大于0 表示变量取值右偏在直方图中有一条长尾拖在右边当偏度值小于0 表示变量取值左偏在直方图中有一条长尾拖在左边峰度 Kurtosis 用来描述变量取值分布形态陡缓程度的统计量是指分布图形的尖峰程度当数据分布和标准正态分布陡缓程度相同时峰度为0 峰度大于0说明数据分布比正态分布陡峭为尖峰分布峰度小于0为平峰分布整体分析与设计的内容 SPSS的描述统计分析二操作描述性统计分析过程是统计描述应用最多的一个过程在这个过程中可以将原始数据转换为标准值并以变量形式保存供以后分析菜单分析描述统计描述示例数据奥斯卡获奖者年龄 sav 标准化处理同时产生相应的Z得分并作为新变量保存在数据窗口新变量为原变量名前缀Z 标准化的计算公式 Xi是变量X的第i个取值 S是标准差整体分析与设计的内容 SPSS的描述统计分析三输出分析 N栏显示男女样本容量相同从均值上看女男男的全距和标准差都小于女的说明男演员获奖年龄波动幅度小于女演员从峰度和偏度看两组数都不服从正态分布整体分析与设计的内容 SPSS探索性统计分析一方法原理探索性数据分析 ExplorataryDataAnalysis 简称EDA 的基本思想是从数据本身出发而不拘泥于模型假设采用灵活的方法来探讨数据分布的大致情况为进一步结合模型的研究提供线索为传统的统计推断提供良好的基础并且减少盲目性在实践中数据分析往往分两个步骤即探索性数据分析和实证分析探索性数据分析是从复杂的数据中分离出数据的基本模式和特点让分析者发现其中的规律以便选择分析方法而对于探索性数据分析中发现的数据规律分析者需要使用特定的统计模型进行实证分析以确定规律是否正确一般的探索性分析主要考察以下内容 1 检查数据是否有错并决定是否删除异常数据 2 获得数据分布特征 3 对数据初步观察发现一些内在规律整体分析与设计的内容 SPSS探索性统计分析二操作探索性数据分析过程用于计算指定变量的探索性统计量和有关的图形从这个过程中可以获得箱图茎叶图直方图各种正态检验图频数表方差齐性检验等结果以及对非正态或正态非齐性数据进行变换以表明和检验连续变量的数值分布情况菜单分析描述统计探索示例数据中国南北城市温差 sav 因变量列表即待分析变量列表可从左侧列表中选择一个或多个变量因子列表用作数据分组分析如果选择了多个变量则组合分组标注个案可选择一个变量做标签当发现异常值时可利用该变量做标记若不选这个变量系统默认以id变量为标签整体分析与设计的内容 SPSS探索性统计分析二按钮对应的界面介绍统计量对话框输出前面所讲述的各个描述统计量并可设置均值的置信区间求出中心趋势的最大似然比的稳健估计量界外值要求输出显示5个最大值与最小值在输出窗口被表明为极端值输出结果显示5 10 25 50 75 90 和95 的百分位数选项对话框从所有分析中将因变量或分组变量中带有缺失值的观测量予以剔除从当前分析中将有缺失值的观测量均予以剔除将分组变量中的缺失值单独分组进行统计整体分析与设计的内容 SPSS探索性统计分析二按钮对应的界面介绍图对话框箱图 1 按因子水平分组每个因变量生成一个单独的箱图便于组间比较 2 不分组所有因变量生成一个复合的箱图描述性图分茎叶图和直方图两种输出显示正态概率与离散正态概率图幂估计对每一组数据产生一个中位数的自然对数与四分位数的自然对数的散列点图达到方差齐次性要求的幂次估计并据此散布图来估计将各组方差转换成同方差所需的幂次转换对原始数据进行变换可在下拉列表中选择转换的幂值未转换不对数据进行转换产生原始数据的散布图注无是不产生该选项的图形整体分析与设计的内容 SPSS探索性统计分析三输出结果北方城市温度标准差大于南方城市说明北方城市一年温度变化较南方大从分布形态上来看南方城市为尖峰右偏特征北方城市表现为平峰左偏特征基本信息汇总无缺失值整体分析与设计的内容 SPSS探索性统计分析三输出结果茎叶图 1 Frequency表示观测值频数 2 Stem 茎表示实际观测值除以图下方茎宽 StemWidth 的整数部分 3 Leaf 叶表示观测值除以茎宽的小数部分 4 EachLeaf 表示每片叶子代表n个观测量茎叶图在反映整体趋势的同时还能反映具体的数值大小因此在分析小样本时优势明显 M估计量 1 Huber 稳健估计量 2 Tukey 复权估计量 3 Hampel 非稳健估计量 4 Andrew 波估计量例子中来看两者差距较大差异性明显南方温度均值都高于北方数据呈正偏态分布平均值受影响较大整体分析与设计的内容 SPSS探索性统计分析三输出结果箱图 1 中间粗线为中位数 2 方框两端分别表示上四分位数 75 和下四分位数 25 3 两者之间的距离为四分位数间距可知整个方框内包括了中间50 的样本数据 4 方框外的上下两个细线分别表示除去异常值外的最大最小值 5 箱图的上下两端的圆圈和星号表示异常值基本概念 1 上四分位数和下四分位数之间的差称为四分位数差 IQR InterQuartileRange 2 大于上四分位数的1 5倍四分位数差或小于下四分位数的1 5倍四分位数差称为异常值 3 极端异常值是超出3倍四分位数差的值整体分析与设计的内容 SPSS列联表统计分析一方法原理在实践中研究者往往希望对两个甚至多个分类变量的频数分析进行联合观察例如考察不同年龄阶段和不同行业的人群购买商品房的意愿就需要将年龄和行业这两个分类变量交叉起来构成复合频数表简称为列联表列联表是指一个频率对应两个变量的表一个变量用来对行分类另一个变量用来对列分类经常被用于分析调查结果其基本的任务有两个 1 根据收集到的样本数据产生二维或多维交叉列联表 2 在列联表的基础上对两两变量之间是否存在相关性进行分析整体分析与设计的内容 SPSS列联表统计分析一方法原理交叉列联表两个或两个以上的变量交叉分组后想成的频数分布表一个二维rxc的列联表如下所示整体分析与设计的内容 SPSS列联表统计分析一方法原理行列变量间关系行列变量的独立性检验独立性检验是指对列联表中行变量和列变量无关的这样一个零假设进行的检验即检验行列变量之间是否独立常用的衡量变量间相关程度的统计量是简单相关系数但在交叉列联表分析中由于行列变量往往不是连续等距变量不符合计算简单相关系数的前提要求所以一般采用的检验方法是卡方检验其公式为实际观察频数期望频数观察频数和期望频数之间距离的一种度量指标值越小说明行列之间相关程度越密切 SPSS在自动计算统计量之后会给出相应的概率P值通过比较概率P和显著性水平值a大小来判断是否接受零假设 P a 拒绝零假设认为行列变量不独立否则接受零假设整体分析与设计的内容 SPSS列联表统计分析二操作菜单分析描述统计交叉表示例数据大学生身体素质调查 sav 1 选择行列变量行选择一个或多个变量作为列联表的行变量列选择若干变量作为列联表的列变量 2 选择层变量进行三纬或多维列联表分析可选择控制变量添加至层1的1 选项组的列表框该变量决定列联表的层若要增加另外的控制变量首先单击下一张按钮再选入另一个变量选择上一张按钮可以重新选择以前确定的变量显示条形图不输出表格只输出统计量整体分析与设计的内容 SPSS列联表统计分析三按钮所对应的对话框界面 1 精确按钮精确检验对话框由此计算的显著性水平低于0 05时被认为是显著的此方法适用于较大的数据集当数据少或没有明显的分布特征时候得到的结论可能不稳定对精确显著性水平的无偏估计它先从一个参考样本中重复抽取样本量相同的子样本再通过子样本的显著性水平推导总样本的显著性水平使用大数据量的情况由此计算的显著性水平低于0 05时被认为是显著的即行列存在相关性选中复选框表示只有当精确检验方法对单个检验的计算时间低于限制条件时才用它取代蒙特卡洛方法整体分析与设计的内容 SPSS列联表统计分析三按钮所对应的对话框界面 2 统计量按钮卡方检验计算Pearson相关系数检测变量的线性相关程度计算Spearman相关系数检验秩次之间的关联两者取值介于 1 完全负相关和1 完全正相关之间取值为0 则表示两者不存在线性相关性两个有序变量的对称关联程度取值范围 1 1 取0表示低度或无线性关系关联性检验是对Gamma系数的非对称性推广对相关的有序变量进行非参数相关检验适合行列数相同的表反映忽略定序变量之间相关关系的非参数关联程度取值0 1 取0表示无关联越接近1 关联度越高自变量用于预测因变量时该检验反映预测误差等于1 表明自变量完全预测因变量等0 则表明自变量无助于预测因变量也用来反映关联程度 0 1 1 Kappa 内部一致性 2 Risk 反映一个因素与某事件发生的关联度大小 3 McNemar 用于两个二分变量的非参数检验检验两个二分变量独立性的统计量整体分析与设计的内容 SPSS列联表统计分析三按钮所对应的对话框界面 3 单元格按钮如果行列具有统计上的相互独立意义将显示期望的或预测的观测值频数即单元格中的观测值减预测值之差即Pearson残差

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第2讲.SPSS描述性统计分析.ppt

文档简介

温馨提示

最新文档

评论

第2讲.SPSS描述性统计分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档