第三章描述统计分析.ppt_第1页
第三章描述统计分析.ppt_第2页
第三章描述统计分析.ppt_第3页
第三章描述统计分析.ppt_第4页
第三章描述统计分析.ppt_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章描述性统计分析 描述性统计和推断性统计 统计描述单变量统计描述 描述单个变量之分布双变量统计描述 描述两个变量之相关统计推论参数估计假设检验 统计量 统计分析往往是从了解数据的基本特征开始的 统计上 需要把样本数据所含信息进行概括 融合和抽象 从而得到反映样本数据的综合指标 这些指标称为统计量 描述性统计分析指标 统计量可分为两类一类表示数据的中心位置 例如均值 中位数 众数等一类表示数据的离散程度 例如方差 标准差 极差等用来衡量个体偏离中心的程度 描述单变量分布的三种方式 用数字呈现一个变量的分布用表格呈现一个变量的分布用图形呈现一个变量的分布 FrequenciesDescriptiveExplore 1 Frequencies 即适用于分类变量 也适用于连续变量能够产生统计值能够产生统计表 频数表 能够产生统计图 饼图 条图和直方图 3 1频率分析 频率分析主要通过频率分布表 条形图和直方图 以及集中趋势和离散趋势的各种统计量来描述数据的分布特征 SPSS频率分析 步骤1 点击Frequencies 弹出对话框 步骤2 从左侧变量框 选择分析变量 步骤3 点击 OK 自动出现频数分析 Frequencies的三个操作选项 带有正态曲线的直方图 按变量值升序排 按频数降序排 设置多变量表输出格式 在同一表中输出多个变量的统计结果 每个表中只输出一个变量的统计结果 3 2中心趋势的描述 均值均值标准误差中位数众数 均值 均值即数据的算术平均数 是数据中心趋势的主要度量指标 设变量有n个测量值 则算术均值为 均值的特点 最常用的中心位置度量受极端值影响例 1 3 5 7 9和1 3 5 7 14 均值标准误差 S E mean 均值标准误差 StandardErrorofMean S E mean 就是描述这些样本均值与总体均值之间平均差异程度的统计变量 中位数 重要的中心位置度量在递增排序后的数据列中若数据个数为奇数 中位数是正中央的数若数据个数是偶数 中位数是正中央的两数的平均值 不受极端值的影 例如 1 5 7 3 9 众数 发生频数最高的数据值不受极端值的影响众数可能不存在可能有多个众数 单峰 双峰 多峰 可用于定量或定性数据 3 3离散趋势的描述 仅仅根据数据的中心趋势指标进行决策是不够的 例如 如果一个国家的不同家庭收入差距很少 而另一个国家的家庭收入差距很大 既存在大量的贫困家庭 也存在许多十分富有的家庭 那么即使这两个国家的中等收入家庭的收入完全一样 其家庭收入情况仍然完全不同 例子 假设我们有以下的三组观测值 观测A 11 12 13 16 16 17 18 21观测B 14 15 15 15 16 16 16 17观测C 11 11 11 12 19 20 20 20这三组观测值的均值都是15 5 那么这三组数据是否相似呢 离散趋势 离散趋势的描述 极差 全距 range 方差 Variance 标准差 S d 分位数 Percentage 极差 极差 最大值 最小值受极端值影响较大 方差和标准差 方差标准差 四分位数 Quartiles 四分位数是将一组个案由小到大 或由大到小 排序后 用3个点将全部数据分为四等份 与3个点上相对应的变量为四分位数 分别记为Q1 第一四分位数 Q2 第二四分位数 Q3 第三四分位数 其中Q3到Q1之间的距离的一半又称为四分位差 记为Q 四分位差越小 说明中间的数据越集中 四分位差越大 则意味着中间部分的数据越分散 3 4分布的形状 偏度 Skewness 是描述数据分别形态的 它是描述某变量取值分布对称性的统计量 峰度 Kurtosis 是描述某变量所有取值分布形态陡缓程度的统计量 偏度 Skewness 当偏度大于0时 分布为正偏或右偏 布图形在右边拖尾 分布图有很长的右尾 尖峰偏左当偏度小于0 分布为负偏或左偏 即分布图形在左边拖尾 分布图有很长的左尾 峰尖偏右当偏度为0 分布对称 峰度 Kurtosis 峰度 3 分布为高峰度 即比正态分布的峰要陡峭 3 分布为低峰度 即比正态分布的峰要平坦些 0 分布为正态峰 标准化Z分数 标准分数 stardardscore 也叫z分数 z score 是一个分数与平均数的差再除以标准差的过程 用公式表示为 z x 其中x为某一具体分数 为平均数 为标准差 Z值的量代表着原始分数和母体平均值之间的距离 是以标准差为单位计算 在原始分数低于平均值时Z则为负数 反之则为正数 标准化Z分数 Z分数可以用来比较两个从不同单位总体中抽出的变量值 例如 某中学高 1 班期末考试 已知语文期末考试的全班平均分为73分 标准差为7分 甲得了78分 数学期末考试的全班平均分为80分 标准差为6 5分 甲得了83分 甲哪一门考试成绩比较好 标准化Z分数 因为两科期末考试的标准差不同 因此不能用原始分数直接比较 需要将原始分数转换成标准分数 然后进行比较 Z 语文 78 73 7 0 71Z 数学 83 80 6 5 0 46甲的语文成绩在其整体分布中位于平均分之上0 71个标准差的地位 他的数学成绩在其整体分布中位于平均分之上0 46个标准差的地位 由此可见 甲的语文期末考试成绩优于数学期末考试成绩 3 Explore 三个功能项中最强大的一个适用于性质和分布不明的数据资料 故称为探索性分析在常用描述统计指标基础上 增加了有关数据详细分布特征的数字和图形描述 Explore的基本操作 Explore的三个操作选项 4个不同权重下作中心趋势的粗略最大似然确定数 百分位数 两组最大5个数和最小5个数 及对应id 正态分布的检验结果 Sig 0 05数据服从正态分布Sig 0 05数据不服从正态分布 方差齐次性检验结果 Sig 0 05接受方差相同的假设Sig 0 05拒绝方差相同的假设 茎叶图 茎叶图分为3大部分 频数 Frequency 茎 Stem 和叶 Leaf 茎表示数值的整数部分 叶表示数值的个数部分 每行的茎和叶组成的数字相加再乘以茎宽 StemWidth 即茎叶所表示的是实际值的近似值 正态概率图 斜线是正态分布标准线 散点是实际数据的取值 散点图组成的曲线越接近直线 表示数据分布越接近正态分布 离散正态概率图 散点随机落在中间横线周围 不能拒绝正态分布 箱图 箱子中间的黑粗线为中位数箱子上框为上四分位数 75 下框为下四分位数 25 箱子上下两个细线分别为去掉极端值以后的最大值和最小值细线外面的圆圈和星号为极端值 交叉列联表分析 交叉分组下的频数分析又称列联表分析 通过前面的频数分析能够掌握单个变量的数据分布情况 在实际分析中 不仅要了解单个变量的分布特征 还要分析多个变量不同取值下的分布 进而分析变量之间的相互影响和关系 对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成 交叉列联表分析 2 基本任务 1 根据收集到的样本数据 产生二维或多维交叉列联表 2 在交叉列联表的基础上 对两两变量间是否存在一定的相关性进行分析 5 3 2交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务 交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表 例 职工基本情况数据按职称和文化程度编制的二维交叉列联表 见下页表 上表中的职称变量称为行变量 Row 文化程度称为列变量 Column 行标题和列标题分别是两个变量的变量值 或分组值 表格中间是观测频数 ObservedCounts 和各种百分比 16名职工中 本科 专科 高中 初中的人数分别为4 4 5 3 构成的分布称为交叉列联表的列边缘分布 高级工程师 工程师 助理工程师 无技术职称的人数分别为3 4 6 3 构成的分布称为交叉列联表的行边缘分布 4个本科学历职工中各职称的人数分别是1 1 2等 这些频数构成的分布称为条件分布 即在行变量 列变量 取值条件下的列变量 行变量 的分布 在交叉列联表中 除了频数外还引进了各种百分比 例如表中第一行中的33 3 33 3 33 3 分别是高级工程师3人中各学历人数所占的比例 称为行百分比 Rowpercentage 一行的百分比总和为100 表中第一列的25 0 25 0 50 0 分别是本科学历4人中各职称人数所占的比例 称为列百分比 Columnpercentage 一列的列百分比总和为100 表中的6 3 6 3 12 5 等分别是总人数16人中各交叉组中人数所占的百分比 称为总百分比 Totalpercentage 所有格子中的总百分比之和也为100 交叉分组下的频数分析的基本操作 1 菜单选项Analyze DescriptiveStatistics Crosstabs 出现窗口如下 2 如果进行二维列联表分析 则将行变量选择到Row s 框中 将列变量选择到Column s 框中 如果Row s 和Column s 框中有多个变量名 SPSS会将行列变量一一配对后产生多张二维列联表 如果进行三维或多维列联表分析 则将其他变量作为控制变量选到Layer框中 多控制变量间可以是同层次的 也可以是逐层叠加的 可通过Previous或Next按钮确定控制变量间的层次关系 3 选择Displayclusteredbarcharts选项 指定绘制各变量交叉分组下频数分布条形图 Suppresstables表示不输出列联表 在仅分析行列变量间关系时可选择该选项 4 单击Cells按钮指定列联表单元格中的输出内容 窗口如下 5 单击Format按钮指定列联表各单元格的输出排列顺序 Ascending表示以行变量取值的升序排列 是SPSS默认项 Descending表示以行变量取值的降序排列 6 单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系 窗口如下 其中 Chi Square为卡方检验 卡方统计检验 零假设是 行和列变量之间彼此独立 不存在显著的相关关系 相伴概率小于显著性水平0 05 应拒绝零假设 认为行列变量之间彼此相关 SPSS中列联表分析的其他检验方法 对列联表中行列变量的分析 除上述卡方检验方法之外 SPSS还提供了其他测度变量间相关关系的检验方法 包括 适用于两定类变量的方法 Nominal框中列出的方法属该类方法 适用于两定序变量的方法 Ordinal框中列出的方法属该类方法 适用于定类变量 定距变量的方法 Nominalbyinterval框中的Eta方法属该类方法 其他方法 交叉列联表统计结果 卡方检验统计结果 多选项分析 多选项分析是对多选项问题的分析方法 所谓多选项问题 就是一个问题的答案都是顺序变量或名义变量 并且允许选择的答案可以有多个的问题 可以选多个 分为限选和不限选 限选 如在11种工作种类中 选你喜欢的 最多可选4种 Var1 Var4 求所有人喜欢各种工作的频数或频率 不限选 如在所列的20种电器中 你家所拥有的电器 不限选 Var1 Var20 求所有被调查家庭拥有各种电器的频数或频率 多选项二分法及其编码 multipledichotomiesmethod 多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量 每个变量值有0或1两个取值 分别表示不选择该答案和选择该答案 如对下面问题有9个可能的答案 每个可选择的答案由一个变量表示 每个变量的值只能有表明 是 和 否 的两个代码1或者0 左边的表格为向顾客发放的颜色调查 在选择服装时 您喜欢什么颜色作为主体颜色 在答案的 中打 可多选 这是一组问题 每个问题均有两个答案 回答者只能选择其中一种 在建立数据文件时 变量名使用相同的变量主名 后面加以不同序号组成 本组问题的9个变量名可以是color1 color9 而答案的编码规则为 回答 是 变量值为1 回答 否 变量值为0 其他值为缺失值 多选项分类法及其编码 multiplecategorymethod 多选项分类法中 首先应估计多选项问题最多可能出现的答案个数 然后为每个答案设置一个SPSS变量 变量取值为多选项问题中的所有可选答案 如上面有关选择服装的主体颜色 您可以选择喜欢的三种 在提供的10种答案前上选择 1 红2 橙3 黄4 绿5 青6 蓝7 紫8 黑9 白10说不清这是一个问题 可以有三个答案 在建立数据文件时 要建立三个变量color1 color3表示回答者选择的三个颜色 如选择结果为1 红 6 蓝 8 黑 则变量color1的值为1 变量color2的值为6 变量color3的值为8 如果采用多选二分法则有6个选项 故应设6个变量 运用0 1编码方法编码 即 1 0 1 0 1 1 如果采用多选分类法 则编码为1 3 5 6 0 0 编码应为 1 0 1 1 1 0 1 1 0 或1 3 4 5 7 8 0 0 0 因为限选三项 故应设三个变量 编码依次为1 3 6 首先将每个题的若干答案组成一个综合变量即变量集 Set 然后对综合变量的各种取值进行分析 只有通过定义多选项变量集 spss才能确定应对哪些变量取相同值的个案数进行累加 多选项分析在SPSS中是通过Analyze MultipleResponse中的各项功能实现的 1 DefineSets 1 从左边的变量中将多选变量集的变量选择到variablesinsets框中 建立多选二分变量集或多选分类变量集 2 在variablesarecodedas框中指定多选变量集中的变量是按照那种方法编码的 Dichotomies表示以多选二分法编码 并在countedvalue中输入用哪个数值来表示选中该选项 categories表示以多选分类法编码 并在range框中输入变量取值的最小值和最大值 多选项分析的基本操作 多选项分析的基本操作 3 为多选项变量集命名 系统会自动在该名字前加字符 4 单击add按钮将定义好的多选项变量集加到multresponsesets框中 Spss可以定义多个多选项变量集 多选项二分法定义变量集 在SetDefinition框中选择多选项变量 使之添加到VariablesinSet框中 VariablesareCodedas框用来选择变量编码方式 多选项二分法选DichotomlesCountedvalue 并在后面框中输入数值1 表示等于1的为一组 下面的Name框输入多选项变量集的名称 在Label中输入说明 6个选项集合 输入完毕后点击右边的Add按钮 使之添加到右边的MultResponseSets框中 多选项二分法定义变量集 多选项分类法定义变量集 多选项分类法定义变量集 多选项分析 2 Frequencies 对多选变量集进行频数分析 从multresponsesets中把待分析的多选项变量集选择到tablesfor框中 3 Crosstabs 对多选变量集与其他变量集或与原基本变量进行交叉表分析 2 Frequencies 对多选变量集进行频数分析 3 Crosstabs 对多选变量集与其他变量集或与原基本变量进行交叉表分析 单击Row s 框中的 性别 变量 下方DefineRanges变亮 单击DefineRanges按钮出现左侧对话框 用于确定行变量的取值 这里1表示男性 2表示女性 输入完毕 单击Continue按钮 回到下图对话框 可见性别变量变为 性别 12 单击MultipleResponseCrosstabs对话框右下方的Options按钮出现下方对话框 选择列联表的输出内容和计算方法 基本统计分析报表制作 SPSS提供了基本统计分析报表的制作功能 根据报表制作的侧重点不同 可以分为3种 1 个案简明统计报表 CasesSummary 计算主要变量的分组统计量2 行形式报表 ReportSummariesinRows 行形式报表以行为对象生成各种统计结果3 列形式报表 ReportSummariesinColumns 列形式报表是以列为对象生成各个列相应的统计信息 各个列的统计方法可以不同 1 个案简明统计报表 1 个案简明统计报表 单击 statistics 按钮 选择统计量 单击 Options 按钮 输入表格标题及脚注 2 行形式报表 2 行形式报表 单击DataColumns框中的某一变量 此时下面的Format按钮变亮 单击Format按钮 可输入该列标题 单击BreakColumns框中的变量 此时下面的Summary Options Format三个按钮变亮 单击BreakCo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论