第三讲__如何怎么办用Frequencies做数据汇总_第1页
第三讲__如何怎么办用Frequencies做数据汇总_第2页
第三讲__如何怎么办用Frequencies做数据汇总_第3页
第三讲__如何怎么办用Frequencies做数据汇总_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京大学社会学系北京大学社会学系 数据分析课程讲义数据分析课程讲义 刘爱玉刘爱玉 2005 年年 第三讲第三讲 用用 Frequencies 做数据汇总做数据汇总 从问卷设计 发放 回收 整理 编码以及计算机录入 把原始数据文件转从问卷设计 发放 回收 整理 编码以及计算机录入 把原始数据文件转 变为变为 SPSS 的的 SAV 文件 我们就可以进行数据的汇总分析了 对数据进行汇总文件 我们就可以进行数据的汇总分析了 对数据进行汇总 的主要目的有两个 的主要目的有两个 第一 第一 通过数据汇总 统计出各个变量值的频率 频次等 了解变量分布的结通过数据汇总 统计出各个变量值的频率 频次等 了解变量分布的结 构 构 第二 第二 通过数据汇总 可以检测到所录数据的真伪 如经过汇总 发现性别汇通过数据汇总 可以检测到所录数据的真伪 如经过汇总 发现性别汇 总表上出现性别的编码值为总表上出现性别的编码值为 3 则显然是录入有错误 我们可以以此为 则显然是录入有错误 我们可以以此为 线索对其进行纠正线索对其进行纠正 一 数据汇总使用的数据类型一 数据汇总使用的数据类型 1 ASCII 码数据 即纯文本文件 是在文本编辑器中编辑和存储的 码数据 即纯文本文件 是在文本编辑器中编辑和存储的 Word 带分行符号的文本格式 带分行符号的文本格式 EDIT 命令 命令 WINDOWS 中的书写编辑中的书写编辑 器等 这种数据的扩展名采用器等 这种数据的扩展名采用 DAT 2 SPSS 系统中生成的数据库系统中生成的数据库 SAV 3 数据库数据数据库数据 DBF 4 Epidata 生成的数据生成的数据 二二 频次统计及统计量的计算频次统计及统计量的计算 SPSS File open data SAV Analyze Descriptives Frequencies 显示对话框显示对话框 左边左边 可以寻找需要的变量可以寻找需要的变量 右边各个框的含义 右边各个框的含义 一 一 StatisticsStatistics 统计量统计量 北京大学社会学系北京大学社会学系 数据分析课程讲义数据分析课程讲义 刘爱玉刘爱玉 2005 年年 1 Percentile values 百分比计算 包括 四分位 百分比计算 包括 四分位 10 分位与百分位分位与百分位 1 Quartiles 计算 计算 4 等分处的百分比 显示等分处的百分比 显示 25 50 75 处的值处的值 2 Cut point for 10 equal groups 计算计算 10 等分处的百分比 也可以输入一个其等分处的百分比 也可以输入一个其 他的数字 把个案分成你想要的相等的组 如对收入进行他的数字 把个案分成你想要的相等的组 如对收入进行 5 等分 等分 3 Percentile s 按照指定的百分位数计算频率 第按照指定的百分位数计算频率 第 50 个个 Percentile s 与中位数与中位数 相同相同 Change 改变百分位数的选择改变百分位数的选择 Remove 从框中移走百分位数从框中移走百分位数 Add 将选择的百分位数加以确认将选择的百分位数加以确认 2 Central Tendency 均值 中位值 众数 均值 中位值 众数 根据典型值来估计或预测每个根据典型值来估计或预测每个 研究对象的数值研究对象的数值 1 Mean 最适合于分析定距变量最适合于分析定距变量 简单平均值简单平均值 均值均值 XN 加权平均值加权平均值 分组时 分组时 均值均值 比较适合于定距 定比变量比较适合于定距 定比变量 f xf 2 Median 最适合于定序变量最适合于定序变量 也就是第也就是第 50 百分位数上的值 也就是说有百分位数上的值 也就是说有 50 的观察点落在这个值之下 的观察点落在这个值之下 主要适用于定序变量 中位数 主要适用于定序变量 中位数 但在分析诸如有极端值的定距变量时 也常常 但在分析诸如有极端值的定距变量时 也常常 使用中位值 使用中位值 Md N 1 2 当观察总数为奇数时当观察总数为奇数时 居中位置左右两位数的平均值 当观察总 居中位置左右两位数的平均值 当观察总 数为偶数时 数为偶数时 Md 2 LU n cf N L cf 对应于下限的累积频次或低于中位值点实下限累积频次 对应于下限的累积频次或低于中位值点实下限累积频次 N 调查总数调查总数 n 中位值组的频次中位值组的频次 L 包含中位数的间距的下限包含中位数的间距的下限 U 包含中位值组的间距的上限包含中位值组的间距的上限 北京大学社会学系北京大学社会学系 数据分析课程讲义数据分析课程讲义 刘爱玉刘爱玉 2005 年年 均值受极端值变化的影响 而中位数不 均值受极端值变化的影响 而中位数不 均值预测定距变量最好 均值一均值预测定距变量最好 均值一 般不用于定类与定序变量 般不用于定类与定序变量 当然根据分析的需要有的时候也用 当然根据分析的需要有的时候也用 在二分变量在二分变量 中 中 0 1 均值对这种变量有特殊的解释 如 均值对这种变量有特殊的解释 如 SEX 0 1 男男 1 女女 0 则如果均值是则如果均值是 40 说明编码为说明编码为 1 的男性占的男性占 40 样本的中位数从一个样本到另外一个样本有较大的差异 但分布高度倾斜时 样本的中位数从一个样本到另外一个样本有较大的差异 但分布高度倾斜时 中位值比均值好 中位值预测定序变量的效果比较好 中位值比均值好 中位值预测定序变量的效果比较好 3 Mode 预测定类变量的效果最好预测定类变量的效果最好 众数 为次数出现最多的变量值 主要适用于定类变量 用众数来预测定众数 为次数出现最多的变量值 主要适用于定类变量 用众数来预测定 类变量所犯的错误最小类变量所犯的错误最小 当变量是定距变量时 可以用以下公式计算当变量是定距变量时 可以用以下公式计算 公式 公式 L f2 W f1 f2 f1 众值组下一组次数众值组下一组次数 f2 众值组上一组次数众值组上一组次数 W 组距组距 例 例 成绩成绩组中值组中值人数人数 95 10097 53 90 9492 08 85 8987 07 80 8482 06 75 7977 04 70 7472 02 比较精确地求众值 比较精确地求众值 Mode 90 3 5 7 3 91 5 4 Sum 求和求和 3 Dispersion 离散趋势测量离散趋势测量 可以点右键 看统计量的意义可以点右键 看统计量的意义 用来测量离散趋势的统计量用来测量离散趋势的统计量 1 异众比异众比 variation ration 定类变量的离散趋势分析定类变量的离散趋势分析 异众比异众比 N 众数 众数 N 不同于众值的数在全体数值中所占的比例 用不同于众值的数在全体数值中所占的比例 用 于测量定类变量的离散趋势 异众比越大 说明用众值估计的效果越差 于测量定类变量的离散趋势 异众比越大 说明用众值估计的效果越差 SPSS 不给出异众比 但可以计算出来不给出异众比 但可以计算出来 2 分位差分位差 定序变量定序变量 第一个 四分互差 第一个 四分互差 Interquartile range Q Q3 Q1 Q 越大 说明有越大 说明有 50 的的 个案的分布越是远离中位值 中位值的代表性就越小 以中位值作为估计或预个案的分布越是远离中位值 中位值的代表性就越小 以中位值作为估计或预 测的效果就越差 如以收入变量为例 四分互差为测的效果就越差 如以收入变量为例 四分互差为 12000 6000 6000 StatisticsStatistics 收入总计 Valid806N Missing61 256000 00 508000 00 Percentile s 7512000 00 北京大学社会学系北京大学社会学系 数据分析课程讲义数据分析课程讲义 刘爱玉刘爱玉 2005 年年 第二个 十分位差 可以根据研究目的决定计算第二个 十分位差 可以根据研究目的决定计算 百分位差百分位差 3 STD deviation 最适合于定距变量最适合于定距变量 以均值做估计或预测变量时所犯错误 以均值做估计或预测变量时所犯错误 的大小为标准偏差的大小为标准偏差 样本的标准偏差样本的标准偏差 根号根号 观察值 均值 的平方和 观察值 均值 的平方和 n n xx S i 2 标准差越大 表示变量离散的程度越大 说明均值的代表性越小 公式以标准差越大 表示变量离散的程度越大 说明均值的代表性越小 公式以n 分母 是要分母 是要 求出各个案的数值与均值之间的差异平均有多少 反映均值的代表性 即以均求出各个案的数值与均值之间的差异平均有多少 反映均值的代表性 即以均 值来估计或预测各个个案的数值 所犯的错误 值来估计或预测各个个案的数值 所犯的错误 平均是 平均是 S xx i 4 离散系数与标准分数离散系数与标准分数 离散系数是标准差与均值的百分比 离散系数是标准差与均值的百分比 S 100 x 标准分数标准分数 s xxi 对原始数据进行标准化 可以确定原始数据在总体分布中的位置 对不同分布的各种原始对原始数据进行标准化 可以确定原始数据在总体分布中的位置 对不同分布的各种原始 数据进行比较 数据进行比较 标准正态分布的均值是标准正态分布的均值是 0 标准差是 标准差是 1 如 如 Z 2 表示这个值与均值 等表示这个值与均值 等 于于 0 的距离是 的距离是 2 个标准差 在总体中的位置是个标准差 在总体中的位置是 0 95 此外 以下几个指标也可以反映定距变量的离散程度 即 此外 以下几个指标也可以反映定距变量的离散程度 即 Variance 方差方差 标准差的平方标准差的平方 Minimum 最小值最小值 Maximum 最大值最大值 Range 全距或极差 即最大值与最小值之间的距离 显示的是数据分全距或极差 即最大值与最小值之间的距离 显示的是数据分 布的范围 但对于中间部分数据怎么变化 则不能推知 此外 它受极端值的布的范围 但对于中间部分数据怎么变化 则不能推知 此外 它受极端值的 影响不太可靠 一般不太用 影响不太可靠 一般不太用 S E Mean 标准偏差标准偏差 根号根号 n 它小于标准偏差 同一分布中抽取不 它小于标准偏差 同一分布中抽取不 同的样本 其均值的分布的偏差 如可以粗略地估计观察值与一个假定均值之同的样本 其均值的分布的偏差 如可以粗略地估计观察值与一个假定均值之 间是否相符合 若间是否相符合 若 S E Mean 的绝对值小于等于的绝对值小于等于 2 可以认为这两个值不相等 可以认为这两个值不相等 4 Values are group midpoints 选中这个框 则在计算百分位数值和中位数时 选中这个框 则在计算百分位数值和中位数时 假设数据已经分组 且各组的组中值代表各组数据 假设数据已经分组 且各组的组中值代表各组数据 5 Distribution Skewness 显示偏度和偏度的标准误差 显示偏度和偏度的标准误差 如果样本符合正态分布 那么这个值如果样本符合正态分布 那么这个值 为为 0 左偏时这个值是正数 样本的分布具有一个较长的右尾 右偏时这个数 左偏时这个值是正数 样本的分布具有一个较长的右尾 右偏时这个数 是负的 样本的分布具有一个较长的左尾 如果这个值大于是负的 样本的分布具有一个较长的左尾 如果这个值大于 1 那么样本肯定 那么样本肯定 不符合正态分布 不符合正态分布 Kurtoisis 以标准偏差曲线为基准 当观察值向中心点的凝聚程度较大时 称为以标准偏差曲线为基准 当观察值向中心点的凝聚程度较大时 称为 峰态分布 标准正态分布的这个值是峰态分布 标准正态分布的这个值是 0 如果这个值大于 如果这个值大于 0 变量值分布要比标 变量值分布要比标 准正态分布的峰高准正态分布的峰高 高峰态 如果这个值小于高峰态 如果这个值小于 0 变量值分布要比标准正态分 变量值分布要比标准正态分 北京大学社会学系北京大学社会学系 数据分析课程讲义数据分析课程讲义 刘爱玉刘爱玉 2005 年年 布的峰低布的峰低 低峰态低峰态 6 频率表的解释 频率表的解释 文文化化程程度度 5 6 6 6 7 8 81 4 18221 021 022 4 12114 014 036 3 22526 026 062 3 32737 737 7100 0 867100 0100 0 没上过学 小学 初中 普通高中 中专技校或职高 大专及以上 Total Valid FrequencyPercentValid Percent Cumulative Percent Frequency Percent Valid Percent C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论