已阅读5页,还剩101页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章统计数据的整理与显示 统计整理是根据统计研究的目的 将统计调查所得到的原始资料 也称初级资料 进行科学的分类和汇总 或对已经经过加工的综合资料 也称次级资料 进行再加工 为统计分析准备系统化的 条理化的 能够反映总体特征的综合资料的工作过程 例如 某班50名学生 调查其考分资料如下 7765835668709965737288667463718462528078847981645882766273758979616554928673685169647863766872778176 上述这些考分 原始资料 的特点是零星分散 不系统 无规律 不能反映学生总体的学习情况 由表3 1可见 整理后的学生考分资料 较整理前的考分资料明显要条理 系统 由上表可见 在学生总体中 60分以下和90分以上的学生人数都较少 绝大多数学生的考分分布在60 89分之间 表3 1 所以 统计整理是统计调查的继续 是统计分析的前提 它实现了从个别单位的标志表现 标志值 向总体综合指标的过渡 在统计研究中起着承前启后重要的作用 统计数据的整理与显示 3 1统计数据的整理程序3 2品质数据的整理与显示3 3数值型数据的整理与显示3 4次数分布及其类型3 5统计表与统计图 学习目标 充分认识统计整理在统计研究中的承前启后的地位 掌握统计数据的整理和显示方法 特别是分组与变量数列的编制 了解统计表和统计图的构成和展示 能实际设计统计表和统计图 统计数据整理的程序 1 制定整理方案 汇总方案 2 对调查资料进行审核和纠正等 预处理 3 进行统计分组 关键 4 进行统计汇总 5 汇总后审核 6 编制统计表 绘制统计图 显示整理结果 根据统计调查目的 获得统计资料的整理流程计划 一是对总体资料的处理方法 如如何分组 二是确定用哪些具体的统计指标来说明总体 一 制定统计整理方案 数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序 二 数据的预处理 1 统计资料的审核 审核 对第一手数据 1 完整性审核 检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全 2 准确性审核 真实性 检查数据是否真实反映客观实际情况 内容是否符合实际 逻辑检查正确性 检查数据是否有错误 计算是否正确等 计算检查 定量数据 审核 对第二手数据 完整性 准确性 适用性 数据的来源 口径以及有关背景资料 时效性 尽可能使用最新的数据 2 数据筛选 当数据中的错误不能予以纠正 或者有些数据不符合调查的要求而又无法弥补时 需要对数据进行筛选 数据筛选的内容 将某些不符合要求的数据或有明显错误的数据予以剔除 将符合某种特定条件的数据筛选出来 而不符合特定条件的数据予以剔除 3 数据的排序 数据的排序 按一定顺序将数据排列 以发现一些明显的特征或趋势 找到解决问题的线索排序有助于对数据检查纠错 以及为重新归类或分组等提供依据在某些场合 排序本身就是分析的目的之一排序可借助于计算机完成 定类数据的排序字母型数据 排序有升序降序之分 但习惯上用升序汉字型数据 可按汉字的首位拼音字母排列 也可按笔画排序 其中也有笔画多少的升序降序之分定距和定比数据的排序递增排序 设一组数据为X1 X2 XN 递增排序后可表示为 X 1 X 2 X N 五 汇总后审核 审核汇总工作质量 汇总过程有无差错 主要四种方法 一是复计审核 二是表表审核 三是表实审核 四是对照审核 三 统计分组 分组前 分组后 统计分组就是根据统计研究的目的和被研究现象的本质特征 将统计总体按照一定的标志划分为若干性质不同的部分或组 统计分组是在总体内部进行的一种定性分类 它客观上把总体划分为一个个性质不同 范围更小的总体 统计分组有两个方面的含义 即 1 统计分组的作用 划分现象的类型 区分事物的类型 研究总体的结构 构成 或比例关系 分析 探讨 现象之间的依存关系 注意 统计分组是对总体认识深化的手段 它是一切统计研究的基础 应用于统计工作的全过程 是统计研究的基本方法 2 统计分组的原则 穷尽原则互斥原则 揭露社会经济现象的类型 反映各类型的特点 类型分组 单位 亿元 说明社会经济现象的内部结构 结构分组 九五 期间我国国内生产总值构成 研究经济现象之间的依存关系 分析分组 某乡某种农作物的耕作深度与收获率的关系 3 统计分组的种类 一 按分组标志的多少不同 二 按分组标志的性质不同 简单分组 品质分组 数量 变量 分组 复合分组 4 统计分组的方法 分组标志的选择 选择分组标志是统计分组的核心问题 必须根据统计研究的目的选择分组标志 品质分组 是按品质标志进行的分组 国民经济按产业分组 第一产业第二产业第三产业 人口按性别分组 男性女性 用文字来表示各组性质上的差别 数量分组数量分组的概念单项式分组与组距式分组进行组距式分组时应注意的问题 数量分组是按数量标志进行的分组 数量分组的概念 例如 学生按考分分组 分 用数量来表示各组性质上的差别 60以下60 7070 8080 9090以上 1 单项式分组 即在变量分组中 一个组只有一个变量值 单项式分组与组距式分组 适用条件 它适用于当变量值变化范围不大 不同变量值个数较少的离散型变量的场合 例如 居民家庭按子女数分组 0123 离散型变量 2 组距式分组 就是将变量依次划分为几段区间 一段区间表现为从 到 距离 把一段区间内的所有变量值归为一组 区间的距离就是组距 例如 企业按人数分组 499及以下500 9991000 29993000及以上 工人按工资分组 600 700700 800800 12001200 1500 适用条件 它适用于变量值变化范围较大 不同变量值个数较多的离散型变量及连续型变量的场合 离散型变量 连续型变量 注意 连续型变量的数值不能一一列举 故其只能采用组距式分组 进行组距式分组时应注意的问题 1 组限及划分方法 2 等距分组与不等距分组 3 组中值 499及以下500 9991000 29993000及以上 600 700700 800800 12001200 1500 1 组限及划分方法 组限 确立每组界限的两个数字 其中 每组最大变量值称为上限 每组最小变量值称为下限 工人按工资分组 连续变量 企业按人数分组 离散变量 重叠组限 不重叠组限 组限的划分方法 组限的划分方法 不重叠组限 重叠组限 只适用于离散型变量 适用于连续型变量和离散型变量 重叠组限 不重叠组限 即相邻两组的上下限为同一个数值 即相邻两组的上下限为两个不同的确定数值 故当某单位的变量值刚好等于相邻两组的上下限时 一般把此值归到作为下限的那一组中 即遵循 上限不在其内 的原则 企业按人数分组 499及以下500 9991000 29993000及以上 不重叠组限 企业按人数分组 500以下500 10001000 30003000及以上 重叠组限 2 等距分组与不等距分组 组距分组 等距分组 不等距分组 例如 按身高 考分分组等 应采用等距分组 它便于各组间单位数与变量值的直接对比和各项指标计算 适用场合 等距分组 即各组组距相同的分组 凡是在变量值分布比较均匀时采用 组距 每组变量值的变动范围 即组距 上限 下限 不等距分组 即各组组距不都相等的分组 适用场合 当变量值分布很不均匀时采用 不等距分组多数是根据事物性质变化的数量界限来确定组距 如人口按年龄分组 要注意不同年龄生理变化的特点 可分为 1岁以下 1 6岁 7 12岁 13 18岁 19 59岁 60岁以上 年龄段 工人按工资分组 元 600 700700 800800 12001200 1500 3 组中值 组中值是指组距数列中各组上限和下限之间的中点数值 注意 组中值经常用来代表各组标志值的平均水平 但要假定各组内标志值呈均匀分布 按考分分组50 6060 7070 8080 9090 100 55 75 65 85 95 组中值 人数51518102 若第一组出现 以下 或最末组出现 以上 字样的组叫做开口组 首组组中值 首组上限 相邻组组距的一半 末组下限 相邻组组距的一半 末组组中值 50 10 2 100 10 2 例如 首组 末组 按考分分组组中值50 605560 706570 807580 908590 10095 50以下 100以上 45 105 或 例 某地区农户收入分布 编制 1 单变量数列还是组距式数列 变量的性质及变异程度离散型变量且变异小 单变量数列离散型变量但变异大或连续型变量 组距式数列例如 按以五分制计分的成绩对全班100名学生进行分组 宜单变量数列 按以百分制计分的成绩对全班100名学生进行分组 宜组距式数列 例如 按身高对全班100名学生分组 只能组距式数列 2 等距数列还是异距数列 变量分布的特征当分布值很不均匀时 一般采用异距数列 如学生成绩一般密集于某一区间 低于这一区间的学生为少数 高于这一区间的学生也为少数 合理的做法是在密集区间内使用较短的组距 在稀少区间内使用较长的组距 当等量的标志值不具有相同的意义时 一般采用异距数列 如 对新生儿和成人的年龄 同样的一年或一月 其意义是不同的 进行人口疾病研究的年龄分组时 一般1岁以下按月分组 1 10岁按年分组 11 20岁按5年分组 当标志值按一定比例发展变化 某些时候采用公比为10的不等距分组 如商场按营业额分组为 5万元以下 5 50万元 50 500万元 500 5000万元 3 开口数列还是闭口数列 极端变量值偏离分布中心的程度 极端变量值 极大值或极小值 远离分布中心 开口数列极端变量值 极大值或极小值 接近分布中心 闭口数列例如 成绩 20分1人 55分1人 58分3人 60 70分10人 80 90分30人 91分3人 92分2人 95分1人最小组 90分 实际平均分92分 同时兼顾习惯 四 统计汇总 频数 各组内的总体单位数频率 各组内总体单位数占总体全部单位数的比率累计频数 率 各组的频数 率 累计加和向上累计制 由标志值较小组向较大组累计 每一组的累计次数表示小于该组下限 变量 值的次数共有多少 向下累计制 由标志值较大组向较小组累计 每一组的累计次数表示大于该组下限 变量 值的次数共有多少 某班统计学考试成绩次数分配 审核汇总工作质量 汇总过程有无差错 主要四种方法 一是复计审核 二是表表审核 三是表实审核 四是对照审核 五 汇总后审核 3 2品质数据的整理与显示 数据的整理与显示的基本问题 要弄清所面对的数据类型 不同类型的数据 处理方式和方法不同 适合于低层次数据的整理和显示方法也适合于高层次的数据 但适合于高层次数据的整理和显示方法并不适合于低层次的数据 品质数据的整理与显示 3 2 1定类数据的整理与显示3 2 2定序数据的整理与显示 定类数据的整理的基本过程 2 计算各类别的频数 3 制作频数分布表 列出各类别 4 用图形显示数据 定类数据的整理 可计算的统计量 频数 frequency 落在各类别中的数据个数 比例 proportion 某一类别数据占全部数据的比值 百分比 percentage 将对比的基数作为100而计算的比值 比率 ratio 不同类别数值的比值 频数分布 也叫次数分布 就是把各个类别及落在其中的相应频数全部列出 并用表格的形式表现出来 按品质标志分组形成的频数分布 某厂职工人数统计表 按性别分组 男职工 女职工 合计 人数 人 频数 比例 频率 253 115 368 68 75 31 25 100 00 定类数据整理 频数分布表 例1 一家市场调查公司为研究不同品牌饮料的市场占有率 对随机抽取的一家超市进行了调查 调查员在某天对50名顾客购买饮料的品牌进行了记录 如果一个顾客购买某一品牌的饮料 就将这一饮料的品牌名字记录一次 右边就是记录的原始数据 一 定类数据整理 频数分布表 例3 1 为研究广告市场的状况 一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查 其中的一个问题是 您比较关心下列哪一类广告 1 商品广告 2 服务广告 3 金融广告 4 房地产广告 5 招生招聘广告 6 其他广告 定类数据的图形显示 1 条形图 barchart 通过宽度相同的条形的高度或长短来比较各类别数据的图形有单式条形图 复式条形图等形式主要用于反映分类数据的频数或频率绘制时 各类别可以放在纵轴 称为条形图 也可以放在横轴 称为柱形图 columnchart 定类数据的图示 条形图 定类数据的图示 2 饼图 piechart 也称圆形图 是用圆形及圆内扇形的角度来表示数值大小的图形 主要用于表示样本或总体中各组成部分所占的比例 用于研究结构性问题 绘制圆形图时 样本或总体中各部分所占的百分比用圆内的各个扇形角度表示 这些扇形的中心角度 按各部分数据百分比占3600的相应比例确定 定类数据的图示 圆形图 3 2 2定序数据的整理 可计算的统计量 对于定序数据 除了可用定类数据整理和显示的方法之外 还可以计算 1 累积频数 cumulativefrequencies 各类别频数的逐级累加 2 累积频率 cumulativepercentages 各类别频率 百分比 的逐级累加 在研究次数和频率的分布时 常需要编制次数或频率的累计分布数列 1 向上累计 是指将各组次数或频率由变量值低的组向变量高的组累计 2 向下累计 是指将各组次数或频率 由变量值高的组向变量值低的组逐组累计 如 表3 2 累计分布有向上累计和向下累计两种 如 表3 2 二 定序数据频数分布表 例3 2 在一项城市住房问题的研究中 研究人员在甲乙两个城市各抽样调查300户 其中的一个问题是 您对您家庭目前的住房状况是否满意 1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意 顺序数据的图示 累计频数分布图 甲城市家庭对住房状况评价的累积频数分布 环形图 环形图中间有一个 空洞 样本或总体中的每一部分数据用环中的一段表示 与饼图类似 但又有区别 饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列 每一个样本或总体的数据系列为一个环用于结构比较研究 用于展示分类和顺序数据 环形图 3 3数值型数据的整理与展示 3 3 1数据分组与频数分析3 3 2数值型数据的图示 3 3 1数据分组与频数分布 1 排序 求全距 全距 最大值 最小值 2 确定变量的数据形式 单变量分组 组距分组 3 确定组数 斯特格斯 Sturges 经验公式 4 确定各组组距 组距 全距 组数 最大值 最小值 组数5 根据分组整理成频数分布表 确定各组组限 计算频数 数据分组的步骤 频数分布表的编制实例 117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121 例2 某生产车间50名工人日加工零件数如下 单位 个 对数据进行分组 1 排序 求全距 107108108110112112112114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139全距 最大值 最小值 139 107 32 2 确定变量的数据形式 3 确定组数 K 1 log10N log102 1 3 322lgN 1 3 322 lg50 7 4 确定各组组距 组距 全距 组数 最大值 最小值 组数 32 7 4 6 5 5 根据分组整理成频数分布表 等距分组表 使用开口组 频数分布表的编制 例3 表中是某电脑公司2005年前四个月各天的销售量数据 单位 台 试对数据进行分组 3 3 2数据值型数据的图形显示 1 分组数据 直方图和折线图2 未分组数据 茎叶图和箱线图 分组数据 直方图 histogram 用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布在直角坐标系中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图 直方图下的总面积等于1 直方图的绘制 某电脑公司销售量分布的直方图 我一眼就看出来了 销售量在170 180之间的天数最多 销售量 台 直方图与条形图的区别 条形图是用条形的长度 横置时 表示各类别频数的多少 其宽度 表示类别 则是固定的 直方图是用面积表示各组频数的多少 矩形的高度表示每一组的频数或百分比 宽度则表示各组的组距 其高度与宽度均有意义 直方图的各矩形通常是连续排列 条形图则是分开排列 条形图主要用于展示分类数据 直方图则主要用于展示数值型数据 分组数据 折线图 折线图也称频数多边形图 是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉 折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布一致 折线图的绘制 折线图与直方图下的面积相等 140 150 210 某电脑公司销售量分布的折线图 190 200 180 160 170 220 230 240 销售量 台 未分组数据 茎叶图 stem and leaf 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶 树叶上只保留最后一位数字对于n 20 n 300 个数据 茎叶图最大行数不超过L 10 lgn 茎叶图类似于横置的直方图 但又有区别 直方图可观察一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息直方图适用于大批量数据 茎叶图适用于小批量数据 树茎 树叶 788 022347778889 0012222333344466777889 0133445799 数据个数 茎叶图的制作 某车间工人日加工零件数的茎叶图 未分组数据 箱线图 boxplot 用于显示未分组的原始数据的分布 由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成 绘制方法 首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分位数画出箱子 再将两个极值点与箱子相连接 该箱线图也称为Median Quart Range箱线图 箱线图的构成 中位数 4 6 8 10 12 Median Quart Range箱线图 箱线图的构成 单批数据箱线图 分布的形状与箱线图 不同分布的箱线图 3 4次数分布及其类型 次数分布及其类型 3 4 1分配数列的概念和构成要素3 4 2分配数列的种类及编制方法3 4 3次数分布的主要类型 3 4 1分配数列的概念和构成要素 分配数列是指在统计分组的基础上 将总体所有单位按组归类排队 形成总体中各单位在各组间的分布 又称分布数列或统计分布 分配数列的概念 表3 6 表3 7 人数 人 频率 20 30 60 40 50 100 5 人数 人 频率 10 30 10 15 18 50 2 36 4 20 100 分配数列的构成要素 分配数列的构成要素 总体按某标志所分的各个组 各组次数或频率 次数 频数 频率 所以 次数或频率分布形成的数列叫分配数列 即分布在各组的单位数 即各组次数与总次数之比 3 4 2分配数列的种类及编制方法 一 品质数列 分配数列的种类 1 单项式变量数列 2 组距式变量数列 二 变量数列 一 品质分配数列 按品质标志分组所形成的分配数列称为品质分配数列 品质数列 一般来说品质数列较容易编制 它通常能准确地反映总体的分配特征 一旦分组标志确定以后 其分布数列的形式是唯一的 例如 表3 8 二 变量数列 按数量标志分组所形成的分布数列称为变量分配数列 变量数列 按顺序列出的各组变量值及相应的频率 即成为变量的频率分布 例如 表3 9 注意 任何一个频率分布都必须满足两个条件 一是各组频率 0 二是各组频率之和等于100 1 单项式变量数列 2 组距式变量数列 由单项式分组形成 表3 10 单项式变量数列 组距式变量数列 表3 11 变量数列 由组距式分组形成 3 4 3次数分布的主要类型 次数分布类型主要有三种 钟型分布 型分布和J型分布 其分布特征是 两头小 中间大 即靠近中间的变量值分布分布的次数多 靠近两端的变量值分布分布的次数少 1 钟型分布 f x 正态分布 即其分布曲线形如一口古钟 故称钟型分布例如 如人的身高 体重 职工工资 农作物亩产量 市场价格 学生的考分等现象都属于钟型分布 其分布又可分为以下两种 正态分布和偏态分布 图3 1 正态分布 中间变量值分布的次数最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年隆基人才测评题库及答案
- 几何直观构建-洞察与解读
- 2025年医疗卫生管理人员岗位招聘面试参考试题及参考答案
- 2025年商业财务专员岗位招聘面试参考试题及参考答案
- 2025年采购协调员岗位招聘面试参考题库及参考答案
- 2025年市场销售专员岗位招聘面试参考试题及参考答案
- 建筑施工概论试题及答案
- 组织部公务员笔试题目及答案
- 2025年医疗器械销售人员岗位招聘面试参考题库及参考答案
- 2025年市场调研师岗位招聘面试参考题库及参考答案
- 2024年BRCGS包装材料全球标准第7版全套管理手册及程序文件(可编辑)
- 学校食品浪费宣传课件
- 交强险培训课件
- 数学组教学比武活动方案
- 校园房屋安全管理制度
- 2025年内蒙古航开城市建设投资有限责任公司及子公司招聘笔试参考题库含答案解析
- 临床降低采集血标本不合格率PDCA
- 医疗器械生锈问题
- 安全防护和文明施工措施费
- 工程提前施工协议书
- 道路施工对邻近建筑物的防护措施
评论
0/150
提交评论