统计数据的收集整理与显示补充.ppt_第1页
统计数据的收集整理与显示补充.ppt_第2页
统计数据的收集整理与显示补充.ppt_第3页
统计数据的收集整理与显示补充.ppt_第4页
统计数据的收集整理与显示补充.ppt_第5页
免费预览已结束,剩余70页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 2统计数据的整理 2 2 1统计数据整理的含义与要求2 2 2统计数据整理的步骤2 2 3统计分组2 2 4分布数列 某班统计学的成绩表 从以上成绩表中 你能看出什么信息 以下是反映月收入增长的两个图 请问谁的收入增长快 对统计学的成绩进行统计整理 统计分组 后的表和图 图1和图2的数据来源相同 2 2 1统计整理的概念 统计整理通常是指对调查所得到的原始资料进行分类 汇总 使之系统化 条理化的工作过程 但广义的统计整理也包括对原来已经加工的综合资料的再整理 如历史资料的整理 统计年鉴的编辑 次级资料 如各出版物公布的 的加工整理等 承上启下的作用 统计整理是统计工作的第二阶段 这个阶段是统计调查的继续 统计分析的前提 统计调查 统计整理 统计分析 统计工作 统计整理的意义 原始资料分散 不系统 难以从总体上分析和认识社会经济现象的数量表现 资料在分组方法 总体范围或指标涵义 口径 计算方法等方面不同 而不能满足统计分析的要求 通过统计整理 1 原始资料或次级资料变为综合资料 能够反映总体特征 2 发现和弥补调查工作的遗漏与不足 提高资料的准确性 资料的审核 资料的分类 分组 资料的汇总 结果显示 图或表 2 2 2统计资料整理的基本步骤 设计整理方案 设计整理方案 与资料收集方案衔接 指标一致审核统计资料 包括 完整性 准确性 及时性进行统计分组 这是统计整理的关键问题 进行资料的汇总 这是统计整理的中心内容 编制统计表或统计图 呈现统计整理的结果 说明 1 统计整理前必须对资料进行审核 2 选择最基本 最重要的指标对资料进行加工整理 2 2 3统计分组 统计分组的含义统计分组的种类 统计分组的概念和原则 概念 根据统计研究的目的和客观现象的内在特点 按某个标志 或几个标志 把被研究对象的总体划分为若干个不同性质的组 原则 穷尽原则 互斥原则 例1 从业人员按文化程度分组小学毕业中学毕业 含中专 大学毕业 文盲或识字不多小学毕业中学毕业 含中专 大专毕业大学及大学以上 例2 某商场把服装分为 男装 女装 童装 成年装 男女装 儿童装 男女装 统计分组的种类 按分组标志的多少不同 简单分组 复合分组 按分组标志的性质不同 品质标志分组 数量标志分组 对总体只按一个标志进行分组 称为简单分组 如 以产值作为划分企业规模的标志 按文化程度对人口总体进行分组 统计对总体往往要从多方面进行研究 仅仅依赖一个分组标志进行分组是难以满足需要的 必须运用多个分组标志进行多种分组 形成一个分组体系 才能满足需要 1 简单分组 对同一总体选择两个或两个以上的标志层叠进行分组 就形成复合分组 例如 为了认识我国高等院校在校学生的基本状况 可以同时选择学科 学制 性别等三个标志进行复合分组 得到如下分组体系 2 复合分组 文科理科 本科专科 男生女生 男生女生 本科专科 男生女生 男生女生 按品质标志分组 就是选择反映事物属性差异的品质标志作为分组标志 并在品质标志的变异范围内划定各组界限 将总体划分成为若干个性质不同的组成部分 例如 人口总体按性别 分为男 女两组 再如 企业总体按所有制 分为全民 集体 合营 个体等组 3 按品质标志分组 按数量标志分组 就是选择反映事物数量差异的数量标志为分组标志 并在数量标志的变异范围内划定各组界限 将总体划分为性质不同的若干组成部分 例如 居民家庭按子女数分组 可分为0人 无子女 1人 2人 3人 等等 4 按数量标志分组 例1为了了解某地区银行存款的构成 可以选用存款性质 期限两个标志分别进行分组 按存款性质分组企业存款储蓄存款财政性存款 按存款期限分组活期存款定期存款 简单分组 复合分组 存款同时按其性质及期限分组企业存款活期定期储蓄存款活期定期财政性存款活期定期 例2企业职工按工龄分组 5年以下5 10年10 15年15 20年20年以上 品质标志分组 数量标志分组 统计分组的作用 1 提示类型 统计分组的根本作用是将复杂的社会经济现象按照统计认识的要求区分为各个性质不同的组成部分 说明总体现象的内部结构 现象的内部结构是表明现象本质特点的一个重要方面 将同一总体不同时期的结构联系起来 还可以看到现象的发展趋势和规律 3 反映变化 将总体的分组资料按时间的移动联系起来进行分析 可以反映总体及各组在数量上的变动情况和变动规律 4 分析总体现象之间的依存关系 通过分组将有相互影响的现象联系起来进行研究 反映它们在数量上的变动规律 例如 商品销售额与流通费用率的关系 居民收入与储蓄额的关系 2 2 4分布数列 在统计分组的基础上 将总体中的所有单位按组归类整理 形成总体中各个单位数在各组间的分布 就叫做分布数列 frequencydistribution 分布在各组的个体单位数叫次数 又称频数 各组次数与总次数之比称比率 又称频率 2 2 4 1分布数列的概念 各组名称 常用x表示 两个构成要素各组次数 有两种表现形式 绝对数也称频数 用f表示相对数称为频率 用 表示 各组名称X 各组次数f 例 2 2 4 2分布数列的种类 由于分组是分布数列的基础 因此有怎样的分组就形成怎样的次数分布 综合上述各种的分组 分布数列的类型 可归纳为 分布数列 品质数列 变量数列 单项数列 组距数列 等距数列 异距数列 不连续组距数列 连续组距数列 例 1 某地人口的性别分布 2 学生的成绩分布 变量数列 品质数列 2 2 4 3变量数列的编制 1 单项数列的编制 1 确定变量数列的形式 根据变量的性质及特点选择不同的变量数列 2 确定组距和组数 注意几个概念 上限 下限 组距 组数 组数过多 组距太小 要避免将相同性质的单位分到不同组中去 反之 如果组数过少 组距太大 要避免将不同性质的单位分到同一组中去 3 确定组限 1 客观数量界限 2 第一组的下限和最后一组的上限 有极端值时 第一组和最后一组可采用开口组 3 尽可能采用 或 的倍数 上限不在内原则 4 确定分配次数 可利用EXCEL表进行汇总 2 组距数列的编制 根据总体各单位的变量值进行同类合并 并列出相应的单位数或比重 单项数列不存在组距的问题 如下表所示 此时 组数等于数量标志所包含的变量值的数目 1 确定组距和组数 然而当所包括的变量值较多时 单项数列显得十分繁琐 如下表 难以反映总体内不同性质组成部分的分布特征 这就有必要编制组距数列 编制组距数列时 不仅要考虑各组的划分是否能区分总体内各组成部分的性质差别 还需要确定适当的组距和组数 才能准确而清晰地反映总体的分布特征 在实际进行分组时 采用等距数列或异距数列 应决定于现象的性质和研究的目的 标志值分布比较均匀时 一般用等距数据 标志值分布很不均匀时 应采用异距数列 当偏度系数不大时 用斯特吉斯 美国H A Sturges 经验公式确定组数 n为组数 N为总体单位数 d为组距 R为全距 即最大值 xmax 与最小值 xmin 的差 根据这个公式 可得出如下的组数参考标准 当偏度系数大时 分布明显偏态时 以平均数为中心 以K倍标准差为组距 1 确定组距和组数 有时异距数列能比较准确地反映总体内部各组成部分的性质差异 在异距数列中 各组频数或频率不能直接比较 为消除各组组距不同所造成的影响 需要计算频数密度或频率密度 频数密度是频数与组距之比 频率密度是频率与组距之比 各组的频数密度或频率密度可以进行比较 在社会经济统计总体中 有一部分现象性质差异的变动并不均衡 很难用等组距的办法近似地区分性质不同的组 譬如 为研究人口总体在人生各发展阶段上的分布 就需要按照人在一生中自然的和社会的发展规律采用异距分组 例如 整理我国1982年第三次人口普查资料时采用了如下的异距分组 1 确定组距和组数 统计年鉴中按年龄分组为 0 14少年15 64中青年65岁以上老年 1 确定组距和组数 当组距 组数确定后 只需划定各组数量界限便可编制组距数列 一般讲来 按数量分组标志分组的组限应是决定事物性质的数量界限 然而在具体划分时 尚需在遵循这一原则的前提下 从次数分布特征的角度考虑编成的组距数列是否真实地反映了总体内各个单位的实际分布特征 例如 某小组10名工人的基本工资变量资料如下 单位 元 45495456586062646970 2 组限的确定 设已确定分为低 中 高三个工资组 各组组距为10元 已确定组数和组距 于是可以有如下两种划分组限的方法 形成两个分布特征不同的组距数列 表4 15 表4 16 表4 15的分布持征反映着高工资的工人占全小组工人数的一半 中等工资的工人数居中 低工资的工人数最少 表4 16的分布特征反映着中等工资的工人占全小组工人数的一半 低工资的工人数持中 高工资的工人数最少 究竟哪一种分布特征准确 需要依据该小组工人工资变量的实际分布来检验 2 组限的确定 表工人按基本工资分组 表工人按基本工资分组 可以看出 这一数轴可以分为三个区段 其中以55 65元一段变量值分布最为密集 数轴的首段 则是另外一种形态 变量值分布较为稀疏 而在数轴末段 直至70元附近才有两个变量值出现 因而可以判断 表4 15的组距数列正是由于组限划分不当将最密集的55 65段变量值拆散在两个组内 造成了高工资组分布最多的假象 2 组限的确定 组距数列掩盖了分布在组内各单位的实际变量值 为了反映各组中个体单位变量值的一般水平 统计工作中往往用组中值来代表它 组中值是组内变量范围的中间数值 通常可根据备组的上限 下限进行简单平均 即 组中值 上限 下限 2例如 3 组中值的计算 3 组中值的计算 在编制组距数列时 为了避免出现空白组 同时又能使个别变量离差较大的单位不致于无组可归 往往在首末两组使用 以下 及 以上 的不确定组限的形式 这种形式叫做 开口组 为进行统计分析 有时也要假定开口组的组限 并计算其组中值 一般可按相邻组的组距来计算 开口组 的假定的组限 然后再计算组中值 计算式为 首组假定下限 首组上限 邻组组距 4 组中值 上限 邻组组距 2末组假定上限 末组下限 邻组组距 5 组中值 下限 邻组组距 2 3 组中值的计算 次数是分布在各组中的个体单位数 如用相对数形式表示便是比率 比率是一种结构相对数 各组比率之和应等于1或100 各组次数或比率的大小意味着相应的变量值在决定总体数量表现中所起的作用不同 次数或比率大的组 其变量值在决定总体数量表现中的作用就大 反之就小 4 分布数列的次数 由于社会经济现象性质的不同 各种统计总体都有不同的次数分布 形成各种不同类型的分布特征 1 频率分布的性质按顺序列出各组的组别及相应的频率 就构成频率分布 频率分布可以比频数分布更好地体现出总体分布特征 频率分布有两个基本性质 一是各组频率都是一个介于0与1之间的分数 即大于0而小于1 二是各组频率之和等于1 2 累计频率分布在频数分布的基础上 将各组频数依次累计 就形成累计频数分布 各组累计频数与总频数之比 就形成累计频率分布 2 2 4 3频率分布 累计分布有向上累计分布与向下累计分布两种 向上累计分布是将各组的频数或频率由变量值小的组向变量值大的组累计 累计结果分别说明各组上限以下的累计频数或累计频率的分布状况 当累计到最后一组时 其累计频数或累计频率等于总频数或100 小 大 向下累计分布是将各组的频数或频率由变量值大的组向变量值小的组累计 累计结果分别说明各组下限以上的累计频数或累计频率的分布状况 当累计到最后一组时 其累计频数或累计频率等于总频数或100 大 小 2 2 4 3频率分布 表2 4某年年底某高校在职教师年龄累计分布数列 2 3数据的显示 2 3 1统计表2 3 2统计图 统计表 将统计数据按一定的顺序排列在表格上 就形成了统计表 从广义讲 统计表包括统计工作各阶段所使用的一切表格 有调查表 汇总表和分析表 本章将侧重就表现统计整理结果所用的统计表进行讨论 1 从统计表的形式上看 可由总标题 横行标题 纵栏标题和指标数值四部分组成 此外有些统计表在表下还增列补充资料 注解 附记 资料来源 某些指标的计算方法 填表单位 填表人员以及填表日期等 统计表的构成 统计表的构成 横行标题 指标数值 表2 52005年我国三次产业增加值及增长情况表总标题 资料来源 国统计局 中华人民共和国2005年国民经济和社会发展统计公报 主词 宾词 纵栏标题 总标题是表的名称 用以概括统计表中全部统计资料的内容 一般写在表的上端中部 横行标题是横行的名称 在统计表中通常用来表示各组的名称 它代表统计表所要说明的对象 一般写在表的左方 纵栏标题是纵栏的名称 在统计表中通常用来表示统计指标的名称 一般写在表的上方 指标数值列在各横行标题与各纵栏标题的交叉处 统计表中任何一个数字的内容由横行标题和纵栏标题所限定 统计表的构成 统计表的内容可以分为两个组成部分 一部分是统计表所要说明的总体 它可以是各个总体单位的名称 总体的各个组 或者是总体单位的全部 这一部分习惯上称为主词 另一部分则是说明总体的统计指标 包括指标名称和指标数值 这一部分习惯上称为宾词 统计表的内容 统计表的种类 统计表根据主词是否分组以及分组程度不同 可分为 1 简单表 是指对总体未作任何分组而形成的统计表 可以有两种形式 一是按总体单位名称排列的统计表 二是按时间顺序排列的统计表 2 简单分组表 是指总体仅按一个标志分组而形成的统计表 3 复合分组表 是指总体按两个或两个以上标志进行复合分组而形成的统计表 统计表 1 我国近年来国内生产总值资料 2 1999年日均创国内生产总值 简单表 复合表 简单分组表 简单设计 说明主词的各项指标在表中并列平行排列 复合设计 说明主词的各项指标在表中层叠排列 统计表的宾词设计 统计表 3 1999年日均创国内生产总值 4 某市近年从业人员分布表 宾词简单设计 宾词复合设计 统计表的编制规则 开口式上下端线要粗表内一般不打横线 但合计栏要打横线主词有计量单位要专列一栏 宾词的计量单位可写在标题旁或下方 主词分栏用 甲 乙 丙 宾词分栏用 1 2 3 表中数字应填写整齐 上下位数要对齐 数字为0时要写上 无数字或不用填写数字的要在格内填上 缺数据的格内要填上 如有必要 给表添加注释 说明及资料来源等 1 意义是用来表示统计资料及其相互关系的各种图形 它是用点的多少 线的疏密或粗细 条的长短 颜色的深浅 面积或体积的大小 曲线的起伏来表现统计资料的多少 分布状况 变化趋势和相互关系 统计图生动形象 给人以深刻印象 往往与统计表同时使用 互补不足 2 类型按照形式分 折线 曲线 图 饼图 条形 带形 图 直方图 雷达图 象形图 统计地图等 还有统计中一些特殊的图形如质量控制图 按维数分 平面图 立体图 Word Excel中均有相应的图形 2 3 2统计图 直方图是用直方形的宽度和高度来表示频数分布的图形 即在直角坐标系上 以横轴表示变量 以纵轴表示频数或频率 以各个宽度为组距 高度为频数或频率的直方块矩形所构成的图形 1 直方图 绘制直方图时 横轴表示各组组限 纵轴表示次数 一般标在左方 和比率 一般标在右方 没有比率的直方图只保留左侧次数 在直方图的基础上 将各组直方形顶边线的中点 即由组中值与频数或频率确定的坐标点 用直线连接起来 就形成为折线图 2 折线图 当变量值非常多 变量数列的组数无限增多时 折线便近似地表现为一条平滑的曲线 曲线图是组数趋向于无限多时折线图的极限描绘 是一种理论曲线 它实质上是对应于连续变量的次数或比率分布的函数关系图 3 曲线图 变量分布曲线图种类很多 常见的有J型分布 U型分布和钟型分布三种 J型分布有两种类型 一种是变量分布的频数或频率随变量值的增大而变大 称为正J型分布 例如商品供应量随着价格的上升而增加 另一种是变量分布的频数或频率随变量值的增大而变小 称为反J型分布 例如商品需求量随着价格的上升而下降 J型分布曲线如图2 5 a 2 5 b 所示 3 曲线图 类型 图2 5 a 正J型分布 图2 5 b 反J型分布 U型分布是一种 两头大 中间小 的分布 即靠近中间变量值的分布频数小 频率低 靠近两端变量值的分布频数大 频率高 曲线形式犹如英文字母 U 例如人口死亡率的年龄分布就是幼儿和老年人死亡率高 青少中年的死亡率低 如图2 6所示 3 曲线图 类型 死亡率 年龄 图2 6U型分布 钟型分布与U型分布正好相反 是一种 中间大 两头小 的分布 即靠近中间变量值的分布频数大 频率高 靠近两端变量值的分布频数小 频率低 形如古钟 在钟型分布中 有一种以变量的平均数为中心 左右两侧完全对称的分布 称为正态分布 其特点是变量平均数两侧的频数或频率随着与平均数距离的增大而完全相等地依次减少 如图2 7 a 所示 如果变量平均数两侧的频数或频率分布不完全对称 则称为偏态分布 分为左 负 偏分布和右 正 偏分布两种 分别如图2 7 b 2 7 c 所示 3 曲线图 类型 图2 7 a 正态分布 图2 7 b 左偏分布 图2 7 c 右偏分布 钟型分布与U型分布正好相反 是一种 中间大 两头小 的分布 即靠近中间变量值的分布频数大 频率高 靠近两端变量值的分布频数小 频率低 形如古钟 在钟型分布中 有一种以变量的平均数为中心 左右两侧完全对称的分布 称为正态分布 其特点是变量平均数两侧的频数或频率随着与平均数距离的增大而完全相等地依次减少 如图2 7 a 所示 如果变量平均数两侧的频数或频率分布不完全对称 则称为偏态分布 分为左 负 偏分布和右 正 偏分布两种 分别如图2 7 b 2 7 c 所示 3 曲线图 类型 图2 7 a 正态分布 图2 7 b 左偏分布 图2 7 c 右偏分布 累计曲线图根据累计频数或累计频率分布数列 可以绘制累计分布图 它以分组变量为横轴 以累计频数或累计频率为纵轴 以各组的上限 下限 与累计频数或累计频率为坐标点 平滑连接各点即成向上 向下 累计曲线 3 曲线图 类型 累计频数 频率 分布曲线 可用于分析社会财富 土地和工资收入等的分配是否公平的问题 该曲线图是由美国洛伦茨博士提出 故称为洛伦茨曲线 洛伦茨曲线 某国家收入所得的分配情况 20406080100 806040200 100 绝对平等线 实际收入分配线 绝对不平等线 绝对不平等线 人口 收入 洛伦茨曲线 A B 洛伦茨曲线与基尼系数 当A 0时 A A B 0 则基尼系数为0 收入分配完全平等 当B 0时 A A B 1 则基尼系数为1 收入分配绝对不平等 所以 基尼系数可在0和1之间取任何值 联合国有关组织规定 若低于0 2表示收入绝对平均 0 2 0 3表示比较平均 0 3 0 4表示相对合理 0 4 0 5表示收入差距较大 0 6以上表示收入差距悬殊 基尼系数还可用于财产 资本 资源 产品 市场等资源分配均衡程度的分析 实际收入分配曲线和收入分配绝对平等曲线之间的面积为A 实际收入分配曲线右下方的面积为B 以A除以A B的商表示不平等程度 这个数值被称为基尼系数或称洛伦茨系数 未分组数据 茎叶图 茎叶图的制作 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶对于n 20 n 300 个数据 茎叶图最大行数不超过L 10 log10n 5 茎叶图类似于横置的直方图 但又有区别直方图可大体上看出一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息 树茎 树叶 788 022347778889 0012222333344466777889 0133445799 数据个数 未分组数据 茎叶图 茎叶图的制作 某车间工人日加工零件数的茎叶图 未分组数据 茎叶图 扩展的茎叶图 未分组数据 箱线图 箱线图的制作 用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成其绘制方法是 首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分 位 数画出箱子 再将两个极值点与箱子相连接 未分组数据 单批数据箱线图 箱线图的构成 未分组数据 单批数据箱线图 实例 分布的形状与箱线图 不同分布的箱线图 未分组数据 多批数据箱线图 实例 例3 4 从某大学经济管理专业二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论