




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章统计数据的整理与显示 第一节统计整理的意义和步骤 一 统计整理的含义和意义 一 统计整理的含义按照统计研究的要求 对调查所搜集到的原始资料进行分组 汇总 使资料达到条理化 系统化的工作过程 就是统计资料整理 statisticaldataarrangement 简称统计整理 对于已整理过的初级资料进行再整理 也属于统计整理 二 统计整理的意义统计整理实现了从个别单位标志值向说明总体数量特征的指标值过渡的目标 是人们对社会经济现象从感性认识上升到理性认识的中间阶段 为统计分析提供坚实的基础 因此 它在统计研究中起到了承前启后的作用 统计整理在整个统计研究过程中占有重要的地位 资料整理得正确与否 直接关系到整个统计研究任务能否顺利完成 二 统计整理的步骤 一 制定统计整理方案统计整理方案是根据统计研究的目的和要求 事先对整理工作作出的全面安排 制订出的周密的工作计划 统计整理方案内容包括 确定需要整理的统计汇总方式 制定统计整理表 并对统计整理的各个环节作出规定 确保统计整理有计划 有步骤地进行 二 对调查资料进行审核与检查审核检查主要是针对调查资料的准确性 完整性和及时性进行的审查 以便发现问题 予以纠正 准确性检查采取的方法是逻辑检查和计算检查 逻辑检查包括检查调查资料的内容是否合理 项目之间有无相互矛盾的地方 以及与有关资料进行对照 或者检查数字的平衡关系 以暴露逻辑上的矛盾 计算检查包括检查调查表或报表中各项数字在指标口径 计算方法和结果上有无差错 计算单位是否符合规定等 完整性和及时性的检查 即检查所有被调查单位的资料是否齐全 是否按规定的份数 项目和时间上报 是否有缺报内容并采取补救措施 因为任何填报单位不报 缺报或迟报 都会影响汇总工作的进行 三 对调查资料进行分类分组对调查资料进行分类分组是统计整理的关键步骤 应该选择最基本的 最能说明事物本质特征的标志对调查资料进行科学的分类分组 四 对调查资料进行汇总和计算对调查资料进行汇总和计算是统计整理的中心工作 也是工作量最大的一项工作 它要对资料进行分组汇总 计算出各组单位数和总体单位数 以及标志总量和总体标志总量 五 汇总后的审核汇总后的审核是对汇总出来的资料再进行一次审核检查 纠正在汇总过程中所发生的各种计算差错 六 编制统计表编制统计表是将整理好的统计资料通过统计表的形式表示出来 形成有条理 系统化的资料 统计表是统计资料的有效表现形式 它简明扼要的表格形式能有效地表达统计汇总的结果 从而反映社会经济现象在数量方面的具体表现和相互联系 第二节统计分组 一 统计分组的概念统计分组 statisticaldatagrouping 是根据所研究事物的特点和统计研究的目的 把统计总体按照某一标志划分为若干性质不同而又相互联系的几个部分的一种统计方法 统计总体具有同质性的特征 但同质性又是相对的 总体各单位的许多变异标志正是人们把总体进一步区分为性质不同的几个部分的客观依据 统计分组是在总体内进行的一种定性分类 它把总体划分为一个个性质不同的范围更小的总体 称为次级总体 这些被称为次级总体的组 同样具有统计总体的一般特征 它们几乎是可以无限地分组下去 二 统计分组的作用 一 划分现象的类型 二 研究总体内部的结构 三 分析现象之间的依存关系三 统计分组的类型 一 按分组标志的多少分为简单分组和复合分组根据所研究现象总体的复杂程度和分析研究的任务 分组仅按一个标志来进行 称为简单分组 simplegrouping 选择两个或两个以上的标志分别进行简单分组 就形成了平行分组体系 简单分组实际上就是各个组按一个标志形成 平行分组体系的特点是 每一种分组只能固定一个因素对差异的影响 同时又掩盖了其他因素对差异的影响 因此 在平行分组体系中 所采用分组标志的多少 决定了人们对社会经济现象总体认识的广度 若分组按两个或两个以上的标志进行 并且层叠在一起 称为复合分组 compositegrouping 所分各组是在分组标志的基础上层叠排列的 从而形成复合分组体系 复合分组实际上是各个组按两个以上的标志形成的 即先按一个标志分成组 在此基础上再按第二个标志分成小组 又再层叠地按第三个标志分成更小的组 以此类推 复合分组体系的特点是 第一层次分组只固定一个主要因素对差异的影响 第二层次分组则同时固定两个因素对差异的影响 当进入最后一个层次分组时 则所有被选择标志对差异的影响全部被固定了 在复合分组体系中 分组层次的多少决定于所选分组标志的多少 从而决定了人们对社会经济现象总体认识的深度 复合分组适合运用于调查单位足够多的条件下 由于把分组标志复合在了一起 组数就大大地增加了 当调查单位为数不多时 势必发生各组单位数很少的情况 据以进行分析 作结论就没有充分的根据 尤其是在研究总体内各标志间依存关系时更是如此 二 按分组标志的性质分为品质分组和变量分组品质分组 attributivegrouping 是按品质标志进行的分组 例如 人口按性别 民族 文化程度 职业等标志分组 工业企业按经济类型 部门 轻重工业 甲乙部类 所属地区等标志分组 等等 这些组在性质上 界限上是稳定明确的 也有的按品质标志进行的分组非常复杂 类别繁多 这种分组统计上称为分类 这种复杂的分组 各组界限不易划分 从这一组到另一组存在各种过渡状态 边缘不清 例如 农业与动植物采集工业与森林采伐等的区分就比较困难 在实际工作中 对于这些比较复杂的分组 国家规定了统一的统计分类标准或分类目录 对不同的现象总体确定分类名称 分类标准 计量单位和编码方法 作为分组的统一依据 供长期稳定使用 完善统计分类目录 做到分类标准化是统计工作现代化的重要要求 根据国家统计局和国家标准局的 国民经济行业分类标准 工业部门有40个大类 204个中类及547个小类 变量分组 variablegrouping 是按数量标志进行的分组 例如 人口按年龄分组 工业企业按职工人数 生产能力 资金利润率分组等 变量分组反映总体数量特征的差异情况 通过数量变化来区分各组的不同类型和性质 变量分组在第五个问题 统计分组的方法 中将详细介绍 四 分组标志的选择 一 根据统计研究的目的选择分组标志 二 选择最能反映现象本质特征的标志作为分组标志 三 根据现象发展的历史条件和经济条件选择分组标志五 统计分组的方法 一 品质分组的方法按品质标志分组是比较简单的方法 分组标志一经确定 组名称和组数也就确定 不存在组与组之间界限区分的困难 二 变量分组的方法按变量分组是指按数量标志分组的方法 按数量标志分组的目的并不是单纯确定各组在数量上的差别 而是要通过数量上的变化来区分各组的不同类型和性质 因此 应该以什么数量标志作为划分标准 都要依据研究的任务和现象的性质来确定 在实际工作中 变量分组常常用来分析某种指标的变动及其在各组的分配情况 这时 被研究的统计指标就成为分组的标志 变量分组由于存在很多问题 所以要在以下几方面加以阐述 1 单项式分组和组距式分组前面说过 变量有离散型和连续型之分 离散型变量如果变量值变动幅度比较小 变量值的项数又很少 则可依次将每一个变量值作为一组 这种分组称为单项式分组 但是 离散型变量如果变量值变动很大 项数又很多 采用单项式分组势必分组数太多 各组没占几个单位 因此就失去了分组的意义 某些场合离散型变量不能作单项式分组 大多数的离散型变量采取组距式分组 组距式分组就是把整个变量值依次划分为几个区间 各个变量值则按其大小确定所归并的区间 区间的距离称为组距 这样的分组称为组距式分组 连续型变量由于不能一一列举它的变量值 不能作单项式分组 只能进行组距式分组 按组距式分组会使资料的真实性受到一些损害 总之 组距的大小 组数的确定应该全面分析资料所反映的社会经济内容 标志值的分散程度等因素 不能强求一致 2 等距分组和异距分组组距式分组区分等距分组和异距分组 不等距分组 是一个重要的问题 等距分组即标志值在各组保持相等的组距 就是说各标志值的变动都限于相同的范围 在标志值变动比较均匀的情况下 可采用等距分组 等距分组有很多好处 它便于各组单位数和标志值的直接比较 也便于计算各项综合指标 如标志值的平均数 当标志值变动很不均匀 如急剧地增长 下降 变动幅度很大时就应采用异距分组 Unequalclassintervals 在异距分组中 如果标志值是按一定比例发展变化的 则可以按等比的组距间隔来分组 总之 异距分组的组距和组数应根据研究现象本身质量关系的分析来确定 通过不相等的组距和组限来区分现象的类型和性质 3 组限与组中值组距两端的数值称为组限 其中每组的起点数值称为下限 lowerlimit 每组的终点数值称为上限 upperlimit 下限和上限表示各组标志值变动的两端界限 离散型变量可以一一列举 而且相邻两个数值之间没有中间数值 因此 各组的上下限都可以用确定的数值 整数 表示 连续型变量在两数之间可能有无限多个中间数值 不可能一一列举 因此相邻组的上限和下限无法用两个确定的数值分别表示 在这种情况下 上一组的上限同时也是下一组的下限 根据这个规定 离散型变量的分组也普遍使用各组的上限当做下一组的下限 这样不仅比较简明 而且计算组中值时不会造成麻烦 组中值 Classmidpoint 是上限与下限之间的中点数值 我们知道 经过了组距分组 各个单位具体标志值看不见了 不这样做 就难以对现象总体规律有深刻的认识 但是 在许多场合 仅仅大概地了解这些标志值变化的区间是不够的 我们还需要确定一个能代表各组标志值一般水平的数值 这个数值就是组中值 它在统计分析中应用很广泛 组中值就是上限和下限的简单算术平均 即 上限 下限 2 有时候组距数列上下两端的组运用开放式的组距 即第一组用 多少以下 最后一组用 多少以上 表示 这两个组的组中值可参照相邻组的组距来决定 最后 组限的表述应尽量是10 50 100 1000等数字的整倍数 第三节分配数列 一 分配数列的概念与种类将总体中的所有单位按某个标志分组后 所形成的总体单位数在各组之间的分布 称为分配数列 frequencydistribution 或次数分布 分配数列由两个要素组成 一个是分组 另一个是次数 又叫频数 frequency 根据分组标志的不同 分配数列分为品质分配数列和变量分配数列 按品质标志分组所编制的分配数列叫品质分配数列 简称品质数列 按数量标志分组所编制的分配数列叫变量分配数列 简称变量数列 seriesofvarieties 变量数列又有单项式变量数列和组距式变量数列之分 用一个变量值代表一个组形成的数列 叫单项数列 用变量值变动的一定范围 组距 代表一个组形成的数列 叫组距数列 二 变量数列的编制1 整理数据资料 确定全距对于一个杂乱无章的原始资料 把标志值按大小顺序排列后所计算的最大值与最小值之差就是全距 2 确定变量数列的形式确定变量数列的形式 也就是确定编制单项变量数列还是组距 Classinterval 数列 3 组数和组距的确定对于组数和组距 先确定哪一个 不能机械地规定 应视具体情况而定 在编制等距数列的情况下 组数 组距和全距存在下列关系 组数 全距 组距为计算方便 组距宜取5或10的倍数 在确定组距时 必须考虑原始资料的分布状况和集中程度 注意组内的同质性 尤其是对带有根本性的质界限 更不能混淆 否则就失去了分组的意义 4 确定组限当组距组数确定后 只需划分各组数量界限 便可编制组距数列了 一般来讲 组限应是决定事物性质的数量界限 具体划分时应注意以下几点 第一 组限的确定应当有利于表现各变量值实际分布的规律性 第二 最小组下限要略低于最小变量值 最大组上限要略高于最大变量值 第三 如果变量值相对集中 无特大或特小极端值时 则采用闭口式 反之 如果变量值相对比较分散 则采用开口式 5 编制变量数列确定上述要素以后 就可以把变量值归类排列 最后把各组单位数经综合后填入相应的各组次数栏中 编制组距式数列时 该用多大组距 组数多少 可能一时难以确定 不妨先按小组距分组 然后逐步合并组距 再从比较中择优 美国学者斯特吉斯 H A Sturges 提出这样的分组组数公式 n 1 3 322lgN N为总体单位数 n为应分组数 这是经验公式 可以参考 但不能生搬硬套 三 频数与频率在整理和分析的时候 不但要注意各组标志值的变动范围 而且也要注意各组标志值的作用大小 即频数的大小 在变量数列中标志值构成的数列表示标志值的变动幅度 而频数构成的数列则表示相应标志值的作用程度 频数越大 则组的标志值对于全体标志水平所起的作用也越大 反之 频数越小 则组的标志值所起的作用也越小 将各组单位数和总体单位数相比求得的频率表明各组标志值对总体的相对作用程度 也可以表明各组标志值出现的频率的大小 按顺序列出各组标志值的范围 或以各组组中值来代表 和相应的频率形成的统计分布 称为频率分布 很显然 任何一个分布都必须满足 各组的频率大于0 各组的频率总和等于1 或100 在研究频数和频率分布的时候 常常还需要编制累计频数 Cumulativefrequency 数列和累计频率 Cumulativeabsolutefrequency 数列 其方法通常是先列出各组的组限 然后依次累计到本组为止的各组频数 求得累计频数 将累计频数除以频数总和即为累计频率 将各组频数和频率由变量值低的组向变量值高的组累计 故称为向上累计 Cumulatedupward 将各组频数和频率由变量值高的组向变量值低的组累计 故称为向下累计 Cumulateddownward 向上累计各累计数表示各组上限以下的累计频数或累计频率 当我们所关心的是标志值比较小的现象的次数分配情况时 通常用次数向上累计 以表明在这些数值以下所有数值所占的比重 有时为表示在一定标志值以上的累计频数和累计频率 则会采用分组的下限 并从变量值高的最后一组的频率开始按相反的顺序向变量值低的组累计 来求得累计频数和累计频率 即向下累计 各累计数表示各组下限以上的累计频数或累计频率 当我们所关心的是标志值比较大的现象的次数分配情况时 通常用次数向下累计以表明在这些数值以上所有数值所占的比重 四 次数分布主要类型 一 钟型分布钟型分布的特征是 两头小 中间大 即靠近中间的变量值分布的次数多 靠近两边的变量值分布的次数少 其曲线图宛如一口古钟 如图3 2所示 在社会经济现象中 许多钟型分布表现为对称分布 对称分布的特征是中间变量值分布的次数最多 以标志变量中心为对称轴 两侧变量值分布的次数随着与中间变量值距离的增大而逐渐减少 并且围绕中心变量值两侧呈对称分布 这种分布在统计学中称为正态分布 社会经济现象中许多变量分布都属于正态分布类型 二 U型分布U型分布的特征与钟型分布恰恰相反 靠近中间的变量值分布的次数少 靠近两端的变量值分布的次数多 形成 两头大 中间小 的U型分布 如图3 3所示 图3 2钟型分布 图3 3U型分布 三 J型分布在社会经济现象中 也有一些统计总体分布曲线呈J型分布 如图3 4 图3 5所示 图3 4是次数随着变量值的增大而增多 如投资额按利润率大小分布 图3 5是次数随着变量值的增大而减少 使得图形变为倒 J 型 如人口总体按年龄大小的分布 图3 4J型分布 1 图3 5J型分布 2 四 洛伦茨分布洛伦茨分布曲线是美国统计学家洛伦茨 M Lorenz 提出来的 专门用以检验社会收入分配的平等程度 洛伦茨分布曲线运作的条件为 第一 居民或家庭按收入水平分组 计算各组居民或家庭的比重 第二 计算各组收入的比重 从统计学概念上来说 前者就是频率 即各组单位数占总体单位数的比重 后者就是各组标志总量占总体标志总量的比重 洛伦茨曲线拓展运用于一般社会经济现象借以反映总体单位标志分布的集中状况 集中的存在 集中的程度 因此也称为集中曲线 或称标志曲线 正方形图示域对角线表示各组的频率同各组的标志总量对总体标志总量的比重完全对应 即现象总体标志 变量 呈线性均匀分布 不存在集中过程 集中曲线离开了这条对角线 说明集中的存在 绘制洛伦茨曲线 必须正确分辨给定的数据中哪一项是总体单位 哪些项是单位标志 并且明确前者放在横轴上 后者放在纵轴上 第四节统计表 一 统计表的概念和结构 一 统计表的概念前面讲过 把汇总结果的资料按一定的规则在表格上表现出来 这样的表格就叫统计表 Statisticaltable 这是我们把统计表当做整理过程的最后一个步骤来看的 但是 统计表的概念应从广义方面来理解 即任何用以反映统计资料的表格都是统计表 数字是统计的语言 统计研究社会经济现象的数量关系 主要是通过数字资料来表现的 统计表和统计图都是系统地表述数字资料的基本形式 统计表能够系统地组织和合理安排大量数字资料 便于对照比较 使得统计资料的表现显得紧凑 有力 突出 因而在描述统计资料中得到广泛运用 二 统计表的结构从外表形式看 统计表的结构是纵横线交叉的一种表格 在表格上填写着反映社会经济现象的数字资料 因此 统计表是由总标题 纵栏和横行标题 数字资料等部分构成的 标题分为三种 总标题是表的名称 放在表的上端 横行标题或称横标目 写在表的左方 纵栏标题或称纵标目 写在表的右上方 数字资料分别说明横行或纵栏所填列数字资料的内容 从统计表的内容看 包括主词和宾词两个部分 主词就是统计表所要说明的总体 总体的各个组或各个单位的名称 表的宾词是用来说明主词的各种指标 在通常情况下 主词列在表的左方 即列于横行 宾词列在表的右方 即列于纵栏 但是 当这样排列使统计表的表式过分狭长或过分宽短时 也可以将主词 宾词合并排列或变换位置排列 二 统计表的种类 一 简单表简单表是主词未经任何分组的统计表 例如 主词由研究总体单位排列组成的一览表 主词由地区 国家 城市等目录组成的区域表 主词由时间顺序组成的编年表等 二 分组表分组表是主词按某一标志进行分组的统计表 利用分组表可以揭示现象不同类型的不同特征 研究总体的内部构成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车辆租赁司机合同协议
- 车牌注销协议书范本
- 旅行带团协议书
- 2025年电商平台内容营销与种草经济内容创作者生态研究报告
- 跟油漆合作合同协议
- 工匠作坊面试题及答案
- 农村金融服务创新与农村金融风险管理研究进展2025年研究报告
- 电线面试题及答案
- 现代设计师的职业环境试题及答案
- 自愿放弃社保合同协议
- 2025年上海虹口区高三二模英语卷试题及答案详解
- 员工涉黄赌毒协议书
- 反三违安全知识培训课件
- 招商引资工作课件
- 鄂州职业大学《土木工程数值计算方法》2023-2024学年第一学期期末试卷
- 2025年江苏省南通市海安市十三校中考一模数学试题(原卷版+解析版)
- 粤语高智商测试题及答案
- 2025年陪审员考试题及答案
- 2025年湖南株洲国创轨道科技有限公司招聘笔试参考题库含答案解析
- 《水痘患者的护理》课件
- 城市居住区规划设计规范2018版全文
评论
0/150
提交评论