统计学原理---第三章-统计整理.ppt_第1页
统计学原理---第三章-统计整理.ppt_第2页
统计学原理---第三章-统计整理.ppt_第3页
统计学原理---第三章-统计整理.ppt_第4页
统计学原理---第三章-统计整理.ppt_第5页
免费预览已结束,剩余63页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章统计整理 学习目标 明确统计资料整理的涵义和作用了解统计整理的内容和程序掌握分布数列的编制方法 第一节统计整理的一般问题 统计整理的概念 统计整理 将统计调查得到的原始资料进行科学的分组和汇总 使其系统化 条理化 成为能够反映总体特征及其发展变化情况的综合统计资料的工作过程 统计整理是统计调查的继续 统计分析的前提和基础 统计整理的内容 统计整理 统计汇总 统计分组 逐级汇总 集中汇总 优点 满足各层次的需要 缺点 费时费力 优点 速度快层次少 缺点 有错不易查找 统计整理的程序 设计和编制统计资料的汇总方案对原始资料进行审核对调查数据进行编码及录入分组汇总原始资料编制统计表和绘制统计图 第二节统计汇总技术 统计汇总的内容 利用计算机进行统计汇总主要包括 审核 编码 录入 数据净化 逻辑检查运算以及编制和打印汇总表 统计图等 编码 将调查表或调查问卷中的各个项目转化为数字符号的过程 编码 事前编码 事后编码 适用封闭性问题 适用开放性问题 编码的常用方法 又称系列编码法 只用一个标准对数据进行分类 并按照一定的顺序用连续数字或字母进行编码的方式 顺序编码法 编码的常用方法 又称区间编码法 是根据调查数据的属性特点和处理要求 将具有一定位数的代码单元分成若干个组 每个组的数字均代表一定的意义 例如 在某项关于社会公众保险意识调查中 对被调查者个人的基本情况进行了调查 运用分组编码法对有关信息编码如下 分组编码法 编码的常用方法 把调查数据分成不同的组 给以一定的组码 数字区间 来进行编码的方法 例如 对某地市场上99种商品的价格变动进行调查 在运用信息组吗编码法对调查的信息进行编码时 首先对99种商品分组 再给每个组分配一个组码 信息组码编码法 组别百货组食品组家电组服装组其他组 名称码01 3031 5051 6566 8081 99 编码的常用方法 又称助忆编码法 它用数字符号等表明编码对象的属性 并依次方式对调查数据进行编码的方法 例如 用180BXJ表示容量为180升的进口电冰箱 其中180为冰箱的容量 BX表示冰箱 J表示进口 表义式文字编码法 编码手册的编制 也称编码表 是用来进行数据编码的工作手册 包括四个项目 问题顺序号 每个调查项目的预置代码位置 项目名称 内容说明 1 您的职务 1 正高级 2 副高级 3 中级 4 其他2 您的年龄 3 您从事的专业 4 您对自己工作情况的评价 1 已充分发挥积极性 2 基本发挥了积极性 3 积极性有所发挥 4 完全没有发挥积极性5 目前 您是否有离开学校的想法 1 是 2 否6 请您按投入精力的多少 将下列三项活动排序 1 校内工作 2 校外兼职 3 生活琐事第一位 第二位 第三位 案例 对某高等学校教师的工作 生活状况的调查 一共有32个问题 我们摘录6个问题 来说明编码手册的编制 录入 数据录入就是将问卷或编码表中的每一个项目对应的代码读到磁盘中 或通过键盘直接敲入计算机中的工作过程 方式 程序录入光电扫描录入 数据净化 数据净化指通过计算机处理错误的或不合理的数据以及进行一致性检验 方式 统计软件 SPSS SAS 第三节统计汇总的质量控制 全面审核审核调查单位的全面性 审核调查项目的全面性准确性审核逻辑审核 计算技术审核 资料审核 编码和录入的质量控制 编码工作的质量控制录入工作的质量控制 统计预处理 缺省数据处理 以样本统计量代替缺省值以统计模型计算的估计值代替缺省值缺省值样本删除缺省值样本保留 通过对调查数据进行加权 使样本更具代表性 统计预处理 加权处理 变量类型的转化数学意义上的变量转化 统计预处理 原始数据或变量的转换 第四节分布数列的编制 次数分布 次数分布 在统计分组的基础上 将总体的所有单位按组归类整理 并按一定顺序排列 形成总体中各单位在各组间的分布 就叫做次数分布 频数 次数 各组单位数 频率 各组单位数占与总体单位数的比率 表示各组标志值对总体标志值所起作用的强度 次数分布的作用 反映统计总体内所有总体单位在各组间的分布 同类总体不同的分布状况差异反映了它们的性质差异 如各班成绩分布 对某随机现象的重复观察 频率分布可以渐近反映其统计规律 分布数列 分布数列 将各组组别的名称与相应的频数和频率 依次排列起来形成的数列称为次数分布数列 简称分布数列 又称分配数列 次数分配数列 作用 反映总体中所有单位在各组的分布状态和分布特征 各组名称 常用x表示 两个构成要素各组次数 分布数列的构成要素 某地人口的性别分布 学生的成绩分布 由于分组是次数分布的基础 因此有怎样的分组就形成怎样的次数分布 综合上述各种分组类型 次数分布的类型 可归纳为 分布数列的种类 按品质标志分组形成的分布数列称为属性分布数列 简称品质数列 按数量标志分组形成的分布数列称为变量分布数列 简称变量数列 某地人口的性别分布 学生的成绩分布 变量数列 品质数列 每个组值只用一个具体的变量值表现的数列 同时具备 变量是离散变量变量的不同取值个数较少 编制条件 分布数列的种类 单项数列 例 己知某车间有24名工人 他们的日产量 件 分别是 20 23 20 24 23 21 22 25 26 20 21 21 22 22 23 22 22 24 25 21 22 21 24 23 要求根据以上资料编制变量数列 分布数列的种类 单项数列 案例 每个组的变量值用一个区间来表现的变量数列 或者 变量是连续变量总体单位数较多 变量不同取值个数也较多的离散变量 编制条件 分布数列的种类 组距数列 指每组两端表示各组界限的变量值 各组的最小值为下限 最大值为上限 组限 每组变量值变动区间的长度 为上下限之差 组距 每组变量取值范围的中点数值 组中值 分布数列的种类 组距数列 相关概念 某地区100个百货商店月销售额与流通费用情况 上组限U 下组限L 组距d U L 100 50 50 万元 组中值x U L 2 100 200 2 150 万元 分布数列的种类 组距数列 变量值变动区间的长度相等 变量值变动区间的长度不完全相等 等距数列 异距数列 分布数列的种类 变量数列 适用于总体单位的标志值变动比较均匀的情况 己知某地区某年50个商店商品销售额的资料如下 单位 百万元 7 412 629 02 012 47 014 817 515 018 218 715 512 826 017 38 314 712 03 56 825 019 36 44 011 98 513 214 517 115 613 44 59 520 015 76 011 423 014 216 721 016 013 610 013 95 05 810 516 322 0要求编制组距数列 分布数列的种类 编制等距数列 求变异全距 确定组距及组数 确定组距的原则 要能区分各组的性质差异要能反映总体资料的分布特征为方便计算 尽可能为5或10的整数倍组数不宜过多 也不宜太少 R 组距 d 组数 m 分布数列的种类 编制等距数列 步骤 当R d的结果为整数时 当R d的结果为小数时 确定组限 分布数列的种类 编制等距数列 步骤 计算次数 5 5 5 2 2 5 25 25 5 2 27 5 分布数列的种类 编制等距数列 编制结果 开口式组距数列组中值的计算 首组假定下限 首组上限 相邻组组距末组假定上限 末组下限 相邻组组距 等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度 频数密度 频数 组距 反映频数分布的实际状况 分布数列的种类 等距分组与不等距分组的差异 分布数列的种类 频率 各组单位数占总体单位总数的比重 累计次数 频率 向上累计 从变量值低的组开始 将各组次数 频率 逐次向变量值高的组累计 说明某一组上限以下各组的累计次数 频率 向下累计 从变量值高的组开始 将各组次数 频率 逐次向变量值低的组累计 说明某一组下限以上各组的累计次数 频率 分布数列的种类 分布数列的种类 分布数列的种类 分布数列的种类 117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121 例 某生产车间50名工人日加工零件数如下 单位 个 次数分布图 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图直方图下的总面积等于1 次数分布图 分组数据 直方图 频数 人 15 12 9 6 3 日加工零件数 个 某车间工人日加工零件数的直方图 我一眼就看出来了 大多数人的日加工零件数在120 125之间 次数分布图 分组数据 直方图 遇到异距数列时 则通常按次数密度绘制直方图以表示分布直方图一般不用来表示累计次数的分布 次数分布图 分组数据 直方图 条形图是用条形的长度 横置时 表示各类别频数的多少 其宽度 表示类别 则是固定的直方图是用面积表示各组频数的多少 矩形的高度表示每一组的频数或百分比 宽度则表示各组的组距 其高度与宽度均有意义直方图的各矩形通常是连续排列 条形图则是分开排列 次数分布图 分组数据 直方图 直方图与条形图的区别 折线图也称频数多边形图 Frequencypolygon 是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 分组数据 折线图 次数分布图 15 12 9 6 3 105 110 115 120 125 130 135 140 日加工零件数 个 频数 人 某车间工人日加工零件数的折线图 分组数据 折线图 次数分布图 用于显示未分组的原始数据的分布由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶对于n 20 n 300 个数据 茎叶图最大行数不超过L 10 log10n 茎叶图类似于横置的直方图 但又有区别直方图可大体上看出一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息 未分组数据 茎叶图 次数分布图 树茎 树叶 788 022347778889 0012222333344466777889 0133445799 数据个数 某车间工人日加工零件数的茎叶图 未分组数据 茎叶图 次数分布图 未分组数据 扩展的茎叶图 次数分布图 用于显示未分组的原始数据或分组数据的分布箱线图由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成其绘制方法是 首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分 位 数画出箱子 再将两个极值点与箱子相连接 未分组数据 箱线图 次数分布图 未分组数据 箱线图 次数分布图 时间一般绘在横轴 指标数据绘在纵轴图形的长宽比例要适当 其长宽比例大致为10 7一般情况下 纵轴数据下端应从 0 开始 以便于比较 数据与 0 之间的间距过大时 可以采取折断的符号将纵轴折断 时间序列数据 线图 次数分布图 例 已知1991 1998年我国城乡居民家庭的人均收入数据如表 试绘制线图 时间序列数据 线图 次数分布图 时间序列数据 线图 次数分布图 雷达图 RadarChart 是显示多个变量的常用图示方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论