




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章统计数据的整理与显示 统计整理是根据统计研究的目的 将统计调查所得到的原始资料 也称初级资料 进行科学的分类和汇总 或对已经经过加工的综合资料 也称次级资料 进行再加工 为统计分析准备系统化的 条理化的 能够反映总体特征的综合资料的工作过程 例如 某班50名学生 调查其考分资料如下 7765835668709965737288667463718462528078847981645882766273758979616554928673685169647863766872778176 上述这些考分 原始资料 的特点是零星分散 不系统 无规律 不能反映学生总体的学习情况 由表3 1可见 整理后的学生考分资料 较整理前的考分资料明显要条理 系统 由上表可见 在学生总体中 60分以下和90分以上的学生人数都较少 绝大多数学生的考分分布在60 90分之间 表3 1 所以 统计整理是统计调查的继续 是统计分析的前提 它实现了从个别单位的标志表现 标志值 向总体综合指标的过渡 在统计研究中起着承前启后重要的作用 由图3 1可以得出相同的结论 在学生总体中 60分以下和90分以上的学生人数都较少 绝大多数学生的考分分布在60 90分之间 图3 1 统计是处理数字的 我们用图和表呈现数字 图是传达数据信息非常有效的方式 好的图可以把数据中的信息清楚地表达出来 而且比数据资料直观得多 表是资料的摘要 并不反映每一个个体的信息 而是反映我们感兴趣的一些类别当中的计数 统计数据的整理与显示 3 1统计数据的整理程序3 2品质数据的整理与显示3 3数值型数据的整理与显示3 4次数分布及其类型3 5统计表与统计图 学习目标 认识统计整理在统计研究中的承前启后的地位 掌握统计数据的整理和显示方法 特别是统计分组与变量数列的编制 了解统计表和统计图的构成和展示 能实际设计统计表和统计图 统计数据整理的程序 1 制定整理方案 汇总方案 2 对调查资料进行审核和纠正等 3 进行统计分组 关键 4 进行统计汇总 5 汇总后审核 6 编制统计表 绘制统计图 显示整理结果 3 1 1统计资料的审核 审核 对第一手数据 1 完整性审核 检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全 2 准确性审核 真实性 检查数据是否真实反映客观实际情况 内容是否符合实际 逻辑检查正确性 检查数据是否有错误 计算是否正确等 计算检查 定量数据 审核 对第二手数据 1 完整性 2 准确性 3 适用性 数据的来源 口径以及有关背景资料 4 时效性 尽可能使用最新的数据 3 1 2统计分组 分组前 分组后 统计分组就是根据统计研究的目的和被研究现象的本质特征 将统计总体按照一定的标志划分为若干性质不同的部分或组 统计分组客观上把总体划分为一个个性质不同 范围更小的总体 统计分组有两个方面的含义 即 1 统计分组的作用 划分现象的类型 区分事物的类型 研究总体的结构 构成 或比例关系 分析 探讨 现象之间的依存关系 注意 统计分组是对总体认识深化的手段 它是一切统计研究的基础 应用于统计工作的全过程 是统计研究的基本方法 2 统计分组的原则 穷尽原则互斥原则 3 统计分组的种类 1 按分组标志的多少不同 2 按分组标志的性质不同 简单分组 品质分组 数量 变量 分组 复合分组 4 统计分组的方法 分组标志的选择 选择分组标志是统计分组的核心问题 必须根据统计研究的目的选择分组标志 品质分组 是按品质标志进行的分组 国民经济按产业分组 第一产业第二产业第三产业 人口按性别分组 男性女性 用文字来表示各组性质上的差别 数量分组数量分组的概念单项式分组与组距式分组进行组距式分组时应注意的问题 数量分组是按数量标志进行的分组 数量分组的概念 例如 学生按考分分组 分 用数量来表示各组性质上的差别 60以下60 7070 8080 9090以上 1 单项式分组 即在变量分组中 一个组只有一个变量值 单项式分组与组距式分组 适用条件 它适用于当变量值变化范围不大 不同变量值个数较少的离散型变量的场合 例如 居民家庭按子女数分组 01234 离散型变量 2 组距式分组 就是将变量依次划分为几段区间 一段区间表现为从 到 距离 把一段区间内的所有变量值归为一组 区间的距离就是组距 例如 企业按人数分组 499及以下500 9991000 29993000及以上 工人按工资分组 600 700700 800800 12001200 1500 适用条件 它适用于变量值变化范围较大 不同变量值个数较多的离散型变量及连续型变量的场合 离散变量 连续变量 注意 连续型变量的数值不能一一列举 故其只能采用组距式分组 进行组距式分组时应注意的问题 1 组限及划分方法 2 等距分组与不等距分组 3 组中值 499及以下500 9991000 29993000及以上 600 700700 800800 12001200 1500 1 组限及划分方法 组限 确立每组界限的两个数字 其中 每组最大变量值称为上限 每组最小变量值称为下限 工人按工资分组 连续变量 企业按人数分组 离散变量 重叠组限 连续组距式分组 不重叠组限 间断组距式分组 组限的划分方法 组限的划分方法 不重叠组限 重叠组限 只适用于离散型变量 适用于连续型变量和离散型变量 重叠组限 不重叠组限 即相邻两组的上下限为同一个数值 即相邻两组的上下限为两个不同的数值 当某单位的变量值刚好等于相邻两组的上下限时 一般把此值归到作为下限的那一组中 即遵循 上限不在其内 的原则 企业按人数分组 499及以下500 9991000 29993000及以上 不重叠组限 企业按人数分组 500以下500 10001000 30003000及以上 重叠组限 通常不管离散变量还是连续变量都使用重叠组限 连续组距式分组 2 等距分组与不等距分组 组距分组 等距分组 不等距分组 例如 按身高 考分分组等 应采用等距分组 它便于各组间单位数与变量值的直接对比和各项指标计算 适用场合 等距分组 即各组组距相同的分组 凡是在变量值分布比较均匀时采用 组距 每组变量值的变动范围 即组距 上限 下限 不等距分组 即各组组距不都相等的分组 适用场合 当变量值分布很不均匀时采用 不等距分组多数是根据事物性质变化的数量界限来确定组距 如人口按年龄分组 要注意不同年龄生理变化的特点 可分为 1岁以下 1 6岁 7 12岁 13 18岁 19 59岁 60岁以上 年龄段 工人按工资分组 元 600 700700 800800 12001200 1500 3 组中值 组中值是指组距数列中各组上限和下限之间的中点数值 注意 组中值经常用来代表各组标志值的平均水平 按考分分组50 6060 7070 8080 9090 100 55 75 65 85 95 组中值 人数51518102 若第一组出现 以下 或最末组出现 以上 字样的组叫做开口组 首组组中值 首组上限 相邻组组距的一半 末组下限 相邻组组距的一半 末组组中值 50 10 2 100 10 2 例如 首组 末组 按考分分组组中值50 605560 706570 807580 908590 10095 50以下 100以上 45 105 3 2品质数据的整理与显示 数据的整理与显示的基本问题 要弄清所面对的数据类型 不同类型的数据 处理方式和方法不同 适合于低层次数据的整理和显示方法也适合于高层次的数据 但适合于高层次数据的整理和显示方法并不适合于低层次的数据 品质数据的整理与显示 3 2 1定类数据的整理与显示3 2 2定序数据的整理与显示 定类数据的整理的基本过程 2 计算各类别的频数 3 制作频数分布表 列出各类别 4 用图形显示数据 定类数据的整理 可计算的统计量 频数 frequency 落在各类别中的数据个数 比例 proportion 某一类别数据占全部数据的比值 百分比 percentage 将对比的基数作为100而计算的比值 也叫频率 比率 ratio 不同类别数值的比值 频数分布 也叫次数分布 就是把各个类别及落在其中的相应频数全部列出 并用表格的形式表现出来 按品质标志分组形成的频数分布 某厂职工人数统计表 按性别分组 男职工 女职工 合计 人数 人 频数 百分比 频率 253 115 368 68 75 31 25 100 00 定类数据整理 频数分布表 例1 一家市场调查公司为研究不同品牌饮料的市场占有率 对随机抽取的一家超市进行了调查 调查员在某天对50名顾客购买饮料的品牌进行了记录 如果一个顾客购买某一品牌的饮料 就将这一饮料的品牌名字记录一次 右边就是记录的原始数据 由表可以看出 可口可乐的市场占有率最高 30 其次是旭日升 22 最低的是汇源果汁 12 分类数据的图形显示 1 条形图 barchart 通过宽度相同的条形的高度或长短来比较各类别数据的图形有单式条形图 复式条形图等形式主要用于反映分类数据的频数或频率绘制时 各类别可以放在纵轴 条形图 也可以放在横轴 柱形图 分类数据的图示 2 饼图 piechart 也称圆形图 是用圆形及圆内扇形的角度来表示数值大小的图形 主要用于表示样本或总体中各组成部分所占的比例 用于研究结构性问题 绘制圆形图时 样本或总体中各部分所占的百分比用圆内的各个扇形角度表示 这些扇形的中心角度 按各部分数据百分比占3600的相应比例确定 由图可以看出相同的结论 即可口可乐的市场占有率最高 其次是旭日升 最低的是汇源果汁 3 环形图环形图中间有一个 空洞 样本或总体中的每一部分数据用环中的一段表示 用于结构比较研究 与饼图类似 但又有区别 饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列 每一个样本或总体的数据系列为一个环 分类数据的图示 环形图 3 2 2定序数据的整理 可计算的统计量 对于定序数据 除了可用定类数据整理和显示的方法之外 还可以计算 1 累积频数 cumulativefrequencies 各类别频数的逐级累加 2 累积频率 cumulativepercentages 各类别频率 百分比 的逐级累加 1 向上累积 是指将各组次数或频率由变量值低的组向变量值高的组逐组累积 2 向下累积 是指将各组次数或频率由变量值高的组向变量值低的组逐组累积 累计分布有向上累积和向下累积两种 表3 2 某城市家庭对住房状况评价的频数分布 1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意 定序数据的图示 累计频数分布图 甲城市家庭对住房状况评价的累积频数分布 3 3数值型数据的整理与展示 3 3 1数据分组与频数分析3 3 2数值型数据的图示 3 3 1数据分组与频数分布 1 排序 求全距 全距 最大值 最小值 2 确定变量的数据形式 单变量分组 组距分组 3 确定组数 斯特格斯 Sturges 经验公式 4 确定各组组距 组距 全距 组数 最大值 最小值 组数5 确定各组组限 计算频数 整理成频数分布表 数据分组的步骤 频数分布表的编制实例 117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121 例2 某生产车间50名工人日加工零件数如下 单位 个 对数据进行分组 1 排序 求全距 107108108110112112112114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139全距 最大值 最小值 139 107 32 2 确定变量的数据形式 3 确定组数 K 1 log10N log102 1 3 322lgN 1 3 322 lg50 1 3 322 1 699 6 64 7 4 确定各组组距 组距 全距 组数 最大值 最小值 组数 32 7 4 6 5 5 根据分组整理成频数分布表 等距分组表 使用开口组 频数分布表的编制 例3 表中是某电脑公司2005年前四个月各天的销售量数据 单位 台 试对数据进行分组 3 3 2数据值型数据的图形显示 1 分组数据 直方图和折线图2 未分组数据 茎叶图和箱线图 分组数据 直方图 histogram 直方图是展示数值型数据分布的最常用的图 绘制直方图的步骤 将资料的数值范围分成同样宽度的组 等距分组 数每一组中个体的个数 画直方图 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图 本质上是用矩形的面积来表示频数分布 直方图下总面积等于1 直方图的绘制 某电脑公司销售量分布的直方图 我一眼就看出来了 销售量在170 180之间的天数最多 销售量 台 直方图与条形图的区别 条形图是用条形的长度 横置时 表示各类别频数的多少 其宽度 表示类别 则是固定的 直方图是用面积表示各组频数 率 的多少 矩形的高度表示每一组的频数或百分比 宽度则表示各组的组距 其高度与宽度均有意义 直方图的各矩形通常是连续排列 条形图则是分开排列 条形图主要用于展示分类数据 直方图则主要用于展示数值型数据 分组数据 分组数据 折线图 折线图也称频数多边形图 是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉 折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布一致 折线图的绘制 折线图与直方图下的面积相等 140 150 210 某电脑公司销售量分布的折线图 190 200 180 160 170 220 230 240 销售量 台 分布的形状 当对数据所分的组数很多时 组距会越来越小 这时 所绘制的折线图就会越来越光滑 逐渐形成一条平滑的曲线 这就是频数分布曲线 即密度函数 直方图 折线图的解释 画直方图并不是目的 目的是帮助我们了解数据 即如何解释直方图 解释直方图一般包括 中间点 分布的中心离散度 分散程度 如最大值和最小值 分布形态 几个峰值 是否对称 未分组数据 茎叶图 stem and leaf 茎叶图由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶 树叶上只保留最后一位数字 其绘制步骤如下 把观测值分成茎叶两部分 茎包括除了最后以为以外的所有数字 叶就是最后以为数字 把茎从小到大 从上往下写成一直列 并在右侧画一条线 把每片叶子写在它所属的茎的右边 从小到大排成一行 未分组数据 茎叶图 stem and leaf 茎叶图由 茎 和 叶 两部分构成 其图形是由数字组成的以该组数据的高位数值作树茎 低位数字作树叶 树叶上只保留最后一位数字 其绘制步骤如下 把观测值分成茎叶两部分 茎包括除了最后以为以外的所有数字 叶就是最后以为数字把茎从小道大 从上往下写成一直列 并在右侧画一条线把每片叶子写在它所属的茎的右边 从小到大排成一行 树茎 树叶 788 022347778889 0012222333344466777889 0133445799 数据个数 茎叶图的制作 某车间工人日加工零件数的茎叶图 未分组数据 茎叶图 stem and leaf 茎叶图最大的优点是呈现了实际的观测值 画起来比直方图容易 但由于茎叶图规定了头几位数字做茎 这等于自动选择了组距 所以数据量很大时 茎叶图不适用 茎叶图类似于横置的直方图 但又有区别 直方图可观察一组数据的分布状况 但没有给出具体的数值 茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息 直方图用于显示分组数据的分布 茎叶图则用于显示未分组的原始数据的分布 直方图适用于大批量数据 茎叶图适用于小批量数据 未分组数据 箱线图 boxplot 用于显示未分组的原始数据的分布 由一组数据的5个特征值绘制而成 它由一个箱子和两条线段组成 绘制方法 首先找出一组数据的5个特征值 即最大值 最小值 中位数Me和两个四分位数 下四分位数QL和上四分位数QU 连接两个四分位数画出箱子 再将两个极值点与箱子相连接 该箱线图也称为Median Quart Range箱线图 箱线图的构成 中位数 4 6 8 10 12 Median Quart Range箱线图 箱线图的构成 单批数据箱线图 分布的形状与箱线图 左偏分布 Q L 中位数 Q U 不同分布的箱线图 3 4次数分布及其类型 次数分布及其类型 3 4 1分配数列的概念和构成要素3 4 2分配数列的种类及编制方法3 4 3次数分布的主要类型 3 4 1分配数列的概念和构成要素 分配数列是指在统计分组的基础上 将总体所有单位按组归类排队 形成总体中各单位在各组间的分布 又称分布数列或统计分布 分配数列的概念 表3 6 表3 7 人数 人 频率 20 30 60 40 50 100 5 人数 人 频率 10 30 10 15 18 50 2 36 4 20 100 分配数列的构成要素 分配数列的构成要素 总体按某标志所分的各个组 各组次数或频率 次数 频数 频率 所以 次数或频率分布形成的数列叫分配数列 即分布在各组的单位数 即各组次数与总次数之比 3 4 2分配数列的种类及编制方法 一 品质数列 分配数列的种类 1 单项式变量数列 2 组距式变量数列 二 变量数列 一 品质分配数列 按品质标志分组所形成的分配数列称为品质分配数列 品质数列 一般来说品质数列较容易编制 它通常能准确地反映总体的分配特征 一旦分组标志确定以后 其分布数列的形式是唯一的 例如 表3 8 二 变量数列 按数量标志分组所形成的分布数列称为变量分配数列 变量数列 按顺序列出的各组变量值及相应的频率 即成为变量的频率分布 例如 表3 9 注意 任何一个频率分布都必须满足两个条件 一是各组频率 0 二是各组频率之和等于100 1 单项式变量数列 2 组距式变量数列 由单项式分组形成 表3 10 单项式变量数列 组距式变量数列 表3 11 变量数列 由组距式分组形成 3 4 3次数分布的主要类型 次数分布类型主要有三种 钟型分布 型分布和J型分布 其分布特征是 两头小 中间大 即靠近中间的变量值分布分布的次数多 靠近两端的变量值分布分布的次数少 1 钟型分布 f x 正态分布 即其分布曲线形如一口古钟 故称钟型分布例如 如人的身高 体重 职工工资 农作物亩产量 市场价格 学生的考分等现象都属于钟型分布 其分布又可分为以下两种 正态分布和偏态分布 图3 1 正态分布 中间变量值分布的次数最多 两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少 并且围绕中心变量值两侧呈对称分布 见图3 1 偏态分布 当变量值存在极大值时 次数分布曲线会较正态分布向右延伸 这种分布称为右偏分布 见图3 2 右偏分布 当变量值存在极小值时 次数分布曲线就会较正态分布向左延
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1 Teenage Life 主题词汇专项练习(含答案) -2025-2026学年高中英语人教版(2019)必修第一册
- 2025年事业单位工勤技能-湖南-湖南中式烹调师一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-湖北-湖北计算机信息处理员五级初级历年参考题库含答案解析
- 2025年事业单位工勤技能-湖北-湖北水利机械运行维护工四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北收银员三级(高级工)历年参考题库含答案解析
- 2025年环境监测智能化在城市空气质量预报中的应用与数据质量控制
- 2025年事业单位工勤技能-海南-海南管道工四级(中级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-浙江-浙江计算机信息处理员五级初级历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-浙江-浙江工程测量员五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南铸造工二级(技师)历年参考题库典型考点含答案解析
- 中音萨克斯名曲经典十首
- 2016室性早搏治疗指南
- 数控折弯机简易数控系统SNC说明书操作手册
- 药品出、入库验收制度
- 个人房地产抵押合同书
- 车间员工技能管理办法
- 医院零星维修管理制度及零星维修审批单
- DB11T 1581-2018 生产经营单位应急能力评估规范
- 汶川地震波时程记录(卧龙3向)
- 吴迪完胜股市学习笔记
- HB 4-1-2020 扩口管路连接件通用规范
评论
0/150
提交评论