




已阅读5页,还剩104页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章统计数据的描述 2 1统计数据的整理2 2分布集中趋势的测度2 3分布离散程度的测度2 4统计表与统计图本章小结 学习目标 掌握数值型数据的整理方法掌握总量指标 相对指标 平均指标的概念掌握数据集中趋势和离散程度的测度方法掌握统计表和统计图的使用 2 1统计数据的整理 一 统计数据的分组二 次数分配三 次数分配直方图四 洛伦茨曲线 统计整理 根据统计研究的目的 把统计调查所搜集到的原始资料进行科学加工 使之系统化 条理化 科学化 从而得出反映事物总体特征的资料 为统计分析做好准备的工作过程 统计数据的分组 统计分组 根据研究事物的特点和统计研究的目的 按照某一标志 将统计总体划分为若干个组成部分的一种统计方法 统计分组的作用 区分现象质的差别反映社会经济现象的内部结构分析社会现象间的依存关系 统计分组的方法 分组标志的选择原则根据研究的目的与任务选择分组标志选择最能反映事物本质或主要特征的标志进行分组根据现象所处的历史条件的变化选择分组标志 按品质标志或数量标志分组 按品质标志分组按数量标志分组 次数分布 分布数列 分配数列 在统计分组的基础上 总体中的所有单位按其所属的组别归类整理 并且按照一定的顺序排列 形成总体单位数在各组分布的一系列数字 次数 频数 次数分布中 分布在各个组的总体单位数 频率 比率 比重 各组次数与总次数之比 分布数列组成要素 组的名称各组次数 频数 或频率 变量数列的种类 单项变量数列 按数量标志分组后 用一个变量值代表一个组形成的数列 组距变量数列 按照数量标志分组后 用变量变动的一定范围代表一个组所形成的数列 1 关于组距数列适用的几个概念 组限 指每组两端数值 分上限和下限 上限 每组的终点数值 最大值 下限 每组的起点数值 最小值 组限的形式 重合式 指相邻两组中 前一组的上限和后一组的下限数值重合 组距 上限 下限不重合式 指前一组的上限与后一组的下限 两值紧密相连而不相重复 组距 下组下限 本组下限 本组上限 前组上限 全距 总体所有数据中 最大的标志值与最小的标志值的差 全距 最大标志值 最小标志值组距 各组中最大的标志值与最小的标志值的差 重叠式 组距 本组上限 本组下限不重叠式 组距 下组下限 本组下限或 本组上限 上组上限 开口组 上 下限不齐全的组 闭口组 上 下限齐全的组 组中值 上限与下限的中点值 重叠式组中值 组中值 上限 下限 2不重叠式组中值 组中值 本组下限 下组下限 2或 下限 组距 2开口组组中值的计算 缺下限组 组中值 上限 相邻组距 2缺上限组 组中值 下限 相邻组距 2 2 组距数列分为等距数列 不等距数列 异距数列 组距分组 要点 将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循 不重不漏 的原则可采用等距分组 也可采用不等距分组 组距分组 步骤 1 将原始资料按数值大小依次排列 计算全距 全距 最大值 最小值2 确定组数和组距 组数 全距 组距取组距原则 数据分布集中 取组距小 组距一般取整数 控制组数5 10个 参考公式 k 1 3 3lgn n为数据个数 3 确定组限 4 汇总 编制变量数列 次数分配表的编制 例题分析 例 某车间30名工人每周加工某种零件件数如右表试对数据进行分组 次数分配表 累计次数和频率 累计次数指首先列出各组的组限 然后依次累计到本组为止的各组次数 累计频率指累计次数除以次数总和 向上累计是将各组次数和频率由变量值低的组向变量值高的组累计 是各组上限以下的累计次数或累计频率 向下累计是将各组次数和频率由变量值高的组向变量值低的组累计 是各组下限以上的累计次数或累计频率 使用excel频数函数 frequency excel的 直方图 工具的缺陷是 频数分布和直方图没有与数据联系起来 这样 如果你改变任何一个数据 频数分布表和直方图不会跟着改变使用excel中的统计函数 frequency 来创建频数分布表和直方图 可解决这一问题 创建频数分布表的步骤是选择与接受区域相临近的单元格区域 作为频数分布表输出的区域选择统计函数中的 frequency 函数在对话框date array后输入数据区域 在bins array后输入接受区域同时按下ctrl shift enter组合键 即得到频数分布 统计函数 frequency 次数分配直方图 直方图 histogram 用矩形的宽度和高度来表示频数分布的图形 实际上是用矩形的面积来表示各组的频数分布在直角坐标中 用横轴表示数据分组 纵轴表示频数或频率 各组与相应的频数就形成了一个矩形 即直方图直方图下的总面积等于1 分组数据的图示 直方图的绘制 某车间工人周加工零件直方图 我一眼就看出来了 周加工零件在100 110之间的人数最多 折线图 frequencypolygon 折线图也称频数多边形图是在直方图的基础上 把直方图顶部的中点 组中值 用直线连接起来 再把原来的直方图抹掉折线图的两个终点要与横轴相交 具体的做法是第一个矩形的顶部中点通过竖边中点 即该组频数一半的位置 连接到横轴 最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等 二者所表示的频数分布是一致的 分组数据的图示 折线图的绘制 折线图与直方图下的面积相等 某车间工人周加工零件折线图 次数分配的类型 几种常见的频数分布 次数分布的主要类型 各种不同性质的社会现象的次数分布主要有四种类型 钟型分布 两头小 中间大 即靠近中间的变量值分布的次数多 靠近两边的变量值分布的次数少 向右偏态 向左偏态 u型分布 两头大 中间小 靠近中间的变量值分布的次数少 靠近两端的变量值分布的次数多 j型分布 洛伦茨分布洛伦茨分布曲线是专门用以检定社会收入分配的平等程度 洛伦茨曲线 洛伦茨曲线 20世纪初美国经济学家 统计学家洛伦茨 m e lorentz 根据意大利经济学家巴雷特 v pareto 提出的收入分配公式绘制而成描述收入和财富分配性质的曲线分析该国家或地区分配的平均程度 累积的人口百分比 累积的收入百分比 绝对公平线 基尼系数 20世纪初意大利经济学家基尼 g gini 根据洛伦茨曲线给出了衡收入分配平均程度的指标a表示实际收入曲线与绝对平均线之间的面积b表示实际收入曲线与绝对不平均线之间的面积如果a 0 则基尼系数 0 表示收入绝对平均如果b 0 则基尼系数 1 表示收入绝对不平均基尼系数在0和1之间取值一般认为 基尼系数若小于0 2 表明分配平均 基尼系数在0 2至0 4之间是比较适当的 即一个社会既有效率又没有造成极大的分配不公 基尼系数在0 4被认为是收入分配不公平的警戒线 超过了0 4应该采取措施缩小这一差距 某百货公司连续40天的商品销售额如下 单位 万元 41252947383430384340463645373736454333443528463430374426384442363737493942323635根据上面的数据进行适当的分组 编制次数分布表 并绘制直方图 2 2分布集中趋势的测度 一 总量指标 相对指标 平均指标 标志变异指标二 众数三 中位数四 四分位数五 均值六 几何均值七 切尾均值八 众数 中位数和均值的比较 总量指标的概念和作用 总量指标 是反映一定时间 地点 条件下某种现象总体规模 总水平的统计指标 表现形式 绝对数 故也叫绝对指标或绝对数 总量指标的特点 指标数值大小与总体范围成正相关 可以表现为不同时间和空间条件下事物总体总量增减的差额 只有有限总体才能计算总量指标 无限总体只能采用近似值 总量指标的作用1 可以用来反映一个国家的国情 国力 一个地区或部门的人力 物力 财力的基本情况 2 制定政策 编制计划 进行科学管理的重要依据 3 计算相对指标 平均指标的基础 总量指标的种类 1 按总量指标的总体内容不同分 总量单位总量 指总体单位总数 总量标志总量 指总体单位某一数量标志值的总和 2 按总量指标所反映的时间不同分 时期指标时点指标3 按计量单位不同分 实物指标价值指标劳动指标 相对指标 说明现象之间对比关系的指标 由两个或两个以上有联系的指标数值对比求得 结果表现为相对数 故也叫相对数 表现形式 无名数和有名数特点 将对比的基础抽象化 掩盖了绝对数的规模 相对指标的概念与特点 相对指标的作用反映现象内部结构和现象之间数量联系的程度 反映变化趋势 将现象绝对差异抽象化 使原来不能比的指标变得可以对比 相对指标的种类和计算方法 一 结构相对指标 二 比例相对指标 三 比较相指标 四 动态相对指标 五 强度相对指标 六 计划完成情况相对指标 一 结构相对数 概念 反映总体内部各个组成部分在总体中所占比重的相对指标 也叫比重指标 计算公式 特点 各部分所占比重之和为100 或1 分子与分母位置不能互换 二 比例相对指标 概念 反映总体内各个组成部分之间数量对比关系的相对指标 即同一总体部分数值与另一部分数值对比的比值 计算公式 作用 反映同一总体各部分之间数量关系或比例关系 通过对各部分比例关系的研究 找出事物的发展规律 特点 分子分母同属一个总体 而且分子与分母的位置可以互换 三 比较相对数 比较相对指标是同一时期同类现象在不同地区 部门 单位之间的对比 用来表明同类事物在不同空间条件下的数量对比关系 计算公式 特点 用百分数或倍数表示 分子和分母可以互换 对比的分子分母必须是同质现象 四 动态相对数 概念 同一总体在不同时间上的同类指标数值之比 用以说明现象发展变化的方向和程度 计算公式 作用 说明现象在时间发展上变化的程度 也叫发展速度 特点 分子与分母的位置一般不能互换 常用百分数 倍数 千分数表示 五 强度相对数 概念 两个性质不同而又相互联系指标之比 计算公式 作用 反映一国一地的发展水平 力量强弱 反映事物存在的密度或普遍程度 反映社会生产活动的或效果 特点 不同总体对比 具有平均含义 分子分母可以互换与比较相对指标的区别 六 计划完成情况相对指标的计算 1 计划数为绝对数 2 计划数为平均数 3 计划数为相对数 平均指标的概念和作用 一 平均指标的概念平均指标 指同质总体的某一数量标志在一定时间 地点 条件下所达到的平均水平 是总体的代表值 平均指标的特点 同质性 代表性 抽象性 平均指标的作用 1 反映总体分布的集中趋势2 比较同类现象在不同单位 地区间的平均水平 3 总体某一指标的平均水平在时间上的变化 说明总体发展的过程和趋势 4 分析现象物之间的依存关系 5 作为科学预测 决策和某些推算的依据 平均指标的种类 算术平均数调和平均数数值平均数几何平均数众数中位数 位置平均数 标志变异指标的概念与作用 标志变异指标 是综合反映总体各单位标志值及其分布的差异程度的指标 标志变异指标的作用 1 衡量平均数代表性的大小 变异指标值与平均数的代表性大小成反比 2 衡量现象变动的稳定性和均衡程度 变异指标越小 现象变动的稳定性和均衡程度越高 3 确定必要抽样数目和计算抽样误差的必要依据 标志变异指标的种类 四大类 即 1全距 四分位差2 平均差 标准差 方差3 偏度 峰度4 离散系数 众数 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 中位数 中位数 median 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 四分位数 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 位置的确定 原始数据 分组数据 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 统计函数 quartile 均值 均值 mean 集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响用于数值型数据 不能用于分类数据和顺序数据 算术平均数 基本形式算术平均数是总体各单位标志值总和除以总体单位总数得到的平均数 计算公式 算术平均数 计算方法 一 简单算术平均数当掌握资料为各总体单位标志值简单排列 即未分组的资料时 用简单算术平均数 计算公式 其中 代表算术平均数 xi代表各单位标志值 变量值 n代表总体单位数 项数 二 加权算术平均数 当掌握资料为分组的资料时 用加权算术平均数 计算公式 其中 代表算术平均数 x代表各单位标志值 变量值 f代表各组单位数 项数 如果是组距式资料 用组中值代表标志值进行计算 简单均值 simplemean 设一组数据为 x1 x2 xn 总体均值 样本均值 加权均值 weightedmean 设一组数据为 x1 x2 xn相应的频数为 f1 f2 fk 总体均值 样本均值 加权均值 例题分析 均值 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 几何均值 几何均值 geometricmean n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 5 可看作是均值的一种变形 几何均值 例题分析 例 一位投资者购持有一种股票 在2000年 2001年 2002年和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 切尾均值 切尾均值 trimmedmean 去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛 体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为 n表示观察值的个数 表示切尾系数 切尾均值 例题分析 例 谋次比赛共有11名评委 对某位歌手的给分分别是 经整理得到顺序统计量值为 去掉一个最高分和一个最低分 取1 11 众数 中位数和均值的比较 众数 中位数和均值的关系 众数 中位数 均值的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用均值易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 2 3分布离散程度的测度 一 极差二 内距三 方差和标准差四 离散系数 极差 range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布 r max xi min xi 计算公式为 内距 inter quartilerange iqr 也称四分位差上四分位数与下四分位数之差内距 q3 q1反映了中间50 数据的离散程度不受极端值的影响可用于衡量中位数的代表性 方差和标准差 标准差是总体各单位标志值对其算术平均数离差平方的算术平均数的平方根 方差为标准差的平方 标准差 方差 标准差的计算 简单平均式 用于未分组 加权平均式 用于分组资料 标准差的优缺点 最常用 最重要的测定变异指标 计算繁杂 方差和标准差 varianceandstandarddeviation 1 离散程度的测度值之一2 最常用的测度值3 反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论