大学统计学第3章数据分布特征的描述_第1页
大学统计学第3章数据分布特征的描述_第2页
大学统计学第3章数据分布特征的描述_第3页
大学统计学第3章数据分布特征的描述_第4页
大学统计学第3章数据分布特征的描述_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学 xxx主讲 3 2 第三章数据分布特征的描述 第一节统计变量集中趋势的测定第二节统计变量离散程度的测定第三节变量分布的偏度与峰度 3 3 第一节统计变量集中趋势的测定 一 测定集中趋势的指标及其作用二 数值平均数三 众数与中位数 3 4 一 测定集中趋势的指标及其作用 集中趋势 Centraltendency 较大和较小的观测值出现的频率比较低 大多数观测值密集分布在中心附近 使得全部数据呈现出向中心聚集或靠拢的态势 测度集中趋势的指标有两大类 数值平均数 是根据全部数据计算得到的代表值 主要有算术平均数 调和平均数及几何平均数 位置代表值 根据数据所处位置直接观察来确定的代表值 主要有众数和中位数 3 5 测定集中趋势指标的作用 1 反映变量分布的集中趋势和一般水平 如用平均工资了解职工工资分布的中心 反映职工工资的一般水平 2 可用来比较同一现象在不同空间或不同阶段的发展水平 不受总体规模大小的影响 在一定程度上使偶然因素的影响相互抵消 3 可用来分析现象之间的依存关系 如研究劳动者的文化程度与收入的关系4 平均指标也是统计推断中的一个重要统计量 是进行统计推断的基础 3 6 二 数值平均数 一 算术平均数 均值 一组数据的总和除以这组数据的项数所得的结果 最常用的数值平均数 1 简单算术平均数把每项数据直接加总后除以它们的项数 通常用于对未分组的数据计算算术平均数 计算公式 3 7 例3 1 解 采用简单算术平均法计算 即全体队员的平均年龄为 单位 周岁 若采用简单平均 分组数据不能简单平均 因为各组变量值的次数不等 3 8 2 加权算术平均数 加权算术平均数的计算公式 正确的计算是 加权 为了体现各变量值轻重不同的影响作用 对各个变量值赋予不尽相同的权数 fi 3 9 权数 fi 也称权重 权数 指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量 可以是绝对数形式 也可以是比重形式 如频率 来表示 事实上比重权数更能够直接表明权数的权衡轻重作用的实质 当权数完全相等 f1 f2 fn 时 加权算术平均数就成了简单算术平均数 3 10 3 由组距数列计算算术平均数 要点 各组变量值用组中值来代表 假定条件是各组内数据呈均匀分布或对称分布 计算结果是近似值 解 平均使用寿命为 3 11 4 对相对数求算术平均数 由于各个相对数的对比基础不同 采用简单算术平均通常不合理 需要加权 权数的选择必须符合该相对数本身的计算公式 权数通常为该相对数的分母指标 3 12 5 算术平均数的主要数学性质 1 算术平均数与变量值个数的乘积等于各个变量值的总和 2 各变量值与算术平均数的离差之总和等于零 3 各变量值与算术平均数的离差平方之总和为最小 3 13 二 调和平均数 Harmonicmean 调和平均数也称为倒数平均数 各变量值的倒数 1 xi 的算术平均数的倒数 其计算公式为 3 14 续 社会经济统计中所应用的调和平均数通常是加权算术平均数的变形 已知各组变量值xi和 xifi 而缺乏fi时 加权算术平均数通常可变形为调和平均数形式来计算 例3 4 解 3 15 三 几何平均数 Geometricmean 几何平均数 n个变量值连乘积的n次方根 简单几何平均数 加权几何平均数 适用于各个变量值之间存在连乘积关系的场合 主要用于计算现象的平均发展速度 也适用于对某些具有环比性质的比率求平均 3 16 例3 5 某企业产品的加工要顺次经过前后衔接的五道工序 本月该企业各加工工序的合格率分别为88 85 90 92 96 试求这五道工序的平均合格率 解 本例中各工序的合格率具有环比的性质 企业产品的总合格率等于各工序合格率之连乘积 所以 所求的平均合格率应为 例 某笔投资的年利率是按复利计算的 25年的年利率分配是 1年为3 4年为4 8年为8 10年为10 2年为15 求平均年利率 解 问 如果是按单利计算呢 3 18 三 众数与中位数 一 众数 Mode 众数是一组数据中出现频数最多 频率最高的变量值 常用M0表示 如表3 2中年龄的众数值MO 25 众数代表的是最常见 最普遍的状况 是对现象集中趋势的度量 可用来测度定性变量的集中趋势 销售量最大的产品颜色是 白色 则有M0 白色 可以度量定量变量的集中趋势 从分布曲线的角度看 众数就是变量分布曲线的最高峰所对应的变量值 3 19 组距数列中众数的确定 先找到众数组 在等距数列中 众数组就是次数最多的组 在异距数列中 众数组应是频数密度最大的组 根据众数组与其相邻两组的次数差来推算 其近似公式为 下限公式 上限公式 3 21 二 中位数 Median 中位数是将数据由小到大排列后位置居中的数值 由未分组数据计算中位数若数据项数是奇数 则正好位于中间的数值就是中位数 如5人收入为 1200 1450 1500 1600 2000元 则收入的中位数Me 1500 若数据项数是偶数 则取居中两个数值的平均数为中位数 如6人收入为 1200 1450 1500 1600 1800 2000元 则收入的中位数Me 1550 3 22 由组距数据计算中位数 先确定中位数组 即中间位置 用 f 2来计算 所在的组 假定中位数组内次数均匀分布 次数与变量值的区间大小成比例 近似推算中位数的值 计算公式为 下限公式 上限公式 例 某地区某年农民年收入的分布数列 解 众数所在组是700 800 代入公式 讨论 1 众数组的次数与相邻组的次数相等 则Mo 2 众数组下限前一组次数小于上限 则Mo偏向上限还是下限 相反又如何 2 中位数的位置为3000 2 1500 240 480 1050正好大于1500 中位数所在组是第三组 3 26 四分位数 十分位数和百分位数 四分位数是将数据由小到大排序后 位于全部数据1 4位置上的数值 十分位数是将数据由小到大排序后 位于全部数据1 10位置上的数值 百分位数是将数据由小到大排序后 位于全部数据1 100位置上的数值 中位数也就是第二个四分位数 第五个十分位数 第五十个百分位数 分位数与其它指标结合 可以更详细地反映数据的分布特征 3 27 箱线图 boxplot 箱线图由一组数据的最小值 xmin 第一四分位数 Q1 中位数 Me 第三四分位数 Q3 最大值 xmax 等五个数值来绘成 利用箱线图可以观察数据分布的范围 中心位置和对称性等特征 还可以进行多组数据分布的比较 3 28 三 众数 中位数和算术平均数的比较 1 算术平均数综合反映了全部数据的信息 众数和中位数由数据分布的特定位置所确定 2 算术平均数和中位数在任何一组数据中都存在而且具有惟一性 但计算和应用众数有两个前提条件 1 数据项数众多 2 数据具有明显的集中趋势 3 算术平均数只能用于定量 数值型 数据 中位数适用于定序数据和定量数据 众数适用于所有形式 类型 计量层次 的数据 3 29 续 4 算术平均数要受数据中极端值的影响 而众数和中位数都不受极端值的影响 为了排除极端值的干扰 可计算切尾均值 即去掉数据中最大和最小的若干项数值后计算的均值 切尾均值是将均值与中位数取长补短的结果 5 算术平均数可以推算总体的有关总量指标 而中位数和众数则不宜用作此类推算 3 30 算术平均数和众数 中位数的数量关系 在对称分布中 三者相等 即 均值 Me Mo 在左偏分布中 一般有 均值 Me Mo 在右偏分布中 一般有 Mo Me 均值 皮尔生经验公式 在轻微偏态时 三者的近似关系 3 31 第二节统计变量离散程度的测定 一 测定离散程度的指标及其作用二 极差 四分位差和平均差三 方差和标准差四 离散系数五 异众比率 3 32 一则笑话 如果你一只脚放在摄氏1度的水里 另一只脚放在摄氏79度的水里 平均水温40度 你一定感觉很舒服 显然 只了解变量的集中趋势是不够的 3 33 一 测定离散程度的指标及其作用 1 说明数据的分散程度 反映变量的稳定性 均衡性 数据之间差异越大 变量的稳定性或均衡性越差 2 衡量平均数的代表性 离散程度越大 平均数的代表性就越小 3 统计推断的重要依据判别统计推断前提条件是否成立 衡量推断效果好坏的重要尺度 3 34 二 极差 四分位差和平均差 一 极差 Range 极差是一组数据的最大值 xmax 与最小值 xmin 之差 通常用R表示 对于总体数据而言 极差也就是变量变化的范围或幅度大小 故也称为全距 组距数列中 极差 最高组的上限 最低组的下限 优缺点 计算简便 含义直观 容易理解 它未考虑数据的中间分布情况 不能充分说明全部数据的差异程度 3 35 二 四分位差 第3四分位数 Q3 与第1四分位数 Q1 之差 常用Qd表示 计算公式为 实质上是两端各去掉四分之一的数据以后的极差 表示占全部数据一半的中间数据的离散程度 四分位差越大 表示数据离散程度越大 是在一定程度上对极差的一种改进 避免了极端值的干扰 但它对数据差异的反映仍然是不充分的 四分位差是一种顺序统计量 适用于定序数据和定量数据 尤其是当用中位数来测度数据集中趋势时 3 36 三 平均差 AverageDeviation 平均差 各个数据与其均值的离差绝对值的算术平均数 反映各个数据与其均值的平均差距 通常以A D表示 计算公式为 未分组数据 平均差含义清晰 能全面地反映数据的离散程度 但取离差绝对值进行平均 数学处理上不够方便 在数学性质上也不是最优的 已分组数据 3 37 三 方差和标准差 1 方差 Variance 的概念和计算方差是各个数据与其均值的离差平方的算术平均数 总体方差 2 的计算公式为 未分组数据 分组数据 样本方差 通常用S2表示 分母应为 n 1 3 38 标准差 standardDeviation 标准差 方差的算术平方根 总体标准差一般用 表示 其计算公式为 未分组数据 分组数据 标准差比方差更容易理解 在社会经济现象的统计分析中 标准差比方差的应用更为普遍 经常被用作测度数据与均值差距的标准尺度 样本标准差 S 分母应为 n 1 3 39 例3 9 计算平均差和方差 标准差 3 40 2 方差的主要数学性质 3 分组条件下 总体的方差等于组间方差与各组方差平均数之和 1 常数的方差等于零 a为常数 则 2 变量的线性函数的方差等于变量系数的平方乘以变量的方差 设a b为常数 y a bx 则有 组间方差 各组方差平均数 如何来理解呢 以例说明 某局有7个企业其某月的产值为 88 90 96 98 110 140 2001 不分组 分组后 第一组 88 90 96 98第二组 110 140 200 平均组内方差 组间方差 结论 1405 38 609 71 795 67 4 方差的简化计算 例 若有某车间的甲 乙二个班组 均为5个人 生产同一种产品 每人每日的产量为 甲73 74 75 76 77乙50 65 70 90 100计算其标准差并比较 解 两者平均值均为75件 计算 方法一 甲组乙组 方法二 结果表明 由于乙组的标准差较大 其平均数的代表性较低 甲组的标准差较小 其平均数的代表性较高 问题 得出上述结果的前提是什么 3 46 四 离散系数 前面的各变异指标都是有计量单位的 它们的数值大小不仅取决于数据的离散程度 还要受数据本身水平高低和计量单位的影响 对不同变量 或不同数据组 的离散程度进行比较时 只有当它们的平均水平和计量单位都相同时 才能利用上述变异指标来分析 否则 须利用离散系数来比较它们的离散程度 例如 哪个变量的差异较大 体重 还是身高 例如 体重的差异哪个较大 父亲 还是婴儿 父亲 平均体重 70kg 标准差 5kg婴儿 5kg 1kg 3 47 四 离散系数 离散系数是极差 四分位差 平均差或标准差等变异指标与算术平均数的比率 以相对数的形式表示变异程度 将极差与算术平均数对比得到极差系数 将平均差与算术平均数对比得到平均差系数 最常用的离散系数是就标准差来计算的 称之为标准差系数 离散系数大 说明数据的离散程度大 其平均数的代表性就差 反之亦然 例 甲农场小麦平均亩产量为500斤 标准差为50斤 乙农场小麦平均亩产量为100斤 标准差为50斤 哪个农场平均亩产量代表性高 解 例 已知标志平均值为12 各标志值平方的平均数为169 试问标准差系数为多少 五 是否标志的标准差 1 是否标志 是指用 是 否 或 有 无 将总体单位分为二部分的标志 2 实质是将品质标志进行量化处理 如 合格品男全体出勤全部产品不合格品人口女职工缺勤 3 量化结果 用 1 表示具有某一标志 其单位数为n1 用 0 表示不具有此标志 其单位数为n0 全部单位数n n1 n0 4 成数 设p为具有某一标志的单位数占总体单位数的比重 或成数 p n1 nq为不具有某一标志的单位数占总体单位数的比重 或成数 q n0 n显然 p q 15 是否标志的平均数和标准差 计算列表如下 例 某机械厂铸造车间生产6000吨铸件 合格品为5400吨 试计算其平均合格品率和标准差 解 可以直接应用公式计算 3 54 第三节变量分布的偏度与峰度 一 矩 动差 二 偏度 Skewness 三 峰度 Kurtosis 3 55 一 矩 动差 矩 动差 一系列刻画数据分布特征的指标的统称 变量值与数值a之离差的K次方的平均数称为变量x关于a的K阶矩 即 K阶原点矩 当a 0时 是数据的K次方的平均数 一阶原点矩即算术平均数 二阶原点矩即平方平均数 K阶中心矩 当a 均值时 是以均值为中心计算的离差K次方的平均数k 1时 称为一阶中心矩 它恒等于0 即m1 0 k 2时 称为二阶中心矩 也就是方差 即m2 2 3 56 二 偏度 Skewness 偏度 指数据分布的不对称程度或偏斜程度 以对称分布为标准来区分偏态分布又分左偏 负偏 和右偏 正偏 3 57 偏态的测度方法 一般有 一 由均值与众数 中位数 之间的关系求偏态系数 3 58 二 由三个四分位数之间的关系求偏态系数 值域 1 Sk 1 3 59 偏度系数 三 利用3阶中心矩来计算偏度系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论