




已阅读5页,还剩81页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章数据的概括性度量 通常使用哪些数值指标描述数据的特征 如何计算 学习目标 集中趋势各测度值的计算方法 特点及应用场合离散程度各测度值的计算方法 特点及应用场合偏态与峰态的测度方法用Excel Spss计算描述统计量并能分析结果的实际意义 数据分布特征的测度 第一节集中趋势的测度 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据 但高层次数据的测度值并不适用于低层次的测量数据 平均数的概念 平均数是统计分析中最常用的统计指标之一 它反映了社会经济现象中某一总体各单位某一数量在一定时间 地点条件下所达到的一般水平 或者反映某一总体 某一指标在不同时间上发展的一般水平 按其时态 动态平均数 按其度量 数值平均数 位置平均数 调和平均数 算术平均数 几何平均数 中位数 众数 分位数 平均数的分类 静态平均数 分类数据 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响主要用于分类数据 也可用于顺序数据和数值型数据一组数据可能没有众数或有几个众数 众数 不惟一性 无众数原始数据 10591268 分类数据的众数 例题分析 Mo 可口可乐 计算饮料品牌的众数 顺序数据的众数 例题分析 Mo 不满意 计算回答类别的众数 某制鞋厂要了解消费者最需要哪种型号的男皮鞋 调查了某百货商场某季度男皮鞋的销售情况 得到资料如表 鞋号25 5厘米就是众数 数值型分组数据 数值型分组数据的众数 算例 例 计算50名工人日加工零件数的众数 数值型分组数据的众数 要点及计算公式 1 众数的值与相邻两组频数的分布有关 4 该公式假定众数组的频数在众数组内均匀分布 2 相邻两组的频数相等时 众数组的组中值即为众数 3 相邻两组的频数不相等时 众数采用下列近似公式计算 下限公式 上限公式 式中 表示众数所在组的下限u表示众数所在组的上限d表示众数所在组的组距 顺序数据 分位数 中位数 median 中位数是一组数据按从小到大排序后 处于中间位置上的变量值 用表示 中位数 位置的确定 原始数据 分组数据 顺序数据的中位数 例题分析 Me 一般 计算回答类别的中位数 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 元 n为奇数时 则居于中间位置的那个标志值就是中位数 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 n为偶数时 则中间位置的两个标志值的算术平均数为中位数 中位数 所给的资料已分组 1 根据单项数列确定中位数某学院2006到2007学年共有30名同学获得奖学金 其分布情况见下表学生获奖学金分布情况及计算表 中位数 800元 2 根据组距数列确定中位数 例 某地区农民家庭年收入总额分组情况如表 对于这类问题的计算 可以用以下两式估算中位数的值 式中 中位数L 中位数所在组下限U 中位数所在组的上限 总频数 中位数所在组的频数 中位数所在组之前的向上累计频数 中位数所在组之后的向下累计频数d 中位数所在组的组距 1 不受极端值的影响 具有稳健性2 主要用于顺序数据 也可用数值型数据 但不能用于分类数据 中位数的特点 四分位数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 位置的确定 原始数据 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 数值型数据 平均数 平均 2002 03第2学期会计2班 管理学 考试平均78分姚明上赛季平均每场上场29分钟 平均每场得分13分2003年下半年兴达公司职工平均月收入10000元 康隆农场2003年平均从业人员数700人兴隆铁矿年均产量400万吨 简单算术平均数 simplemean 如果我们掌握的未分组的原始资料 x1 x2 xn计算公式 式中 例 某班级40名同学统计学的考试成绩原始资料如表所示 40名同学统计学原始成绩 解 该班40名同学统计学的平均成绩为 分 9 5 9 0 9 5 8 4 7 0 9 9 8 0 8 5 去掉一个最低分7 0 分 去掉一个最高分9 9 分 参赛选手最后得分8 8 分 加权算术平均数 weightedmean 当变量值已经分组 且各个标志值出现的次数不相同时 就可以采用加权算术平均数的形式计算平均指标 设一组数据为 x1 x2 xn各组的组中值为 M1 M2 Mk相应的频数为 f1 f2 fk 例 根据提供的40名同学的统计学成绩原始资料分组整理如下表 根据此表资料计算平均成绩 40名同学统计学成绩汇总表 分 解 以上例子计算中 还可以先算出比重 再计算平均数 即采用相对权数计算 可以证明 计算结果完全一致 可见加权算术平均数的大小除了和变量值x有关外 最主要的还是取决于权数的大小 当各组的权数f相等时 加权平均数就成了简单算术平均 加权平均数 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 解 平均数 数学性质 1 各变量值与均值的离差之和等于零 2 各变量值与均值的离差平方和最小 定义 调和平均数是各个变量值倒数的算术平均数的倒数 又称 倒数平均数 调和平均数 harmonicmean 例题分析市场上早 中 晚蔬菜的价格分别是早晨0 67元 斤 中午0 5元 斤 晚上0 4元 斤 现在 我们分别按四种方法购买蔬菜 分别计算平均价格第一种买法 早 中 晚各买一斤第二种买法 早晨买1斤 中午买2斤 晚上买3斤第三种买法 早 中 晚各买一元第四种买法 早晨买1元 中午买2元 晚上买3元钱 第一种买法 早 中 晚各买一斤解 蔬菜平均价格为 第二种买法 早晨买1斤 中午买2斤 晚上买3斤解 蔬菜平均价格为 第三种买法 早 中 晚各买一元解 蔬菜平均价格为 第四种买法 早晨买1元 中午买2元 晚上买3元解 蔬菜平均价格为 调和平均数的特点 均值的另一种表现形式 如果数列中有一变量值等于零 则无法计算与算术平均数相比 受极端值的影响小 原来只是计算时使用了不同的数据 几何平均数 geometricmean 几何平均数的特点 1 如果数列中有一个变量值等于零或负值 就无法计算 2 受极端值的影响比算术平均数和调和平均数都小 3 适用于对比率数据的平均和平均增长率 几何平均数是若干项变量值的连乘积开n次方根的结果 又称 对数平均数 简单几何平均数 例题分析 例 某产品需经三个车间连续加工 已知三个车间制品的合格率分别为95 90 98 求三个车间平均合格率 解 加权几何平均数 计算公式为 例题分析 例 某地区GDP1991 1995年平均发展速度为107 2 1996 1998年平均发展速度为108 7 1999 2000年平均发展速度为110 求该地区1991 2000年间的平均发展速度 1 082 或108 2 众数 中位数和平均数的关系 K Pearson经验法则 众数 中位数 平均数的特点和应用 众数不受极端值影响具有不惟一性数据分布偏斜程度较大且数据较多时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 数据类型与集中趋势测度值 第二节离散程度的测度 1 数据分布的另一个重要特征2 不同类型的数据有不同的离散程度测度值3 反映各变量值远离其中心值的程度 离散程度 4 从另一个侧面说明了集中趋势测度值的代表程度 例 某班级20名同学统计学的考试成绩原始资料如表所示 20名同学统计学原始成绩 该班男女同学统计学的平均成绩为 女 73757778808282838585男 50636974808693949596 离散程度是评价平均数代表性的依据 分类数据 异众比率 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 顺序数据 四分位差 1 概念 将总体各单位的标志值按大小顺序排列 然后将数列分为四等分 形成三个分割点 这三个分割点称为四分位数 其中第二个四分位数就是数列的中位数Me 四分位差 quartiledeviation 2 计算 上四分位数与下四分位数之差 也称为内距或四分间距 即Qd QU QL 3 优点 用四分位差可以衡量中位数的代表性高低 四分位差避免了数列中极端值的影响 缺点 四分位差不反映所有变量值的差异程度 它所描述的只是变量值中一半的离差 所以也是一个比较粗略的指标 数值型数据 方差和标准差 极差 range 一组数据的最大值与最小值之差 计算公式为优点 计算方便 易于理解 缺点 全距只考虑数列两端数值差异 它是测定变动度的一种粗略方法 不能全面反映总体各单位标志的变异程度 R max xi min xi 平均差 meandeviation 1 各变量值与其均值离差绝对值的平均数 用表示 2 计算公式为 未分组数据 组距分组数据 3 特点 概括地反映了所有单位标志值的变异程度 因取绝对值 数学性质不理想 实际中较少用 对于未分组资料 组距分组数据 例题分析 含义 每一天的销售量与其均值平均相差17台 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差自由度 degreeoffreedom 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 注意 对同一资料 所求的平均差一般比标准差要小 相对位置的测量 标准分数 标准分数 standardscore 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点4 用于对变量的标准化处理5 计算公式为 假定两个水平类似的班级 一班和二班 上同一门课 但是由于两个任课老师的评分标准不同 使得两个班成绩的均值和标准差都不一样分数的均值标准差一班78 539 43二班70 197 00那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢 怎么比较才能合理呢 张颖的标准得分为 刘疏的标准得分为 标准分数 性质 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在组数据中的位置 也没有改变该组数分布的形状 而只是将该组数据变为均值为0 标准差为1 1 均值等于02 方差等于1 美国商务部经济分析局某一年的报告曾指出 当年加利福尼亚的人均收入是21884美元 如果标准差是6000美元 年收入是12500美元的A居民的Z分数是多少 年收入是50000美元的B居民的Z分数又是多少 解释这两个Z分数 评价这两个居民的年收入是否为异常值 年收入是12500美元的A居民的Z分数 收入是50000美元的B居民的Z分数 标准化值 例题分析 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 切比雪夫不等式 Chebyshev sinequality 如果一组数据不是对称分布 经验法则就不再使用 这时可使用切比雪夫不等式 它对任何分布形状的数据都适用切比雪夫不等式提供的是 下界 也就是 所占比例至少是多少 对于任意分布形态的数据 根据切比雪夫不等式 至少有1 1 k2的数据落在k个标准差之内 其中k是大于1的任意值 但不一定是整数 对于k 2 3 4 该不等式的含义是至少有75 的数据落在平均数加减2个标准差的范围之内至少有89 的数据落在平均数加减3个标准差的范围之内至少有94 的数据落在平均数加减4个标准差的范围之内 在国外曾经销售的一种新型节能汽车每加仑平均行驶里程是27 5英里 假定标准差是每加仑3 5英里 那么 利用切比雪夫定理计算每加仑行驶里程在20 5 34 5英里 18 75 36 25英里 17 38英里的新型汽车所占百分比 如果假定新型汽车每加仑行驶里程服从钟形分布是合理的话 那么每加仑行驶里程在20 5 34 5英里新型汽车所占百分比是多少 17 38英里呢 例题分析 根据切比雪夫定理计算百分比 至少有75 的新型汽车每加仑行驶里程在20 5 34 5英里之间 每加仑行驶里程在20 5 34 5英里新型汽车所占百分比 先计算Z分数 20 5 27 5 3 5 2 34 5 27 5 3 5 2 相对离散程度 离散系数 离散系数 coefficientofvariation 1 概念 离散系数是标准差与其相应的均值之比 反映数据相对离散程度的测度 最常用的是标准差系数 3 计算公式为 2 消除了数据水平高低和计量单位的影响 对不同组别数据离散程度的比较 离散系数 例题分析 例 甲乙两组工人的平均工资分别为138 14元 176元 标准差分别为21 32元 24 67元 结论 甲组相对的变异程度大于乙
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥教学阐释课件
- 产妇日常护理好物分享讲课件
- 作家笔下的人教学课件
- 某某市电力架空线下地改造工程项目可行性研究报告(代项目建议书)
- 课件写教学目标吗
- 气象教学课件
- 2025年中国八宝粥行业市场调查研究及投资前景预测报告
- 上海财经大学浙江学院《区域社会史》2023-2024学年第二学期期末试卷
- 抚顺职业技术学院《日语应用文写作》2023-2024学年第二学期期末试卷
- 天津天狮学院《人工智能与社会发展》2023-2024学年第二学期期末试卷
- DB11T 765.4-2010 档案数字化规范 第4部分:照片档案数字化加工
- PTC Windchill:Windchill-系统架构与组件教程.Tex.header
- 物业消防安全管理培训【共54张课件】
- 2024福建金皇环保科技公司校园招聘(高频重点提升专题训练)共500题附带答案详解
- DL∕T 5766-2018 20KV及以下配电网工程工程量清单计算规范
- 【正版授权】 ISO/IEC 15421:2010 EN Information technology - Automatic identification and data capture techniques - Bar code master test specifications
- 云南省昆明市官渡区2023-2024学年五年级下学期7月期末道德与法治试题
- GB/T 43988-2024滑板课程学生运动能力测评规范
- GB/T 44092-2024体育公园配置要求
- DL-T1069-2016架空输电线路导地线补修导则
- 2024年陕西新华出版传媒集团有限责任公司招聘笔试冲刺题(带答案解析)
评论
0/150
提交评论