




已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数据的概括性度量 第一节集中趋势度量第二节离散趋势度量 第一节集中趋势度量 一 什么是集中趋势度量二 集中趋势度量的种类三 各种平均数之间的关系 案例 假设下列数据表示某个公司员工的年薪 在这个公司中有15个雇员 公司中雇员年薪最高为72000元 最低为14400元 你会怎么来描述这样公司的年薪水平 从工会角度从管理方角度 从员工方角度 某公司员工年薪 一 什么是集中趋势度量 集中趋势是指一组数据向某一中心值靠拢的程度 它反映了一组数据中心点的位置所在 集中趋势测度也就是寻找数据水平的代表值和中心值 用以说明一组数据分布的典型情况或一般水平 它比个别数据更能反映客观现象或事物的实际情况 集中趋势量数又叫平均数 一般有三种形似 均值 中位数和众数 每一种形式都提供不同数据分布信息 计算和解释都很简单 2009年各国GDP和人均GDP排名前十国家 2009年江苏省主要城市人均地区生产总值 二 集中趋势度量的种类 算术平均数1 均值调和平均数 了解 几何平均数 了解 2 中位数3 分位数4 众数 1 均值 mean 一组数据相加后处以数据的个数而得到的结果 称为算术平均数 A 算术平均值计算公式 1 均值 mean 例 一组包含五个值6 3 8 6 4 求均值 均值的一个物理表示法可构想成一个数轴在其支点上达到平衡 1 均值 mean b 加权平均数 式中 算术平均数X 各组数值f 各组数值出现的次数 即权数 已改至此 加权平均数 加权算术平均数受两因素的影响 变量值大小的影响 次数多少的影响 而简单算术平均数只反映变量值大小这一因素的影响 加权算术平均数与简单算术平均数不同在于 加权平均数 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 C 调和平均数 平均数的另一种表现形式易受极端值的影响计算公式为 原来只是计算时使用了不同的数据 1 均值 mean 调和平均数 例题分析 例 某蔬菜批发市场三种蔬菜的日成交数据如表 计算三种蔬菜该日的平均批发价格 D 几何平均数 n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率计算公式为 1 均值 mean 几何平均数 例题分析 例 某水泥生产企业1999年的水泥产量为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年与2001年相比增长率为20 求各年的年平均增长率 年平均增长率 114 91 1 14 91 几何平均数 例题分析 例 一位投资者购持有一种股票 在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 均值的一些属性 1 各变量值与均值的离差之和等于零 均值的一些属性 2 各变量值与均值的离差平方和最小 李小姐有一个小工厂 管理人员有李小姐 6个亲戚 工作人员有5个领工 10个工人和1名学徒 现在需要增加一个新的工人 小张应征而来 与李小姐交谈 李小姐说 我们这里的报酬不错 平均工资是每周300元 小张工作几天后 找到李小姐说 你欺骗了我 我已经问过其他工人 没有一个工人的工资超过每周200元 平均工资怎么可能是一周300元呢 李小姐说 小张 平均工资是300元 不信 你看这张工资表 请大家思考下列问题 1 李小姐说每周平均工资300元是否欺骗了小张 2 平均工资300元能否客观地反映工人的平均收入 3 若不能 你认为应该用多少元反应工资水平比较合适 3 受极值影响 均值的一些属性 2 中位数 median 一组数据排序后处于中间位置上的变量值 称为中位数 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据 2 中位数 median 计算中位数的步骤 2 中位数 median 步骤1 数据排序步骤2 计算中位数的深度或位置中位数的深度 数据个数 1 2步骤3 确定中位数的值 A n为奇数时 则居于中间位置的那个标志值就是中位数 2 中位数 median B n为偶数时 则中间位置的两个标志值的算术平均数为中位数 2 中位数 median 2 中位数 median C 当中数附近有重复数时 确定方法较为复杂 需考虑重复数的影响 不要求掌握 2 3 4 4 6 9 9 9 10 14 17解 若按奇数法确定中数则为第六个位置的数9 但是9共有三个 那么究竟哪一个点恰好是第一个9的中点值呢 我们可以假定9为连续数据 则它的实限为8 5 9 5 即在这个数据段中均匀分布着3个9 每一个9占数据段的1 3 即o 333 各段的值见图所示 因为中数在第一个9上 而第一个9的数据范围为8 50至8 833 其中数的代表值则为两数的中间值8 67 顺序数据的中位数 例题分析 解 中位数的位置为300 1 2 150 5从累计频数看 中位数在 一般 这一组别中中位数为Me 一般 数值型数据的中位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 数值型数据的中位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 3 四分位数 quartile 一组数据排序后处于25 和75 位置上的值 不受极端值的影响主要用于顺序数据 也可用于数值型数据 但不能用于分类数据四分位数位置的确定 顺序数据的四分位数 例题分析 解 QL位置 300 4 75QU位置 3 300 4 225从累计频数看 QL在 不满意 这一组别中 QU在 一般 这一组别中四分位数为QL 不满意QU 一般 数值型数据的四分位数 9个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 10个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 4 众数 mode 一组数据中出现次数最多的变量值称为众数适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 分类数据的众数 例题分析 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值所调查的50人中 购买可口可乐的人数最多 为15人 占总被调查人数的30 因此众数为 可口可乐 这一品牌 即Mo 可口可乐 顺序数据的众数 例题分析 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 练习 某城市居民关注广告类型的频数分布如表所示 试确定广告类型的众数 A 当总体分布呈对称状态时 三者合而为一 三 各种平均数之间的相互关系 B 当总体分布呈非对称状态时 如图 f X 均值 中位数和众数的应用 如果数据属性是分类的 而且数值只有一种类型 就使用众数 例如头发颜色 政治背景 分类数据 如果数据中包含极值而且你不想扭曲平均数就使用中位数 例如收入 顺序数据 如果数据不包含极值也不是分类数据就使用均值 例如考试得分 数值数据 公平地说均值是比中位数更精确的测量 中位数是比众数更精确的测量 但记住例外始终存在 第二节离散趋势度量 理解变异性 一 什么是离散趋势量数二 离散系数种类三 标准化 案例 有两组学生成绩甲组 5060708090乙组 6065707580 两组平均数相同 都为70分 但各组成绩的差异与分布不同 而由于差异情形不同 使得平均数的代表性不同 可以明确的看到 乙组平均成绩的代表性更好些 因此 为了全面反映数据的分布特征 不仅要测度数据的集中趋势 还必须对数据的离中趋势进行测度 许多时候 平均掩盖了数据的真实深度 好的决策不仅要考虑集中趋势度量 还要考虑散步大小 所有的东西只为平均水平设计 我们的社会将会崩溃 高速公路 大坝 房屋建筑 温度 一个人在通过平均深度为1米的河流时淹死了 一 什么是离散趋势量 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度反映社会经济现象变动的均匀性和稳定性不同类型的数据有不同的离散程度测度值 二 离散趋势量数种类 极差R平均差A D 标准差S D 离散系数V 异众比率Vr四分位差Q D 极差 range 1 一组数据的最大值与最小值之差2 离散程度的最简单测度值 常用于数值型数据3 易受极端值影响4 未考虑数据的分布 R max xi min xi 计算公式为 思考 比较下列两组数据的极差 A组 2 10 5 5 5 5 5 5 5 5 B组 4 6 3 7 2 8 1 9 5 5 试问 A组与B组 哪个组的数据离散程度较大 A组与B组的极差相等 这说明极差虽能反映这两组数据的波动情况 但能判断其离散程度的大小吗 平均差 meandeviation 1 各变量值与其平均数离差绝对值的平均数2 能全面反映一组数据的离散程度 受极值影响3 数学性质较差 实际中应用较少 计算公式为 未分组数据 组距分组数据 平均差 例题分析 平均差 例题分析 含义 每一天的销售量平均数相比 平均相差17台 标准差 standarddeviation 和方差 标准差各变量与其平均值的差平方的平均数的平方根 标准差表示一个数据组中变异性的平均数量 实际的含义是与均值的平均距离 标准差越大 每个数据点与数据分布的均值的平均距离越大 A组同学的得分散落在高点和低点B组同学的分数相当接近 思考 你认为A组和B组的标准差哪一个比较大呢 案例 样本方差和标准差 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 SA 16 7SB 7 3 标准差最小值为0 而数据的离散程度越大 标准差的值就越大 样本方差自由度 degreeoffreedom 1 一组数据中可以自由取值的数据的个数2 当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值3 例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值4 样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差去估计总体方差 2时 它是 2的无偏估计量 样本标准差 例题分析 样本标准差 例题分析 含义 每一天的销售量与平均数相比 平均相差21 58台 甲 乙两学生某次考试成绩列表 甲 乙两学生的平均成绩为80分 集中趋势一样 但是他们偏离平均数的程度却不一样 乙组数据的离散程度大 数据分布越分散 平均数的代表性就越差 甲组数据的离散程度小 数据分布越集中 平均数的代表性越大 思考 如果您是老师 如何去评价甲乙两个学生的成绩情况 甲 乙两台包装机同时分装质量为400g的奶粉 从它们各自分装的奶粉中随机抽取了10袋 测得它们的实际质量 单位 克 如下 甲 401400408406410409400393394394乙 403404396399402401405397402399 思考 如果您是采购经理 您会选择采购哪台机器 可用来反映社会生产和其他社会经济活动过程的均衡性或协调性 以及产品质量的稳定程度 案例 问该班男生是身高的差异性大还是体重差异性大 离散系数 coefficientofvariation 1 标准差与其相应的均值之比2 对数据相对离散程度的测度3 消除了数据水平高低和计量单位的影响4 用于对不同组别数据离散程度的比较5 计算公式为 案例 问该班男生是身高的差异性大还是体重差异性大 离散系数 例题分析 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例题分析 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比例3 计算公式为 4 用于衡量众数的代表性 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 期中专题复习-词汇句型训练-2025-2026学年 译林版2024 英语七年级上册 原卷
- 20xx教师节感谢信3篇
- 文化遗产法律政策与文化产业发展研究-洞察及研究
- 【2025年秋七上语文阶段测试】第2单元学业质量评价01(解析版)
- 车驾管窗口业务课件培训
- 基于区块链的分布式能源交易场景下的仪表数据确权机制
- 基于人工智能的刺五加提取物多靶点作用机制预测模型构建
- 城市热岛效应缓解工程中列管散热器的分布式微气候调控效能评估
- 国际安全认证体系下扳手抗冲击测试标准与本土化适配冲突
- 四方结构力学性能优化与用户使用习惯冲突
- 2024-2025学年广东省广州四中教育集团九年级(上)月考语文试卷
- 大学英语四级考试阅读理解真题及答案详解(全套)
- 国家电网公司招聘高校毕业生应聘登记表
- 工程预决算书
- 丰顺县乡镇集中式饮用水水源地基础状况调查和风险评估报告
- Unit4阅读课件沪教牛津版(2024)七年级英语上册
- 药学专业毕业论文4000字范文
- 2023江苏苏州市昆山高新区招聘社区专职工作者第二批及单笔试历年典型考题及考点剖析附答案带详解
- 卫生部妇产科诊疗规范及指南
- 译林版五年级上册英语Unit 4《Hobbies》单元话题阅读理解专项练习(含答案)
- 《大青树下的小学》公开课一等奖创新教案
评论
0/150
提交评论