




已阅读5页,还剩102页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 4 14 1 第三章数据分布特征的描述 3 1集中趋势的度量3 2离散程度的度量3 3偏态与峰态的度量 2020 4 14 2 3 1 1什么是集中趋势 centraltendency 一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据水平的代表值或中心值不同类型的数据用不同的集中趋势测度值注意 低层次数据的测度方法也适用于高层次的数据 但高层次数据的测度方法往往不适用于低层次的数据 2020 4 14 3 3 1 2分类数据 众数 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据 也可用于顺序数据和数值型数据 2020 4 14 4 众数 不惟一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 5 有时众数是一个合适的代表值 比如在服装行业中 生产商 批发商和零售商在做有关生产或存货的决策时 更感兴趣的是最普遍的尺寸而不是平均尺寸 2020 4 14 6 1 分类数据的众数 例题分析 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值所调查的50人中 购买可口可乐的人数最多 为15人 占总被调查人数的30 因此众数为 可口可乐 这一品牌 即Mo 可口可乐 2020 4 14 7 2 顺序数据的众数 例题分析 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 2020 4 14 8 3 数值型数据的众数1 单变量值分组数据 某年级83名女生身高资料 身高人数 CM 人 152115421552156415711582159216012161716281634 身高人数 CM 人 1643165816651673168716911705171217231741总计83 STAT 2020 4 14 9 2 组距分组数据众数的计算公式 2020 4 14 10 G E F D C A B f X f3 f2 f1 d L U M0 1 2 众数的计算公式可以从几何图形得到证明 2020 4 14 11 身高人数比重 CM 人 150 15533 61155 1601113 25160 1653440 96165 1702428 92170以上1113 25总计83100 某年级83名女生身高资料 组距分组数据的众数 STAT 2020 4 14 12 3 1 3顺序数据 中位数和分位数1 顺序数据 中位数 排序后处于中间位置上的值 不受极端值的影响主要用于顺序数据 也可用数值型数据 但不能用于分类数据各变量值与中位数的离差绝对值之和最小 即 2020 4 14 13 中位数 位置的确定 未分组数据 分组数据 2020 4 14 14 顺序数据的中位数 例题分析 解 中位数的位置为300 2 150从累计频数看 中位数在 一般 这一组别中中位数为Me 一般 2020 4 14 15 未分组数值型数据的中位数 奇数个数据的算例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 2020 4 14 16 未分组数值型数据的中位数 偶数个数据的算例 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 2020 4 14 17 组距分组数据中位数的计算公式 2020 4 14 18 组距分组 共个单位 共个单位 共个单位 共个单位 L 中位数组 组距为d 共个单位 假定该组内的单位呈均匀分布 中位数下限公式为 该段长度应为 U 2020 4 14 19 身高人数累计 CM 人 人数150 15533155 1601114160 1653448165 1702472170以上1183总计83 某年级83名女生身高资料 STAT 组距分组数据的中位数 20 如果统计资料中含有异常的或极端的数据 就有可能得到非典型的甚至可能产生误导的平均数 这时使用中位数来度量集中趋势比较合适 比如有5笔付款 9元 10元 10元 11元 60元平均付款为100 5 20元 很明显 这并不是一个好的代表值 而中位数10元是一个更好的代表值 2020 4 14 21 2 顺序数据 分位数 1 四分位数 1 分位数有二分位数 中位数 四分位数 十分位数和百分位数等 其中主要有四分位数 2 排序后处于25 和75 位置上的值即四分位数 3 不受极端值的影响4 主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 2020 4 14 22 A 原始数据四分位数的位置 下四分位数上四分位数 2020 4 14 23 例 某学习小组的统计学考试成绩如下 要求 1 计算前15个学生统计学考试成绩的四分位数 2 如果增加一个学生的成绩95分 试计算16个学生统计学考试成绩的四分位数 2020 4 14 24 2020 4 14 25 B 根据组距数列计算四分位数 2020 4 14 26 根据组距数列计算四分位数 2020 4 14 27 十分位数是指将按大小顺序排列的一组数据划分为10等分的9个变量值 用以反映一组数据在各个区间的一般水平 2 十分位数 2020 4 14 28 3 百分位数 29 位置测度的一种常用方法 百分位数 Percentile 含义 第p个百分位数是这样的数值 至少有p 个数值跟它一样大或比它小 至少有 100 p 个数值跟它一样大或比它大 例如 一个考生入学考试的口语成绩是55分 对应第70个百分位数 我们就可以知道大约有70 的考生成绩比他低 或者说大约有30 的考生成绩比他高 2020 4 14 30 算术平均数定义 全部变量值之和与变量值个数相除所得到的结果 按其计算形式又有简单算术平均数和加权算术平均数之分 STAT 平均数 average 的定义 变量值的一般水平 通常也称为均值 mean 有算术均值 调和均值和几何均值 3 1 4数值型数据 平均数一 算术平均数 2020 4 14 31 一 简单算术平均数 如果是未分组整理的原始资料 则直接将各个数据加总再除以数据的个数即得到平均数 设一组数据为 则其算术平均数的计算公式为 2020 4 14 32 二 加权算术平均数 根据分组整理的数据计算平均数时 需要先用每个组的变量值或组中值分别乘以各自的频数或频率 然后加总再除以总频数或总频率 即得算术平均数 其计算公式为 2020 4 14 33 例 2005年某市红星幼儿园共有458名儿童 其年龄资料如表3 2所示 要求 试计算该幼儿园儿童的平均年龄 单变量值分组数据均值的计算 2020 4 14 34 身高组中值人数比重 cm xi cm fi 人 150 155152 533 61155 160157 51113 25160 165162 53440 96165 170167 52428 92170以上172 51113 25总计 83100 组距分组数据均值的计算某年级83名女生身高资料 组距数列 次数f 频率f f 变量值x STAT 加权算术平均数 2020 4 14 35 权数及其起作用的条件 用各组的组中值代表其实际数据计算算术平均数时 通常假定各组数据在组内是均匀分布的 相应的组中值近似等于各组的平均数 权数 衡量变量值相对重要性的数值 各个变量值的权数要起作用必须具备两个条件 一是各个变量值之间有差异 二是各个变量值的权数有差异 简单算术平均数是加权算术平均数在权数相等时的特例 2020 4 14 36 集中趋势的最常用测度值 一组数据的均衡点所在 各变量值与其均值的离差之和等于零 即 各变量值与其均值的离差平方和最小 即由组距分组资料计算的均值有近似值性质 易受极端值的影响 主要用于数值型数据 不能用于分类数据和顺序数据 三 算术平均数 均值 特征 37 思考题 比特啤酒公司雇用了468名员工 其中有56名管理人员 130名行政和技术人员 其余282人是工人 这三组人的周平均工资分别是500英镑 300英镑和200英镑 财务主管希望计算全体员工的平均工资 2020 4 14 38 二 调和平均数 harmonicmean 1 调和平均数也称 倒数平均数 它是对变量的倒数求平均 然后再取倒数而得到的平均数2 平均数的另一种表现形式3 易受极端值的影响4 计算公式为 原来只是计算时使用了不同的数据 2020 4 14 39 调和平均数 例题分析 例 某蔬菜批发市场三种蔬菜的日成交数据如表 计算三种蔬菜该日的平均批发价格 2020 4 14 40 算术平均数与调和平均数的关系 1 从数学定义角度看算术平均数与调和平均数是不一样的 但在社会经济应用领域 调和平均数实际上只是算术平均数的另一种表现形式 二者本质上是一致的 惟一的区别是计算时使用了不同的数据 2 计算比率的平均数时 如果已知比率及其基本计算式的分母资料 则采用加权算术平均法 如果已知比率及其基本计算式的分子资料 则采用加权调和平均法 2020 4 14 41 例 某市某行业150个企业的产值利润率及相关资料如表3 8 要求 试分别计算该行业150企业第一季度和第二季度的平均产值利润率 算术平均数与调和平均数的关系 2020 4 14 42 三 几何平均数 geometricmean 1 含义及应用条件 定义 n个变量值乘积的n次方根应用范围 适用于比率数据的平均 主要用于计算平均发展速度 平均增长率 平均比率应用的前提条件 各个比率或速度的连乘积等于总比率或总速度 相乘的各个比率或速度不为零或负值 2020 4 14 43 补充 发展速度 增长速度概念及关系 环比发展速度y1 y0y2 y1y3 y2yn yn 1定基发展速度y1 y0y2 y0y3 y0yn y0注意 环比发展速度的连乘积 相应的定基发展速度增长速度 率 发展速度 1环比增长速度 环比发展速度 1定基增长速度 定基发展速度 1 2020 4 14 44 平均增长率 averagerateofincrease 描述现象在整个观察期内平均增长变化的程度序列中各逐期环比值 也称环比发展速度 的几何平均数 即平均发展速度 减1后的结果通常用几何平均法求得 计算公式为 45 2020 4 14 2 几何平均数的计算方法 2020 4 14 46 简单几何平均数 例题分析 例 某水泥生产企业2006年的水泥产量为100万吨 2007年与2006年相比增长率为9 2008年与2007年相比增长率为16 2009年与2008年相比增长率为20 求各年的年平均增长率 年平均增长率 114 91 1 14 91 47 2020 4 14 例 某流水生产线有前后衔接的五道工序 某日各工序产品的合格率分别为95 92 90 85 80 求整个流水生产线产品的平均合格率 分析 设最初投产100A个单位 则第一道工序的合格品为100A 0 95 第二道工序的合格品为 100A 0 95 0 92 第五道工序的合格品为 100A 0 95 0 92 0 90 0 85 0 80 48 2020 4 14 因该流水线的最终合格品即为第五道工序的合格品 故该流水线总的合格品应为100A 0 95 0 92 0 90 0 85 0 80 则该流水线产品总的合格率为 即该流水线总的合格率等于各工序合格率的连乘积 符合几何平均数的适用条件 故需采用几何平均法计算 49 2020 4 14 因该流水线的最终合格品即为第五道工序的合格品 故该流水线总的合格品应为100A 0 95 0 92 0 90 0 85 0 80 则该流水线产品总的合格率为 即该流水线总的合格率等于各工序合格率的连乘积 符合几何平均数的适用条件 故需采用几何平均法计算 50 2020 4 14 思考 若上题中不是由五道连续作业的工序组成的流水生产线 而是五个独立作业的车间 且各车间的合格率同前 又假定各车间的产量相等均为100件 求该企业的平均合格率 简单几何平均数 51 2020 4 14 因各车间彼此独立作业 所以有第一车间的合格品为 100 0 95 第二车间的合格品为 100 0 92 第五车间的合格品为 100 0 80 则该企业全部合格品应为各车间合格品的总和 即总合格品 100 0 95 100 0 80 简单几何平均数 分析 52 2020 4 14 不再符合几何平均数的适用条件 需按照求解比值的平均数的方法计算 又因为 应采用加权算术平均数公式计算 即 53 2020 4 14 几何平均数的计算方法 54 2020 4 14 例 某金融机构以复利计息 近12年来的年利率有4年为3 2年为5 2年为8 3年为10 1年为15 求平均年利率 设本金为V 则至各年末的本利和应为 第1年末的本利和为 第2年末的本利和为 第12年末的本利和为 分析 55 2020 4 14 则该笔本金12年总的本利率为 即12年总本利率等于各年本利率的连乘积 符合几何平均数的适用条件 故计算平均年本利率应采用几何平均法 解 56 2020 4 14 加权几何平均数 分析 第1年末的应得利息为 第2年末的应得利息为 第12年末的应得利息为 57 2020 4 14 则该笔本金12年应得的利息总和为 V 0 03 4 0 05 2 0 15 1 这里的利息率或本利率不再符合几何平均数的适用条件 需按照求解比值的平均数的方法计算 因为 假定本金为V 58 2020 4 14 所以 应采用加权算术平均数公式计算平均年利息率 即 解 比较 按复利计息时的平均年利率为6 85 59 2020 4 14 3 几何平均数的特点 1 几何平均数受极端值的影响较算术平均数小 2 如果变量值有负值 计算出的几何平均数就会成为负数或虚数 3 它仅适用于具有等比或近似等比关系的数据 4 几何平均数的对数是各变量值对数的算术平均数 60 2020 4 14 设x取值为 10 就同一资料计算时 有 61 2020 4 14 一名统计学家遇到一位数学家 统计学家调侃数学家说道 你们不是说若 且 则 吗 那么想必你若是喜欢一个女孩 那么那个女孩喜欢的男孩你也会喜欢喽 数学家想了一下反问道 那么你把左手放到一锅一百度的开水中 右手放到一锅零度的冰水里想来也没事吧 因为它们的平均温度不过是五十度而已 统计学家与数学家 62 2020 4 14 如果你的腳已經踩在爐子上 而頭卻在冰箱裡 統計學家會告訴你 平均而言 你相當舒服 调侃统计学家 63 2020 4 14 3 1 5几种平均数简评 一 评价标准1 严格确定 2 感应灵敏 3 易于理解 4 易于计算 5 受抽样的影响较小 6 易于用代数处理 64 2020 4 14 1 算术平均数 算术平均数符合上述六个条件 应用范围最广 易受极端值的影响 当分布数列中存在开口组时 会影响平均数的准确性 算术平均数适用于数值型数据 二 简评 65 2020 4 14 简评 2 调和平均数调和平均数符合上述第1 2 5 6四个条件 适用于计算比率的平均数 它容易受极端值的影响 数列中只要有一个变量值为零 则不能计算调和平均数 故其应用范围受到限制 调和平均数适用于数值型数据 66 2020 4 14 简评 3 几何平均数几何平均数符合上述第1 2 5 6四个4个条件 适用于各比率连乘积等于总比率的条件下计算比率的平均数 数列中若有一项为零或负数 计算几何平均数无意义 应用范围较小 几何平均数适用于数值型数据 67 2020 4 14 简评 4 众数众数的意义易于理解 有时容易计算 且不受极端值的影响 当数据分布没有明显的集中趋势而趋于均匀分布时 则无众数可言 对不等距分布数列 众数不易确定 当分布数列中出现双众数或多众数时 难以反映所有数据的一般水平 变量值的变化反映不灵敏 众数适用于分类数据 顺序数据和数值型数据 68 2020 4 14 简评 5 中位数中位数符合上述第1 3 4 5四个条件 不受极端值的影响 当分布数列中存在极端值或组距数列中存在开口组时 计算中位数比较好 中位数缺乏灵敏性 没有算术平均数可靠 且不易用代数方法计算 中位数适用于顺序数据和数值型数据 2020 4 14 69 三 众数 中位数和平均数的关系 右偏分布 众数 中位数 均值 对何种数据而言的 均值 中位数 众数 均值 中位数 众数 均值 中位数 众数 2020 4 14 70 三者的数量关系 2020 4 14 71 众数 中位数和均值都是对数据集中趋势的测度1 均值由全部数据计算 包含了全部数据的信息 具有良好的数学性质 当数据接近对称分布时 具有较好的代表性 但对于偏态分布 其代表性较差 2 中位数是一组数据中间位置上的代表值 不受数据极端值的影响 对于偏态分布的数据 其代表性要比均值好 3 众数是一组数据分布的峰值 是一种位置的代表 当数据的分布具有明显的集中趋势时 尤其对于偏态分布 众数的代表性比均值好 4 对接近正态的分布数据 常用均值描述数据的集中趋势 对偏态分布 常用众数或中位数描述数据的集中趋势 5 均值只适用于数值型数据 顺序数据可用中位数或众数进行描述 而对分类数据 只能用众数进行描述 四 众数 中位数和均值的应用场合 2020 4 14 72 下面是两个总体关于年龄分布的数据 相对而言 那个总体的年龄分布差异大些 总体1 46 47 48 49 50 51 52 53 54 总体2 8 15 20 30 5070 80 85 92 2020 4 14 73 总体2 总体1 2020 4 14 74 3 2 1什么是离散程度3 2 2分类数据 异众比率 variationratio 3 2 3顺序数据 四分位差 quartilerange 3 2 4数值型数据 1 极差 range 2 平均差 meandeviation 3 方差和标准差 Varianceandstandarddeviation 4 离散系数 CoefficientofVariation 3 2 5相对位置的度量 标准分数 standardscore 3 2离散程度的测度 2020 4 14 75 3 2 1什么是离散程度 数据分布的另一个重要特征反映各变量值远离其中心值的程度 离散程度 从另一个侧面说明了集中趋势测度值的代表程度注意 数据的离散程度越大 集中趋势的测度值对该组数据的代表性越差 数据的离散程度越小 集中趋势的测度值对该组数据的代表性越好 4 不同类型的数据有不同的离散程度测度值 2020 4 14 76 3 2 2分类数据 异众比率 variationratio 1 对分类数据离散程度的测度2 非众数组的频数占总频数的比率3 计算公式为 4 用于衡量众数的代表性 2020 4 14 77 异众比率 例题分析 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 2020 4 14 78 3 2 3顺序数据 四分位差 quartiledeviation 对顺序数据离散程度的测度也称为内距或四分间距上四分位数与下四分位数之差QD QU QL反映了中间50 数据的离散程度用于衡量中位数的代表性 2020 4 14 79 3 2 4数值型数据离散程度的度量 1 极差 R range 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 R max xi min xi 计算公式为 2020 4 14 80 2 平均差 averagedeviation 各变量值与其均值离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差 实际中应用较少 计算公式为 未分组数据 组距分组数据 2020 4 14 81 平均差 例题分析 2020 4 14 82 含义 每天电脑的日销售量有高有低 与日销售量平均数相比 差异有大有小 平均差表明 以日平均销售量为中心 每天销售量与平均日销售量的平均差距为17台 2020 4 14 83 3 方差和标准差 Varianceandstandarddeviation 方差 variance 各变量值与其平均数离差平方的平均数 标准差 standarddeviation 即方差的算术平方根 其单位与原变量X的单位相同 方差和标准差的计算也分为简单平均法和加权平均法 对于总体数据和样本数据 计算公式略有不同 2020 4 14 84 一 总体方差和标准差 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 2020 4 14 85 二 样本方差和标准差 simplevarianceandstandarddeviation 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 2020 4 14 86 自由度 degreeoffreedom 从字面涵义来看 自由度是指一组数据中可以自由取值的个数 自由度是指样本数据个数与附加给独立的观测值的约束或限制个数的差 当样本数据的个数为n时 若样本平均数确定后 则附加给n个观测值的约束个数就是1个 因此只有n 1个数据可以自由取值 其中必有一个数据不能自由取值 按着这一逻辑 如果对n个观测值附加的约束个数为k个 则自由度为n k 2020 4 14 87 自由度 degreeoffreedom 样本有3个数值 即x1 2 x2 5 x3 8 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值 为什么样本方差的自由度是n 1呢 因为在计算离差平方和时 必须先求出样本均值 x 而 x则是附加给离差平方和的一个约束 因此 计算离差平方和时只有n 1个独立的观测值 而不是n个 样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差s2去估计总体方差 2时 它是 2的无偏估计量 2020 4 14 88 方差和标准差的计算 未分组资料 2020 4 14 89 方差和标准差的计算 分组资料 2020 4 14 90 含义 每一天的销售量与平均数相比 平均相差21 58台 方差和标准差的计算 分组资料 2020 4 14 91 平均差与标准差的区别 对离差的数学处理方法不同 平均差是用取绝对值的方法消除离差的正负号然后用算术平均的方法求出平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB11T 2328.6-2025 车路云一体化路侧基础设施 第6部分:信息安全技术要求
- 重难点解析苏科版八年级物理下册《物质的物理属性》定向练习试卷(含答案详解)
- 城乡供水一体化项目施工方案
- 第14课 网上书店说课稿-2025-2026学年小学信息技术(信息科技)第一册(供三年级使用)浙教版(广西)
- 考点解析-人教版九年级《电功率》达标测试试题(含详细解析)
- CO2参与的羰基化合物的合成及其在光电材料开发中的应用
- 解析卷人教版八年级上册物理声现象《声音的产生与传播》专项测试试卷(含答案详解)
- 《能源与二氧化碳》(十二章、十三章)英汉翻译实践报告
- 基于轻量化深度学习的自动曝光和自动白平衡技术研究
- 防腐保温工程施工人员培训与管理方案
- 青海“8·22”川青铁路尖扎黄河特大桥施工绳索断裂事故案例学习安全警示教育
- 2025年70周岁以上老年人换长久驾照三力测试题库(含答案)
- AMZ123《2025上半年跨境电商行业报告》
- 数据赋能打造精准教学新模式
- 家庭教育指导服务行业:2025年家庭教育市场消费者行为分析报告
- 苏州加装电梯协议书范本
- 大单元教学设计课件讲解
- 城市市容管理课件
- 门诊护理服务规范课件
- 孝心教育主题班会
- DR影像技术摆位课件
评论
0/150
提交评论