




已阅读5页,还剩110页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学 任课教师 方晓萍 中南大学数学与统计学院 第四章统计分布的数值特征 利用图表展示数据 可以对数据分布的形状和特征有一个大致的了解 但要全面把握统计分布的数据特征 还需要找到反映数据分布特征的各个代表值 第四章统计分布的数值特征 第四章统计分布的数值特征 一 分布的集中趋势 集中趋势 一组数据向某一中心值靠拢的程度 反映了一组数据中心点的位置所在 选用哪一个测度值来反映数据的集中趋势 要根据所掌握的数据的类型和特点来确定 1 分类数据 众数 2 顺序数据 分位数 3 数值型数据 平均数 4 各测度值的比较 一 分布的集中趋势 分类数据 众数 众数 ode 一组数据中出现次数最多的变量值 用Mo表示 众数不受极端值的影响 一组数据可能没有众数或有几个众数 不唯一性 一般情况下 只有在数据量较大的情况下 众数才有意义 众数主要用于测度分类数据的集中趋势 其也适用于作为顺序数据以及数值型数据集中趋势的测度值 众数 不唯一性 无众数原始数据 10591268 一个众数原始数据 659855 多于一个众数原始数据 252828364242 分类型数据的众数 顺序型数据的众数 数值型数据的众数 众数 分类数据的众数 例 解 这里的变量为 饮料品牌 这是个分类变量 不同类型的饮料就是变量值 在所调查的50人中 购买可口可乐的人数最多 为15人 占总被调查人数的30 因此众数为 可口可乐 这一品牌 即Mo 可口可乐 解 这里的数据为顺序数据 变量为 回答类别 甲城市中对住房表示不满意的户数最多 为108户 因此众数为 不满意 这一类别 即Mo 不满意 顺序数据的众数 例 未分组资料确定众数 组距数列确定众数 数值型数据的众数 单项数列确定众数 未分组资料确定众数 例 例 7名工人日产量 件 为4 5 6 6 6 7 8 问 日产量的众数为多少 日产量出现频数最多的是 故众数Mo 6件 单项数列确定众数 例 依据与众数相邻的两个组的频数 近似计算众数值 公式为 组距数列确定众数 1 2 从变量数列中找出频数或频率最大的组 众数组 该组的上 下限就规定了众数的可能取值范围 式中 分别为众数组 众数组前面一组和众数组后面一组的频数 dMo UMo LMo为众数组的组距 注意 上面给出的众数计算公式通常只适用于等距的变量数列 或者至少变量数列中间频数最多的几个组应该是等距的 否则 随着组距的变化 众数组和众数值都有可能发生变化 公式给出的结果就会因人而异 从而失去客观的意义 组距数列确定众数 1 确定众数组 6 7 2 计算众数 组距数列确定众数 例 众数的适用范围 1 众数的计算只适用于总体单位数较多 数据量较大 且存在明显的集中趋势的情况 否则计算众数是没有意义的 众数既然是总体中出现次数最多的标志值 因而就可以利用这一点为统计工作服务 例 要掌握市场上某种商品的价格水平 可以利用市场上最普遍的成交价格 众数 来代替 顺序数据 分位数 分位数 在一组数据中 称能够将其按变量值大小等分为 个部分的数值为 分位数 这样的 分位数共有 个 分位数虽然并不直接表明数据分布的集中趋势 但可作为考察分布的集中趋势和变异状况的有效工具 尤其是在强调 稳健性 和 耐抗性 的现代探索性数据分析中获得重要运用 常用的分位数有中位数 四分位数等 中位数 四分位数 顺序数据 中位数 edian 中位数是一组数据排序后处于中间位置上的变量值 用 e表示 中位数将全部数据等分成两部分 每部分包含50 的数据 一部分数据比中位数大 另一部分数据比中位数小 中位数 edian 中位数不受极端值的影响 中位数主要用于测度顺序数据的集中趋势 也适用于数值型数据的集中趋势 但不适用于分类数据 中位数 位置的确定 中位数位置 中位数的确定 n为奇数 n为偶数 一组数据按从小到大顺序排序后 则中位数为 解 中位数的位置为 300 1 2 150 从累计频数看 中位数在 一般 这一组别中 因此 Me 一般 顺序数据的中位数 例 数值型数据的中位数 例 奇数 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 一 未分组数据确定中位数 例 10个家庭的人均月收入数据排序 66075078085096010801250150016302000位置 12345678910 数值型数据的中位数 例 偶数 一 未分组数据确定中位数 数值型数据的中位数 例 二 单项数列确定中位数 中位数位置为 80 1 2 40 5中位数为第40名和41名日产量的平均值 数值型数据的中位数 二 组距数列确定中位数 1 从变量数列的累计频数栏中找出第个单位所在的组 即 中位数组 该组的上 下限就规定了中位数的可能取值范围 数值型数据的中位数 二 组距数列确定中位数 假定在中位数组内的各单位是均匀分布的 就可利用下列公式计算中位数的近似值 式中 是到中位数组前面一组为止的向上累积频数 是到中位数组后面一组为止的向下累积频数 为中位数组的组距 数值型数据的中位数 二 组距数列确定中位数 如果资料都采用向上累计频数的形式 那么 计算中位数的上限公式就应为 式中 是到中位数组为止的向上累积频数 1 计算累计频数 2 确定中位数组 6 7 3 确定中位数数值 组距数列中位数的确定 例 中位数的适用范围 中位数的最大特点是 它是序列中间1项或2项的平均数 不受极端值的影响 所以在序列中含有特大值或特小值的情况下 采用中位数较适宜 例 在工业产品的质量检验或分析时间序列的季节变动时 常常要用到中位数 能够将全部总体单位按标志值大小等分为四部分的三个数值 第一个四分位数叫做 4分位数 或 下分位数 第二个就是中位数 第三个叫 分位数 或 上分位数 排序后处于25 50 和75 位置上的值 不受极端值的影响 主要用于顺序数据 也可用于数值型数据 但不能用于分类数据 四分位数 原始数据 已排序 分组数据 四分位数 位置的确定 解 QL位置 300 1 4 75 25QU位置 300 1 4 225 75从累计频数看 QL在 不满意 这一组别中QU在 一般 这一组别中因此QL 不满意QU 一般 顺序数据的四分位数 例 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 数值型数据的四分位数 例 数值型数据 平均数 平均数也称为均值 ean 是一组数据相加后除以数据的个数得到的结果 是统计分析和一般经济分析中广泛运用的指标形式 在统计学中占有重要的地位 集中趋势的最常用测度值一组数据的均衡点所在体现了数据的必然性特征易受极端值的影响适用于数值型数据 不能用于分类数据和顺序数据 算术平均数 数值型数据 平均数 调和平均数 根据所掌握数据的不同 平均数有不同的计算形式和计算公式 几何平均数 算术平均数 1 简单算术平均数 2 加权算术平均数 1 简单算术平均数 设总体各单位某数量标志值为 x1 x2 xn 简单算数平均数 1 简单算术平均数 应用条件 未分组的原始资料 或各组出现的次数都是1的数据资料 例 5名学生的学习成绩分别为 75 91 64 53 82 则平均成绩为 计算公式 2 加权算术平均数 计算公式 应用条件 单项式分组 各组次数不同 单项数列 单项数列计算加权平均数 例 某车间20名工人加工某种零件资料 求平均日产量 设一组分组数据 各组的组中值为 x1 x2 xn相应的频数为f1 f2 fk 加权算术平均数的计算公式 2 加权算术平均数 应用条件 适当类型的分组资料 如分布数列等 已知各组的代表变量值和频数 组距数列 加权算术平均数 例 例 某车间200名工人日产量资料 加权算术平均数 例 2 加权算术平均数 应用条件 已知的是比重权数 次数是比重 公式 上例中 由比重权数计算 是非标志的平均数 是非标志 如果按照某种标志把总体只能分为具有某种特征的单位和不具有该种特征的单位两部分 这个标志就是是非标志 平均数的计算 把具有某种特征的用 1 表示 不具有该种特征的用 0 表示 加权均值 权数对均值的影响 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 权数对总体平均数的影响规律 当标志值大 而对应权数比重大时 总体平均数偏高 当标志小 而对应的权数比重大时 总体平均数偏低 在对分析平均水平的高低时 必须考虑权数比重变化的影响 权数的选择 在实际应用加权算术平均数时 需注意权数的选择 频数和频率并不是在任何情况下都可作权数 正确选择权数必须考虑 1 它应是标志值的直接承担者 2 它与标志值相乘具有实际意义 能构成标志总量 权数的选择 例 企业的计划完成资料如下 求全部企业的平均计划完成程度 解 本题应选择总计划产值为权数 平均计划完成程度为 加权算术平均数中 权数起作用必须有两个条件 1 各组标志值必须有差异 若各组标志值没有差异 标志值成为常数 也就不存在权数了 2 各组的次数或比重必须有差异 若各组的次数或比重没有差异 意味着各组权数相等 权数成为常数 则不能起到权衡轻重的作用 这时加权算术平均数就等于简单算术平均数 这也说明简单算术平均数是加权算术平均数在权数相等下的特例 权数起作用的条件 调和平均数 简单调和平均数 加权调和平均数 在实际工作中 有时由于缺乏总体的单位数资料 而不能直接计算平均数 这时就可采用调和平均数计算 简单调和平均数 计算公式 应用条件 资料未经分组 或各组次数为1 例 一个人步行两里 走第一里时速度为每小时候10里 走第二里时为每小时20里 则平均速度为 倒数平均数 变量x的倒数的算术平均数的倒数 加权调和平均数 计算公式 应用条件 资料经过分组 各组次数不同 几何平均数 简单几何平均数 加权几何平均数 简单几何平均数 应用条件 资料未分组 各变量值次数都是1 适用于对比率数据的平均 主要用于计算平均增长率 n个变量值乘积的n次方根 可看作是均值的一种变形 例 某企业生产某种产品需经过三个连续作业车间才能完成 求三个车间的平均合格率 简单几何平均数 例 例 某水泥生产企业1999年的水泥产量为100万吨 2000年与1999年相比增长率为9 2001年与2000年相比增长率为16 2002年与2001年相比增长率为20 求各年的年平均增长率 年平均增长率 114 91 1 14 91 简单几何平均数 例 例 一位投资者购持有一种股票 在2000 2001 2002和2003年收益率分别为4 5 2 1 25 5 1 9 计算该投资者在这四年内的平均收益率 算术平均 几何平均 简单几何平均数 例 加权几何平均数 计算公式 应用条件 资料经过分组 各组次数不同 例 将一笔钱存入银行 存期10年 以复利计息 10年的利率分配是第1年至第2年为5 第3年至5年为8 第6年至第8年为10 第9年至第10年12 计算平均年利率 设本金为 加权几何平均数 例 平均年利率 平均本利率 1 8 77 加权几何平均数 例 几何平均数的适用范围 当变量值是相对数 比率 而且变量值之间存在连乘关系反映现象的一般水平 平均 用几何平均数 众数 中位数和平均数的比较 数值平均数与位置平均数的比较 两者在统计上都是用来表征总体的一般水平或分布的集中趋势的 都属于抽象化的代表值 但是 它们的代表意义有所不同 数值平均数是对所有变量值来计算的平均数 它们能够概括反映整个数列中所有各项标志值的平均水平 位置平均数则是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值 从这一点来说 数值平均数对于数据的概括能力比位置平均数显然更强一些 在实际应用中 对于同一个总体 它们常常也会给不不同的计算结果 数列中任何一项数据的变动都将在一定程度上影响到数值平均数的计算结果 而位置平均数不受极端值的影响 众数 中位数和平均数的特点和应用 众数不受极端值影响具有不唯一性数据分布偏斜程度较大时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用 其各自适用的数据 或资料 类型不同 一般来说 各种数值平均数对于数据的量化尺度要求较高 它们只适用于定距尺距和定比尺度的数据 位置平均数则不同 它们还适用于各种定序尺度的数据 众数甚至还适用于各种定类尺度的数据 这表明 在一些无法适当运用数值平均数的场合 位置平均数不失为一种独特且有用的分析工具 众数 中位数和平均数的比较 众数 中位数和平均数的比较 各类数值平均数的比较 各类数值平均数都是用来计算分析指标的 计算单位标志平均数时 可采用算术平均数或调和平均数 计算动态比率的平均数时 可采用几何平均数等 某些数值平均数对于被平均变量的取值有着特殊的限制 如 被平均变量出现一个零值时 几何平均数为零 调和平均数无法计算 不存在 被平均变量出现一个负值 几何平均数失去意义 二 分布的离散程度 离散趋势 离散程度反映的是各变量值远离其中心值的程度 是数据分布的另一个重要特征 数据的离散程度越大 集中趋势的测度值对该组数据的代表性就越差 离散程度越小 其代表性就越好 二 分布的离散程度 变异指标 变异指标又称标志变动度 它综合反映总体各个单位标志值的差异程度或离散程度 我们对现象总体的规模和一般水平的认识 可以借助于总量指标和平均指标 但这些指标都不能反映各单位的差异情况 相反地 它们却把各单位的差异抽象化 因此 借助于变异指标可以认识总体内部的差异情况 离散程度 不同类型的数据有不同的离散程度测度值 1 分类数据 异众化率 2 顺序数据 四分位差 3 数值型数据 方差及标准差 4 相对位置的测量 标准分数 二 分布的离散程度 5 相对离散程度 离散系数 非众数组的频数占总频数的比率用于衡量众数的代表性 异众比率 计算公式为 对分类数据 顺序数据 数值型数据离散程度的测度 解 在所调查的50人当中 购买其他品牌饮料的人数占70 异众比率比较大 因此 可以认为 用 可口可乐 代表消费者购买饮料品牌的状况 其代表性不是很好 异众比率 例 也称为内距或四分间距上四分位数与下四分位数之差QD QU QL反映了中间50 数据的离散程度 其数值越小 说明中间的数据越集中 其数值越大 说明中间的数据越分散 不受极端值的影响用于衡量中位数的代表性 四分位差 对顺序数据 数值型数据离散程度的测度 不适合分类数据 解 设 非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5已知 QL 不满意 2QU 一般 3四分位差 QD QU QL 3 2 1 四分位差 例 数值型数据的离散程度 数值型数据离散程度的测度方法主要有 极差 平均差 方差和标准差 一组数据的最大值与最小值之差 也称全距 用R表示离散程度的最简单测度值易受极端值影响未考虑数据的分布 R max xi min xi 计算公式为 极差 range 极差只是利用了一组数据两端的信息 不能反映出中间数据的分散状况 因而不能准确描述出数据的分散程度 各变量值与其均值离差绝对值的平均数以平均数为中心 反映了每个数据与平均数的平均差异程度 能全面反映一组数据的离散程度 计算公式为 未分组数据 组距分组数据 平均差 meandeviation 平均差 例 含义 每一天的销售量与平均数相比 平均相差17台 优点平均差是根据全部数值计算的 受极端值影响较极差小 缺点为了避免离差之和等于零而无法计算平均差的问题 平均差在计算时采取绝对值的方法消除离差的正负号 计算较为繁琐 数学性质也不十分理想 实践中应用较少 平均差的优缺点 方差和标准差 数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的 称为总体方差或标准差 根据样本数据计算的 称为样本方差或标准差 方差 各变量值与其平均数离差平方的平均数 方差的平方根称为标准差 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 样本方差和标准差 标准差具有量纲 与变量值的计量单位相同 其实际意义要比方差清楚 在对实际问题进行分析时更多地使用标准差 一组数据中可以自由取值的数据的个数 当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值 如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 x1 x2和x3有两个数据可以自由取值 另一个则不能自由取值 比如x1 6 x2 7 那么x3则必然取2 而不能取其他值 样本方差用自由度去除 其原因可从多方面来解释 从实际应用角度看 在抽样估计中 当用样本方差s2去估计总体方差 2时 s2是 2的无偏估计量 样本方差 自由度 degreeoffreedom 样本标准差 例 含义 每一天的销售量与平均数相比 平均相差21 58台 样本标准差 例 1 也称标准化值 Z分数 2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点4 用于对变量的标准化处理5 计算公式为 相对位置的度量 标准分数 变量值与其平均数的离差除以标准差后的值 均值等于0方差等于1 标准分数的性质 z分数只是将原始数据进行了线性变换 它并没有改变一个数据在改组数据中的位置 也没有改变该组数分布的形状 而只是将该组数据变为均值为0 标准差为1 标准分数的性质 标准分数 例 收入最高的家庭人均收入比平均数高1 853个标准差 收入最低的家庭人均收入比平均数低1 042个标准差 经验法则 经验法则表明 当一组数据对称分布时约有68 的数据在平均数加减1个标准差的范围之内约有95 的数据在平均数加减2个标准差的范围之内约有99 的数据在平均数加减3个标准差的范围之内 相对离散程度 以上介绍的各种离散指标中 极差具有绝对数形式 平均差和标准差具有离差变量平均数的形式 方差则是离差变量平方的算术平均数 它们都有具体的计量单位 量纲 用绝对数表示离中趋势 意义明显 易于理解 但会受到对现象所采用的计量单位不同或计量单位变化的影响 相对离散程度 当要对两个或两个以上变量数列的均衡性和离散性比较时 如果绝对数变异指标的计量单位不同 或者各个变量数列的平均水平不同 这时就不能直接比较绝对数变异指标 而要采用相对数形式的变异指标来进行衡量 离散系数 离散系数 离散系数 也称变异系数 coefficientofvariation 一组数据的标准差与其相应的平均数之比 测度数据离散程度的相对统计量 消除了数据水平高低和计量单位的影响 主要用于比较不同样本数据的离散程度 一般情况下 离散系数越大 说明数据的离散程度越大 反之亦反之 计算公式为 例 某管理局抽查了所属的8家企业 其产品销售数据如表 试比较产品销售额与销售利润的离散程度 离散系数 例 结论 计算结果表明 v1 v2 说明产品销售额的离散程度小于销售利润的离散程度 离散系数 例 离散系数的适用条件 当两个或多个数列的平均水平不等时 对比数列标志值间的变异程度及平均水平的代表性 用相对数形式的变异指标 指标值越大 说明变异程度越大 平均水平的代表性越不好 反之亦然 甲组日产量 件 为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年物业智能化管理员专业技能提升模拟题及答案解析
- 电工电梯维护培训计划
- 食品行业质量安全监测与追溯系统建设方案
- 2025年军事知识入门及军职人员应聘试题
- (2025年标准)股票借贷协议书
- 改装车行业知识培训内容课件
- 家庭蕈中毒急救指南流程
- 2025年初级大数据分析师面试指南及预测题
- 变电站各级人员岗位职责及管理规范
- 大型商场导视标牌施工质量保证措施
- 2025江苏南京农业大学新校区建设指挥部、基本建设处人员招聘10人笔试备考试题及答案解析
- VTE的预防及护理
- 2025年济南市中考英语试题含答案
- Unit1单元复习课件人教版八年级英语上册
- 2025年青海省中考英语试卷真题(含答案及解析)
- 《紫藤萝瀑布》《丁香结》《好一朵木槿花》
- 河流地貌的发育 - 侵蚀地貌
- 离网光伏发电系统详解
- 广告文案写作(第二版)全套教学课件
- 《国家电网公司电力安全工作规程(配电部分)》
- 金融学黄达ppt课件9.金融市场
评论
0/150
提交评论