




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学第4章 数据分布特征的度量 2021年10月15日/* 统 计 学 第 4 章 数 据 分 布 特 征 的 度 量 4.1 集中趋势的度量 4.2.5 方差和标准差 4.1.1 众数 4.2.6 离散系数 4.1.2 中位数 4.2.7 标准化值 4.1.3 均值 4.1.4 调和平均数 4.1.5 几何平均数 4.3 偏态和峰度的度量 4.1.6 均值、调和平均数和几何平 4.3.1 偏态系数 均数的比较 4.3.2 峰度系数 4.1.7 均值、众数和中位数的比较4.2 离散程度的度量 4.2.1 异众比率 4.2.3 取值范围 4.2.4 平均差第4章 数据分布特征的度量 4.1 4
2、.1 集中趋势的度量集中趋势的度量统计学2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据分布的基本特征。频数分布属于对数据分布特征的初步描述,缺乏对数据分布特征的综合度量,若需要深入地表述数据分布特征的具体特征和内在联系,还应对数据分布特征进行综合性的度量。 数据分布特征的度量包括三个方面的内容,一是数据分布的集中趋势,反映总体中各个单位的数值水平向其聚集,或者集中的中心数值;二是数据分布的离散趋势,反映总体中各个单位的数值水平偏离中心数值的综合程度;三是数据分布的偏态和峰度,
3、反映各个总体单位的数值水平的分布形态是对称或偏倚,平坦或尖耸的具体数值。 集中趋势(Central Tendency)是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量,以一综合数值来表述数据所趋向的这一中心数值的一般水平。2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.1众数 众数(众数(ModeMode)是一组数据中)是一组数据中频数最大频数最大的变量值,直观地反映了数据的的变量值,直观地反映了数据的集中趋势。集中趋势。众数是度量定类数据定类数据集中趋势的测度,一般用 表
4、示。 例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件球衣货号前日售出数量当日出售数量 AS01-9064 AS02-951821 AB09-102533 SP09-058893 SS12-101523 PP89-1586合 计160180OM2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.1众数 众数(众数(ModeMode)是一组数据中频数最大的变量值,直观地反映了数据的)是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。集中趋势。众数是度量定类数据定类数据集中
5、趋势的测度,一般用 表示。 例例4.1 4.1 某品牌运动服装专卖店一批新品球衣销售情况如下表 4.1 某专卖店新品球衣销售情况 件OM2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。 要求要求 试计算计算该班35名学生统计学考试成绩的众数。 解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,
6、89,89,90, 91,91,92,96,98 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.2 4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。 要求要求 试计算计算该班35名学生统计学考试成绩的众数。 解解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,89,89,90, 91,91,92,96,98 84分在这35名学生的统计学考试成绩
7、的原始数据中出现了4次,属于出现次数最多的变量值,根据众数定义,可以确定众数为84分,即(分)84OM2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的下限出发,有 (4.1)上限公式则从众数所在组的上限出发,有 (4.2) OOoOMUMLMLMOdFFFFFFLM)()(OOoOMUMLMUMOdFFFFFFUM)()(2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中
8、趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 OM2021年10月15日/*统计学第4章
9、数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.3 4.3 表4.2为第三章中表3.7“某学期某班35名学生的统计学考试成绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35名学生的统计学考试成绩众数的近似数值。表4.2 某学期某班35名学生的统计学考试成绩考 分 /分人 数 /人 60 以下26070470809809014 901006合 计352021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。 众数是一个通过数据中频数最大的数据的数值来
10、反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。 众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 通过上限公式或下限公式的计算众数所得到的计算结果是一致的。 众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所
11、以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。 众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。 讨论题:你认为那些现象不适宜采用众数来描述其集中趋势? 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.2 中位数 中位数(中位数(MedianMedian)是位于)是位于有序数据正中间位置有序数据正中间位置上的变量值,中位数用上
12、的变量值,中位数用其特殊的位置属性直接地体现了集中趋势的中心数值特征。其特殊的位置属性直接地体现了集中趋势的中心数值特征。中位数是度量定序数据定序数据集中趋势的测度,一般用 表示。 中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量,因此,计算中位数要求数值至少具备定序数据的性质。中位数一旦确定,就可以根据中位数的具体取值,将全部数据分成数量相等的两个部分,一半数据的数值小于或等于中位数;另一半数据的数值大于或等于中位数。由此可得出中位数的计算公式。当数据的个数为奇数时,有 (4.3)当数据的个数为偶数时,有 (4.4) Me21NXMe2122NNXXMe2021年10月15日/*
13、统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.44.4 仍然采用第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。 要求要求 试计算该班35名学生的统计学考试成绩的中位数。 解解 将原始数据排序之后,得到以下有序数据52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98 该组数据的个数为35,因此采用式(4.3)计算,排列在该组有序数据第18位上的变量值为82分,该班35名学生的统计学考试成
14、绩的中位数为82分。即(分)821821XXMeN2021年10月15日/*统计学第4章 数据分布特征的度量 利用已经分组的数值型数据计算中位数时,需要运用插值公式计算中位数的近似数值。中位数的插值公式也有下限公式和上限公式。其下限公式从中位数所在组的下限出发,为 (4.5) 上限公式从中位数所在组的上限出发,为 (4.6)4.1 4.1 集中趋势的度量集中趋势的度量 MeMeMedFSFLMe12MeMeMedFSFUMe122021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.54.5 表4.3为第三章“表3.7 某学期某班35名
15、学生的统计学考试成绩”中的部分资料,为已经分组的数值型数据。 要求要求 根据表4.3数据,计算该班35名学生的统计学考试成绩的中位数。 解解 运用插值公式计算该班学生统计学考试成绩中位数的近似数值。表4.3 某学期某班35名学生的统计学考试成绩考 分 /分人 数 /人 向上累计人数 /人 向下累计人数 /人60以下2235607046337080915298090142920901006356合 计352021年10月15日/*统计学第4章 数据分布特征的度量 显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。 中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组
16、中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。 4.1 4.1 集中趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。 中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。 讨论题:你认为中位数的主要局限是什么? 4.1 4.1 集中趋势的度量集中趋势的度量 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的
17、度量集中趋势的度量 4.1.3 均值 均值(Mean)为一组数值型数据之和除以该组数据总数的商,即同一组数据的总值与其频数的商。 在大多数场合,均值采用算术平均方法计算,所以人们经常将均值称为算术平均数(Arithmetical Average)。 计算均值的数据需要具备数值型数据的属性,均值是一个数值型的集中趋势测度。通过计算均值的运算过程,首先将各个数据之间的数量差异抽象掉了,以一个抽象性的综合测度概括地反映事物的集中趋势。其次将不同总体的总量规模抽象掉了,表现出来的只是一个一般性的代表水平,有利于不同规模的同类总体在不同空间和时间上的广泛比较。2021年10月15日/*统计学第4章 数据
18、分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 1简单均值 简单均值(Simple Mean)是根据未分组的原始数据计算出来的均值。有 (4.7) 例例4.6 4.6 仍采用第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据 要求要求 试计算该班35名学生的统计学考试成绩的均值。 解解 采用式(4.7)计算,有 NXX分80352800NXX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2加权均值 加权均值(Weighted Mean)是运用各组频数作为权数对各组数值水平进行加权计算出来的均值。根据是单变量值
19、分组还是组距分组,以及组距分组的各组数值水平代表数据是组均值还是组中值,加权均值的计算分为以下三种类型。(1)单变量值分组加权均值 在单变量值分组场合,加权均值的计算公式为 (4.8)FXFX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.7 4.7 某机床总装车间10个装配小组日完成产品台数情况,计算单变量值分组加权均值。表4.4 某机床总装车间10个装配小组日完成产品台数情况 要求要求 试计算单变量值分组加权均值。 解解 采用式(4.8)计算,可得台8 . 61068FXFX日完成产品量 /台装配小组 /个小计 /台5156
20、21275358216合 计10682021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 (2)采用组均值计算加权均值 在组距分组中,采用组均值计算加权均值时,计算公式为 (4.9) 式(4.9)中 表示第j 组的组均值。 HjjHjjjFFXX11jX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.84.8 采用第三章中例3.1 的各组均值数据。要求要求 试计算组距分组的该班35名学生的统计学考试成绩的加权均值。解解 依据各组中的数据数值和数据个数,按照式(4.7)的均值计算
21、公式,计算出各组的组均值,填入表4.5中。表4.5 某学期某班35名学生统计学考试成绩的组均值和频数考分 /分组均值 /分 人 数 /人 组总分 /分60以下54210860706542607080769684809085141190 90100936558合 计352800(分)8035280064269346525411HjjHjjjFFXX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 (3)采用组中值计算加权均值 在不占有原始数据和组均值数值,只拥有已分组的数据时,只有利用各组组中值采用加权的方式计算均值的近似数值。利用组中值计
22、算均值近似值的公式为 (4.10) 式(4.10)中 表示第j组的组中值。 HjjHjjjFFXX11jX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.94.9 根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数数据。 要求要求 试采用组中值计算该班35名学生的统计学考试成绩的加权均值。 解解 采用式(4.10)计算。表4.6 某学期某班35名学生统计学考试成绩的组中值和频数考分 /分组中值 /分 人 数 /人 组总分 /分60以下552110607065426070807596758090851
23、41190 90100956570合 计352805分14.8035280564269546525511HjjHjjjFFXX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 3权数与加权结构 对于加权均值而言,有两个因素决定着均值数值的大小,一个因素是各组的数值水平;另一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻重的作用,所以将加权均值的计算公式中频数称为“权数”。 在均值的计算中又将频数分布称为“加权结构”,“加权结构” 更加清晰地反映了数据在各组中的分布与集中趋势之间的联系,及其对均值数值水平形成的影响。 将式(4.8)
24、略加变形,有 (4.11) XFFXFXFX2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数数据,计算“加权结构” 和“组贡献值”。某班35名学生统计学考试平均成绩的“加权结构” 和“组贡献值”考分 /分组均值 /分人 数 /人比例 /%组贡献值 /分60 以下5425.714 3.09 607065411.429 7.43 708076925.714 19.54 8090851440.000 34.00 9010093617.143 15.94 合 计35
25、100.000 80.00 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 均值的数学性质: (1)各个变量值与其均值的离差和为零,即(2)各个变量值与其均值的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。0)(XXMinXX2)(2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 均值的数学性质: (1)各个变量值与其均值的离差和为零,即(2)各个变
26、量值与其均值平均数的离差平方和为最小,即 当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。 讨论题:试比较均值、众数和中位数在数值型数据的集中趋势分析中的作用?0)(XXMinXX2)(2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.4 调和平均数 调和平均数(Harmonic Mean)是各个变量数值倒数的算术平均数的倒数。因此又称之为“倒数平均数”。1. 简单调和平均数 设有N个变量值为, 则有简单调和平均数的计算公
27、式为 (4.12) XNXXXNHN111111212021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.104.10 设有12批A产品当日在某海关进口时报关的单价分别为每件25,24,25,27,26,25,24,28,26,25,26,28美元。要求要求 试用调和平均数方法计算其平均价格。 解解 由式(4.12)美元68.25467184. 0122812412511211H2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 2加权调和平均数(1)单变量值分组的加权调和平均数
28、在单变量值分组场合,加权均值的计算公式为 (4.13)(2)组距分组的加权调和平均数 在组距分组场合,仍然根据是否拥有各组组均值数据,加权调和平均数的计算分为两种不同的方式。拥有各组组均值数据时,采用各组组均值计算加权调和平均数;不具有各组组均值数据时,则需要采用各组组中值来计算加权调和平均数的近似数值。 在现实生活中,实际使用到的仅是一种形式上类似调和平均数的“加权调和平均数”,它是均值的一种变形。XFFH2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 3均值的变形 在拥有各组总值数据和各组变量值水平,缺少各组频数数据时,往往采用形式
29、上类似加权调和平均数的公式,来计算加权均值。用表示各组总值,用表示这一形式上类似加权调和平均数的集中趋势测度,有 (4.14) 由式(4.14)可知,这一所谓的形式上类似加权调和平均数的集中趋势测度实际上就是均值,而不是调和平均数。XFXFXFXXFXMMXH12021年10月15日/*统计学第4章 数据分布特征的度量 例例4.124.12 已知某商店商品按照优惠价、折扣价和原价的单价和销售总额。 要求要求 试求销售价格的均值。 解解 由式(4.16)表4.8 某商店W商品销售情况 4.1 4.1 集中趋势的度量集中趋势的度量 元170650110500 XXH2021年10月15日/*统计学
30、第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.5 几何平均数 几何平均数(Geometric Mean)是指各项数据的连乘积开其项数次方的算术根,一般用G表示。当对象为某种连乘积的关系,例如总比率或总速度时,则需要采用几何平均数方法,计算其平均比率或平均速度。几何平均数的计算公式也有简单几何平均数加权几何平均数和两种形式: 简单几何平均数。计算公式为: (4.15)、加权几何平均数。加权几何平均数计算公式为: (4.16)FFFFFFhFFXXXXGhh212121NNNXXXXG212021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1
31、 集中趋势的度量集中趋势的度量 例例4.134.13 某厂有四个连续作业车间,其产品的合格率分别为95%、96%、94%和90%。 要求要求 试计算该产品的平均合格率。 解解 显然,本题不能采用算术平均法或调和平均法,因为各车间的合格率之积全厂的总合格率,应采用几何平均法来计算其平均合格率。由式(4.15),有%72.93%90%94%96%954G2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.144.14 设某项每年分红一次的投资项目,10年来各年的实际收益率分别为10%,9%,8%,8%,9%,8%,9%,7%,11%,1
32、0%。 要求要求 试求该项投资10年来的平均年收益率。 解解 平均年收益率是一项平均增长速度,需要由平均发展速度间接计算。因此需要将例4.14中的各年收益率数据(年增长速度),换算成年本利和(年发展速度),利用式(4.15)计算出该项投资10年来的平均年本利率,最后将平均年本利率扣除本金后,计算出平均年收益率。即 也可以根据式(4.16)计算,有08894. 134446. 21 . 109. 11 . 11010G%894. 8108894. 1平均年收益率08894. 134446. 210FFXG2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集
33、中趋势的度量 3对数均值 将几何平均数计算公式等号两端同时取对数,几何平均数计算公式表现出类似均值计算公式的形式。所以,几何平均数又被称为对数均值,或对数平均数。 由式(4.15) 等号两端同时取对数,可得对数形式的简单几何平均数计算公式。有 (4.17) 由式(4.16) 等号两端同时取对数,可得对数形式的,具有类似加权均值计算公式形式的加权几何平均数计算公式。有 (4.18)NXGlnlnFXFGlnln2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.6 均值、调和平均数和几何平均数的比较 对于同一组数据,仅从数值比较的角度
34、,有均值大于等于几何平均数,几何平均数大于等于调和平均数,即 。 例例4.16 4.16 有一组数据为4,5,6,7,8,6,7,8,9,8 ,请分别计算均值、调和平均数和几何平均数。 解解:分别计算如下: XGH8 . 61068NXX43. 6555159. 1101XNH62. 616257024010NXG2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 4.1.7 均值、众数和中位数的比较 在均值、众数和中位数这三个测度中,均值是唯一的数值型测度。均值一般采用算术平均方法计算的集中趋势测度,对极端数值的反应比较敏感,在数据的分布
35、出现偏倚时,均值受到的影响最大。众数和中位数都是位置型的集中趋势测度,其具体取值不受极端数值的影响。其中众数是对应于最大频数的数值,中位数是居于有序数据中间位置上的数值。 因此,若数据的分布是对称的,有均值、众数和中位数三个集中趋势测度的取值相等。 当数据分布呈左偏态时,一般有均值的取值最小,其次是中位数,众数的取值最大。在频数分布图上,众数始终对应于峰顶,均值和中位数偏在峰顶的左边,均值又在中位数左边; 当数据分布呈右偏态时,一般有均值的取值最大,其次是中位数,众数的取值最小。在频数分布图上,众数还是处在对应于峰顶的位置,均值和中位数偏在峰顶的右边,并且均值偏在最右边。2021年10月15日
36、/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 图4.1 对称分布 图4.2 左偏分布 图4.3 右偏分布 2021年10月15日/*统计学第4章 数据分布特征的度量 4.1 4.1 集中趋势的度量集中趋势的度量 例例4.174.17 根据第三章中例3.1 某学期某班35名学生的统计学考试成绩的原始数据。 要求要求 计算该班35名学生的统计学考试成绩的均值、众数和中位数,简要分析数据的分布状况。 解解 由该班35名学生的统计学考试成绩均值、众数和中位数的具体取值,可得出三者之间的数值比较关系,有 则认为该班35名学生的统计学考试成绩呈左偏态,偏倚的程度不是很
37、大,从均值角度来说,该班高分(超过均值80分)的同学较多,超过了半数。因为按分数排序处在正中间位置上同学的分数为中位数82分,高于均值80分的水平。 分分分848280OMMeX第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量统计学2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.1 异众比率 异众比率(异众比率(Variation RatioVariation Ratio)是非众数所在组的频数之和占总频数)是非众数所在组的频数之和占总频数的比率,的比率,一般用 表示。 (4.19) 异众比率是用于评价众数
38、的代表性的测度异众比率是用于评价众数的代表性的测度。异众比率取值在1到0之间,一般用百分数表示。异众比率数值越大,越趋近于1,说明众数所在组的频数占总频数的比率越低,众数的代表性越弱,反映数据的频数分布不存在显著集中的态势,无法借助众数来反映数据的集中趋势;异众比率数值越小,越趋近于0,说明众数所在组的频数占总频数的比率越高,众数作为集中趋势测度的代表性越强。FFFFFVrOOMM1Vr2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.184.18 根据例4.1某品牌运动服装专卖店一批新品球衣的销售情况的频数分布数据。 要求要求
39、试计算众数“SP09-05”球衣的异众比率。 解解 由式(4.19),有该新品球衣的前日和当日销售情况众数的“SP09-05”球衣的异众比率分别为 前日销售情况的异众比率为45%,当日销售情况的异众比率为48.33%,说明这两天众数“SP09-05”球衣的销售量都超过50%,表明在此场合使用众数“SP09-05”球衣作为该批新款球衣集中趋势的测度是比较有效的。%451607216088160Vr%33.481808718093180Vr2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.2 四分位差 四分位差(Quartile De
40、viation)为上四分位数与下四分位数的绝对上四分位数与下四分位数的绝对离差离差,也称为四分间距(Inter-Quartile Range),用表示。计算公式为 (4.20) 式(4.20)中的 和 分别为上四分位数与下四分位数。将原始数据按照由小到大,由低到高排序后得到的有序数据中,上四分位数是处在后四分之一位置上数据的数值;下四分位数是处在前四分之一位置上数据的数值。 所以,也可以将上四分位数与下四分位数理解为是在计算了中位数的基础上,将排序后的有序数据分为了大于和小于中位数的两个部分,然后再在这两个部分中分别计算出来的中位数。四分位差反映了处在有序数据中间位置上的50%的数据的绝对离差
41、。因此,四分位差是与中位数四分位差是与中位数相联系的离散程度测度。相联系的离散程度测度。LUdQQQUQLQ2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.194.19 仍采用例4.4中某学期某班35名学生考试成绩的原始数据。 要求要求 试计算该班35名学生的统计学考试成绩的四分位差。 解解 有上四分位数与下四分位数的计算公式为 解得 52,56,62,64,65,69,70,74,7575,75,76,78,78,79,79,81,82,8282,83,84,84,84,84,86,87,87,8888,89,89,90,91
42、,91,92,96,98 即可计算出考试成绩的四分位差为 该班35名学生的统计学考试成绩的四分位差为13分,说明处在中间位置上的一半该班同学的分数最大差距为13分,这一差异数值较小,表明82分的中位数对于集中趋势的代表性较好。413NUXQ41NLXQ分88UQ分75LQ分137588dQ2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.3 取值范围 取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了数值变量取值的变动幅度。取值范围也称为全距,一般用 R 表示,有 (4.20) 当使用样本数据的最大数值与最
43、小数值之差,来计算该组样本数值变量取值区间,以反映总体变量取值的变动幅度时,一般称之为极差(Range),用表示。即 (4.21) XMinXMaxR xMinxMaxR2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.204.20 某企业一车间甲乙两个生产小组的个人日产量件数数据如下 甲组:50,55,60,70,80,85,90 乙组:67,68,69,70,71,72,73 要求要求 试计算该车间甲乙两个生产小组的个人日产量的取值范围。 解解 甲乙两个生产小组的均值都为70件,采用式(4.20),有 甲组: 乙组: 甲组的取
44、值范围为40件,乙组的取值范围为6件,表明70件的均值对于乙组个人日产量的集中趋势更具有代表性,或者说乙组个人日产量的离散程度小,集中趋势更为显著。 取值范围的计算只使用了数值变量中的最大与最小两个数值,具有计算简洁,意义明确,易于理解的特点,但是没有充分利用数据的全部信息,是一个粗略的,简单的,尤其是容易受到极端数值影响的测度。(件)405090R(件)66773R2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.4 平均差 平均差(Mean Deviation)是指全部变量值与其均值的离差的绝对值的均值,也称为平均离差,用A.
45、D.表示。 简单平均差计算公式为: (4.22) 加权平均差计算公式为: (4.23) NXXDA.FFXXDA.MinXX2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.21 4.21 仍然采用例4.20中的数据。 要求要求 试计算该该车间甲乙两个生产小组的个人日产量的平均差。 解解 已知均值为70件,由式(4.22) 表4.10 甲乙小组的个人日产量的平均差计算表 件 甲组: 乙组: 平均差测度同样表明乙组个人日产量的离散程度小,70件的个人日产量均值对于乙组的集中趋势更具有代表性。甲组乙组甲组乙组5067203556815
46、26069101707000807110185721529073203 9012个人日产量 XX 件86.12790.DA件71. 1712.DA2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.5 方差和标准差 方差(Variance)是指全部变量值与其均值的离差的平方的均值。 方差以数据的重心均值作为基准数值来度量数据分布的离散程度,同时用平方的方式消除了变量值与均值离差数值正负相抵的问题,便于数学上的处理,方差是正态分布等概率分布的重要参数,是度量数值变量离散程度的基本测度。方差一般用 或 表示。 根据所拥有的数值变量数据的
47、形式不同,方差的计算可以分为以下几种方式。 1简单方差计算公式 当拥有未分组的数据时,采用简单方差公式计算方差。 (4.24)NXX22)(2 XV2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.234.23 再次仍然采用例4.20中某企业一车间甲乙两个生产小组的个 人日产量件数数据,并已知均值为70件。 要求要求 试计算该甲乙两个生产小组个人日产量的方差。 解解 由式(4.24)有 表4.12 甲乙小组的个人日产量的方差计算表 件 甲组: 乙组: 甲组乙组甲组乙组50674009556822546069100170700080
48、7110018572225490734009490490145028个人日产量 2XX 2214.20771450件224728件2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 2加权方差计算公式 当只具备已分组数据时,需要采用加权方差公式计算方差。(1)当拥有单变量值分组数据时,加权方差计算公式为: (4.25) 例例4.244.24 根据例4.7中某机床总装车间10个装配小组日完成产品台数数据,并已知均值为6.8台。 要求要求 计算该机床总装车间装配小组日完成产品台数的方差。 解解 由式(4.25) FFXX22)(2276. 01
49、06 . 7台2021年10月15日/*统计学第4章 数据分布特征的度量 (2)当拥有的数据为具有组均值的组距分组时,加权方差计算公式为: (4.26) 式(4.26)中是采用各组的组均值与总体均值的离差的加权均值来反映数据分布的离散程度。存在着一个各组的组均值与各组中各个变量的实际取值之间的差异,只有在各个变量的实际取值等于各组的组均值时,式(4.26)才等于式(4.25);当这两者的差距越大,式(4.26)与式(4.25)之间的差距也就越大,并且有式(4.26)计算的数值小于式(4.25) 计算的数值。式(4.25)是与方差的定义一致的测度,而式(4.26)只是式(4.25)近似计算。4.
50、2 4.2 离散程度的度量离散程度的度量 HjjHjjjFFXX11222021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 (3) 当拥有的数据为不具有组均值的组距分组时,需要采用组中值近似地替代组均值计算加权方差,这时计算公式为 (4.27) 式(4.27)不仅存在式(4.26) 以各组的组均值近似替代各组中各个变量的实际取值所产生的误差,而且还存在以各组的组中值近似替代各组的组均值所产生的误差。所以式(4.27)也只能是对式(4.25)近似计算。HjjHjjjFFXX11222021年10月15日/*统计学第4章 数据分布特征的度量 4
51、.2 4.2 离散程度的度量离散程度的度量 3标准差 由于方差的量纲是变量原有量纲的平方,在实际使用时有所不便。因此,人们常常采用具有与变量一致的量纲的测度,方差的算术平方根标准差。 标准差(Standard Deviation)为方差的算术平方根,即全部变量值与其均值的离差的平方的均值的算术平方根。有简单标准差计算公式和加权标准差计算公式。 (4.28) (4.29)NXX2)(FFXX2)(2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 4.2.6 离散系数 离散系数(Coefficient of Variation)为同一总体的标
52、准差与均值的比值。 通过采用标准差除以同一数据的均值,不仅将分子分母量纲相同相互约去,同时还剔除了均值数值水平,得到了一个没有量纲的相对数测度,这就是离散系数。计算离散系数的主要目的就是消除标准差的量纲和数值水平上的差异,使其成为一个抽象的,纯粹反映数据分布离散程度的测度,一个具有广泛的直接的可比性的离散程度测度。从形式上看,离散系数是一个相对的比值,一个相对数。 离散系数的计算公式为: (4.30) 离散系数一般用百分数表示。XV2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.264.26 已知某公司A、B两种产品2005年的
53、日产量及其标准差数据。 要求要求 试计算A、B两种产品2005年的日产量的离散系数,对该公司A、B两种产品生产过程的均衡性进行比较分析。 解解 采用式(4.30),有表4.15 2005年某公司产品的日产量的离散系数计算表 由此例可以看出,标准差的数值水平是由纯粹的数据分布离散程度(可用离散系数表示),和数据分布集中趋势的中心数值(一般用均值表示),这两者共同作用的结果。例如,A产品日产量的标准差3吨,等于离散系数60%,乘上均值5吨。 产品均值 /吨标准差 /吨 离散系数 /%A5360B800240302021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度
54、量离散程度的度量 4.2.7 标准化值 标准化值(Standard Score)是以变量值与其均值的差除以同一数据的标准差的比值,也称为标准分数,或Z分数。其计算公式为: (4.31) 标准化值的分子为第i个变量值与其均值的差,一般称为数据的中心化,表现为变量值与其均值的绝对距离。标准化值的分母为标准差,通过用标准差除以中心化后的数据,来消除标准化值的量纲和绝对水平,剔除不同的数据分布离散程度在量纲和数值水平上的差异,使离散程度不同的数据之间具备了广泛的可比性。使数据具有了普遍的可加性和直接的可比性。XXZii2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度
55、的度量离散程度的度量 例例4.27 4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16所示。 要求要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表均值 标准差AB/分/分ABAB数学908485105-10.50-0.10物理887882206-40.30-0.20化学668460306240.200.80语文7678652511130.440.52英语80807525550.200.20总分40040436733371.641
56、.22考试科目原始成绩 /分离差 /分标准化值2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.27 4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16所示。 要求要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表均值 标准差AB/分/分ABAB数学908485105-10.50-0.10物理887882206-40.30-0.20化学668460306240.200
57、.80语文7678652511130.440.52英语80807525550.200.20总分40040436733371.641.22考试科目原始成绩 /分离差 /分标准化值2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.27 4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16所示。 要求要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表均值 标准差AB/分/分A
58、BAB数学908485105-10.50-0.10物理887882206-40.30-0.20化学668460306240.200.80语文7678652511130.440.52英语80807525550.200.20总分40040436733371.641.22考试科目原始成绩 /分离差 /分标准化值2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.27 4.27 某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16所示。 要求要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解解 根据式(4.31),计算
59、出A、B两位同学考试成绩的标准化值总分。表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表均值 标准差AB/分/分ABAB数学908485105-10.50-0.10物理887882206-40.30-0.20化学668460306240.200.80语文7678652511130.440.52英语80807525550.200.20总分40040436733371.641.22考试科目原始成绩 /分离差 /分标准化值2021年10月15日/*统计学第4章 数据分布特征的度量 4.2 4.2 离散程度的度量离散程度的度量 例例4.27 4.27 某中学有A、B两位同学期末考试5门
60、功课的考试成绩如表4.16所示。 要求要求 采用标准化值,对某中学A、B两位同学考试成绩进行评价。 解解 根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。表4.16 某中学A、B两位同学期末考试成绩的标准化值总分计算表均值 标准差AB/分/分ABAB数学908485105-10.50-0.10物理887882206-40.30-0.20化学668460306240.200.80语文7678652511130.440.52英语80807525550.200.20总分40040436733371.641.22考试科目原始成绩 /分离差 /分标准化值第4章 数据分布特征的度量 4.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025公司职工安全培训考试试题典型题
- 2025公司管理人员安全培训考试试题【基础题】
- 2025简化版租房合同协议
- 2025年个体工商户转手合同
- 2025合同风险管理常见法律挑战与应对策略
- 2025供应商合作协议合同
- 2025年电磁学计量标准器具项目建议书
- 2025常用的农产品购销合同范本
- 2025超市员工劳动合同模板
- 2025合作合同个体工商户合资经营协议书
- 2025购销合同(电子产品)范文
- 基于全生命周期的绿色建筑成本影响因素研究
- 2025年普法知识竞赛题库及答案(共80题)
- 心力衰竭护理查房 课件
- 【课时练基础作业】人教版四年级数学下册第四单元《期中计算能力测试》(含答案)
- 树木修剪合同协议
- 2025年兰州市九年级诊断考试(一诊)物理试卷
- 【初中地理】西亚课件-2024-2025学年人教版(2024)七年级地理下册
- 2024年4月27日福建省事业单位《综合基础知识》真题及答案
- 农民工工资专用账户管理制度
- 药物治疗管理MTM
评论
0/150
提交评论