《统计学教程》第4章 数据分布特征的度量_第1页
《统计学教程》第4章 数据分布特征的度量_第2页
《统计学教程》第4章 数据分布特征的度量_第3页
《统计学教程》第4章 数据分布特征的度量_第4页
《统计学教程》第4章 数据分布特征的度量_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《统计学教程》第4章数据分布特征的度量

2023年5月14日/*《统计学》第4章数据分布特征的度量

4.1集中趋势的度量4.2.5方差和标准差

4.1.1众数4.2.6离散系数

4.1.2中位数4.2.7标准化值

4.1.3均值

4.1.4调和平均数

4.1.5几何平均数4.3偏态和峰度的度量

4.1.6均值、众数和中位数的比较4.3.1偏态系数

4.1.7均值、众数和中位数的比较4.3.2峰度系数4.2离散程度的度量

4.2.1异众比率

4.2.3取值范围

4.2.4平均差第4章数据分布特征的度量

4.1集中趋势的度量《统计学教程》卢小广2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据分布的基本特征。频数分布属于对数据分布特征的初步描述,缺乏对数据分布特征的综合度量,若需要深入地表述数据分布特征的具体特征和内在联系,还应对数据分布特征进行综合性的度量。数据分布特征的度量包括三个方面的内容,一是数据分布的集中趋势,反映总体中各个单位的数值水平向其聚集,或者集中的中心数值;二是数据分布的离散趋势,反映总体中各个单位的数值水平偏离中心数值的综合程度;三是数据分布的偏态和峰度,反映各个总体单位的数值水平的分布形态是对称或偏倚,平坦或尖耸的具体数值。

集中趋势(CentralTendency)是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量,以一综合数值来表述数据所趋向的这一中心数值的一般水平。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.1众数

众数(Mode)是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。众数是度量定类数据集中趋势的测度,一般用表示。例4.1某品牌运动服装专卖店一批新品球衣销售情况如下表4.1某专卖店新品球衣销售情况件2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.1众数

众数(Mode)是一组数据中频数最大的变量值,直观地反映了数据的集中趋势。众数是度量定类数据集中趋势的测度,一般用表示。

例4.1某品牌运动服装专卖店一批新品球衣销售情况如下表4.1某专卖店新品球衣销售情况件2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.2利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求试计算计算该班35名学生统计学考试成绩的众数。解将该原始数据排序之后,得到有序数据如下

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,

81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,

91,91,92,96,98

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.2利用第三章中例3.1中某学期某班35名学生统计学考试成绩的原始数据。要求试计算计算该班35名学生统计学考试成绩的众数。解将该原始数据排序之后,得到有序数据如下

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,

81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,

91,91,92,96,9884分在这35名学生的统计学考试成绩的原始数据中出现了4次,属于出现次数最多的变量值,根据众数定义,可以确定众数为84分,即2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

利用已经分组的数值型数据计算众数的场合,需要运用插值公式来计算众数的近似数值。众数的插值公式有下限公式和上限公式。其下限公式从众数所在组的上限出发,有

(4.1)上限公式则从众数所在组的上限出发,有

(4.2)

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.3表4.2为第三章中表3.7“某学期某班35名学生的统计学考试成绩”中的部分数据。根据表4.2的已经分组的数值型数据,计算该班35名学生的统计学考试成绩众数的近似数值。表4.2某学期某班35名学生的统计学考试成绩2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

通过上限公式或下限公式的计算众数所得到的计算结果是一致的。众数是一个通过数据中频数最大的数据的数值来反映集中趋势的测度,为一位置型的代表数值,所以众数的取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,使用众数来度量数据的集中趋势,可以作为其它集中趋势测度的补充。众数是一个适用于最低层次的定类数据的测度,因此可以用于各种量表数据的集中趋势分析,有效使用众数的前提是数据的频数分布存在明显的集中态势。★讨论题:你认为那些现象不适宜采用众数来描述其集中趋势?

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

4.1.2中位数

中位数(Median)是位于有序数据正中间位置上的变量值,中位数用其特殊的位置属性直接地体现了集中趋势的中心数值特征。中位数是度量定序数据集中趋势的测度,一般用表示。中位数也是一种位置型的代表数值,同时中位数还是一种顺序统计量,因此,计算中位数要求数值至少具备定序数据的性质。中位数一旦确定,就可以根据中位数的具体取值,将全部数据分成数量相等的两个部分,一半数据的数值小于或等于中位数;另一半数据的数值大于或等于中位数。由此可得出中位数的计算公式。当数据的个数为奇数时,有

(4.3)当数据的个数为偶数时,有

(4.4)

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.4

仍然采用第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据。要求试计算该班35名学生的统计学考试成绩的中位数。解将原始数据排序之后,得到以下有序数据52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98

该组数据的个数为35,因此采用式(4.3)计算,排列在该组有序数据第18位上的变量值为82分,该班35名学生的统计学考试成绩的中位数为82分。即2023年5月14日/*《统计学》

第4章数据分布特征的度量

利用已经分组的数值型数据计算中位数时,需要运用插值公式计算中位数的近似数值。中位数的插值公式也有下限公式和上限公式。其下限公式从中位数所在组的下限出发,为

(4.5)

上限公式从中位数所在组的上限出发,为

(4.6)4.1集中趋势的度量2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.5

表4.3为第三章“表3.7某学期某班35名学生的统计学考试成绩”中的部分资料,为已经分组的数值型数据。要求根据表4.3数据,计算该班35名学生的统计学考试成绩的中位数。解运用插值公式计算该班学生统计学考试成绩中位数的近似数值。表4.3某学期某班35名学生的统计学考试成绩2023年5月14日/*《统计学》

第4章数据分布特征的度量

显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。

4.1集中趋势的度量2023年5月14日/*《统计学》

第4章数据分布特征的度量

显然,我们可以任选上限公式或下限公式来计算中位数,得到结果是相同的。中位数是一个顺序统计量,其取值不受极端数值的影响,也不受组距分组中开口组设置的影响。当数值型数据中含有极小值和极大值时,可以使用中位数来度量数据的集中趋势。★讨论题:你认为中位数的主要局限是什么?

4.1集中趋势的度量2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.3均值均值(Mean)为一组数值型数据之和除以该组数据总数的商,即同一组数据的总值与其频数的商。在大多数场合,均值采用算术平均方法计算,所以人们经常将均值称为算术平均数(ArithmeticalAverage)。计算均值的数据需要具备数值型数据的属性,均值是一个数值型的集中趋势测度。通过计算均值的运算过程,首先将各个数据之间的数量差异抽象掉了,以一个抽象性的综合测度概括地反映事物的集中趋势。其次将不同总体的总量规模抽象掉了,表现出来的只是一个一般性的代表水平,有利于不同规模的同类总体在不同空间和时间上的广泛比较。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量1.简单均值简单均值(SimpleMean)是根据未分组的原始数据计算出来的均值。有

(4.7)

例4.6仍采用第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据要求试计算该班35名学生的统计学考试成绩的均值。解采用式(4.7)计算,有

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量2.加权均值加权均值(WeightedMean)是运用各组频数作为权数对各组数值水平进行加权计算出来的均值。根据是单变量值分组还是组距分组,以及组距分组的各组数值水平代表数据是组均值还是组中值,加权均值的计算分为以下三种类型。(1)单变量值分组加权均值在单变量值分组场合,加权均值的计算公式为

(4.8)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.7某机床总装车间10个装配小组日完成产品台数情况,计算单变量值分组加权均值。表4.4某机床总装车间10个装配小组日完成产品台数情况要求试计算单变量值分组加权均值。解采用式(4.8)计算,可得2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量(2)采用组均值计算加权均值在组距分组中,采用组均值计算加权均值时,计算公式为

(4.9)

式(4.9)中表示第j组的组均值。

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量例4.8

采用第三章中例3.1的各组均值数据。要求试计算组距分组的该班35名学生的统计学考试成绩的加权均值。解依据各组中的数据数值和数据个数,按照式(4.7)的均值计算公式,计算出各组的组均值,填入表4.5中。表4.5某学期某班35名学生统计学考试成绩的组均值和频数2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量(3)采用组中值计算加权均值在不占有原始数据和组均值数值,只拥有已分组的数据时,只有利用各组组中值采用加权的方式计算均值的近似数值。利用组中值计算均值近似值的公式为

(4.10)

式(4.10)中表示第j组的组中值。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.9

根据第三章中表3.7中“某学期某班35名学生的统计学考试成绩”的各组组中值和频数数据。要求试采用组中值计算该班35名学生的统计学考试成绩的加权均值。解采用式(4.10)计算。表4.6某学期某班35名学生统计学考试成绩的组中值和频数2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量3.权数与加权结构对于加权均值而言,有两个因素决定着均值数值的大小,一个因素是各组的数值水平;另一个因素是各组的频数。频数对各组的数值水平数值起着权衡轻重的作用,所以将加权均值的计算公式中频数称为“权数”。在均值的计算中又将频数分布称为“加权结构”,“加权结构”更加清晰地反映了数据在各组中的分布与集中趋势之间的联系,及其对均值数值水平形成的影响。将式(4.8)略加变形,有

(4.11)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

均值的数学性质:(1)各个变量值与其均值的离差和为零,即(2)各个变量值与其均值平均数的离差平方和为最小,即当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

均值的数学性质:(1)各个变量值与其均值的离差和为零,即(2)各个变量值与其均值平均数的离差平方和为最小,即当取均值作为集中趋势的测度时,各个数据的取值与集中趋势测度的离差平方和为最小值。均值的这一数学性质是度量离散程度,进行误差分析和最小二乘估计等统计方法的基础。★讨论题:试比较均值、众数和中位数在数值型数据的集中趋势分析中的作用?2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.4调和平均数调和平均数(HarmonicMean)是各个变量数值倒数的算术平均数的倒数。因此又称之为“倒数平均数”。1.简单调和平均数设有个变量值为,则有简单调和平均数的计算公式为

(4.12)

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.10

设有12批A产品当日在某海关进口时报关的单价分别为每件25,24,25,27,26,25,24,28,26,25,26,28美元。要求试用调和平均数方法计算其平均价格。解由式(4.12)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量2.加权调和平均数(1)单变量值分组的加权调和平均数在单变量值分组场合,加权均值的计算公式为

(4.13)(2)组距分组的加权调和平均数在组距分组场合,仍然根据是否拥有各组组均值数据,加权调和平均数的计算分为两种不同的方式。拥有各组组均值数据时,采用各组组均值计算加权调和平均数;不具有各组组均值数据时,则需要采用各组组中值来计算加权调和平均数的近似数值。在现实生活中,实际使用到的仅是一种形式上类似调和平均数的“加权调和平均数”,它是均值的一种变形。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量3.均值的变形在拥有各组总值数据和各组变量值水平,缺少各组频数数据时,往往采用形式上类似加权调和平均数的公式,来计算加权均值。用表示各组总值,用表示这一形式上类似加权调和平均数的集中趋势测度,有

(4.14)

由式(4.14)可知,这一所谓的形式上类似加权调和平均数的集中趋势测度实际上就是均值,而不是调和平均数。2023年5月14日/*《统计学》

第4章数据分布特征的度量

例4.12

已知某商店商品按照优惠价、折扣价和原价的单价和销售总额。要求试求销售价格的均值。解由式(4.16)表4.8某商店W商品销售情况

4.1集中趋势的度量2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.5几何平均数几何平均数(GeometricMean)是指各项数据的连乘积开其项数次方的算术根,一般用G表示。当对象为某种连乘积的关系,例如总比率或总速度时,则需要采用几何平均数方法,计算其平均比率或平均速度。几何平均数的计算公式也有简单几何平均数加权几何平均数和两种形式:1.简单几何平均数。计算公式为:

(4.15)2、加权几何平均数。加权几何平均数计算公式为:

(4.16)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.13

某厂有四个连续作业车间,其产品的合格率分别为95%、96%、94%和90%。要求试计算该产品的平均合格率。解显然,本题不能采用算术平均法或调和平均法,因为各车间的合格率之积=全厂的总合格率,应采用几何平均法来计算其平均合格率。由式(4.15),有2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.14

设某项每年分红一次的投资项目,10年来各年的实际收益率分别为10%,9%,8%,8%,9%,8%,9%,7%,11%,10%。要求试求该项投资10年来的平均年收益率。解平均年收益率是一项平均增长速度,需要由平均发展速度间接计算。因此需要将例4.14中的各年收益率数据(年增长速度),换算成年本利和(年发展速度),利用式(4.15)计算出该项投资10年来的平均年本利率,最后将平均年本利率扣除本金后,计算出平均年收益率。即也可以根据式(4.16)计算,有2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量3.对数均值将几何平均数计算公式等号两端同时取对数,几何平均数计算公式表现出类似均值计算公式的形式。所以,几何平均数又被称为对数均值,或对数平均数。由式(4.15)等号两端同时取对数,可得对数形式的简单几何平均数计算公式。有

(4.17)

由式(4.16)等号两端同时取对数,可得对数形式的,具有类似加权均值计算公式形式的加权几何平均数计算公式。有

(4.18)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.6均值、调和平均数和几何平均数的比较对于同一组数据,仅从数值比较的角度,有均值大于等于几何平均数,几何平均数大于等于调和平均数,即。

例4.16有一组数据为4,5,6,7,8,6,7,8,9,8,请分别计算均值、调和平均数和几何平均数。解:分别计算如下:

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量4.1.7均值、众数和中位数的比较在均值、众数和中位数这三个测度中,均值是唯一的数值型测度。均值一般采用算术平均方法计算的集中趋势测度,对极端数值的反应比较敏感,在数据的分布出现偏倚时,均值受到的影响最大。众数和中位数都是位置型的集中趋势测度,其具体取值不受极端数值的影响。其中众数是对应于最大频数的数值,中位数是居于有序数据中间位置上的数值。因此,若数据的分布是对称的,有均值、众数和中位数三个集中趋势测度的取值相等。当数据分布呈左偏态时,一般有均值的取值最小,其次是中位数,众数的取值最大。在频数分布图上,众数始终对应于峰顶,均值和中位数偏在峰顶的左边,均值又在中位数左边;当数据分布呈右偏态时,一般有均值的取值最大,其次是中位数,众数的取值最小。在频数分布图上,众数还是处在对应于峰顶的位置,均值和中位数偏在峰顶的右边,并且均值偏在最右边。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量图4.1对称分布图4.2左偏分布图4.3右偏分布2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.1集中趋势的度量

例4.17

根据第三章中例3.1某学期某班35名学生的统计学考试成绩的原始数据。要求计算该班35名学生的统计学考试成绩的均值、众数和中位数,简要分析数据的分布状况。解由该班35名学生的统计学考试成绩均值、众数和中位数的具体取值,可得出三者之间的数值比较关系,有则认为该班35名学生的统计学考试成绩呈左偏态,偏倚的程度不是很大,从均值角度来说,该班高分(超过均值80分)的同学较多,超过了半数。因为按分数排序处在正中间位置上同学的分数为中位数82分,高于均值80分的水平。

第4章数据分布特征的度量

4.2离散程度的度量《统计学教程》卢小广2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.1异众比率

异众比率(VariationRatio)是非众数所在组的频数之和占总频数的比率,一般用表示。

(4.19)

异众比率是用于评价众数的代表性的测度。异众比率取值在1到0之间,一般用百分数表示。异众比率数值越大,越趋近于1,说明众数所在组的频数占总频数的比率越低,众数的代表性越弱,反映数据的频数分布不存在显著集中的态势,无法借助众数来反映数据的集中趋势;异众比率数值越小,越趋近于0,说明众数所在组的频数占总频数的比率越高,众数作为集中趋势测度的代表性越强。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.18

根据例4.1某品牌运动服装专卖店一批新品球衣的销售情况的频数分布数据。要求试计算众数“SP09-05”球衣的异众比率。解由式(4.19),有该新品球衣的前日和当日销售情况众数的“SP09-05”球衣的异众比率分别为

前日销售情况的异众比率为45%,当日销售情况的异众比率为48.33%,说明这两天众数“SP09-05”球衣的销售量都超过50%,表明在此场合使用众数“SP09-05”球衣作为该批新款球衣集中趋势的测度是比较有效的。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.2四分位差四分位差(QuartileDeviation)为上四分位数与下四分位数的绝对离差,也称为四分间距(Inter-QuartileRange),用表示。计算公式为

(4.20)

式(4.20)中的和分别为上四分位数与下四分位数。将原始数据按照由小到大,由低到高排序后得到的有序数据中,上四分位数是处在后四分之一位置上数据的数值;下四分位数是处在前四分之一位置上数据的数值。所以,也可以将上四分位数与下四分位数理解为是在计算了中位数的基础上,将排序后的有序数据分为了大于和小于中位数的两个部分,然后再在这两个部分中分别计算出来的中位数。四分位差反映了处在有序数据中间位置上的50%的数据的绝对离差。因此,四分位差是与中位数相联系的离散程度测度。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.19

仍采用例4.4中某学期某班35名学生考试成绩的原始数据。要求试计算该班35名学生的统计学考试成绩的四分位差。解有上四分位数与下四分位数的计算公式为

解得

52,56,62,64,65,69,70,74,75,75,76,78,78,79,79,81,82,82,83,84,84,84,84,86,87,87,88,89,89,90,91,91,92,96,98

即可计算出考试成绩的四分位差为该班35名学生的统计学考试成绩的四分位差为13分,说明处在中间位置上的一半该班同学的分数最大差距为13分,这一差异数值较小,表明82分的中位数对于集中趋势的代表性较好。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.3取值范围取值范围(ValueArea)为全体数据中最大数值与最小数值之差,反映了数值变量取值的变动幅度。取值范围也称为全距,一般用R表示,有

(4.20)

当使用样本数据的最大数值与最小数值之差,来计算该组样本数值变量取值区间,以反映总体变量取值的变动幅度时,一般称之为极差(Range),用表示。即

(4.21)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.20

某企业一车间甲乙两个生产小组的个人日产量件数数据如下甲组:50,55,60,70,80,85,90

乙组:67,68,69,70,71,72,73

要求试计算该车间甲乙两个生产小组的个人日产量的取值范围。解甲乙两个生产小组的均值都为70件,采用式(4.20),有甲组:乙组:甲组的取值范围为40件,乙组的取值范围为6件,表明70件的均值对于乙组个人日产量的集中趋势更具有代表性,或者说乙组个人日产量的离散程度小,集中趋势更为显著。取值范围的计算只使用了数值变量中的最大与最小两个数值,具有计算简洁,意义明确,易于理解的特点,但是没有充分利用数据的全部信息,是一个粗略的,简单的,尤其是容易受到极端数值影响的测度。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.4平均差平均差(MeanDeviation)是指全部变量值与其均值的离差的绝对值的均值,也称为平均离差,用A.D.表示。简单平均差计算公式为:

(4.22)

加权平均差计算公式为:

(4.23)

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.21仍然采用例4.20中甲乙两个生产小组的个人日产量件数数据。要求试计算该该车间甲乙两个生产小组的个人日产量的平均差。解已知均值为70件,由式(4.22)

表4.10甲乙小组的个人日产量的平均差计算表件甲组:乙组:平均差测度同样表明乙组个人日产量的离散程度小,70件的个人日产量均值对于乙组的集中趋势更具有代表性。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.5方差和标准差方差(Variance)是指全部变量值与其均值的离差的平方的均值。方差以数据的重心——均值作为基准数值来度量数据分布的离散程度,同时用平方的方式消除了变量值与均值离差数值正负相抵的问题,便于数学上的处理,方差是正态分布等概率分布的重要参数,是度量数值变量离散程度的基本测度。方差一般用或表示。根据所拥有的数值变量数据的形式不同,方差的计算可以分为以下几种方式。

1.简单方差计算公式当拥有未分组的数据时,采用简单方差公式计算方差。

(4.24)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.23

再次仍然采用例4.20中某企业一车间甲乙两个生产小组的个人日产量件数数据,并已知均值为70件。要求试计算该甲乙两个生产小组个人日产量的方差。解由式(4.24)有

表4.12甲乙小组的个人日产量的方差计算表件

甲组:乙组:

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量2.加权方差计算公式当只具备已分组数据时,需要采用加权方差公式计算方差。(1)当拥有单变量值分组数据时,加权方差计算公式为:

(4.25)

例4.24

根据例4.7中某机床总装车间10个装配小组日完成产品台数数据,并已知均值为6.8台。要求计算该机床总装车间装配小组日完成产品台数的方差。解由式(4.25)

2023年5月14日/*《统计学》

第4章数据分布特征的度量

(2)当拥有的数据为具有组均值的组距分组时,加权方差计算公式为:

(4.26)

式(4.26)中是采用各组的组均值与总体均值的离差的加权均值来反映数据分布的离散程度。存在着一个各组的组均值与各组中各个变量的实际取值之间的差异,只有在各个变量的实际取值等于各组的组均值时,式(4.26)才等于式(4.25);当这两者的差距越大,式(4.26)与式(4.25)之间的差距也就越大,并且有式(4.26)计算的数值小于式(4.25)计算的数值。式(4.25)是与方差的定义一致的测度,而式(4.26)只是式(4.25)近似计算。4.2离散程度的度量2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量(3)当拥有的数据为不具有组均值的组距分组时,需要采用组中值近似地替代组均值计算加权方差,这时计算公式为

(4.27)

式(4.27)不仅存在式(4.26)以各组的组均值近似替代各组中各个变量的实际取值所产生的误差,而且还存在以各组的组中值近似替代各组的组均值所产生的误差。所以式(4.27)也只能是对式(4.25)近似计算。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量3.标准差由于方差的量纲是变量原有量纲的平方,在实际使用时有所不便。因此,人们常常采用具有与变量一致的量纲的测度,方差的算术平方根——标准差。标准差(StandardDeviation)为方差的算术平方根,即全部变量值与其均值的离差的平方的均值的算术平方根。有简单标准差计算公式和加权标准差计算公式。

(4.28)(4.29)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.6离散系数离散系数(CoefficientofVariation)为同一总体的标准差与均值的比值。通过采用标准差除以同一数据的均值,不仅将分子分母量纲相同相互约去,同时还剔除了均值数值水平,得到了一个没有量纲的相对数测度,这就是离散系数。计算离散系数的主要目的就是消除标准差的量纲和数值水平上的差异,使其成为一个抽象的,纯粹反映数据分布离散程度的测度,一个具有广泛的直接的可比性的离散程度测度。从形式上看,离散系数是一个相对的比值,一个相对数。离散系数的计算公式为:

(4.30)

离散系数一般用百分数表示。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.26

已知某公司A、B两种产品2005年的日产量及其标准差数据。要求试计算A、B两种产品2005年的日产量的离散系数,对该公司A、B两种产品生产过程的均衡性进行比较分析。解采用式(4.30),有表4.152005年某公司产品的日产量的离散系数计算表

由此例可以看出,标准差的数值水平是由纯粹的数据分布离散程度(可用离散系数表示),和数据分布集中趋势的中心数值(一般用均值表示),这两者共同作用的结果。例如,A产品日产量的标准差3吨,等于离散系数60%,乘上均值5吨。

2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量4.2.7标准化值标准化值(StandardScore)是以变量值与其均值的差除以同一数据的标准差的比值,也称为标准分数,或Z分数。其计算公式为:

(4.31)

标准化值的分子为第i个变量值与其均值的差,一般称为数据的中心化,表现为变量值与其均值的绝对距离。标准化值的分母为标准差,通过用标准差除以中心化后的数据,来消除标准化值的量纲和绝对水平,剔除不同的数据分布离散程度在量纲和数值水平上的差异,使离散程度不同的数据之间具备了广泛的可比性。使数据具有了普遍的可加性和直接的可比性。2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.2离散程度的度量

例4.27某中学有A、B两位同学期末考试5门功课的考试成绩如表4.16所示。要求采用标准化值,对某中学A、B两位同学考试成绩进行评价。解根据式(4.31),计算出A、B两位同学考试成绩的标准化值总分。表4.16某中学A、B两位同学期末考试成绩的标准化值总分计算表第4章数据分布特征的度量

4.3偏态和峰度的度量《统计学教程》卢小广2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.3偏态和峰度的度量4.3.1偏态系数偏态(Skewness)是指数据分布偏倚的方向和程度。偏态系数是度量数据分布偏离对称分布的方向和程度的测度。偏态系数一般采用三阶中心矩与标准差三次方的比值来度量数据分布的偏倚。有简单偏态系数计算公式为

(4.32)

加权偏态系数计算公式为

(4.33)2023年5月14日/*《统计学》

第4章数据分布特征的度量

4.3偏态和峰度的度量

偏态系数采用标准差的三次方数值去除三阶中心矩,消除三阶中心矩在具体量纲和均值水平上的不可比性质,构造出一个具有广泛可比性质的度量数据分布的偏倚的方向和程度的综合测度。

图4.4数据分布偏态的示意图偏态系数的取值为0时,表示数据为完全的对称分布;为负数时,表示数据为负偏态,或左偏态;偏态系数的取值为正数数时,表示数据为正偏态,或右偏态。偏态系数的绝对数值越小,表示数据偏倚的程度越小,绝对数值越大,表示数据偏倚的程度越大。2023年5月14日/*《统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论