2020年10月自考《统计学》2020第三章-数据分布的测度1课件_第1页
2020年10月自考《统计学》2020第三章-数据分布的测度1课件_第2页
2020年10月自考《统计学》2020第三章-数据分布的测度1课件_第3页
2020年10月自考《统计学》2020第三章-数据分布的测度1课件_第4页
2020年10月自考《统计学》2020第三章-数据分布的测度1课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分布的测度一、总量指标的含义和作用总量指标是反映社会经济现象在一定时间、地点、

条件下的总规模和总水平的统计指标。总量指标

也称为绝对指标或统计绝对数,其表现形式是绝

对数。2013年上半年我国国内生产总值248009亿元。2010年11月1日零时,全国总人口为1370536875人。

第一节总量指标总量指标的作用

总量指标是认识现象总体的起点,可以反映

一个国家的基本国情和综合国力。

总量指标是制定政策、编制计划、实行管理的

基本依据。

总量指标是计算相对指标、平均指标的基础指

标。

二、总量指标的分类

1、按反映的内容分类

2、按反映的时间分类3、按作用或功能分类4、按计量单位分类实物指标价值指标以实物单位计量的总量指标。以货币单位计量的总量指标。劳动量指标用劳动时间计量的总量指标。计量单位实物单位货币单位劳动单位自然单位:人、辆度量衡单位:千克、吨双重或多重单位:台/马力、吨/(马力·艘)复合单位:千瓦·时现行价格不变价格工时、工日、台时三、总量指标的计算1、总量指标的计算方法直接计算法间接推算法2、使用总量指标必须注意的问题要有明确的含义。

要明确时域概念。

要有统一的计量单位。一、相对指标的概念相对指标是指由两个有联系的指标数值对比得到的一种比值,用来反映总体内部的结构、比例、发展程度和联系程度,相对指标又称为统计相对数。第二节相对指标二、相对指标的计量形式相对指标后边没有计量单位,是一种抽象化的数值。相对指标倍数

成数百分数千分数百分点翻番数无名数相对指标有名数相对指标有具体的计量单位的相对指标,主要用于强度相对指标。系数系数和倍数把对比的基数抽象为1而计算出来的相对数。系数多用于比较两个有内在联系且数值差别不大的指标,倍数多用于比较没有直接或内在关系且数值相差很大的指标。成数把对比的基数抽象为10而计算出来的相对数。每十分之一就叫一成。百分数和千分数

百分数是把对比的基数抽象为100而计算出来的相对数,千分数是把对比的基础抽象为1000而计算出来的相对数。百分点是百分比中相当于1%的单位,它与百分数不同,分析百分数增减变动的一种形式。翻番数两个相比较的数值中,一个数是另一个数的2m,m是番数。三、相对指标的作用表明经济关系,相对指标能具体表明社会经济现象之间的比例关系及事物的发展程度。比较作用。相对指标便于记忆,易于保密。四、相对指标的种类和计算方法1、结构相对指标2、比例相对指标3、比较相对指标4、动态相对指标5、强度相对指标6、计划完成情况相对指标相对指标

结构相对指标

结构相对指标是表现总体内部的各个组成部分在总体中所占比重的相对指标,也称为比重指标,一般用百分数表示,计算公式为:

结构相对指标=总体部分数值/总体全部数值运用结构相对指标,要以统计分组为前提。

同一总体中的结构相对指标数值之和等于1。

比例相对指标

比例相对指标是反映总体内部各个组成部分之间的数量对比关系的相对指标。比例相对指标能够反映事物内部各部分之间的数量联系程度和比例关系,计算公式为:

比例相对指标=总体中某一部分的数值/总体中另一部分的数值

强度相对指标

强度相对指标是两个性质不同,但有一定联系的总量指标数值之比。计算公式为:

强度相对指标=某一总量指标数值/另一有联系而

性质不同的总量指标数值

强度相对指标数值既可以表现为复合单位,如人均国内生产总值用“元/人”表示,也可以用倍数、系数、百分数等来表示,如人口出生率用千分数表示。强度相对指标的作用:

说明社会经济现象的强弱程度。

反映现象的密度或普遍程度。

反映社会生产活动的条件或效果。有些强度相对指标正指标和逆指标两种形式,如商业网点密度;有些强度相对指标只有正指标,无逆指标,如一国的铁路网密度。

正指标是指强度相对指标的数值大小与现象

的发展程度或密度呈正向变化。逆指标是指强度相对指标的数值大小与现象

的发展程度或密度呈反向变化。

比较相对指标

比较相对指标是同一时期同类现象在不同地区、部门、单位之间的对比,用来表明同类事物在不同空间条件下的数量对比关系,计算公式为:

比较相对指标=某条件下的某类指标数值/另一

条件的同类指标数值

比较相对指标的子项和母项可以互换位置。

动态相对指标(发展速度)

动态相对指标是表明某类现象在不同时间上的指标数值对比关系的相对指标,用以说明现象发展变化的方向和程度。计算公式为:

动态相对指标=报告期水平/基期水平

报告期又称为计算期,即被研究的时期。

作为比较标准的时期称为基期。

计划完成情况相对指标

计划完成情况相对指标是现象的实际完成数与其计划任务数之比,是用来检查和监督计划执行情况的相对指标。计算公式为:

计划完成情况相对指标=实际完成数/计划任务数

分子与分母在指标含义、计算方法、计算单位以及时间长短等方面应完全相应。

由于计划任务数是衡量计划完成情况的标准,因此,分子、分母不可互换。计划数为绝对数时,计划完成情况相对指标=实际水平/计划水平计划数为平均数时,计划完成情况相对指标=实际平均水平/计划平均

水平计划数为相对数时,计划完成情况相对指标=实际完成数/计划任务数

一、数值型数据集中趋势的测度(一)算术平均数1.简单算术平均数(Simplearithmeticmean)未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设统计数据为…,则算术平均数的计算公式为:4.1第三节集中趋势的测度2.加权算术平均数(Weightedarithmeticmean)经过分组整理的数据,则要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据被分成组,各组的变量值为…,各组变量值的次数或频数分别为…,则加权的算术平均数为:

4.24.24.24.23.由相对数求平均数一般地说,求相对数的平均数应采用加权平均的方法,此时,用于加权平均的权数不再是频数或频率,而应根据相对数的含义,选择适当的权数。下面举一个实例说明。[例4.3]某公司所属10个企业资金利润率分组资料如表4-3,要求计算该公司10个企业的平均利润率。表4-3某公司所属10个企业资金利润率分组资料该例子的平均对象是各企业的资金利润率,表中的企业数虽然是次数或频数,但却不是合适的权数。要正确计算公司10个企业的平均资金利润率,因为资金利润率=利润总额/资金总额,所以计算平均资金利润率需要以资金总额为权数,才能符合该指标的性质。因此,该公司10个企业的平均利润率为:4.算术平均数的性质(1)总体单位数与其算术平均数的乘积等于总体标志总量

(2)各变量值与其算术平均数的离差之和等于零,即

或(3)各变量值与其算术平均数的离差平方和最小,即5.算术平均数的特点及应用(1)算术平均数是根据所有变量值综合计算出来的,属于数值平均数(2)有时为了提高算术平均数的代表性,通常先从数据中删除极大值和极小值,根据剩余的数据计算算术平均数,这样得到的平均数叫切尾平均数,又称为截尾平均数(最小)或

(最小)

(二)调和平均数(Harmonicmean)

调和平均数(harmonicamean)是算术平均数的另一种形式,是一组数据中各个变量值倒数的算术平均数的倒数,因而又称为倒数平均数,习惯上用(H)表示。计算公式如下。简单调和平均数:加权调和平均数:(4.4)(4.5)(三)几何平均数(Geometricmean)

几何平均数是个变量值乘积的次方根,用G表示。可分为简单几何平均数和加权几何平均数,计算公式分别为:简单平均平均数(4.6)加权几何平均数(4.7)(四)算术平均数、调和平均数和几何平均数的关系1.当一组数据中所有数据不尽相同时,据此计算的三种平均数的结果为:

算术平均数最大,调和平均数最小,几何平均数居中。它们的关系用公式表示即为:X>G>H。2.当一组数据中所有的数据都相同时,据此计算的三种平均数相等即为:二、定类数据集中趋势的测度(一)众数(Mode)众数是指一组数据中出现次数最多的变量值,用表示。(a)单众数(b)双众数(c)无种无众数情况

图4-1众数示意图1.众数的特性从定类制度开始的四种计量尺度测定的数据都适用,是集中趋势的测度值之一出现次数最多的变量值,不受极端值的影响,可能没有众数或有几个众数在频数分布中,它是频数或频率最大的指标值从数据的分布层面,它是分布数列中最常出现的标志值在分配曲线图上,它是曲线的最高峰所对应的标志值。2.众数的计算(1)未分组数据或单变量值分组数据确定众数时,只需找出次数最多的变量值即为众数值。(2)组距式数列确定众数时,众数的数值与其相邻组的次数分布有一定的关系,这种关系如下图:

图4-2众数的数值与其相邻组的次数分布关系图根据几何图形导出的分组数据众数的计算公式如下:下限公式:上限公式:(4.18)(4.19)三、定序数据集中趋势的测度(一)中位数(Medians)中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。用Me表示。1.中位数的特点集中趋势的测度值之一排序后处于中间位置上的值不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即(4.20)2.中位数的计算(1)对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:则中位数就可以按下面的方式确定:(4.21)(2)对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:

Me=(3)对于组距式变量数列,确定中位数也需要分两步进行:①从变量数列的累计频数栏中找出第个单位所在的组,即“中位数组”,该组的上、下限就规定了中位数的可能取值范围;(4.22)②假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:(4.23)(4.24)(二)四分位数四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。1.四分位数位置的确定设下四分位数为QL,上四分位数为QU,对于未分组的原始数据,各四分位数的位置分别为:(1)未分组数据:

(4.25)(2)组距分组数据:数值型分组数据的四分位数(计算公式)

下四分位数:(4.26)上四分位数:(4.27)四、各种平均数的比较(一)数值平均数与位置平均数的比较1.数值平均数是根据一组数据的全部数值综合计算而得出,概括了反映了所有变量值的平均水平,位量平均数则是以一组数据中全部数值的某些特殊位置上的个别数值为总体的代表性数值。2.数值平均数受一组数据中某些极端值的影响明显,位置平均数则几乎不受极端值变量值的影响。3.数值平均数适合于数值型变量,对变量值的量化尺度要求高;位置平均数不仅适合于量化程度高的数值型变量,也适合于量化程度较低的定性变量,其中众数适合于各种类型的变量,包括顺序型变量和分类型变量,分位数更适合于顺序型变量。这表明位置平均数的用途更为广泛。(二)众数、中位数与算术平均数的比较如果次数分布是对称的,众数、中位数、算术平均数三者必然相等1.如果次数分布向左偏时,说明数据中存在最小值,必然会拉动算术平均数向极小值一方靠,此时2.如果次数分布是右偏时,说明数据中存在最大值,必然会拉动算术平均数向极大值一方靠,此时图4-3众数、中位数和算术平均数的关系示意图3.由对众数、中位数和算术平均数三者之间关系的分析可得出如下启示:

在数量数据中,当数据呈现对称分布或近似对称分布时,以算术平均数作为集中趋势的代表值最好;当分布的偏斜程度较大时算术平均是最容易受到极端值的影响,不能很好地反映数据集中趋势,就有必要考虑使用中位数或众数。4.计算和应用集中趋势测定指标应注意的问题:(1)集中趋势的测定指标只能应用于同质总体。(2)用组平均数和分配数列补充说明总平均数。(3)集中趋势指标与离中趋势指标及具体分析相结合。一、测定离散趋势的主要指标及其作用离散程度是指一组数据远离其中心值的程度,也成为“离中趋势”,反映了数据之间的变异程度。离散程度又称标志变动度,是度量统计分布离散趋势的指标,同时反映了总体中各单位标志值得变异程度和平均数的代表水平。离散程度又称标志变动度,是度量统计分布离散趋势的指标,同时反映了总体中各单位标志值得变异程度和平均数的代表水平。二、极差极差(range,R)又称全距,离散程度最简单的测度值,是最大和最小观测值之间的距离,是一组数据的最大值与最小值之差,用表示。计算公式为:

(4.28)第四节离散程度的测度式中,、分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。三、定类数据离散趋势的测度——异众比率异众比率(variationratio)是指非众数组的频数占总频数的比率,称为异众比率,用表示。异众比率的计算公式为:式中:为变量值的总频数;为众数组的频数

异众比率的作用是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。异众比率主要用于测度分类数据的离散程度,当然,对于顺序数据也可以计算异众比率。(4.29)四、定序数据离散趋势的测度——四分位差四分位差是在数列中剔除最大和最小各四分之一的数据,是第一和第三个四分位数之间距离的二分之一,表明中位数到这两个四分位数的平均距离,是说明中位数代表性高低的测量值。四分位差的计算公式为:(4.30)四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。五、数值型数据——方差和标准差(一)平均差(Meandeviation)平均差是各变量值与其算术平均数离差绝对值的平均数,用表示。根据掌握资料的不同,平均差有以下两种计算方法:1.简单平均法对于未分组资料,采用简单平均法。其计算公式为:2.加权平均法在资料分组的情况下,应采用加权平均式:(4.31)(4.32)(二)方差和标准差(Variance、Standarddeviation)

方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。1.总体的方差和标准差总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数

设总体的方差为,标准差为,对于a.未分组整理的原始资料,方差和标准差的计算公式分别为:

(4.33)

(4.34)b.对于分组数据,方差和标准差的计算公式分别为:2.样本的方差和标准差样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。(4.35)

(4.36)设样本的方差为,标准差为s,对于a.未分组整理的原始资料,方差和标准差的计算公式为:b.对于分组数据,方差和标准差的计算公式为:(4.37)(4.38)(4.39)

(4.40)六、相对离散程度:离散系数离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:

(4.41)

(4.42)一、偏态的度量偏态是对分布偏斜方向及程度的度量。要度量分布偏斜的程度,就需要计算偏态系数了。(一)由算术平均数与众数之间的关系求偏态系数任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。用其二者的差量除以标准差,即可求得偏态系数,计算公式为:(4.43)第五节数据分布偏度与峰度的测定当时,,大体表明频数分布是对称的;当>时,>0,表明频数分布右偏,偏态系数越大,表明右偏程度越大;若<,<0,表明频数分布左偏,偏态系数越小,表示左偏程度越大。(二)动差法动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。一般地说,取变量的值为中点,所有变量值与之差的次方的平均数称为变量关于的阶动差。用式子表示即为:

当时即变量以原点为中心,上式称为K阶原点动差,用大写英文字母M表示。一阶原点动差:,即算术平均数二阶原点动差:,即平方平均数三阶原点动差:,等等。当即变量以算术平均数为中心,上式称为K阶中心动差,用小写英文字母m表示。一阶中心动差:二阶中心动差:三阶中心动差:等等需要注意的是,计算各阶原点动差和各阶中心动差,如果依据的资料是分组资料,则应用各组的频数或频率加权平均。由于中心动差计算起来比较繁杂,而计算原点动差相对比较简单,通常多从原点动差来推算中心动差。只要展开中心动差的各项,就容易求得它与原点动差的关系。等等。采用动差法计算偏态系数是用变量的三阶中心动差与进行对比,计算公式为:

(4.44)当分布对称时,变量的三阶中心动差,由于离差三次方后正负相互抵消而取得0值,则;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶心动差,当为正值时,表示正偏离差值比负偏离差值要大,可以判断为正偏或右偏;反之,当为负值时,表示负偏离差值比正偏离差值要大,可以判断为负偏或左偏。越大,表示偏斜的程度就越大。由于三阶中心动差含有计量单位,为消除计量单位的影响,就用去除使其转化为相对数。同样的,的绝对值越大,表示偏斜的程度就越大。4-14案例:表4-14某地区农民家庭人均收入数据偏态计算表注:表中为各组户数在总户数中所占比重,即频率。根据表4-7数据计算得:将计算结果代入(4.5.1)式得:从计算结果可以看出,偏态系数为正值,而且数值较大,说明该地区农民家庭人均收入的分布为右偏分布,即人均收入较少的家庭占据多数,而人均收入较高的家庭则占少数,而且偏斜的程度较大。二、峰度的度量峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下:分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系,是方差,于是就以四阶中心动差来度量分布曲线的尖峭程度。是个绝对数,含有计量单位,为消除计量单位的影响,将除以就得到无量纲的相对数。衡量分布的集中程度或分布曲线的尖峭程度往往是以正态分布的峰度作为比较标准的。在正态分布条件下,=3,将各种不同分布的尖峭程度与正态分布比较,即减3,就得峰度β的测定公式。

(4.30)当峰度β>0时,表示分布的形状比正态分布更瘦更高,这意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图4.4(a);β=0时,分布为正态分布;β<0,表示分布比正态分布更矮更胖,意味着分布比正态分布更分散,这样的分布称为平峰分布如图4.4(b)。频数频数(a)尖峰分布(b)平峰分布图4.4尖峰分布与平峰分布示意图[例4.18]根据例4-7中的数据,计算农民家庭人均收入分布的峰度系数。根据表4-7的计算结果得:表4-7某地区农民家庭收入资料

由于>0,说明该地区农民家庭人均收入的分布为尖峰分布,说明低收入家庭占有较大的比重。一、未分组数据统计指标计算根据例4.1中提供的某班级40名同学统计学的考试成绩原始资料(表4-1),利用EXCEL计算下列指标:(1)描述集中趋势的统计指标:算术平均数、中位数、众数;(2)描述离散趋势的统计指标:极差、方差、标准差、离散系数;(3)描述形态分布的统计指标:偏度系数、峰度系数。第四节EXCEL在统计指标计算中的应用表4-140名同学统计学原始成绩解:(1)输入数据:把40名学生的考试成绩资料输入工作表A2:B41单元格,在A1中输“序号”,在B1中输入“成绩”。(2)利用“描述统计”工具计算描述统计指标第一步:调用“描述统计”工具。在“数据”单击“数据分析”命令,打开“分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论