统计学-第3章--数据分布特征描述.ppt_第1页
统计学-第3章--数据分布特征描述.ppt_第2页
统计学-第3章--数据分布特征描述.ppt_第3页
统计学-第3章--数据分布特征描述.ppt_第4页
统计学-第3章--数据分布特征描述.ppt_第5页
免费预览已结束,剩余77页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

以数值特征,对统计数据分布进行量化描述。主要包括三方面:集中趋势用平均指标描述(位置特征);离中趋势用变异指标描述(离散特征);偏斜程度用偏度和峰度描述(偏斜特征、峰度特征)。,本章学习任务,学习要求:理解测度统计数据集中趋势、离散程度的概念、指标、相互关系;掌握主要分析指标的计算方法和应用场合,并能熟练进行相关计算分析。,数据分布特征与测度:概览,第一节统计变量集中趋势测定,一集中趋势指标及作用,二数值平均数,三众数与中位数(位置平均数),一、集中趋势指标及作用,集中趋势(Centraltendency)集中趋势即一组数据向其中心值聚集或靠拢的倾向和程度。用平均指标表示,代表数据的一般水平。测定集中趋势是认识数据分布特征的基本内容。,集中趋势指标有两类:数值平均数根据全部数据计算得到的代表值。优点:数学性质良好,可用于统计推断缺点:易受极端值影响。主要有算术平均数、调和平均数及几何平均数,三者均为幂平均数特例。,位置平均数根据对总体中处于特定位置的单个或部分单位标志值直接观察或推算确定的代表值。优点:不易受极端值影响,具有较好稳健性。缺点:不宜用作统计推断。主要包括众数和中位数。,集中趋势指标作用1反映变量分布的集中趋势和一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2比较同一现象在不同空间或不同阶段的发展水平,反映现象变化特征、趋势和规律性。能消除总体规模差异造成的不利影响;在一定程度上减弱偶然因素的影响。,一、集中趋势指标及作用,3分析现象之间的依存关系。如研究劳动者文化程度与收入的关系。4(数值)平均指标是推断统计中的重要统计量,是进行统计推断的基础。,几种常见的位置特征数,数据分布的位置特征数实际上也是数据的代表值,代表了数据的一般水平。在不同场合,可以适当选用平均数、中位数、众数充当位置特征数(代表值)其中平均数不同于中位数、众数的特点在于:平均数是由所研究的全体数据参加计算所得。平均数的一般形式叫做幂平均数。常见的有算术平均数、几何平均数、调和平均数。,二、数值平均数,(一)幂平均数幂,power变量X取N个值:。权数为一组正数:。加权幂平均数一般形式为:其中,k为任意实数。,权数w均相等时,加权平均数退化为简单平均数:,特例情况,k=1:算术平均数加权简单,k=-1:调和平均数加权简单,k0:几何平均数加权简单,关于加权问题权数确定方式:客观权数:权数由实际统计资料获得或推算。主观权数:根据研究问题,由研究者主观赋值。权数作用:权衡变量的各种取值在计算平均数时的重要性。权数作用,根本上是通过权数结构实现。,权数作用:即使不改变被平均的数值,仅改变权数结构,即可改变平均数水平。例如,改变教师职称结构,而不改变各种职称教师课时费标准,会改变平均课时费水平。权数实质权数的实质在于其结构,即结构比例形式(比重权数)。其更能清晰表明权数之权衡轻重的作用。,权数形式有2种:绝对数形式结构比例形式,(二)算术平均数算术平均数(Arithmeticmean),也称均值(mean)。由一组数据的总和(总体标志总量)除以该组数据的项数(总体单位总量)得到;算术平均数=总体标志总量/总体单位总量是最常用的数值平均数;根据掌握资料不同,其有多种计算公式。,1简单算术平均数对未分组数据,采用简单算术平均数公式。即把各项数据直接加总,然后除以总项数。计算公式:,举例,解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁),分组数据不能简单平均!因为各组变量值的次数(权数)不等!若采用简单平均:,应采用加权平均。两种计算公式结果相同!,2加权算术平均数对单项式分组资料,应以各标志值出现次数为权数加权平均。加权算术平均数计算公式:例3-1单项式分组资料(表3-2)计算方法为:,3由组距分组资料计算组距分组资料中,各组变量值不唯一,是一个区间;计算时,各组变量值通常用组中值(近似)代表;用组中值代替实际值,其假定条件是各组内数据呈均匀分布或对称分布。由于实际情况中该条件未必满足,故计算结果是近似值;与单项式分组资料一样,采用加权算术平均数计算。,举例,解:平均使用寿命为,4比率类型统计变量求平均数(1)比率类型统计变量,指平均指标和相对指标。(2)对比率类型变量求平均,涉及个体比率和总比率两个概念。(3)对比率类型变量计算平均数,基本要求是:比率类型变量平均值M,等于个体比率的总比率。简言之:先求和,再对比。(4)根据掌握资料不同,可采用三种等价形式:总比率,加权算术平均,加权调和平均,例如:对相对数求算术平均数对相对数而言,由于各个相对数的对比基础不同,采用简单算术平均不合理,必须加权平均。权数选择必须符合该相对数本身的计算公式,通常为该相对数的分母指标。对表3-4的分组资料:其中,分母b为权数f,又如:对平均数求算术平均数某商贸公司购入一批水果,分等级收购价格和收购金额如下表。试求这批水果的平均收购价格。解:,5算术平均数主要数学性质(1)算术平均数与变量值个数乘积,等于各变量值总和。(2)各变量值与算术平均数的离差之总和,等于零。(3)各变量值与算术平均数的离差平方之总和最小。(从全部数据看,算术平均数最接近所有变量值),性质(3)证明:,(三)调和平均数(Harmonicmean)调和平均数,也称倒数平均数。各变量值倒数(1/xi)的算术平均数的倒数。计算公式为:,社会经济统计中所应用的调和平均数,通常是加权算术平均数的变形。已知各组变量值xi和(xifi)而缺乏fi时,加权算术平均数通常可变形为调和平均数形式来计算。回忆3-4求解:,(四)几何平均数(Geometricmean)简单几何平均数n个变量值连乘积的n次方根。加权几何平均数适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的平均发展速度(第九章);也适用于对某些具有环比性质的比率求平均(下例)。,举例,例3-5。某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求平均合格率应为:,(五)几种平均数大小关系对同一批数据和权数,三种平均数关系:调和平均几何平均算术平均当且仅当所有观察值全部相等时,等号成立;否则不等式严格成立。证明思路:首先证明幂平均数随幂值k单调递增变化(可由微分方法证明)。根据三类平均数k取值关系,调和平均数(k=-1)、几何平均数(k0)、算术平均数(k=1)可得到以上结论。,平均数的应用场合,常见的应用场合有:作为统计指标的一种表现形式作为统计总体分布的位置特征数反映一个统计变量所有观察值的一般水平抵消掉随机试验中的偶然因素影响,显示出试验的规律性水平。,数据是随机试验的结果。随机试验的个别结果会呈现出或高或低的起伏波动,实际上这是由偶然因素影响造成的。在进行大量重复试验,将试验结果简单算术平均,那么随着试验次数的增加,算术平均值就会越来越逼近一个稳定值,而这个稳定值就是试验的规律性水平(数学期望值)。因此,在统计分析中,常常采用算术平均的手法去抵消现象中的偶然影响,以期近似地认识现象的规律性水平。,三、众数与中位数,(一)众数(Mode)众数是一组数据中出现频数最多、频率最高的变量值,常用Mo表示。众数代表最常见、最普遍的状况,可度量现象集中趋势。可测度定性变量集中趋势,也可度量定量变量集中趋势。在社会经济现象的管理决策中具有广泛应用。,对分布数列求众数,具有条件性。存在性:若分布数列没有明显集中趋势,则不存在众数;唯一性:若分布数列有多个相对集中趋势,则有多个众数。从分布曲线上看,众数就是一个变量分布曲线的最高峰所对应的变量值。(见课本55页图3-1)为确定众数,通常要编制分布数列。众数是分布曲线最高点对应的标志值。单项式分布数列中,众数是具有最多次数的标志值,可观察得到。如表3-2中,众数值Mo25,组距式分布数列中,众数需要推算。,组距分布数列中,众数推算方法:先找到众数组。等距数列中,众数组是频数最多的组;异距数列中,众数组是频数密度最大的组。根据众数组与其相邻两组的次数差推算(假定性)。其公式有2,结果完全一致:具体计算:见教材例3-7(P55),(二)中位数(Median)中位数是将数据由小到大排列后位置居中的数值。标志值小于或等于中位数的单位占一半;标志值大于或等于中位数的单位也占一半。用中位数代表总体标志值的一般水平,可以避免极端值影响,有时更具代表性。,未分组数据计算中位数若数据项数是奇数,则位于中间的数值为中位数;如5人收入为:1200,1450,1500,1600,2000元,则其收入中位数Me=1500。若数据项数是偶数,则取居中两个数值的平均数为中位数。如6人收入为:1200,1450,1500,1600,1800,2000元,则收入中位数Me=1550。,分组数据推算中位数先确定中位数组,即中间位置(f/2)所在的组。对单项式分组,可直接得到中位数。对组距式分组,假定中位数组内次数均匀分布,近似推算中位数。计算公式有2,结果完全一致:,下限公式上限公式,分组数据推算中位数先确定中位数组,即中间位置(f/2)所在的组。对单项式分组,可直接得到中位数。对组距式分组,假定中位数组内次数均匀分布,近似推算中位数。计算公式有2,结果完全一致。见下例:,下限公式:,上限公式:,可由累计分布数列或累计分布图确定中位数。以累计频率分布曲线图为例(该例与前面直方图数据一致)此例中,与累计频率50%相对应的成绩76分,即为中位数。,向上累计图:60分以下有16.7%,向下累计图:80分以上有38.9%,中位数与分位数四分位数、十分位数、百分位数分别是将数据由小到大排序后,位于全部数据1/4、1/10、1/100位置上的数值。中位数实际上是第2个四分位数、第5个十分位数、第50个百分位数。分位数与其它指标结合,可以更详细地反映数据分布特征。中位数使用场合与作用在较明显的偏斜分布情形下,用中位数来说明次数分布位置特征较为适中。因为众数忽略了偏斜一侧的大量数值,而算术平均数又过分强调了这些数值。算术平均数对特异值的反应十分灵敏,而中位数对特异值反应不灵敏。常常把中位数(与算术平均数的差异大小)作为探索发现特异值的标准。,箱线图(boxplot)箱线图由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可进行多组数据分布的比较。,(三)众数、中位数和算术平均数比较0.三者均测度数据的集中趋势和一般水平。1.算术平均数属于数值平均数,其综合利用全部数据信息;众数和中位数则由数据分布的特定位置确定。2.算术平均数和中位数在任何一组数据中都存在,且具有惟一性;众数则不然,其计算和应用有两个前提条件:数据项数众多,且具有明显的集中趋势。,3.算术平均数只能用于定量(数值型)数据;中位数适用于定序数据和定量数据;众数适用于所有形式(各种类型及计量层次)的数据。4.算术平均数受数据极端值影响,而众数和中位数都不受极端值的影响。为排除极端值干扰,可计算切尾均值,即去掉数据中最大和最小的若干数值后计算的均值。该思路常用于某些比赛计分规则中,如体操、跳水等。切尾均值是将算术平均数与中位数互相结合的结果。,5.算术平均数可用于推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。6.算术平均数和众数、中位数的数量关系,取决于数据分布的偏斜程度。对单峰钟形分布而言,三者数量大小有如下关系:,据例3-2,3-7,3-8结果,表3-3的灯泡寿命数据服从右偏分布。,皮尔逊(K.Pearson)经验公式:在轻微偏态时,三者的近似关系为,第二节统计变量离散程度测定,一、离散程度指标及其作用二、极差、四分位差和平均差三、方差和标准差四、离散系数五、异众比率,一、离散程度指标及作用,测度离散程度的指标,称为变异指标,分为两类:绝对数:极差、四分位差、平均差、方差和标准差。相对数:离散系数、异众比率。离散程度指标作用:1.说明数据分散程度,反映变量的稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。2.衡量平均数的代表性。离散程度越大,平均数的代表性就越小。3.统计推断的重要依据判别统计推断前提条件是否成立;衡量推断效果好坏的重要尺度。,二、极差、四分位差和平均差,(一)极差(Range)极差(极值之差)是一组数据的最大值与最小值之差,常用R表示。对总体数据而言,极差能界定变量变化范围与幅度大小,也称全距。组距数列中,极差最高组上限-最低组下限。优缺点:优点:计算简便、含义直观、容易理解。缺点:代表性差、稳健性差(仅利用尾端信息,未考虑数据中间分布情况,不能充分说明全部数据的差异程度)。,(二)四分位差第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为:实质是两端各去掉1/4数据以后的极差,表示占全部数据一半的中间数据的离散程度。四分位差越大,表示数据离散程度越大。在一定程度上改进极差,避免了极端值干扰。但对数据差异的反映,仍然不充分。使用场合:当用中位数测度数据集中趋势时,使用四分位差反映离散程度效果最好(匹配性)。,(三)平均差(AverageDeviation)定义:平均差是各数据与其均值(算术平均数)的离差绝对值的算术平均数。反映全部数据与其均值的平均差距,以A.D表示。计算公式:优缺点:含义清晰,能全面反映数据离散程度。取离差绝对值进行平均,数学处理不方便,数学性质也非最优。,三、方差和标准差,(一)方差(Variance)概念和计算方差是全部数据与其均值的离差平方的算术平均数.总体方差(2)计算公式:样本方差(常用S2表示)分母应改为(n-1)。只有如此,才能保证s2是2的无偏估计量。,标准差(standardDeviation):方差的算术平方根。总体标准差一般用表示。计算公式为:未分组数据:样本标准差(S),分母应为(n-1)。特点:方差和标准差均利用全部数据计算,能全面反映数据离散程度;且其灵敏性通常高于平均差。标准差比方差更容易理解(计量单位与均值一致)。在社会经济现象的统计分析中,标准差比方差应用普遍,经常被用作测度数据与均值差距的标准尺度。,分组数据:,例3-9,计算平均差、方差、标准差由例3-2,已知该组数据算术平均数为1542。,(二)方差主要数学性质常数方差等于零。如a为常数,则变量线性函数的方差,等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有:分组条件下,总体方差可以分解为组间方差与各组方差平均数之和。(该结论可用于第六章方差分析),(三)标准化值(Z-score)对于两组数据,如果其均值和标准差均有明显差异,则往往不能直接对比。需要首先将其转化为可比的数据。通常可以对其进行无量纲化处理,得到标准化值,也称为Z值。标准化值,实际是将不同均值和标准差的总体转换为均值为0、标准差为1的总体,将原始数据转换为其在总体中的相对位置。标准化值比较具有相对意义,没有绝对意义。,例3-10,假定某班学生先后两次进行难度不同的综合考试。第一次考试成绩的均值和标准差分别为80分和10分,第二次考试成绩的均值和标准差分别为70分和7分。某同学第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?解:由于两次考试成绩的均值和标准差不同,该学生两次考试的成绩不宜直接比较。直接比较,第一次成绩更好;利用标准化值比较,表明第二次考试成绩更好一些。,(四)对称钟形分布的3法则3法则关于对称钟形分布的近似经验法则:变量值落在-3,+3范围以外的情况极为少见。通常将落在区间-3,+3之外的数据,称为异常数据或离群点。,正态分布,四、离散系数,绝对值变异指标有计量单位。其数值大小不仅取决于数据离散程度,还受数据本身水平高低和计量单位的影响。对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用绝对值变异指标分析;否则,须利用离散系数比较其离散程度。例如,哪个变量差异较大:体重,还是身高?例如,那组人群体重差异较大:成人,还是婴儿?成人:平均体重=70kg,标准差=5kg婴儿:5kg,1kg,例:观察7个人的体重和身高如下:,体重(公斤)xi:62,67,65,69,70,73,74身高(厘米)yi:165,166,168,170,174,178,180判断体重与身高哪个离散较为严重。注:两组计量单位不同,不能用极差、平均差、标准差等绝对离散特征数直接进行比较。适合采用离散系数比较。,离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数形式表示变异程度。将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是以标准差计算的,称为标准差系数:离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦反。,五、异众比率,异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数对一组数据一般水平的代表性。其值越小,数据集中程度越高,众数代表性越大;反之,亦反。其既可用于定量变量,也可用于定性变量。,第三节变量分布的偏度与峰度,一、矩(动差)二、偏度三、峰度要全面了解数据的分布特点,还要知道数据偏斜状况以及尖峭程度,分别由偏度和峰度来反映。与均值和方差一样,均为矩的特例。,一、矩(动差),矩(动差)一系列刻画数据分布特征的指标的统称(该概念引自物理学)。变量值与数值a之离差的k次方的平均数,称为变量x关于a的k阶矩,即:,K阶原点矩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论