统计数据的描述度量.ppt_第1页
统计数据的描述度量.ppt_第2页
统计数据的描述度量.ppt_第3页
统计数据的描述度量.ppt_第4页
统计数据的描述度量.ppt_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第3章 统计数据的描述度量,本章主要介绍以下综合统计指标:,数据特征的描述,离中趋势,均值,中位数,众数,其他指标,区域,方差,标准差,变异系数,其他指标,偏度,峰度,集中趋势,分布形状,如何用少量数字来概括数据?,平均人数:1118.93 最大人数:3230 最小人数:148,除图表外,还可用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。 这些数字从样本数据中得来,是样本的函数。任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic)。样本的随机性决定统计量的随机性(统计量也是随机变量),统计量的作用: 估计总体参数。许多情况下,样本统计量的值反映了无法观测到的总体参数的大小 用来检验样本和假设的总体是否一致,注意:一些统计量前面有时加上“样本”二字,以区别于总体的同名参数 样本均值 总体均值 样本标准差 总体标准差,7,常用的集中趋势度量指标: 算术平均数 几何平均数 中位数 众数 四分位数,3.1 度量集中趋势的指标,8,(1)基本公式:,1.算术平均数,9,(1)简单算术平均数,(2)算术平均数的计算,n :总体单位总数; xi :第 i 个单位的标志值。,10,算术平均数的特征,统计特征: 算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的稳定数值,反映了数据集中的特征,11,数学特征: 1) 任一组数据的各项数值与其均值之差( 离差) 的代数和为零:,均值是各数值的重心 以平均值猜测所有的数值,所产生的误差最小,12,13,3)与众数和中位数相比,平均数受抽样的影响较小 某研究机构欲调查某地区人均寿命,从中抽取1个样本(100人),计算年龄平均数、众数和中位数。然后再抽取第2个样本,计算其年龄平均数、众数和中位数。多次抽取(如200次)就得到了200个平均数、众数和中位数。 平均数非常集中,中位数和众数的分布更分散。,14,4)K组资料,各组的项数和均值分别为( ), ( ),( ),则K组资料总平均数,记,则,15,(2)加权算术平均数,16,统计推断和统计分析几乎都离不开算术平均数: 用它作为一组资料集中趋势的测度量, 它是一组数据的重心, 是数据规律性的反映 它又是对所提供信息运用最充分的指标, 最灵敏, 最适合代数方法处理, 具有优良的数学性质. 算术平均数的主要局限:易受极值影响,17,使用 Excel 函数求算术平均数,利用 Excel“公式”-“其它函数”-“统计”中的AVERAGE 函数可以方便地计算出一组或多组数据的算术平均数。 语法规则: 格式:AVERAGE(,) 例:利用某汽车公司各销售点的销售数据,求平均销售量。,18,使用 Excel 函数求加权算术平均数,利用 Excel“数学和三角函数”中的SUMPRODUCT 函数可以方便地计算出分组数据的加权算术平均数。 语法规则: 格式:SUMPRODUCT(,)/ SUM(,) 例:利用某汽车公司各销售点分组频数分布数据,求各销售点的平均销售量。,19,2.几何平均数,当统计资料是各时期的发展速度等前后期的两两环比数据,要求每时期的平均发展速度时,就需要使用几何平均数。 几何平均数是 n 个数连乘积的 n 次方根。 (1) 简单几何平均数,(2) 加权几何平均数,f i 各比率出现的频数,20,几何平均数的主要用途: 对比率进行平均 测定生产或经济变量时间序列的平均增长率,当观测值中有一项为0或负值时,不宜计算几何平均数,21,例:某公司原料成本随时间增长的情况如下表,求原料成本的平均年增长率。 解一:,解二:,年平均增长率 = 1.0688 - 1 = 6.88%,22,(3)用 Excel 求几何平均数,Excel 中的 GEOMEAN 函数返回几何平均数。 语法规则: 格式:GEOMEAN(,),23,将总体各单位标志值按由小到大的顺序排列后,处于中间位置的标志值称为中位数,记为Me ,Med或Mdn。,3.中位数(median),24,中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。 5 笔付款:9元,10元,10元,11元,60元 均值= 20 元,不是一个很好的代表值, 中位数= 10 元,更能代表平均每笔的付款数。 若数据个数为偶数, 取中点位置的左右两个数值的平均数为中位数,25,(1) 用 Excel 的统计函数返回未分组数据的中位数,格式:MEDIAN(,) 功能:返回所有参数中数据的中位数。,26,(2)分组数据中位数的确定,分组数据的中位数要用插值法来估算。 (1)计算各组的累计频数Si; (2)确定中位数所在的组,即累计频数首次包含中位数位次(f /2)的组。,其中:L 中位数所在组的下限; Sm-1 中位数所在组前一组的累计频数; fm 中位数所在组的频数; d 中位数所在组的组距。,27,各组数据均匀分布在中位数组组界内的假定,是组距次数分配资料求中位数的特点。因此求得的中位数只是近似,在不适宜此假定的场合, 误差就会很大。为避免误差,应尽量采用原始数。,28,例:计算下表数据的中位数,解:f/2 = 27.5,中位数在“15-25”的组中,,29,中位数是位置平均数,不易受极端值的影响,是较稳健的集中趋势度量指标。因此, 许多国家的政府发布的个人所得和人口年龄的平均值,往往用中位数。 中位数的不足之处: 中位数的确定只与中间位置的1或2个数值有关,忽略了其他数值的大小,缺乏敏感性,且不适合代数运算。,30,4.众数(mode),众数是一组资料中出现次数最多的标志值,记为M o。 众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能一组数据存在多个众数。,31,在某些情况下,众数是一个较好的代表值: 服装行业中,生产商、批发商和零售商在进行生产和存货决策时; 当要了解大多数家庭的收入状况时。,32,(1) 未分组数据众数的确定,在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。 格式:MODE(,) 功能:返回所有参数中数据的众数。,33,(2) 分组数据众数的确定,对于分组数据的统计资料,众数也要用插值法来估算。 (1)确定众数所在的组 对于等距分组,众数组是频数最高的组; (2)使用以下插值公式计算,其中: L 众数组的下限 1 众数组与前一组的频数之差 2 众数组与后一组的频数之差 d 众数组的组距,34,例:计算下表数据的众数,解:众数组是“15-25”的组,则,35,优点:性质简单明了, 且不受极端值影响。 局限:没有利用所有观测值、缺乏敏感性和不适合代数运算,且众数有时不存在或不止一个。,36,一般而言, 遇到资料中有较多的数值向某一数值集中的情况,或者是资料按品质标志分组时,宜采用众数: 为掌握某日某集市上某种商品的价格水平, 用该日市场上该商品的最普遍成交价来代表该商品的价格水平, 这种价格就是众数; 若某班学生的统计学考试成绩有70%都是80分, 那么用80 这个众数就可以很好的说明该班学生的统计学考试成绩; 经济系教师的血型以A型居多,则以众数血型A作为集中趋势最恰当。,37,算术平均数、中位数和众数间的关系,2.频数分布为右偏态 时,众数小于中位数,算术平均数大于中位数。,3.频数分布为左偏态时,众数大于中位数,算术平均数小于中位数。,1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。,38,集中趋势计量的结论: 当数据分布为轻度偏态时,中位数位于均值众数之间,且与均值的距离大约为均值与众数距离的1/3,即 或 2)算术平均数适用于定距变量,中位数适用于定序变量,众数适用于定类变量,39,3) 算术平均数包含的信息是最多的、最丰富的,所有观测值与算术平均数之差的和等于0,所有观测值与算数平均数的平方和最小,在数学上容易计算。用算术平均数来猜测所有的数值,所产生的误差是最小的。 4)样本平均数在抽样中非常稳定,所以,它是总体均值的最佳估计。,40,习题,某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众数。,41,f/2=143/2=71.5,中位数所在组为“100150”的组,,众数组为“100150”的组,,上下四分位数(或分别称为第一四分位数和第三四分位数,first quantile, third quantile)则分别位于(按大小排列的)数据的上下四分之一的地方。,5.四分位数,上四分位数又称75百分位数(75 pecentile,有75的观测值小于它),下四分位数为25百分位数(25 pecentile,有25的观测值小于它)。 k百分位数(k-pecentile)意味着有k的观测值小于它。如果令a=k%,则k百分位数也称为a分位数(a-quantile)。,44,1. 集中趋势的测度值之一,2. 不受极端值的影响 3. 可用于定序数据,也可用于数值型数据,但不能用于定类数据,45,未分组数据:,分组数据:,四分位数位置的确定,计算结果为整数,四分位数等于那个整数位置上的数据,计算结果为小数,四分位数等于相邻两个有序数据的加权平均数,46,数值型未分组数据的四分位数 (7个数据),原始数据: 23 21 30 32 28 25 26 排 序: 21 23 25 26 28 30 32 位 置: 1 2 3 4 5 6 7,47,数值型未分组数据的四分位数(6个数据),原始数据: 23 21 30 28 25 26 排 序: 21 23 25 26 28 30 位 置: 1 2 3 4 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,48,49,50,使用Excel统计函数中的QUARTILE函数,在数据量很大的时候,可以使用Excel统计函数中的QUARTILE函数返回四分位数,语法规则如下: 格式:QUARTILE (数据集, 第nthquart分位数) 功能:返回不同nthquart的四分位数。,51,几个总体可以有相同的均值,但取值情况却可以相差很大。要分析总体的分布规律,还需要了解数据的离散程度或差异状况。,变异指标用来表示数据离散程度特征,主要有: 极差 平均差 四分位差 标准差 变异系数,3.2 度量离散程度的指标,52,【案例】道格拉斯公司应如何选择供应商,道森公司和克拉克公司是道格拉斯公司的两家供货商。两家供货商都表示大约需要10个工作日交付定货。下表是两家供应商定货交付时间的历史数据。今后道格拉斯公司应选择哪家供应商供货?,53,1.极差,极差也称全距,是一组数据的最大值和最小值之差,通常记为R,是最简单的变异指标。数据的差异越大,极差也越大。 优点:意义明确易懂,计算简单方便,广泛应用于产品质量管理中控制质量的差异。 局限性:仅考虑两个极端的数据,没有利用其余数据的信息,是一种较粗糙的变异指标。,54,2.平均差,平均差是各数据与其均值离差绝对值的算术平均数,通常记为A.D(Average Deviation) 未分组数据: 分组数据:,平均差越大,反映数据间的差异越大。,55,平均差充分考虑了每一个数值离中的情况,完整地反映了全部数值的分散程度,在反映离中趋势方面比较灵敏,计算方法也比较简单。 它的缺陷在于,由于它的敏感性,使得它易受极端值影响,特别是绝对值运算给数学处理带来很多不便,因而很少使用。,56,3.四分位差,(1) 离散程度的测度值之一 (2) 上四分位数与下四分位数之差的二分之一 QD = (QU QL)/2 (3) 反映了中间50%数据的离散程度 (4) 避免受极端值的影响,57,4.方差和标准差,方差和标准差是应用得最为广泛的变异指标。标准差是方差的算术平方根,也称均方差或根方差。 (注意总体方差、标准差与样本方差、标准差是有区别的。) (1)总体方差和总体标准差 总体方差是总体中各数据与其均值离差平方的均值,记为 2,总体标准差记为。,58,(2)样本方差与样本标准差,样本方差记为 S 2,样本标准差记为 S,在推断统计中,它们分别是总体方差和标准差的优良估计。,59,方差的简便计算:,61,未分组数据方差和标准差的计算,使用 Excel 的统计函数计算数据的方差和标准差 VARP(,) 功能:返回所有参数中数据的总体方差。 STDEVP(,) 功能:返回所有参数中数据的总体标准差。 VAR(,) 功能:返回所有参数中数据的样本方差。 STDEV(,) 功能:返回所有参数中数据的样本标准差。,62,Chebishev定理与经验法则,(1)Chebishev定理 对任何的一组数据, 观测值落于均值左右k个标准差的区间内的比例, 至少为,各种不同k值所对应的区间,例: 有一组关于顾客购物付账时等候时间的数据,已知等候时间的均值为4分钟,标准差为0.9分钟。 根据Chebishev定理, 当k=2时,至少有3/4或75%的观测值落在均值左右两个标准差的区间内,即420.9 区间内。即,等候时间介于2.2分钟至5.8分钟之间的顾客至少占75%。,(2)经验法则,当数据分布形状呈对称时, 有 (1 )约有68%的观测值落于 的区间内; (2 )约有95%的观测值落于 的区间内; (3 )约有97%的观测值落于 的区间内。 上例中顾客等候付账的时间是对称分配, 则有95%的顾客需等候2.25.8分钟。,65,5.变异系数 (Coefficient of Variance),比较不同总体的离散程度时,若使用的度量单位不同,或它们在数量级上相差很大,则用绝对数值表示的方差和标准差缺乏可比性,此时就应使用相对变异指标(变异系数)。 例如,对汽车发动机的汽缸而言,0.05毫米的标准差就很大了,但对建筑工程而言则可完全忽略不记。 相对变异指标中最重要的是标准差系数(又称为变异系数或离散系数),是标准差与均值之比,记为V 。,66,6.Z值,Z值等于数据与均值的差再除以标准差。Z值有助于定义极端值。Z值越大,数据远离均值的距离越大。其计算公式如下:,通常,Z值小于3.0或大于+3.0时,认为数据中含有极端值。,67,具有相同平均值和方差的数据,其分布形状就一样吗?,3.3 度量偏斜程度与峰度的指标,数 值 1 2 3 4 5 6 7 8 9 第一组的次数 1 2 0 2 3 0 4 0 1 第二组的次数 1 0 4 0 3 2 0 2 1,假设有两组数据资料如下, 其均值都是5 , 标准差都是2.287。,68,一、偏度(Skewness) 总体分布的特征不仅与均值和变异指标有关,而且与分布的偏斜程度有关,如对称分布、右偏分布和左偏分布。这种分布形态上的数量特征,往往具有重要的社会经济意义。偏度系数是度量偏斜程度的指标,主要有如下计算方法: (1)Pearson偏度系数 该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论