数据分布特征的描述.ppt_第1页
数据分布特征的描述.ppt_第2页
数据分布特征的描述.ppt_第3页
数据分布特征的描述.ppt_第4页
数据分布特征的描述.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章数据分布特征的描述,第一节分布集中趋势的测度 第二节分布离散趋势的测度 第三节分布偏态和峰度的测度 第四节统计图和统计表,第三章 数据分布特征的描述,对统计数据进行排序、分组、整理,是对数据的分布特征进行描述的一个基本方面,为进一步掌握数据分布特征及其变化规律,以进行深入的分析,还需找出反映数据分布特征的各个代表值。 统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。,排序 分组 整理 表述,统计数据,寻找 反映数据分布特征的代表值: 集中趋势;离散趋势,该项活动中,每月都有数据统计及分析以用来进行该项活动的调整与实施。 如:有一组关于病人进入“救助”活动的时间长度的数据: 67个样本:时间长度从1天到185天。,为了改善 频临死亡的病人 及其家庭的 生活质量,救 助 活 动,“服务队”: 医生 家庭健康保健员 社会工作者 受训志愿者,给予 病人及 家庭一些 指导 帮助,减轻由于 疾病、 分离等而 引起的 精神紧张,例:美国一家具有福利院性质的医院(Barnes Hospital)。,均值(mean):35.7天; 中位数(median):17天; 众数(Mode):1天 Interpretation: (1) the average time a patient stays in the Program is 35.7 days, or slightly over a month; (2)half of the patients are in the Program 17 days or less and half are in the Program 17 days or more; (3) many patients have a short day in the Program.,除了对该组数据进行频数方面的描述和分析外,下面的统计方法在描述数据分布特征及分析方面也很重要:,第一节 分布集中趋势的测度,集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。 一、均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。 1、简单算术平均 对样本:,其中n为样本数,对总体:,其中N为总体单位数,加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。 例1:一组大学班级人数规模的数据(5个班)如下:46、54、42、46、32 在未分组的情况下,其均值为:44。 如果分成如下组别:I:32,II:42,III:46、46,IV:54 则其均值为:,2、加权算术平均,其中Fi为权数,例2:(美国)一个关于大学生毕业后工作起薪的问卷调查: Table 1, Monthly Starting Salaries for a Sample of 12 College Graduates Graduates Monthly Graduates Monthly Graduates Monthly Salary($) Salary($) Salary($) 1 2350 5 2255 9 2440 2 2450 6 2210 10 2852 3 2550 7 2390 11 2428 4 2380 8 2630 12 2380,未分组时的算术平均值为:2440,注意: 均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。 如例2中,如果将月薪2825的最高值用10000代替,则均值为3038,算术均值具有如下性质:,(1)各变量值与其均值的离差和为零:,(2)各变量值与其均值的离差平方和最小:,(1)几何平均数是N个变量值乘积的N次方根:,2、几何平均数,上述班级人数规模例中,几何平均数为:43.37 可看出:几何平均数 算术平均数。,(2)加权几何平均数:,其中Fi为Xi的权数。,几何平均主要用于计算比率或速度的平均。 例3:某水泥生产企业1995年产水泥100万吨,1996、1997、1998年的水泥产量分别上一年增长9%、16%与20%,则19961998年的年均增长率为:,几何平均数的对数是各变量值对数的算术平均:,假设同一 Xi的个数有Mi个,且,3、调和平均数,调和平均数,是各数据倒数的(简单)算术平均数的倒数:,则上式可写成如下加权的形式:,例4,某农贸市场某日鸡蛋价格及销售额资料如下表所示,试求其鸡蛋的平均售价。 鸡蛋种类 价格(元/KG) 销售额(元) A 7.6 15200 B 8.0 8000 C 8.2 4100,鸡蛋的平均价格等于销售总额除以销售量:,二、中位数(Median),中位数是一组数据按大小排序后,处于中间位置上的变量值。 1、 对于未分组数据: (1)如果数据个数为奇数,则中位数恰为处于中间位置的数:,(2)如果数据个数为偶数,则为中间位置两个数的平均数,大学毕业生起薪例中:按升序排出的12个统计数为: 2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825,班级规模例中:按升序排出的5个统计数为: 32、42、46、46、54,则中位数为:46,则中位数为:,由于均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时用中位数代替均值则更有意义。 如,在大学生毕业工作起薪的例中,如果原统计数中最高薪金由2825换为10000,则得到平均薪金为3038的结论,显然与其他11位均在2000多的薪水水平不符,但这时若用中位数2405,显然更具代表意义。,注意:,首先需确定中位数所在的组,然后可根据下列公式计算中位数: 下限公式:,2、对于分组后的数据:,式中:m为中位数所在的组,d为该组组距, L、U分别为该组的下限值与上限值, fm为该组的频数, Sm-1 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 显然,上限公式:,例4,某班级英语考试成绩分组情况见下表: 成绩分组 人数 累计人数 成绩分组 人数 累计人数 (分) (分) 50以下 2 2 7080 18 35 5060 5 7 8090 9 44 6070 10 17 90以上 6 50,从成绩由低往高排,中位数所在组应在第4组,即7080的组, 由于L=70,U=80,d=10,而 Sm-1=2+5+10=17, Sm+1=9+6=15, fm=18,故,班级人数规模的例中,按例中分组情况,则中位数为:,或,或,众数是一组数据中出现次数最多的变量值。 在班级规模的例中,众数为46; 在大学毕业生工作起薪的例中,众数为2380。 在分组数据中,众数可按下式计算: 下限公式:,三、众数(Mode),式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, fm-1与fm+1分别为第m-1组与m+1组的频数, L、U分别为第m组的下限与上限值, d为该组组距。,上限公式:,在班级规模的例中,若按例中给出的分组情况,则该组数据的众数为:,在学生英语成绩例中,次数最多的组也在7080组中,则有 fm=18, fm-1=10, fm+1=9,,或,或,例如在前面购买五类不同品牌 计算机的统计中,曾得到如右表所示 的频数分布表。,注意:,1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。 2、对描述品质数据的分布特征的“位置”测度只能用众数。,Company Frequency Apple 13 Compaq 12 Gateway2000 5 IBM 9 Packard Bell 11,显然,众数,即个人购买最多的机算机品牌是Apple。在这类数据中,“均值”与“中位数”是没有任何意义的。“众数”提供了频数最高的个人电脑购买品牌。,1、如果数据具有单一众数,且分布是对称的,则众数Mo、 中位数Me 与均值 相等,即 ;,四、中位数、众数与算术平均数的关系,3、在偏斜度适度的情况下,不论是左偏还是右偏,中位数与算术平均数之差约等于众数与算术平均数之差的1/3,即有如下经验公式:,当分布右偏时(说明存在极端大的值),2、对于非对称分布, 当分布左偏时(说明存在极端小的值),众数、中位数和均值都是对数据集中趋势的测度, 1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。 2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。 3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。 4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。 5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。,众数、中位数和均值的应用场合,第二节 分布离散程度的测度,对数据分布特征的另一个测度指标是数据分布离散程度。 它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 离中趋势反映各变量值之间的差异状况。 注意: 集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。 数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。,例:如果你是一家制造业公司的供应部门经理,与两家原材料供应商联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都是大约10天,但他们供货所需天数的分布情况却是不同的(图)。,问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你更愿意选择哪家供货商供货呢?,极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差: Range=Largest Value - Smallest Value 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 注意: 1、极差易受极端值的影响; 2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。,一、极差(Range),方差是各变量值与其均值离差(deviation about the mean)平方的平均数。 (一)总体方差(Population Variance) 总体方差用2表示,二、方差(Variance),其中:Fi为第i组数据的频数 Xi为第i个数(未分组)或第i 组组中值(分组),(二)样本方差(Sample Variance),样本方差用S2表示,其中:fi为第i组数据的频数 xi为第i个数(未分组)或第i 组组中值(分组),例:在上述5个班组平均人员的例中,,若视5个班为样本,则,若视5个班为总体,则,对于分组后的数据,若视为总体:,若视为样本:,标准差:方差的平方根(正)。,在五个班级规模的例中: 若视5个班为总体,则标准差为7.15, 若视5个班为样本,则标准差为8。,总体标准差:,样本标准差:,三、标准差(Standard Deviation),均值,注意:,1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。 2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。 (标准差就是指数据“离散程度的测度值”距“均值”的距离)。,离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:,例:五个班级规模的例中, 若视为总体,离散系数为:7.15/44=0.16, 若视为样本,则离散系数为:8/44=0.182。,四、离散系数(Coefficient of Variation),注意:,1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度; 2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。,例5:某管理局抽查了其所属的8家企业,其产品销售额与销售利润数据如下表所示,试比较销售额与销售利润的离散程度。 企业编号 销售额 销售利润 企业编号 销售额 销售利润 (万元) (万元) (万元) (万元) X1 X2 X1 X2 1 170 8.1 5 480 26.5 2 220 12.5 6 650 40.0 3 390 18.0 7 950 64.0 4 430 22.0 8 1000 69.0,计算结果表明,产品销售额的离散程度小于销售利润的离散程度。,第三节 分布偏态与峰度的测度,偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。 平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。,一、偏态及其测度 测定偏态的方法主要有两种: (1)算术平均数与众数比较法, (2)动差法。,(一)算术平均数与众数比较法,完全对称分布:算术平均数、中位数、众数重合 非对称分布:三者相互分离, 算术平均数 中位数 众数,可用算术平均数与众数之间的距离作为测度偏态的一个尺度: 偏态 = 算术平均数 - 众数,这是偏态的绝对数,它以原有数据的单位为单位。,同样地,偏态绝对数不能用来比较不同数据组、不同计量单位数据的偏态程度,为了使不同数据组的偏态数值能相互比较,需计算偏态的相对数:,在计算偏态系数时,如果众数不易计算,可用中位数代替,在上述班级规模例子中,均值为44,众数为46,标准差为7.15,因此,偏态的相对值为,动差又称矩,可用来说明数据频数分布的特征。 一般地,取数据中的a点为中心点,所有数据与a之差的k次方的平均数:,称为数据X关于a的k阶动差(k阶矩)。,当,时,数据以算术平均数为中心,上式称为中心k阶动差(矩)。,统计学中常 以中心3阶动差(矩)来测度分布的偏态。,(二)动差法,当a=0时,即数据以原点为中心,上式称为原点k阶动差(矩),偏态是对分布偏斜方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论