统计学第4章数据分布特征的测度(第二版)1_第1页
统计学第4章数据分布特征的测度(第二版)1_第2页
统计学第4章数据分布特征的测度(第二版)1_第3页
统计学第4章数据分布特征的测度(第二版)1_第4页
统计学第4章数据分布特征的测度(第二版)1_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲:王光玲,欢迎学习统计学课程,统计学,第四章数据分布特征的测度济南大学经济学院王光玲,2020/5/1,3,客观现象数量表现,统计总体数量特征,统计研究的程序,统计研究目的,统计设计,推断分析描述分析,收集数据,整理数据,2020/5/1,4,本章相关内容,学习目标重点、难点教学内容参考资料,2020/5/1,5,学习目标,1.集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合5.偏态与峰态的测度方法6.用Excel计算描述统计量并进行分析,2020/5/1,6,重点、难点,重点:平均指标和变异指标的概念、种类、计算方法。尤其是加权算术平均指标和加权调和平均指标的计算、标准差和标准差系数的计算。难点:各综合指标的计算方法、适应条件及其关系。利用EXSEL进行统计处理。,2020/5/1,7,教学内容,利用图表展示数据,可以对数据分布的形状和特征有一个大致的了解。但要全面把握数据分布的特征,还要找到反映数据分布特征的各个代表值。数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。,2020/5/1,8,数据分布的特征,2020/5/1,9,数据分布特征的测度,2020/5/1,10,4.1集中趋势的测定4.2离散程度的测定4.3数据分布的偏态和峰度4.4用Excel计算描述统计量并进行分析本节将重点讨论数据分布特征各测度值的计算方法、特点及其应用场合。,教学内容,2020/5/1,11,4.1集中趋势的测定,4.1.1集中趋势的涵义4.1.2集中趋势的度量,2020/5/1,12,集中趋势(见P82),(Centraltendency),集中趋势,一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据水平的代表值或中心值;不同类型的数据用不同的集中趋势测度值;低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据。,2020/5/1,14,平均数/平均指标,用一个概括性的数值反映总体各单位数量表现的一般水平。计算平均数是统计分析中最常用的一种方法。在统计分析中,除了用平均数表现数据资料的集中趋势外,还常运用平均数进行静态和动态的对比分析,运用平均数分析现象之间的依存关系。平均数也是统计推断的一个非常重要的参数。平均数反映了变量分布的集中趋势,它是变量分布的重要特征值。,2020/5/1,15,表明同类社会经济现象在一定时间、地点条件下达到的一般水平,是总体内各单位某一数量标志的不同标志值的代表值。,平均数或平均指标,2020/5/1,16,可以反映现象总体的客观规定性,如计算平均年龄、平均成绩、平均工资、平均亩产量等;可以对比同类现象在不同的时间、地点和条件下的一般水平;可以分析现象之间的依存关系。,测定集中趋势的意义:,2020/5/1,17,集中趋势的度量(P82),2020/5/1,18,平均指标的种类及计算方法,根据数据的类型和特点选用不同的测度值来反映数据的集中趋势,均值,2020/5/1,19,数值型数据:平均数,2020/5/1,20,(一)算术平均数(mean)(见P82),1.也称为均值2.集中趋势的最常用测度值基本计算公式:,2020/5/1,21,3.一组数据的均衡点所在体现了数据的必然性特征4.易受极端值的影响5.有简单算术平均数和加权算术平均数之分6.根据总体数据计算的,称为总体平均数,记为;根据样本数据计算的,称为样本平均数,记为x,(一)算术平均数(mean)(见P82),1.简单算术平均数(Simplemean)计算公式,设一组数据为:x1,x2,xn(总体数据XN),样本平均数,总体平均数,2.加权算术平均数(Weightedmean)计算公式,设各组的变量值(组中值)为:x1,x2,xk相应的频数为:f1,f2,fk,样本加权平均数,总体加权平均数,2.加权算术平均数(Weightedmean)(例题分析),【例4-2】某汽车配件厂有40名工人,他们每人每日加工的某种零件数,编制成单项数列资料如下表,计算40名工人平均每人每日加工零件数。,(件/人),某汽车配件厂工人每人每日加工某种零件情况,【例4-】已知某储蓄所为120个企业的贷款情况见下表,求该储蓄所平均为每个企业提供的贷款额。,2.加权算术平均数(Weightedmean)(例题分析),某储蓄所贷款情况表,(万元),注意:加权算术平均数其数值的大小,不仅受各组变量值(xi)大小的影响,而且受各组变量值出现的频数(fi)大小的影响。(见P84)所谓权数的大小,有时并不是权数本身数值的大小,而是各组频数占总体单位数的比重(频率)。加权均值的公式可变形为:,2.加权算术平均数(Weightedmean)(权数对均值的影响),【例4-】某企业60名工人月工资分组情况如下表,试计算月平均工资.某企业60名工人月工资分组表,2.加权算术平均数(Weightedmean)(以频率为权数计算均值),当各组变量值出现的频数或频率相等,即当,.加权算术平均数与简单算术平均数的关系,或,时,权数的作用就消失了,这就意味着各组变量值对总平均的结果所起的作用是一样的,此时,加权算术平均数就等于简单算术平均数。,2020/5/1,29,1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.有简单调和平均数和加权调和平均数两种,(二)调和平均数(Harmonicmean)(见P86),2020/5/1,30,【例4-7】某种蔬菜的价格,甲集市4.5元/千克,乙集市4元/千克,丙集市5.5元/千克。若在三个集市各买1元,求蔬菜的平均价格。,1.简单调和平均数,2020/5/1,31,1.简单调和平均数,简单调和平均数又称倒数平均数。计算公式为:,2020/5/1,32,2.加权调和平均数,在上例中,如果在甲集市花费8元,乙集市花费10元,丙集市花费5元,购买这些蔬菜的平均价格是多少?,2020/5/1,33,2.加权调和平均数,设,则计算公式为:,原来只是计算时使用了不同的数据!,【例4-8】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格。,2.加权调和平均数(例题分析),2020/5/1,35,在实际应用平均数时,可掌握这样的原则:当平均数的分子资料未知时,采用加权算术平均数方法计算平均数;当分母资料未知时,采用加权调和平均数方法计算平均数。,(三)几何平均数(geometricmean)(见P87),1.n个变量值连乘积的n次方根2.适用于对比率数据的平均,而且各比率的乘积等于总的比率3.主要用于计算平均比率或平均速度,2020/5/1,37,(三)几何平均数(geometricmean)(计算公式),4.计算公式(1)简单几何平均数,2020/5/1,38,(2)加权几何平均数,(三)几何平均数(geometricmean)(计算公式),(三)几何平均数(geometricmean)(例题分析),【例4-9】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,几何平均:,【例4-10】某投资银行某笔投资的年利率是按复利计算的,若将过去25年的利率资料整理如下表所示的变量数列,求25年的平均年利率。投资年利率分组表,(三)几何平均数(geometricmean)(例题分析),用加权几何平均法求25年的平均本利率:,即25年的平均年利率为8.48%,(三)几何平均数(geometricmean)(例题分析),2020/5/1,42,练习题:P110第1、2、5、6题,2020/5/1,43,顺序数据:中位数和分位数,2020/5/1,44,(四)中位数(median)(见P90),1.排序后处于中间位置上的值,不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据各变量值与中位数的离差绝对值之和最小,即,(四)中位数(位置和数值的确定),中位数位置:,中位数:,(四)顺序数据的中位数(例题分析),解:中位数的位置为(300+1)/2150.5从累计频数看,中位数在“一般”这一组别中中位数为Me=一般,【例4-13】,(四)数值型数据的中位数(9个数据的算例),【例4-14】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数=1080,(四)数值型数据的中位数(10个数据的算例),【例4-15】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,【例4-16】某企业某日工人的日产量资料如下:,计算该企业该日全部工人日产量的中位数。,(四)数值型数据的中位数(单值数列),中位数的位次:,【例4-17】某车间50名工人月产量的资料如下:,计算该车间工人月产量的中位数。,(四)数值型数据的中位数(组距数列),先根据公式确定中位数的位置,并确定中位数所在的组,2020/5/1,51,同理,中位数上限公式:,2020/5/1,52,(五)四分位数(Quartile)(P91),一组数据排序后处于25%和75%位置上的值,称为四分位数或四分位点。,四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此,通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。,根据未分组资料计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。,2020/5/1,53,设下四分位数为,上四分位数为,未分组的原始数据,各四分位数的位置为:,当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四分位数两侧数值的差值。,【例4-18】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),15007507801080850960200012501630,计算人均月收入的四分位数。,解:,和之间包含了50%的数据,因此,我们可以说有一半的家庭人均月收入在815元1565元之间。,数据排序:75078085096010801250150016302000,(五)顺序数据的四分位数(例题分析),(五)顺序数据的四分位数(例题分析),解:QL位置=(300)/4=75QU位置=(3300)/4=225从累计频数看,QL在“不满意”这一组别中QU在“一般”这一组别中四分位数为:QL=不满意QU=一般,【例4-19】,2020/5/1,56,分类数据:众数,2020/5/1,57,(六)众数(mode)(见P88),1.一组数据中出现次数最多的变量值,记作2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据,2020/5/1,58,(六)众数(不惟一性),无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,(六)分类数据的众数(例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即Mo可口可乐,【例4-21】,(六)顺序数据的众数(例题分析),解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo不满意,【例4-22】,【例4-23】已知某企业某日工人的日产量资料如下:,(单值数列),计算该企业该日全部工人日产量的众数。,(六)数值型数据的众数(例题分析),(六)数值型分组数据的众数(组距数列),1.众数的值与相邻两组频数的分布有关,4.该公式假定众数组的频数在众数组内均匀分布,2.相邻两组的频数相等时,众数组的组中值即为众数,3.相邻两组的频数不相等时,众数采用下列近似公式计算,下限公式:,上限公式:,式中:表示众数所在组的下限;表示众数所在组的上限;表示众数所在组的组距。,数值型数据的众数(例题分析),(组距数列),【例4-24】某车间50名工人月产量的资料如下:,计算该车间工人月产量的众数。,当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。,众数的原理及应用,众数、中位数和平均数的比较,众数、中位数和平均数的关系,2020/5/1,68,众数、中位数、平均数的特点和应用,众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时应用中位数不受极端值影响数据分布偏斜程度较大时应用平均数易受极端值影响数学性质优良数据对称分布或接近对称分布时应用,2020/5/1,69,4.2离中趋势的测定,4.2.1离中趋势(也称离散程度)的涵义4.2.2标志变异指标的种类及计算,2020/5/1,70,离中趋势,离中趋势(见P93),数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度,即总体中各单位标志值背离分布中心的规模或程度)从另一个侧面说明了集中趋势测度值的代表程度(变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大。)不同类型的数据有不同的离散程度测度值,2020/5/1,72,离散程度的度量,离散程度测度值的类型,分类数据,异众比率,顺序数据,四分位差,数值型数据,方差和标准差,相对位置的测量,标准分数,经验法则,切比雪夫不等式,相对离散程度,离散系数,数据类型,测量指标,2020/5/1,74,分类数据:异众比率(见P93),异众比率(variationratio),作用:它是衡量众数对一组数据的代表性程度的指标。异众比率越大,说明非众数组的频数占总频数的比重就越大,众数的代表性就越差;反之,异众比率越小,众数的代表性就越好。,计算公式:,概念:非众数组的频数占总频数的比率,用表示。,解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,【例4-26】,2020/5/1,77,【例4-27】,为研究广告市场的状况,一家广告公司在某城市随机抽取200人就城市居民比较关心的哪一类广告进行了邮寄问卷调查。调查数据经分类整理后形成频数分布表如下,试计算异众比率。,2020/5/1,78,顺序数据:四分位差(见P94),作用:1、四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。2、由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。,公式:,解:QL位置=(300)/4=75QU位置=(3300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为:QL=不满意QU=一般,组距分组数据,四分位差【例4-29】,解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知QL=不满意=2QU=一般=3四分位差:Qd=QU-QL=32=1,四分位差【例4-29】,2020/5/1,82,数值型数据:方差和标准差(常用标志变异指标),测定标志变异度的绝对量指标(与原变量值名数相同),测定标志变异度的相对量指标(表现为无名数),全距,平均差,标准差,全距系数,平均差系数,标准差系数,标志变异指标的种类,(一)全距(range),又称极差(P94),1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布,准确程度差,计算公式为,最大变量值或最高组上限或开口组假定上限,最小变量值或最低组下限或开口组假定下限,2020/5/1,85,(一)极差(例题分析),【例4-31】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度计划完成程度的全距。,(二)平均差(meandeviation)(见P95),1.各变量值与其平均数离差绝对值的平均数2.能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,(二)平均差(meandeviation)(例题分析)【例4-32】,2020/5/1,89,(二)平均差(例题分析),含义:每一天的销售量与平均数相比,平均相差17台,(三)方差和标准差(varianceandstandarddeviation),1)数据离散程度的最常用测度值2)反映了各变量值与均值的平均差异3)根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s),1.样本方差和标准差(P97)(samplevarianceandstandarddeviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,1.样本标准差(例题分析)【例4-33】,含义:每一天的销售量与平均数相比,平均相差21.58台,1.样本标准差(例题分析),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,2.总体方差和标准差(P96)(PopulationvarianceandStandarddeviation),由同一资料计算的标准差的结果一般要略大于平均差。证明:当a,b,c0时,有,3.标准差的特点,不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.,4.标准差的简捷计算,(四)是非标志总体(P98),为研究是非标志总体的数量特征,令,(五)是非标志总体的指标,具有某种标志表现的单位数所占的成数,不具有某种标志表现的单位数所占的成数,2.均值,3.标准差,(五)是非标志总体的指标,4.方差,5.标准差系数,(五)是非标志总体的指标,【例4-34】某厂某月份生产了400件产品,其中合格品380件,不合格品20件。求产品质量分布的集中趋势与离中趋势。,5.是非标志总体的指标(举例),解:,相对位置的度量:标准分数,2020/5/1,103,标准分数(P99)(standardscore),1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点(outlier)4.用于对变量的标准化处理5.计算公式为,如果某个数值的标准分数为-1.5,我们就知道该数值低于均值1.5倍的标准差。,2020/5/1,104,标准分数的特性:,标准分数均值为0,标准差为1,标准分数(性质),z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是使该组数据均值为0,标准差为1,比如,一组数据为25,28,31,34,40,43,其均值为34,标准差其变换图示如下:,2020/5/1,106,相对离散程度:离散系数(见P101),可比,离散系数(coefficientofvariation),1.一组数据的标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,【例4-36】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。,解:,一班成绩的标准差系数为:,二班成绩的标准差系数为:,因为,所以一班平均成绩的代表性比二班大。,2020/5/1,110,4.3数据分布的偏态和峰度,4.3.1偏态与偏态系数4.3.2峰度与峰度系数,2020/5/1,111,偏态与峰态分布的形状,偏态,峰态,偏态,2020/5/1,113,偏态(skewness),1.统计学家Pearson于1895年首次提出2.数据分布偏斜程度的测度3.偏态系数=0为对称分布4.偏态系数0为右偏分布5.偏态系数0为左偏分布6.偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或-1-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低,峰态,2020/5/1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论