数据的描述性分析.ppt_第1页
数据的描述性分析.ppt_第2页
数据的描述性分析.ppt_第3页
数据的描述性分析.ppt_第4页
数据的描述性分析.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4数据的描述性分析,数据分布的特征:,数据分布的集中趋势,数据分布的离散程度,平均指标,变异指标,数据分布的形状,偏态与峰度,一组数据向其中心值靠拢的倾向和程度。测度集中趋势就是寻找数据一般水平的代表值或中心值。不同类型的数据适用不同的集中趋势测度值(平均指标)。,集中趋势(Centraltendency)的描述,数据集中区,变量x,平均指标,平均指标的种类,按所反映的时间状态划分,静态平均数,动态平均数,按计算方法划分,算术平均数,调和平均数,几何平均数,众数,中位数,数值平均数,位置平均数,算术平均数(Arithmeticmean),简单算术平均数(Simplemean)依据未分组的原始数据直接计算,X1、X2、X3、Xn表示总体各单位变量值;n表示总体单位数(或总体变量值个数);为求和(连加)符号;,表示从X1连加到Xn;也可简写成Xi或X。,式中:,表示算术平均数(读作X-bar);,某大学生职业介绍所对商学院的毕业生进行问卷调查,获得12名毕业生的起始薪金(元)信息如下。,24502550238022552210239026302440282524202380,加权算术平均数(Weightedmean)原始数据经过分组,已编成次数分布数列,式中:f各组次数。X当分布数列为单项数列时,即各组变量值。当分布数列为组距数列时,用各组组中值代表各组变量值。,表1.某高校报考及录取情况统计表,表2.某高校两专业报考及录取情况统计表,加权算术平均数受两个因素的影响,分布数列中各组变量值的大小(或组中值的大小),各组中单位数的多少/次数f的大小,当各组变量值固定不变时,出现次数多的变量值对平均数的影响较大,使平均数向其靠拢;出现次数少的变量值对平均数的影响较小,平均数远离该变量值。,次数f在计算平均数的过程中起着权衡轻重的作用,故将其称为权数。,权数的两种表现形式,以绝对数表示次数/频数f,以相对数表示频率f/f,算术平均数的权数,客观权数,次数分布数列中,各组变量值出现的次数或频率;与变量存在直接数量关系的指标,主观权数,某公司利润情况统计表,要求:计算该公司的平均利润率。,算术平均数的数学性质,各变量值与其算术平均数的离差之和为零。,各变量值与其算术平均数的离差平方和最小。,算术平均数的特点,易于理解和运算受极端数值的影响较大,例如:有5个数,分别为:9、11、12、13、55,,解决途径:切尾平均法(trimmedmean)采用其他不受极端值影响的平均数,市场上有三种苹果,每公斤的价格分别为3.00元、3.60元、4.00元,分别在下述情况下求平均价格:,(1)三种苹果各购买1公斤;(2)三种苹果分别购买1公斤、2公斤、3公斤;(3)三种苹果各购买1元钱。(保留小数点后两位数),调和平均数(Harmonicmean),一、含义:调和平均数是变量值(标志值)倒数的算术平均数的倒数,也称倒数平均数。,变量值不能为零。受极端数值的影响。,三、计算方法,简单调和平均法加权调和平均法,四、应用,二、特点:,简单调和平均数(Simpleharmonicmean)依据未分组的原始数据直接计算,即先计算总体中各变量值倒数的简单算术平均数,然后求其倒数。,加权调和平均数(Weightedharmonicmean)原始数据经过分组,已编成次数分布数列,例(4)若三种苹果分别购买7.5元、10.8元、16元,求其平均价格。H=(7.5+10.8+16)/(7.5/3+10.8/3.6+16/4)=34.3/9.5=3.61元/公斤,例:某市有三个西瓜的批发交易市场,三个市场某日西瓜的批发价格和成交量如下:,要求计算该市这天西瓜的平均价格。,f,例:某市有三个西瓜的批发交易市场,三个市场某日西瓜的批发价格和成交额如下:,要求计算该市这天西瓜的平均价格。,m,m=xf,调和平均数是算术平均数的变形。,调和平均数的应用,用于计算相对数的平均数。,例:某工业公司有三个工厂,已知其计划完成程度及计划产值资料如下:,要求计算该公司的平均计划完成程度。,平均计划完成程度=总实际产值/总计划产值,f,例:某工业公司有三个工厂,已知其计划完成程度及实际产值资料如下:,要求计算该公司的平均计划完成程度。,m,如何选择平均数的计算方法?,关键以基本公式为依据,当所掌握的是公式中的分母资料,就将其作为权数,采用加权算术平均法;,当所掌握的是公式中的分子资料,就将其作为权数,采用加权调和平均法。,原来只是计算时使用了不同的数据!,几何平均数(Geometricmean),一、应用,它主要用于计算社会经济现象的平均比率或平均速度。,凡是各变量值的连乘积等于事物总量,应使用几何平均法求其平均数。,例:某钢铁厂第一年的钢产量为100万吨,第二年为110万吨,比第一年增产10%,第三年又比第二年增长了20%,达到132万吨。,发展总速度=110%120%=132%,几何平均数是n个变量值乘积的n次方根。,简单几何平均数的计算未分组资料,式中,G几何平均数;x变量值;连乘符号,二、计算,例:x1=110%x2=120%,100114.89%114.89%=132万吨,若采用算术平均法求平均发展速度:,100115%115%=132.25万吨,算术平均数与调和平均数是应用于按算术级数形式变化的事物,即在事物总量等于各变量值的总和时求平均水平。,几何平均数适用于按几何级数形式变化的事物,即在事物总量等于各变量值乘积时求平均水平。,加权几何平均数的计算分组资料,f各变量出现的次数,三、几何平均数的特点,2、几何平均数是算术平均数的变形。,1、用以计算几何平均数的各变量值必须大于零,否则不能计算几何平均数或计算的结果无意义。,例:某银行在10年内几次调整贷款利率(按复利计息),第1至第2年为4,第3至第5年为5,第6至第9年为6.5%,第10年为8。求这10年银行贷款的平均年利率。,平均年利率105.69%-100%=5.69%,简单几何平均数:,简单几何平均数的对数是各个变量值对数的简单算术平均。,加权几何平均数:,加权几何平均数的对数是各个变量值对数的加权算术平均。,中位数(Median),将总体各单位的变量值按大小顺序排列,处于数列中点位置的变量值为中位数。,二、中位数的特点,一、确定中位数Me的方法,由未分组的原始数据确定中位数,由单项式数列确定中位数,由组距数列确定中位数,由未分组的原始数据确定中位数,中位数位置=,n总体变量值个数,当n为奇数时,中间位置所对应的数值即为中位数。,当n为偶数时,居于中间位置的两个数值的算术平均数为中位数。,例:有5个工人,每天生产某产品的件数,按序排列如下:20,23,26,29,30,中位数位置=(5+1)/2=3Me=26(件),例:有6个工人,每天生产某产品的件数,按序排列如下:20,23,26,29,30,32,中位数位置=(6+1)/2=3.5Me=(26+29)/2=27.5(件),由单项式数列确定中位数,2、计算各组的累计次数(较小制累计或较大制累计)累计次数刚刚超过中位数位次的组即为中位数所在组。,3、中位数所在组的变量值即为中位数,中位数位次=80/2=40,中位数所在组的累计次数应刚刚超过40,即第四组。,Me=34,例:某工厂工人某日产量资料如下,要求其中位数。,由组距数列确定中位数,2、计算各组的累计次数(较小制累计或较大制累计)累计次数刚刚超过中位数位次的组即为中位数所在组。,3、利用公式计算中位数的近似值,L:中位数所在组的下限fm:中位数所在组的次数f:总次数i:中位数所在组的组距Sm-1:中位数所在组以前的各组的累计次数(较小制累计),中位数位次=40/2=20,中位数在第四组内,以各组内变量值均匀分布为假定前提,用比例插值法计算中位数的近似值。,按比例分配,第四组内每个变量值所占据的组距单位为10/19,,从较小制累计得出,从第三组到中位数相差2人(20-18=2),,则2人在第四组所占据的组距单位为2(10/19)=1.05分,所以中位数的具体数值为80+1.05=81.05分,中位数位次=f/2=164/2=82,即中位数在第4组内。,中位数的特点,不受极端值的影响,例:五个人年龄分别为18、19、20、21、60岁。,若用算术平均法,得平均年龄为27.6岁。,而用中位数20岁,更能代表五个人年龄的一般水平。,主要用于定序数据,也可用于定距数据,但不能用于定类数据。,四分位数(quartiles),1.集中趋势的测度值之一。2.将所有数据排序后处于25%、50和75%位置上的值。,3.不受极端值的影响。4.主要用于定序数据,也可用于定距数据,但不能用于定类数据。,四分位数位置的确定,未分组数据:,分组数据:,未分组定距数据的四分位数,n+1,Q1=23,Q3=30,原始数据:23213032282526,排序:21232526283032,未分组定距数据的四分位数,原始数据:232130282526,排序:212325262830,Q1=21+0.75(23-21)=22.5,Q3=28+0.25(30-28)=28.5,某城市家庭对住房满意状况评价如下,要求计算评价结果的四分位数。,解:第一四分位数(Q1)的位置为:Q1位置(300)/475第三四分位数(Q3)的位置为:Q3位置(3300)/4225从累计频数看,Q1在“不满意”这一组别中;Q3在“一般”这一组别中。因此Q1不满意Q3一般,定序数据的四分位数,众数(Mode),众数(Mo)是总体中出现次数最多的变量值。,确定众数的方法,根据未分组数据或单项数列确定众数,根据组距数列确定众数,(1)根据各组次数确定众数所在的组,,(2)利用公式计算众数的近似值。,下限公式,其中,L众数所在组的下限;,fm-1众数所在组前一组的次数;fm+1众数所在组后一组的次数;i众数所在组组距;,fm众数所在组的次数;,一家公司的网络系统管理需要研究一天中发生的服务失败的次数,以下数据为过去两周的每天服务失败次数,求这些数据的众数。,130326274023363,解:先将数据排序如下:,001223333346726,一天中最有可能发生的服务失败数为3次。,众数为出现次数最多的数值3。,解:众数所在组为7080组,众数的特点及应用,众数不受极端数值的影响。,一般只对等距数列确定众数。若为异距数列,需根据次数密度确定众数所在组。,众数可根据频率(相对数)确定。,数据的类型和所适用的集中趋势测度值,某校学生的父亲职业状况,众数Mo=农民,某城市家庭对住房状况的评价,中位数位置=(300+1)/2=150.5,从累计次数可以看出,中位数在第三组,即Me=一般,算术平均数、中位数和众数之间的关系,例:某企业工人的月收入众数为800元,月收入的算术平均数为1100元,求月收入中位数的近似值。,=1/3(800+21100)=1000元,英国统计学家卡尔皮尔逊发现:,在轻微偏态分布中,三者之间存在以下关系:,2/3,1/3,Mo,Me,4.2离散程度的描述,极差(Range)四分位差(interquartilerange)平均差(Meandeviation)MD标准差(Standarddeviation)方差(Variance)2离散系数(Coefficientofvariation),变异指标:用于测定各变量值离散程度的统计指标。,1、变异指标是评价平均数代表性的依据。,变异指标值愈大,平均数代表性愈小,,变异指标值愈小,平均数代表性愈大。,变异指标的作用,2、变异指标可用来反映社会经济活动过程的均衡性、协调性,以及产品质量的稳定性等。,例:某车间有两个生产小组。各组7名工人,各人日产件数如下:,甲组:20,40,60,70,80,100,120,乙组:67,68,69,70,71,72,73,R甲=120-20=100,R乙=73-67=6,甲组平均数的代表性小,乙组平均数的代表性大。,R=XmaxXmin,极差(Range),从变动范围测度总体数据的离散程度,数列中最高组的上限与最低组的下限的差。偏大,数列中最高组的组中值与最低组的组中值的差。偏小,数列中最高组的组中值与最低组的下限的差。数列中最高组的上限与最低组的组中值的差。比较接近,特点:,组距数列的全距计算方法:,计算简单,容易理解。,过于粗略。,受极端值影响大。,数据利用率低,信息丧失严重。,受抽样变动影响大。,1.离散趋势的测度值之一2.也称内距或四分间距3.第三四分位数与第一四分位数之差Qr=Q3Q14.反映了中间50%数据的离散程度5.不受极端值的影响6.可用于衡量中位数的代表性,四分位差(interquartilerange),平均差(Meandeviation)MD,已分组资料,未分组资料,优点:包含了总体中各个变量值的差异,缺点:不适于代数运算,标准差(Standarddeviation),未分组资料,已分组资料,方差(Variance)2,例:某车间工人日产量资料如下表所示,要求日产量的标准差。,是非标志的标准差,成数:,具有某种表现或不具有某种表现的单位数占所有单位数的比重称为成数。,是非标志的平均数:,是非标志的标准差:,交替标志的标准差即被研究标志的成数p与q乘积的平方根。,离散系数(Coefficientofvariation),应用:,比较具有不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论