




已阅读5页,还剩110页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据的集中趋势、分散趋势、偏度与峰度,数据的概括性度量,2.2分布集中趋势的测度2.3分布离散程度的测度2.4分布偏态与峰度的测度,数据分布的特征,集中趋势的度量,分类数据:众数顺序数据:中位数数值型数据:平均数众数、中位数和平均数比较,集中趋势(centraltendency),一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值/中心值不同类型的数据用不同的集中趋势测度值低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,分类数据:众数,众数(mode),一组数据中出现次数最多的变量值分布最高峰点所对应的数值即众数一种位置代表值,不受极端值的影响,应用场合有限,一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据,众数(不惟一性),无众数原始数据:10591268,一个众数原始数据:659855,多于一个众数原始数据:252828364242,分类数据的众数(例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值所调查的50人中,购买可口可乐的人数最多,为15人,占被调查总人数的30%,因此众数为“可口可乐”这一品牌,即Mo可口可乐,顺序数据的众数(例题分析),解:这里的数据为顺序数据。变量为“回答类别”甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo不满意,统计函数MODE,数值型数据的众数(步骤),下限公式:上限公式:,数值型数据的众数(例题分析),顺序数据:中位数和分位数,中位数(median),排序后处于中间位置上的数据1,4,7,11,13(113)1,4,7,11,13,19,不受极端值的影响,具有稳健(稳定)性特点主要用于顺序数据,也可用数值型数据,但不能用于分类数据,中位数(未分组资料),位置确定,数值确定,数值型数据的中位数(9个数据的算例),【例】9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,中位数1080,数值型数据的中位数(10个数据的算例),【例】:10个家庭的人均月收入数据排序:66075078085096010801250150016302000位置:12345678910,统计函数MEDIAN,顺序数据的中位数(例题分析),解:中位数的位置为(300+1)/2150.5从累计频数看,中位数在“一般”这一组别中中位数为Me=一般,数值型数据的中位数,数值型数据的中位数(例题分析),中位数位置:,中位数的性质,如果数据大量重复某一数值,此时中位数未必准确,在解释时要特别小心各变量值与中位数的离差绝对值之和最小,即,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数(位置的确定),方法2:较准确算法,方法1:定义算法,四分位数(位置的确定),方法3:其中表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上方法4:Excel给出的四分位数位置的确定方法如果位置不是整数,则按比例分摊位置两侧数值的差值,顺序数据的四分位数(例题分析),解:QL位置=(300)/4=75QU位置=(3300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中四分位数为QL=不满意QU=一般,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据(4种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法1,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法2,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法3,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789,方法4,统计函数QUARTILE,数值型数据:平均数,算术平均数(mean),也称为均值集中趋势的最常用、最重要的测度值分子分母必须属于同一总体易受极端值的影响有简单平均数和加权平均数之分,简单算术平均数(Simplemean),设一组数据为:x1,x2,xn(总体数据xN),简单算术平均数(未分组资料),例:设有一组大学生的月生活费支出为:150,200,240,300,350,500(单位:元)。则平均月生活费支出=150+200+240+300+350+500=290,加权平均数,例:有一班级的大学生月生活费支出如下表:月生活费(元)x人数(人)f频率(%)15035.3620058.93240712.503002442.853501628.5750011.79合计56100.00则平均生活费支出?=(150*3+200*5+240*7+300*24+350*16+500*1)/56=293.39(为什么由分组资料计算平均指标不能将各组的标志值简单平均?),加权平均数(Weightedmean),设各组的标志值为:x1,x2,xk相应的频数为:f1,f2,fk,加权平均,加权平均数(权数对均值的影响),甲乙两组各有10名学生,考试成绩及其分布数据如下甲组:考试成绩(x):020100人数分布(f):118乙组:考试成绩(x):020100人数分布(f):811,统计函数AVERAGE,加权平均数(权数对均值的影响),平均数的大小不仅取决于各组标志值x的大小,同时还受各组次数f多少的影响。各组标志值次数的多少在平均数的计算中具有权衡轻重的作用,因而把各组的次数又称为权数,用各组的次数去乘以各组的标志值,就是对各组的标志值进行加权。所以,用这种方法计算的算术平均数,称为加权算术平均数。如果各组次数完全相同,结果会怎样?,实务中给定的权数资料,既可以是绝对数,也可以是相对数,即频率或称权数系数。,加权平均数(权数为相对数),月生活费(元)人数(%)1505.362008.9324012.5030042.8535028.575001.79合计100.00,加权平均数(组距数列),设各组的组中值为:M1,M2,Mk相应的频数为:f1,f2,fk,加权平均,加权平均数(例题分析),组中值,用组中值代表各组实际数据假定各组数据在组中均匀分布各数据与组中值的误差可以相互抵消,平均数(数学性质),1.各变量值与平均数的离差之和等于零,2.各变量值与平均数的离差平方和最小,3.均值是统计分布的均衡点,中位数和平均数数学性质的验证,几何平均数(geometricmean),n个变量值乘积的n次方根适用于对比率数据的平均主要用于计算平均增长率、平均发展速度计算公式为,5.可看作是平均数的一种变形,几何平均数(例题),表2.13我国1998-2002年的gdp,表2.14我国1998-2002年的gdp发展速度,几何平均数(例题分析),【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率,年平均增长率114.91%-1=14.91%,几何平均数(例题分析),【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,?算术平均:,几何平均:,统计函数GEOMEAN,切尾均值(trimmedMean),去掉大小两端的若干数值后计算中间数据的均值在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用计算公式为,n表示观察值的个数;表示切尾系数,,切尾均值(例题分析),【例】谋次比赛共有11名评委,对某位歌手的给分分别是:,经整理得到顺序统计量值为,去掉一个最高分和一个最低分,取1/11,切尾均值(trimmedmean),=0,切尾均值就是算数平均数1/2,切尾均值就是中位数改变的值可以选择集中趋势的测度值切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响的两个有点而形成的新型统计量,众数、中位数和均值的关系,众数、中位数和平均数的关系,众数、中位数和平均数的关系,取决于次数分布状况对称分布时,中位数、众数和算术平均数合而为一,即:Me=M0=X在非对称分布的情况下,中位数、众数和算术平均数之间存在一定的差别。右偏,则三者之间的关系是:M0MeX;左偏,则三者之间的关系是:M0MeX。无论是右偏还是左偏,中位数总是介于算术平均数和众数之间。,众数、中位数和平均数的关系,适度偏态时,X-Me的距离是X-M0的1/3。如果X-Me0,说明右偏如果X-Me0,说明左偏如果X-Me较大,说明偏态较严重,反之,较轻,众数、中位数、平均数的特点和应用,众数优点:不受极端值影响缺点:具有不惟一性偏态分布且有明显峰值时应用比均值好中位数优点:不受极端值影响数据偏态分布时应用比均值好平均数优点:数学性质优良缺点:易受极端值影响数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,分布离散程度的测度,集中趋势只是数据分布的一个特征,它所反映的是总体各单位变量值向其中心值聚集的程度。而各变量值之间的离散和差异状况如何,均值的代表性有多大,这就需要用离中程度对其进行考察。,案例1,案例有两组男生身高分别为:甲组(cm):168,172,172,173,175,190乙组(cm):168,172,175,175,178,182两组平均身高均为175cm,它们的代表性一样吗?,案例2,案例有男、女两组身高:男组(cm):168,172,172,173,175,190女组(cm):163,164,165,165,167,171男组平均身高175cm;女组平均身高165.83cm。思考:两组平均身高的代表性如何评价?,离散程度,数据分布的另一个重要特征反映各变量值远离其中心值的程度(离散程度)从另一个侧面说明了集中趋势测度值的代表程度变量值变异大,离散程度就大,均值的代表性就小。反之亦然。,离散程度,分类数据:异众比率顺序数据:四分位差数值型数据:方差和标准差相对位置度量:离散系数,异众比率(variationratio),1.对分类数据离散程度的测度2.非众数组的频数占总频数的比例3.计算公式为,4.用于衡量众数的代表性,异众比率(例题分析),解:在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,内距(inter-quartilerange,IQR),也称四分位差,是两个四分位数之差内距=上四分位数-下四分位数=Q3-Q1极差容易受极端值影响,内距基本不受极端值影响内距反映的是中间50%数值大小的差异,,四分位差(例题分析),解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。已知QL=不满意=2QU=一般=3四分位差为Qd=QU-QL=32=1,极差(range),又称全距。一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布,R=max(xi)-min(xi),计算公式为,平均差(meandeviation),各变量值与其平均数离差绝对值的平均数能全面反映一组数据的离散程度数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差(例题分析),平均差(例题分析),含义:每一天的销售量同平均数相比,平均相差17台,统计函数AVEDEV,方差和标准差(varianceandstandarddeviation),数据离散程度的最常用测度值反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s),标准差与平均差,标准差与平均差虽都是变量值与均值的平均离差,但不同的是平均差所平均的是离差绝对值,而标准差平均的是离差平方。标准差彻底解决了正负离差不能相加的问题。它在抽样调查、相关分析中应用较多,所以标准差是应用较为广泛的一种离中趋势的测度值。,总体方差和标准差(PopulationvarianceandStandarddeviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,样本方差和标准差(simplevarianceandstandarddeviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,自由度(degreeoffreedom),自由度是指附加给独立的观测值的约束或限制的个数从字面涵义来看,自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k,自由度(degreeoffreedom),样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值为什么样本方差的自由度是n-1呢?因为在计算离差平方和时,必须先求出样本均值x,而x则是附加给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量,样本标准差(例题分析),样本标准差(例题分析),含义:每一天的销售量与平均数相比,平均相差21.58台,统计函数STDEV,方差的数学性质,变量的方差等于变量平方的平均数减去变量平均数的平方。变量对算术平均数的方差,小于对任意常数的方差。,相对离散程度,平均差和标准差其数值大小,不仅决定于各标志值的差异程度,还决定于数列平均水平的高低,同时它们具有与标志值相同的名数。对于具有不同平均水平和不同计量单位的数列,就不能直接利用标准差等来比较其标志变动程度的大小,而需要用变异系数,以消除不同数列水平的影响。,离散系数(coefficientofvariation),1.又称变异系数。标准差(或平均差)与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为,离散系数(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,v1=1-DX/2如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数在任何数据集中,与平均数超过K倍标准差的数据占的比例至多是1/K2。,的,切比雪夫不等式(Chebyshevsinequality),对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内若一班有36个学生,而在一次考试中,平均分是80分,标准差是10分,我们便可得出结论:少於50分(与平均相差3个标准差以上)的人,数目不多於4个(=36*1/9,箱线图(boxplot),用于显示未分组的原始数据的分布由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成绘制方法首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接该箱线图也称为Median/Quart./Range箱线图,未分组数据单批数据箱线图(箱线图的构成),中位数,4,6,8,10,12,Median/Quart./Range箱线图,未分组数据单批数据箱线图(例题分析),分布的形状与箱线图,不同分布的箱线图,未分组数据多批数据箱线图(例题分析),【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如右表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,未分组数据多批数据箱线图(例题分析Median/Quart./Range),8门课程考试成绩的Median/Quart./Range箱线图,11名学生8门课程考试成绩的Median/Quart./Range箱线图,未分组数据多批数据箱线图(例题分析Median/Quart./Range),分布偏态与峰度的测度,偏态与峰态分布的形状,偏态,峰态,偏态(skewness),统计学家Pearson于1895年首次提出数据分布偏斜方向和程度的测度偏态系数的计算方式皮尔逊系数法动差法,偏态系数皮尔逊偏态系数法,Pearson偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的以平均值与中位数之差对标准差之比率来衡量偏斜的程度,偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。偏态系数的变动范围为-3SK+3。当SK=0时,表示对称分布;当SK=3时,表示极右偏态;当SK=-3时,表示极左偏态。,偏态系数中心矩偏态测度法,中心矩指各个变量值与平均数的离差的K次方的平均值,也称中心动差。其计算公式为:k代表中心动差的阶数K=1,一阶中心矩,mk=0K=2,二阶中心矩,mk=方差K=3,三阶中心矩,K=4,四阶中心矩,,偏态系数(coefficientofskewness),统计上常以三阶中心矩作为测定偏态的一个重要指标。并且常用三阶中心矩m3除以标准差的三次方3作为偏态系数,以测定数据分布的相对偏斜程度。偏态系数:当分布对称时,3=0;当分布不对称时,则形成了正或负的偏态系数。当30时,说明分布为右偏,并且值越大,说明右偏斜的程度越高;当30时,说明分布为左偏,值越小,左偏程度越高。,偏态系数(例题分析),偏态系数(例题分析),结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,统计函数SKEW,偏态(从直方图上观察),销售量(台),结论:1.为右偏分布2.峰态适中,某电脑公司销售量分布的直
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 聋校十一册数学试卷
- 期末质量检测数学试卷
- 屋面材料采购合同范本
- 2025年教育直播平台课程资源整合与共享策略报告
- 梦见改数学试卷
- DB3714∕T 0002-2020 园林绿化种植土壤
- 承包车队合同范本
- 辽宁七下期中数学试卷
- 业主有偿维修合同范本
- 2025年茶饮市场新型品牌扩张中的品牌品牌形象重塑与升级研究报告
- 2025年全国反诈骗知识竞赛试题含答案
- 电网采购管理办法
- 2025江苏徐州沛县经济开发区发展集团招聘工作人员拟聘用人员笔试历年参考题库附带答案详解
- 心之所向·素履以往+课件-2025-2026学年高三上学期开学第一课主题班会
- 茶叶加工工安全技术操作规程
- 2025年云南高考地理试题解读及答案详解讲评课件
- 【课件】集合的概念+课件-2025-2026学年高一上学期数学人教A版(2019)必修第一册
- 江苏清泉化学股份有限公司年产4000吨呋喃、1000吨四氢呋喃丙烷、3000吨四氢呋喃技改项目环评资料环境影响
- 坏死性筋膜炎护理疑难病例讨论
- 新型医药销售外包(CSO)行业跨境出海项目商业计划书
- 口腔诊室6S管理
评论
0/150
提交评论