统计学数据的概括性度量PPT参考课件.ppt_第1页
统计学数据的概括性度量PPT参考课件.ppt_第2页
统计学数据的概括性度量PPT参考课件.ppt_第3页
统计学数据的概括性度量PPT参考课件.ppt_第4页
统计学数据的概括性度量PPT参考课件.ppt_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章:数据的一般测量,1,2020/8/1,甲类和乙类的统计结果,请比较分析这两类的结果,你会从哪个方面入手?2,两个班成绩的对比分析,A班和B班成绩的描述性指标,3,2020/8/1,学习目标的提示和难点,本章学习目标掌握数据分布的各种特征:集中趋势,分散趋势,偏离程度和峰度。掌握各测值数据分布特征的计算方法、特点及应用场合。本章的重点和难点是提出数据分布特征的描述方法,以及如何用一些统计量来度量数据。数据分布特征各测量值的计算方法、特点及应用场合。4,2020/8/1,数据分布的特征和度量,峰度,偏度,5,2020/8/1,4.1集中趋势的度量,一组数据向其中心值移动的趋势和程度,集中趋

2、势是在一般水平上寻找数据的代表值或中心值。不同类型的数据使用不同的集中趋势度量。低层数据的集中趋势测度适用于高层测量数据,高层数据的集中趋势测度值不适用于低层测量数据,其测度值应反映数据的集中趋势,应根据掌握的数据类型确定。6,2020/8/1,集中趋势指数类型,从总体单位变量值中抽象出具有一般水平的量,它是根据每个单位的具体标志值计算的,有算术平均值、调和平均值、几何平均值等形式。数值平均,获得集中趋势代表值的不同方法可分为数值平均和位置平均。首先将整体单元的变量值按一定顺序排列,然后取某一位置的变量值来反映整体单元的总体水平。位置平均有模式、中位数和四分位数三种形式。平均位置,7,2020

3、/8/1,4.1.1模式,1。定义:出现频率最高的变量值。它是集中趋势的度量之一,不受极值的影响。因此,它有时在实际工作中有其特殊的用途。例如,解释一个企业中工人最常见的技术水平,解释内衣、鞋袜、帽子等最常见的数量。消费者所需要的,并解释一些农副产品在农贸市场上最常见的交易价格等。必须使用mode应用程序:它主要用于分类数据,也可以用于排序数据和数值数据。注:有些数据可能没有模式或有几种模式,8,2020/8/1,模式无模式原始数据: 10 5 9 12 6 8,一种模式原始数据: 6 5 9 8 5 5,多种模式原始数据: 25 28 36 42 42,9,2020/8/1,模式计算方法,*

4、 *质量变量的模式观察次数,频率最高的变量值是模式。例如,家企业的所有制结构分布和城乡人口分布。* *数值变量的模式不分组为观察次数,出现次数最多的数据为模式。分组数据(1)频率最高的组的变量值是直接观察单项序列的模式。10,2020/8/1,分类数据模式。示例根据表4-1中的数据,计算模式。解决方案:这里的变量是“广告类型”,这是一个分类变量,不同类型的广告是变量值。我们可以看到,在被调查的200人中,对商品广告关注度最高的有112人,占被调查总人数的56%,因此该模式属于“商品广告”的范畴,即莫商品广告,11,2020/8/1,以及数据排序的模式。示例根据表4-2中的数据,计算模式。变量是

5、“答案类别”。一个城市有最多的家庭不满意的住房,108户,所以模式是“不满意”,即莫是不满意,12,2020/8/1,而单变量序列决定了模式的例子。表4-3一个城市的家庭按家庭人口分组。从上表可以看出,家庭人口为三人的家庭数量最多,因此在本例中,13,2020/8/1,数字分组数据的模式,1。模式的值与相邻组的频率分布有关,假设多个组的频率均匀分布在多个组中,2。当相邻组的频率相等时,多个组的中值为模式3。当相邻组的频率不相等时,模式由以下近似公式14计算。4.1.2顺序数据:中位数和分位数1。中值排序后中间位置的值不受极值的影响,极值主要用于排序数据,也可以用于数值数据,但不能用于分类数据。

6、变量值和中间值之间偏差的绝对值之和最小,即16,2020/8/1,3360 24 22 21 26 20,位置: 1 2 3 4 5,中间值计算,等级:20 21 22 24 26,原始数据: 10 5 9 12 6 8,位置: 1 2 3 4 5 6,等级: 5 6 8 9 10 12 例如:一个企业中50个工人每天加工的零件中值数计算表,计算50个工人每天加工的零件中值数,Sm-1,Sm 1,19,2。 四元数据通常分为四个部分,每个部分包含大约1/4或25个数据项。1。集中趋势的度量值之一,2。排序后25%和75%的值,3。不受极值的影响,4。主要用于有序数据,但也用于数值数据,但不用于

7、分类数据,20,2020/8/1,四分位数(位置确定),未分组数据,具有组距离的分组数据,计算了某市城市家庭住房满意度评价的四分位数。解决方案是,下四分位数(QL)是:QL位置(300)/475,上四分位数(QL)是:QU位置(3300)/4225。从累积的频率来看,QL属于“不满意”的一类;QU属于“一般”类别。因此,QL不满足于QU一般,22,2020/8/1,原始数据: 23 21 30 32 28 25 26排序: 21 23 25 26 28 30 32位设置: 1 2 3 4 5 6 7,QL=23,QU=30,数字未分组数据的四分位数。2020年8月1日,原始数据: 23 21

8、30 28 26排名: 21 23 25 26 28 30位集: 1 234 56,=21 0.75 (23-21)=22.5,曲=28 0.25(30-28)2020年8月1日,分组数据的四分位数(计算公式),上四分位数为33604.1.3数字数据:平均值1。集中趋势2的度量值之一。最常用的测量值为3。一组数据的平衡点。易受极端值5的影响。用于数值数据,它不能用于分类数据和有序数据,27,2020/8/1,类型和计算平均值1。算术平均* (1) (2)基本公式,28,2020/8/1,平均计算公式,设一组数据为:X1,X2,XN,简单平均计算公式为,设分组数据为:X1,X2,XK,对应频率为

9、:F1,F2,FK,加权平均计算公式为,29,原始数据:10591368,加权平均值(示例4.7),30,2020/8/1,(1)算术平均值的大小不仅取决于研究对象的变量值(X),还取决于变量值的频率(F)或频率(ff),后者相对较大。这组数据(2)权重的表达式:绝对权重和相对权重,注意事项,31,2020/8/1,均为无标记平均值,无标记3360。如果根据某种标志,人口只能分为两部分:具有某种特征的单位和不具有这种特征的单位,那么这种标志是非标志。平均值的计算:具有某些特征的用“1”表示,没有这些特征的用“0”表示。,32,2020/8/1,加权平均(权重对平均值的影响)每组有10名学生,他

10、们的考试成绩和分布数据如下:组A:考试成绩(x): 0 20 100人分布(f): 1 18组B:考试成绩(X): 0 0 20 100人分布(f均值(数学性质):1。变量值和平均值之间的离差之和等于零;2.变量值和平均值之间的离差平方和最小;34,2020/8/1,properties (3,4);3.如果对每个变量值增加或减少一个任意数a,算术平均值将相应地增加或减少这个任意数a。4.将每个变量值乘以或除以任意数,算术平均值将相应地放大或缩小一倍。35,2020/8/1,2。调和平均值,(1)概念:调和平均值,也称为倒数平均值,是每个变量值倒数的算术平均值的倒数。(2)计算未分组数据的简单

11、谐波平均值:计算公式为:36、2020/8/1,2。谐波平均值,分组数据的加权谐波平均值:计算公式为:其中:是一个特殊的权重,它不是每组变量值出现的次数,代表每组的总标记数。即以、37、2020/8/1为例,根据商场员工的月工资数据计算平均月工资。商场员工的月工资数据,38,3。几何平均值,(1)概念:几何平均值,也称为对称平均值,是变量值乘积的第n个根。(2)计算基本公式:对数公式:在实际工作中,由于变量较多,通常采用对数进行计算。即、39、2020/8/1、(3)几何平均的应用和特征,当应用条件现象的总比率是若干变量的乘积,或者现象的总发展速度是各时期发展速度的连续乘积时,计算平均比率或平

12、均发展速度。a .如果序列中有一个符号值等于零或负值,则无法计算。它受极值的影响较小,所以更稳健。40,2020/8/1,几何平均数(示例),示例4.10投资者持有一只股票,2001年至2004年的回报率分别为4.5%、2.1%、25.5%和1.9%。计算投资者这四年的平均回报率。平均收益率为108.0787%-1=8.0787%,41,2020/8/1,例1:一个企业的一条生产线有四个工序,每个工序完成的产品都要检验一次,只有合格的中间件才能进入下一个工序。请问:平均通过率=?适用于连续经营:2020年8月42日1:2:据网上报道,在成都温江兰花节(2006年2月27日),一盆兰花的售价为1

13、100万元,远远落后于成都10万户养植和炒兰花的家庭的快速增长。很多人都想借高利贷炒兰花,红莲、黄金海岸、龙女、凯迪,成立了一个投资者投机兰花向朋友借高利贷,并以季度为结算单位。每个季度产生的利息将在到期时自动转换成本金,并在一年内连同利息一起还清。每个季节的利率根据兰花价格的变化而调整。事实上,第一季度的利率是3%,第二季度是3.2%,第三季度是3.6%,第四季度是2.8%。问:平均利率是多少?43,2020/8/1。答:需要注意的是,利率不能直接进行几何平均,而应结合本金和利息进行计算,即如果贷款总额为10000元,一年后的支付金额(本金和利息之和)为:如果平均利率为G,则应为:44202

14、0/8/1。2.调和平均值也受极值影响,但受最小值影响很大。3.几何平均值受极值的影响较小。对于相同的数据,的几何平均数大于调和平均数但小于算术平均数,即:一般来说:45,2020/8/1,各种平均数的比较,(1)各种平均数的特点和应用场合都是根据所有的数据计算的,具有很好的数学性质,在实践中应用最广泛。它的主要缺点是容易受到极值的影响,其代表性偏态分布它不受极值的影响,是偏态分布的代表。但是,它不是根据所有变量值计算的。它不受极值的影响,是偏态分布的代表。但是,它不是根据所有变量值计算的。46,2020/8/1,中值,模式和算术平均值之间的关系,47,48,2020/8/1,4.2,离散度的

15、度量。数据分布的另一个重要特征是偏差趋势的每个度量值描述了数据的离散度,它反映了每个变量值远离其中心值的程度。因此,它也被称为偏离趋势。从另一方面看,不同类型的数据具有不同的离散度测量值。49,2020/8/1,4.2.1分类数据:异质比率,1。分散度的测量值之一2。非公共数组的频率与总频率的比率为3。计算公式为、4。它用于测量模式的代表性、50、2020/8/1和分集比(例如)。根据表中的数据,计算分集比。解决方案:在被调查的200人中,关注非商品广告的人数占44%,因此,用“商品广告”来反映城市居民关注广告的总体趋势不是很有代表性,51,2020/8/1,4.2.2序列数据:四分位数偏差1。分散度2的测量值之一。也称为内部距离或四分位数间距离3。上四分位数和下四分位数之间的差值QD=QU-QL 4。反映中间50%数据的分散度5。不受极值6的影响。用于测量中位数的代表性,52,2020/8/1,四分位数偏差(。计算A城市家庭住房满意度评价的四分位数偏差,解是:让非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5。众所周知,QL=不满意=2,曲度=一般=3四分位数偏差:QD=曲度-QL=3 2=1,53,2020/8/1 8/1,4.2.3数值数据:方差和标准差1。极端差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论