chap4-数据分布特征的测度课件_第1页
已阅读1页,还剩132页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 数据分布特征的测度石河子大学商学院张银银E-mail:Tel四章 数据分布特征的测度第一节 规模和比率的度量 第二节 集中趋势的描述第三节 离散程度的测度第四节 分布的偏态与峰态数 据 分 布 的 特 征集中趋势 (位置)偏态和峰态(形状)离中趋势 (分散程度)数据分布特征的测度数据特征的测度分布的形状集中趋势离散程度众 数中位数均 值离散系数方差和标准差峰 态四分位差异众比率偏 态第一节 规模和比率的度量一、规模与比率二、指标计算与实例 按反映的时间状况不同分为:时期指标时点指标(period indicator)(Time-point indicator)

2、按计量单位(Unit of meterage)不同分为:实物指标价值指标劳动指标(physical indicator)(indicator of value)(indicator of labor force)总体标志总量总体单位总数按反映的总体内容不同分为:(Amount of population unit)(Amount of indicate)(2)总量指标的基本分类只有可加总体能够计算总体单位总数,不可加总体没有总体单位总数;一个总体中只有一个单位总数,但可以有多个标志总量,它们由总体单位的数量标志值汇总而来。总体单位总数总体所包含的总体单位的数量(Amount of popula

3、tion unit)总体标志总量总体单位某一数量标志的标志值总和(Amount of indicate)总量指标按反映的总体内容分类自然单位度量衡单位标准实物单位计量单位多个单位的结合运用:双重单位(如:人/平方公里)多重单位(如:艘/吨/千瓦)适用范围综合能力差强大小如:台、件如:米、平方米如:标准吨如:工日、工时如:元实物单位价值单位劳动单位(Unit of labor force)(Physical unit)(Unit of value)复合单位(如:人次、吨公里)(Unit of complex meterage)拖拉机混合产量4台拖拉机标准实物产量5台甲企业乙企业利润总额资金占用资

4、金利润率500万元 5000万元 3000万元40000万元16.7%12.5%比较两厂经济效益不可比不可比可比2、相对指标无名数用倍数、系数、成数、等表示有名数用双重计量单位表示的复名数相对指标的基本表现形式倍数与成数应当用整数的形式来表述5倍、3成、近7成3.25倍、8.6成分母为1分母为1.00分母为10分母为100分母为1000(2)相对指标的种类结构相对数比例相对数比较相对数计划完成程度相对数强度相对数动态相对数例:我国某年国民收入使用额为19715亿元,其中消费额为12945亿元,积累额为6770亿元。则(1)结构相对数(Relative quantities of structu

5、re)2、相对指标的计算方法说明为无名数; 同一总体各组的结构相对数之和为1;用来分析现象总体的内部构成状况。例:我国某年国民收入使用额为19715亿元,其中消费额为12945亿元,积累额为6770亿元。则为无名数,可用百分数或一比几或几比几表示;用来反映组与组之间的联系程度或比例关系。说明(2)比例相对数(Relative quantities of proportion)例:某年某地区甲、乙两个公司商品销售额分别为5.4亿元和3.6亿元。则为无名数,一般用倍数、系数表示; 用来说明现象发展的不均衡程度。 说明(3)比较相对数(Relative quantities of comparati

6、vity) 是同类指标数值在不同时间上的对比动态相对数为无名数; 用来反映现象的数量在时间上的变动程度。说明 (4)动态相对数(Dynamic Relative quantities )例:某年某地区年平均人口数为100万人,在该年度内出生的人口数为8600人。则该地区一般用、表示。其特点是分子来源于分母,但分母并不是分子的总体,二者所反映现象数量的时间状况不同。无名数的强度相对数(5)强度相对数(Intensity relative quantities)1)短期计划完成情况的检查 计划数与实际数同期时,直接应用公式:A.计划任务数表现为绝对数时(6)计划完成相对数(Relative qua

7、ntities of fulfillment of plan)例:某企业2000年计划产量为10万件,而实际至第三季度末已生产了8万件,全年实际共生产11万件。则 考察计划执行进度情况:年份19961997199819992000合计投资额(亿元)11.411.912.512.813.161.7其中,2000年各月份实际完成情况为(单位:亿元):月份123456789101112投资额1.11.01.21.11.11.11.21.21.31.10.90.8要求计算:该市“九五”期间固定资产投资计划的完成程度;提前完成计划的时间。已累计完成固定资产投资额60亿元例:某市计划“九五”期间要完成社会

8、固定资产投资 总额60亿元,计划任务的实际完成情况为:解:提前完成计划时间:因为到2000年10月底已完成固定资产累计投资额60亿元(61.70.80.9=60),即已完成计划任务,提前完成计划两个月。例:某市计划“九五”期间要完成社会固定资产投资总额60亿元,计划任务的实际完成情况为:年份19961997199819992000合计投资额(亿元)11.411.912.512.813.161.7其中,2000年各月份实际完成情况为(单位:亿元):月份123456789101112投资额1.11.01.21.11.11.11.21.21.31.10.90.81.10.8如何确定提前完成计划的时间

9、?思考月份123456789101112投资额1.11.11.21.11.11.11.21.21.31.10.80.8【分析】已累计完成固定资产投资额60.1亿元已累计完成固定资产投资额59亿元可以判断出,计划任务应是在2000年10月份的某一天完成的假定10月份每天都完成相等的投资额59亿元60.1亿元601亿元0.1亿元在2000年10月为完成尚差的1.0亿元投资额的计划任务需要的天数:【方法一】在2000年10月为完成超额的0.1亿元的投资额所用的天数:【方法二】即提前完成任务两个月零两天。即提前完成任务两个月零两天。B. 计划任务数表现为相对数时例:己知某厂2000年的计划规定产品产量

10、要比上年实际提高5而实际提高了7。则百分点相当于百分数的计量单位,一个百分点就指1。上例中,实际比计划多提高的百分点为(7-5)100=2(个百分点)实际工作中常用,但并不是相对数原始数据静态分布动态趋势总量指标(绝对规模)相对指标(相对关系)平均指标(集中趋势)变异指标(离散趋势)分布指标(分布状况)水平指标(绝对规模)速度指标(相对变化)因素分析(趋势预测)统计指标加工整理总结:原始数据统计指标静态分布动态趋势总量指标相对指标平均指标变异指标分布指标水平指标速度指标因素分析不同年份人口数人口自然增长率人口数量模型人口总数人口性别比例平均年龄年龄标准差偏度、峰度整理加工加工正确选择对比的基础

11、;指标对比要有可比性;相对指标要与总量指标结合运用;多种相对指标结合运用。使用相对指标应注意的问题结构相对数比例相对数比较相对数动态相对数计划完成相对数强度相对数(部分与总体关系)(部分与部分关系)(横向对比关系)(纵向对比关系)(实际与计划关系)(关联指标间关系)多种相对指标应当结合运用第二节 集中趋势的描述一、数值平均数二、位置平均数集中趋势的现实意义83名女生的身高分布的集中趋势、中心数值算术平均数集中趋势的分布涵义集中趋势 集中趋势(Central Tendency)反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水

12、平的中心值或代表值。用平均指标来反映。(平均指标指同质总体中各单位某一数量标志的一般水平,是对总体单位间数量差异的抽象化。)可以反映现象总体的客观规定性;可以对比同类现象在不同的时间、地点 和条件下的一般水平;可以分析现象之间的依存关系。集中趋势 (位置)测定集中趋势的意义平均指标的种类数值平均数位置平均数平均数算术平均数调和平均数几何平均数中位数众数分位数算术平均数 算术平均数(Arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。 简单算术平均数加权算术平均数算术平均数的数学性质 简单算术平均数加权算术平均数权数权数 次数f的作用:当变量值比

13、较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。算术平均数的数学性质调和平均数 调和平均数(Harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用 表示。简单调和平均数加权调和平均数调和平均数是算术平均数的变形 简单调和平均数加权调和平均数调和平均数是算术平均数的变形几何平均数 几何平均数(Geometric mean)是n个变量值连乘积的n次方根。几何平均数是计算平均比率和平均速度最适用的一种方法。通

14、常用 表示。应用于计算现象的平均比率或平均速度。简单几何平均数加权几何平均数简单几何平均数适用于总体资料未经分组整理尚为原始资料的情况加权几何平均数注意:不能直接平均增长速度适用于总体资料经过分组整理形成变量数列的情况中 位 数 中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值:一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值的影响。由未分组数据确定中位数由单项数列确定中位数由组距数列确定中位数由未分组数据确定中位数 对未分组数据资料,需先将各变量值

15、按大小顺序排列,并按公式 确定中位数的位置。当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。 例: 7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。 例: 2、5、7、8、11、12 由单项数列确定中位数 先计算各组的累计次数,再按公式 确定中位数的位置,并对照累计次数确定中位数。由组距数列确定中位数下限公式:上限公式:分位数 三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles)。 十分位数(Dectile)和百分位数(Percentile)分别是将变量数列十等分和

16、一百等分的数值 。四分位数 (位置的确定)未分组数据:未分组数据的四分位数 (9个数据的算例)【例】:9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9未分组数据的四分位数 (10个数据的算例)【例】:10个家庭的人均月收入数据原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630排 序: 660 750 780 850 960 1080 1250 1

17、500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 众 数 众数(Mode)是一组数据中出现次数最多的那个变量值,通常用 表示。由未分组数据确定众数由单项数列确定众数由组距数列确定众数众数的原理及应用83名女生身高原始数据83名女生身高组距数列出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200没有突出地集中在某个年份413名学生出生时间分布直方图众数的原理及应用(无众数)192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5170.5

18、168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100413名学生的身高分布直方图(双众数)当数据分布呈现出双众数或多众数时,可以断定这些数据来源于不同的总体。出现了两个明显的分布中心当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数)。众数的原理及应用由未分组数据确定众数例1: 7、6、8、2、3例2: 7、6、8、2、3 、4、3、2、3例3: 7、6、8、2、3 、4、3、2、3

19、、2由单项数列确定众数由组距数列确定众数下限公式:上限公式:对比1. 众数、中位数和算术平均数的关系2. 众数、中位数和算术平均数的特点与应用场合众数:不受极端值影响,具有不唯一性数据分布偏斜程度较大时应用中位数:不受极端值影响数据分布偏斜程度较大时应用平均数:易受极端值影响,数学性质优良数据对称分布或接近对称分布时应用左偏分布均值 中位数 众数对称分布 均值= 中位数= 众数右偏分布众数 中位数均值未分组数据箱线图(box plot)用于显示未分组的原始数据的分布箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位

20、数Me 和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 未分组数据单批数据箱线图(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图未分组数据单批数据箱线图(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图思考题你是 Prudential-Bache 证券公司的金融分析员。你已经收集了新发行股票的下列收盘价: 17, 16, 21, 18, 13, 16, 12, 11.

21、试描述股票价格的集中趋势集中趋势题解平均数(Mean)中位数(Median)原始数据:1716211813161211排序之后:1112131616171821位置:12345678集中趋势题解众数(Mode)原始数据:1716211813161211排序之后:1112131616171821众数为:16集中趋势题解集中趋势题解四分位数原始数据:17 16 21 18 13 16 12 11排序之后:11 12 13 16 16 17 18 21 位置: 1 2 3 4 5 6 7 8四分位数分别为:Q1=12.25; Q2=16; Q3=17.75;一、极差与四分位差二、标准差与方差三、离散

22、系数第三节 离散程度的描述 课 程学生统计高数英语总成绩平均成绩甲乙丙606555656565706575195195195656565单位:分某班三名同学三门课程的成绩如下:请比较三名同学学习成绩的差异。离中趋势的体现集中趋势弱、离散趋势强集中趋势强、离散趋势弱反映统计数据差异程度的综合指标,也称为标志变动度变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大指总体中各单位标志值背离分布中心的规模或程度,用标志变异指标来反映。离散趋势Discrete tendency离散趋势的涵义测定离散趋势的意义用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性和节奏性;用来测

23、定变量数列次数分布较正态分布的偏离程度。 极差与四分位差 极差(Range)也叫全距,是一组数据的最大值与最小值之离差,即: 四分位差(Interquartile range)是指第三四分位数与第一四分位数之差,也称为内距或四分间距又称为伸展中心,用 表示。四分位差的计算公式为: 优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差往往应用于生产过程的质量控制中极差的特点四分位差的特点度量数据的离散程度Measure of Dispersion此间距包括中间50%的数据不受极值影响 平均差 平均差(Mean deviation)也称平均离差,

24、是各变量值与其平均数离差绝对值的平均数,通常用 表示。简单式平均差加权式平均差 简单式平均差【例】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。解:即该售货小组5个人销售额的平均差为93.6元。 加权式平均差【例】计算下表中某公司职工月工资的平均差。月工资(元)组中值(元)职工人数 (人)300以下300400400500500600600700700800800900900以上2503504505506507508509502083143824563052377820合计2000解:即该公司职工月工资的平均差为138.95元

25、。优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。平均差的特点 一般情况下都是通过计算另一种变异指标标准差,来反映总体内部各单位标志值的差异状况. 标准差与方差 标准差(Standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用 表示。它是测度数据离散程度的最主要方法。 方差(Variance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方,用 表示总体的方差;用 表示样本的方差。 总体标准差与样本标准差简单式标准差

26、 加权式标准差 简单式标准差 加权式标准差【例】计算下表中某公司职工月工资的标准差。月工资(元)组中值(元)职工人数(人)300以下300400400500500600600700700800800900900以上2503504505506507508509502083143824563052377820合计2000解:(比较:其工资的平均差为138.95元)即该公司职工月工资的标准差为167.9元。 总体与样本标准差简单式加权式总体样本注意:样本标准差用自由度n-1去除!样本方差自由度一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由

27、取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量标准差的特点不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算.由同一资料计算的标准差的结果一般要略大于平均差。 数据标准

28、化 数据标准化是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准化数值。可用于判断一组数据是否有离群点,设标准化数值为z,则有:数据标准化 (性质)1. 均值等于02.方差等于1数据标准化 (性质)z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。 标准化值 (例题分析)9个家庭人均月收入标准化值计算表 家庭编号人均月收入(元) 标准化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5

29、561.8530.1160.996经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 切比雪夫不等式(Chebyshevs inequality )如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”对于任意分布形态的数据,根据切比雪夫不等式,至少有 (1-1/ ) 的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数 切比雪夫不等式(Che

30、byshevs inequality )对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内 离散系数 对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,又称为变异系数.其一般公式是:可比变异系数指标身高的差异水平:cm体重的差异水平:kg用变异系数可以相互比较可比【例】某年级一、二两班某门课的平均成绩分别为82

31、分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。解:一班成绩的标准差系数为:二班成绩的标准差系数为:因为 ,所以一班平均成绩的代表性比二班好。标准差系数 用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小:标准差系数小的总体,其平均数的代表性大;反之,亦然。应用:离散系数(Coefficient of variation)分组单位数变量值具有某一属性不具有某一属性10合计为研究是非标志总体的数量特征,令指总体中全部单位只具有“是”或“否”、“有”或“无”两种表现形式的标志,又叫交替标志是非标志是非标志的标准差及方差是非标志总体的指标具有某种

32、标志表现的单位数所占的成数不具有某种标志表现的单位数所占的成数指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重成数是非标志总体的指标均值标准差是非标志总体的指标方差标准差系数【例】某厂某月份生产了400件产品,其中合格品380件,不合格品20件。求产品质量分布的集中趋势与离中趋势。是非标志总体的指标解:变异程度题解 (Variation Solution) 全距和四分位差原始数据:1716211813161211排序之后:1112131616171821位置:12345678四分位差QQ3118126全距XX最大值最小值211110变异程度题解 样本方差(Sample Variance)原始数据:1716211813161211S(XX)nXXnSiiniin221122221155(17155)(16155)(11155)811114其中 .(XX)in22变异程度题解样本标准差变异系数SS(XX)niin22111114334.一、分布的偏态二、分布的峰态第四节 分布的偏态与峰态偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论