




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上精选优质文档-倾情为你奉上专心-专注-专业专心-专注-专业精选优质文档-倾情为你奉上专心-专注-专业第 4 章 数据的概括性度量名人名言 胸中有“数”。就是说,对情况和问题一定要注意到它们的数量方面,要有基本的数量分析。任何质量都表现为一定的数量,没有数量也就没有质量。我们有许多同志至今不懂得注意事物的数量方面,不懂得注意基本的统计、主要的百分比,不懂得注意决定事物质量的数量界限,一切都是胸中无“数”,结果就不能不犯错误。毛泽东第 4 章 数据的概括性度量4.1 总规模度量4.2 比较度量 4.3 集中趋势的度量 4.4 离散程度的度量4.5 偏态与峰态的度量学习目标
2、总量指标的种类相对指标的种类及计算方法集中趋势各测度值的计算方法集中趋势各测度值的特点及应用场合离散程度各测度值的计算方法离散程度各测度值的特点及应用场合偏态与峰态的测度方法用Excel计算描述统计量并进行分析一、总量指标概述二、总量指标的种类一、总量指标概念总量指标:是反映社会经济现象在一定时间、地点条件下总规模或总水平的统计指标。也称为绝对指标或绝对数。 如:2009年我国年末人口数为万人、 国内生产总值(GDP)亿元、 财政收入68518亿元、粮食产量53082万吨二、总量指标的种类 1、按反映的内容不同,可分为:总体单位总量:一个总体中所包含的总体单位总数,表示总体本身的规模大小。总体
3、标志总量:总体中各单位某一数量标志值的总和,表示总体某一数量特征的总量。例如:研究某市工业企业的发展情况,总体是?工业企业总数是?工业企业实现的销售额是?全部工业职工人数是? 总量指标的种类2、按反映的时间状态不同,分为时期指标:说明总体在一段时间内累积的总量 例如:销售收入、生产量、工资总额时点指标:说明总体在某一时刻的数量状态 例如:职工人数、库存量、固定资产余额总量指标的种类时期指标和时点指标的区别:时期指标的数值是连续计数的,时点指标的数值是间断计数的。时期指标具有可加性,时点指标不能直接累加。时期指标数值的大小与时间长短有直接关系,时间越长,数值越大;时点指标数值的大小与时间长短没有
4、直接关系。总量指标的种类3、按采用的计量单位不同,分为(1)实物指标:以实物单位计量的总量指标。自然单位:按照自然状态计量的单位 。如:辆、双 度量衡单位:根据国内或国际上通行的度量衡制度进行计量的单位 。例如:千克、米、公里标准实物单位:按照统一的折算标准来度量的一种计量单位。如:标准煤、标准化肥复合单位:将两种计量单位结合在一起进行计量的单位 。 如:吨公里、千瓦时双重或多重单位:同时采用两种或两种以上计量单位进行计量的单位。 如:台千瓦 、艘/马力/吨位 总量指标的种类(2)价值指标:以货币为单位来计量的总量指标。如:国内生产总值、销售收入、产品成本等 。(3)劳动指标:以劳动单位为计量
5、单位的总量指标。 如:“工时”、“工日 ”等 4.2 比较度量一、相对指标概述二、相对指标的种类及计算方法一、相对指标概述“对比乃统计方法之母”(一)概念相对指标:又称相对数,是两个有联系的指标的比值,用以说明两个相互联系的社会经济现象之间的数量对比关系和联系程度。如:2009年国内生产总值同比增长8.43%,人口自然增长率为5.05,城镇居民人均可支配收入17175元,城镇居民家庭恩格尔系数为36.5%等 一、相对指标概述(二)相对指标的表现形式:1、有名数(复合单位)如:人平方公里、元人、元件2、无名数 系数和倍数、成数、百分数、千分数、翻番数二、相对指标种类及计算方法(一)计划完成相对数
6、也称计划完成百分比,用来检查、监督计划的执行情况,通常用百分数表示。基本计算公式为: 二、相对指标种类及计算方法1、计划数是绝对数(长期计划)水平法:适用于反映生产能力的经济指标计划完成情况检查。如钢产量、煤产量、发电量等二、相对指标种类及计算方法(一)计划完成相对数(一)计划完成相对数例:某企业计划要求劳动生产率达到5000元/人,某种产品的计划单位成本为100元,该企业实际劳动生产率达到6000元/人,实际单位成本为80元,则计划完成程度指标为劳动生产率完成相对数=60005000100%=120%单位成本计划完成相对数=80100 100%=80%(二)结构相对数结构相对数:也称比重相对
7、数,反映总体构成情况。一般用百分数或系数(成数)表示。结构相对数 我国国内生产总值构成情况表(%) 恩 格 尔 系 数中国城乡居民恩格尔系数(%):2000年:城镇39.4 ;农村49.1;2001年:城镇38.2 ;农村47.7;2002年:城镇37.7 ;农村46.2;2003年:城镇37.1 ;农村45.6;2004年:城镇37.7 ;农村47.2;2005年:城镇36.7 ;农村45.5;2006年:城镇35.8 ;农村43.0;2007年:城镇36.3 ;农村43.1;2008年:城镇37.9 ;农村43.7;2009年:城镇36.5 ;农村41.0。(三)比例相对数比例相对数:表明
8、总体内各组成部分之间的对比关系。常用系数或倍数表示。公式为: (四)比较相对数比较相对数:反映同一时期的同类现象在不同地区、部门和单位之间数量对比关系的相对指标 。用倍数、百分数表示。(五)强度相对数强度相对数:两个性质不同但又互相联系的总量指标对比的比值,反映现象的强度、密度或普遍程度。 一般用复名数或百分数、千分数表示。(五)强度相对数例1: 2009年我国总人口万人,则人口密度:139人平方公里或 0.0072平方公里人例2:某地区2009年总人口为1200万人,有60000个零售商业机构,则该地区零售网点密度指标为:正指标:该地区零售网点密度120060000200(人个)逆指标:该地
9、区零售网点密度60000120050(个万人)(六)动态相对数动态相对数又称发展速度,是同一现象在不同时间上的指标数值的比值 ,说明某一总体发展变化的方向和程度。 一般用百分数表示,或倍数,翻番。三、运用相对指标应遵循的原则可比性原则。遵从可比性是进行对比应把握的总原则。正确选择对比基数的原则。同一现象、问题采用不同的对比基数会有不同的结果。多种相对指标结合运用的原则。多角度、多侧面运用多种相对数和相关指标比较。相对指标与总量指标结合运用的原则。相对数相同,基数不同,绝对差很悬殊4.3 集中趋势的度量一、位置平均数二、数值平均数三、各种平均数之间的关系统计应用一组测量的平均数比单个的测量更可靠
10、 即使用一种很准确、很可靠的仪器对同一物体进行重复测量,由于一些无法控制的因素的影响,每次得到的结果也不见得一样(美国)国家标准与技术协会(NISTNational Institute of Standards and Technology)的原子钟非常准确,它的准确程度是每600万年误差1秒,但也并不是百分之百准确世界标准时间是世界协调时间(Universal Coordinated Time),它是由位于法国的塞夫尔的国际计量局(BIPM)所“编辑”的。BIPM并没有比NIST更好的钟,它给出的时间是根据世界各地200个原子钟的平均时间得来的统计应用一组测量的平均数比单个的测量更可靠下面是
11、NIST的时间与正确时间的10个误差数据(秒)长期来讲,对时间的度量并没有偏差。NIST的秒有时比BIPM的短,有时比BIPM的长,并不是都较短或较长。尽管NIST的测量很准确,但从上面的数字还是可以看出有些差异。世界上没有百分之百可靠的度量,但用多次测量的平均数比只用一次测量的结果可靠程度会更高。这就是BIPM要结合很多原子钟的时间的原因集中趋势(central tendency)一、位置平均数众数、中位数、四分位数(一)众数(mode)一组数据中出现次数最多的变量值不受极端值的影响适合于数据量较多时使用可能没有众数或有几个众数众数(不唯一性)无众数原始数据: 10 5 9 12 6 8分类
12、数据的众数 (例题分析)数值型数据的众数 (例题分析)【例4-2】在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。要求计算人均月收入的众数。原始数据: 1080 750 1080 1080 850 960 2000 1250 1630 Mo1080数值型分组数据的众数(要点及计算公式)数值型分组数据的众数(算例)(二)中位数(median)一组数据排序后,处于中间位置上的变量值中位数(位置的确定)未分组数据的中位数(计算公式)未分组数据的中位数 (9个数据的算例)【例4-4】 9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960
13、2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9未分组数据的中位数 (10个数据的算例)【例4-5】 10个家庭的人均月收入数据原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 分组数据的中位数(要点及计算公式)根据位置公式(N/2)确定中位数所在的组采用下列近似公式计算(向上累积):
14、数值型分组数据的中位数(算例)(三)四分位数(quartile)1.排序后处于25%和75%位置上的值四分位数(位置的确定)未分组数据的四分位数 (9个数据的算例)【例4-7】 9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9未分组数据的四分位数 (10个数据的算例)【例4-8】 10个家庭的人均月收入数据原始数据 1500 750 780 660 1080 850 960 2000 1250
15、1630排 序 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9 10 分组数据的四分位数(计算公式) QL位置120/430二、数值平均数(一)算术平均数(Arithmetic Mean) 也称为均值(mean)消除了观测值的随机波动一组数据的均衡点所在4. 易受极端值的影响5. 分为 :简单算术平均数、加权算术平均数(一)算术平均数(Arithmetic Mean) 简单算术平均数(例题)【例4-10】一家汽车零售店的15名销售人员6月份销售的汽车数量(单位:台)为:7、10、10、4、12、14、2、15
16、、10、9、12、5、11、2、3,试计算它们的平均销售量。 2、加权算术平均数 (weighted mean)已改至此!加权算术平均数(权数对均值的影响) 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 60 80 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 60 80 100 人数分布(f ):8 1 1影响加权算术平均数的因素一是各组变量值(xi) 的大小;二是各组频数(fi) 占总体单位数的比重。公式变形:以频率为权数计算均值(算例)【例4-12】某企业60名工人月工资分组情况如下表, 试计算月平均工资 某企业60名工人月工资分组
17、表3、算术平均数的数学性质性质1. 各变量值与均值的离差之和等于零均值(数学性质)性质2. 各变量值与均值的离差平方和最小数学性质证明证明:设X0为不等于均值的任意数,C为常数, (二)调和平均数(harmonic mean)1.易受极端值的影响2. 分为:简单调和平均数、加权调和平均数1、简单调和平均数【例4-14】某种蔬菜的价格,甲集市4.5元/千克,乙集市4元/千克,丙集市5.5元/千克。若在三个集市各买1元,求蔬菜的平均价格。 简单调和平均数简单调和平均数又称倒数平均数。计算公式为: 2、加权调和平均数 在上例中,如果在甲集市花费8元,乙集市花费10元,丙集市花费5元,购买这些蔬菜的平
18、均价格是多少? 加权调和平均数调和平均数 (例题分析)(三)几何平均数(geometric mean)1. n 个变量值乘积的 n 次方根2. 适用于比率数据的平均3. 计算公式为(三)几何平均数(概念要点)6、加权几何平均数计算公式为简单几何平均数(算例)【例4-16】某企业生产某种产品须经过毛坯、粗加工、精加工、装配四个连续作业车间才能完成,若6月份每个车间的产品合格率分别为95%、92%、90%、85%,求该产品的企业合格率(即四个车间的平均合格率)是多少?几何平均数 (例题分析) 【例4-17】一位投资者购持有一种股票,在20052008年收益率分别为4.5%、2.1%、5.5%、10
19、.9%。计算该投资者在这四年内的平均收益率 。加权几何平均数(算例)【例4-18】某投资银行某笔投资的年利率是按复利计算的,若将过去25年的利率资料整理如下表所示的变量数列,求25年的平均年利率。投资年利率分组表 加权几何平均数(算例)用加权几何平均法求25年的平均本利率:三、众数、中位数和均值的关系众数、中位数和均值的关系众数、中位数和均值的特点和应用众数不受极端值影响具有不唯一性数据分布偏斜程度较大且有明显峰值时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性较好平均数易受极端值影响数学性质优良,实际中最常用数据对称分布或接近对称分布时代表性较好他被忽悠了吗? 李小姐有一个小工厂
20、,管理人员有李小姐、6个亲戚;工作人员有5个领工、10个工人和1名学徒。现在需要增加一个新的工人。小张应征而来,与李小姐交谈。李小姐说:“我们这里的报酬不错,平均工资是每周300元。” 小张工作几天后,找到李小姐说:“你欺骗了我,我已经问过其他工人,没有一个工人的工资超过每周200元,平均工资怎么可能是一周300元呢?”李小姐说:“小张,平均工资是300元,不信,你看这张工资表。” 他被忽悠了吗?请大家思考下列问题:(1)李小姐说每周平均工资300元是否欺骗了小张?(2)平均工资300元能否客观地反映工人的平均收入?(3)若不能,你认为应该用什么工资反映比较合适? 离中趋势一、异众比率异众比率
21、(variation ratio)非众数组的频数占总频数的比率用于衡量众数的代表性3.计算公式为异众比率 (例题分析)二、四分位差四分位差(quartile deviation)也称为内距或四分间距上、下四分位数之差:Qd = QU QL反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性四分位差 (10个数据的算例)【例4-20】 10个家庭的人均月收入数据原始数据 1500 750 780 660 1080 850 960 2000 1250 1630排 序 660 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5
22、 6 7 8 9 10 三、极差和平均差(一)极差(全距)(range)1. 一组数据的最大值与最小值之差 R = max(xi) - min(xi)2. 易受极端值影响未考虑数据的分布极差(全距)(range)【例4-21】 9个应届毕业生的人均月收入数据原始数据: 800 750 900 980 1020 950 2000 1050 1000排 序: 750 800 880 900 950 1000 1020 1050 2000R = max(xi) - min(xi)=2000-750=1250元(二)平均差(mean deviation)1. 各变量值与其均值离差绝对值的平均数2. 能
23、全面反映一组数据的离散程度3. 数学性质较差,实际中应用较少平均差 (例题分析)平均差 (例题分析)四、方差和标准差方差和标准差(variance and standard deviation)1. 反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差(标准差),记为2() ; 根据样本数据计算的,称为样本方差(标准差),记为s2(s)(一)总体方差和标准差 (population variance and standard deviation)总体标准差 (例题分析)总体标准差 (例题分析)(二)样本方差和标准差 (simple variance and standard devi
24、ation)样本方差与标准差 (例题分析)例如:计算9名员工的月工资收入的方差和标准差1500 750 780 1080 850 960 2000 1250 1630样本标准差 (例题分析)样本标准差 (例题分析)标准差的应用 标准差具有量纲,与变量值的计量单位相同,其实际意义比方差清楚。因此,在对社会经济现象进行分析时,更多地使用标准差标准差度量风险(投资方面)标准差度量产品质量的稳定性标准差度量企业的生产及服务质量标准6质量意谓着什么? 6质量管理的有关资料(美国统计数据) 当今,美国公司的平均水平:医院开药方的准确率为2.6 ;饭店帐单的准确率不足3;公司计算工资单的准确率约3;机场行李
25、卸载与提取的准确率接近3.2;航空安全的质量标准平均为9 (三)是非标志的方差与标准差 有些事物或现象的特征只表现为两种性质上的差异,称为是非标志或交替标志。例如:性别表现为男或女;产品质量表现为合格或不合格;学生成绩表现为及格或不及格。比例(或成数)1、比例(成数):总体中具有或不具有某种表现的单位数占全部单位数的比重称为比例(成数)。 N1 :总体中具有某种表现的单位数, N0 :总体中不具有某种表现的单位数, N :总体单位数总体比例:= N1 / N 或 1- = N0 / N样本比例: p = n1 / n 或 1- p = n0 / n2、比例的平均数和方差 1表示具有某种标志表现
26、 0表示不具有某种标志表现是非标志的方差和标准差总体标准差为:比例方差和标准差(例题)【例4-24】从一批产品中随机抽取100件产品进行质量测试,测试结果为96件合格,4件不合格,试计算该批产品合格率的方差和标准差。根据资料可得: P=96/100=96% 1-p=4%五、相对位置的测量:标准分数(一 )标准分数(standard score)1. 也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点(outlier)4. 用于对变量的标准化处理5. 计算公式为标准分数(性质)1、标准分数反映各数据以平均数为中心的相对位置: Z0, 即 Xi ; Z0,
27、即 Xi ; Z = 0, 即 Xi =2、标准分数不改变原数据大小的位序,若XiXj,则必有ZiZj标准分数(性质)标准分数的均值等于02. 标准分数的方差等于1标准分数(性质) z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。 标准化值 (例题分析)(二)经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 在3个标准差之外的数据,在统计上称为异常值或离群点(
28、outlier)经验法则(例题分析)(二)经验法则【例4-26】液体清洁剂是在生产线上自动填充的,填充的重量呈钟形分布。如果平均重量为500克,标准差是5克,利用经验法则可得出下面结论:大约68%的清洁剂填充重量在495克至505克之间大约95%的清洁剂填充重量在490克至510克之间大约99%的清洁剂填充重量在485克至515克之间(三)切比雪夫不等式(Chebyshevs inequality )适用于任何分布形状的数据。提供的是“下界”,也就是“所占比例至少是多少”。对于任意分布形态的数据,根据切比雪夫不等式,至少有 (1-1/k2) 的数据落在平均数k个标准差之内。其中k是大于1的任意
29、值,但不必一定是整数。切比雪夫不等式(Chebyshevs inequality )对于k=2,3,4,该不等式的含义是至少有75%的数据落在平均数加减2个标准差的范围之内至少有89%的数据落在平均数加减3个标准差的范围之内至少有94%的数据落在平均数加减4个标准差的范围之内切比雪夫不等式(例题)【例4-27】假设100名学生在统计学原理考试中,平均分数为70分,标准差为5,那么有多少学生的分数在6080之间?有多少学生的分数在5882之间?(1)k=(60-70)/5=-2 k=(80-70)/5=2在100个学生中至少75人的分数在6080之间。(2)k=(58-70)/5=-2.4,k=(82-70)/5=2.4根据切比雪夫定理: 1-1/k2=1-1/2.42=0.826即至少有82.6%的学生的分数在5882之间。五、相对离散程度:离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5. 计算公式为离散系数 (例题分析)离散系数 (例题分析)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 战略管理流程与风险评估试题及答案
- 掌握网络管理员考试核心内容的试题及答案
- 绿色产业的经济政策支持试题及答案
- 数据管理与战略决策的风险试题及答案
- 2025届浙江省温州市瑞安市集云实验学校数学七下期末质量检测试题含解析
- 社团文化节的举办方案计划
- 法学概论前沿研究的试题及答案
- 2025届大庆市重点中学七下数学期末复习检测试题含解析
- 行政管理创新思维试题及答案
- 秘书工作的心理调适技巧计划
- 2022年西双版纳景洪市事业单位选调考试真题
- DB14-T 2373-2021 12345政务服务便民热线工单分类与编码
- 1纪委监委执纪审查案件卷宗模版检查卷模版
- 区域地理-加拿大
- 浙江抽水蓄能电站引水系统土建工程实施性施工组织设计知名企业
- 2023年汽车设计习题库含答案
- 2023年安徽中烟阜阳卷烟厂招聘笔试参考题库附带答案详解
- 2021年教师结构化面试试题汇总
- 劳动教养心灵-劳动教育在小学《道德与法治》课程中的实践初探 论文
- 《硬件工程师手册(全)》
- 内部控制风险评估
评论
0/150
提交评论