第四章 统计学 数据的概括性度量PPT学习课件.ppt_第1页
第四章 统计学 数据的概括性度量PPT学习课件.ppt_第2页
第四章 统计学 数据的概括性度量PPT学习课件.ppt_第3页
第四章 统计学 数据的概括性度量PPT学习课件.ppt_第4页
第四章 统计学 数据的概括性度量PPT学习课件.ppt_第5页
已阅读5页,还剩127页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第 4 章 数据的概括性度量,4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量,1,学习目标,1.集中趋势各测度值的计算方法 2.集中趋势各测度值的特点及应用场合 3.离散程度各测度值的计算方法 4.离散程度各测度值的特点及应用场合 5.偏态与峰态的测度方法 6.用Excel计算描述统计量并进行分析,2,重点 1.集中趋势、离散程度的各测度值的特点 2.集中趋势、离散程度的应用场合,计算方法 难点 利用Excel计算数据的描述统计量并进行分析,本章教学重点与难点,3,统计分析方法概述 (补充内容),4,统计分析方法一般根据统计数据的维度,可以分为单变量数据分析方法、双变

2、量数据分析方法和多变量变量数据分析方法。另外,截面数据和时序数据的分析方法也有所不同。根据以上综述,可将统计分析方法分为如下几种类型:,5,(一)单变量数据的描述性分析方法(本章) 1集中趋势的测度 2离散程度的测度 3偏态与峰态的测度 (二)单变量数据的统计推断方法(6、7章) 1参数估计方法 2假设检验方法,6,(三)双变量数据的相关性分析方法(第九、十章) 1数值型数据的相关性分析相关分析 2属性数据的相关性分析列联表分析 3数值型数据和属性数据的相关性分析方差分析 (四)双变量数据的因果关系分析方法(回归分析,第十一章) 1数值型数据的回归分析 2数值型数据和属性数据的回归分析,7,(

3、五)单变量时间序列数据的分析方法(第13章) 1时间序列的描述性分析 2时间序列的平稳性分析 3平稳性序列的预测 4有趋势序列的预测 5复合型序列的分析 (六)双变量时间序列数据的相关和回归方法 1平稳序列的的相关和回归 2非平稳序列的的相关和回归,8,(七)统计指数分析方法(第14章) (八)多变量数据分析方法 1判别分析 2因子分析 3聚类分析,9,单变量数据的描述性分析方法,10,统计学是关于数据收集、数据整理和展示、数据分析、数据推断的科学。 一组数据,可以通过数据的分组和频数分布,来展示数据的基本特征,可以通过统计图直观地了解数据的分布特征,但是,为了更好地发现数据的基本规律,必须将

4、数据的分布特征用详细的数值测度和描述。,11,统计学认为,数据的分布特征,可以从三个方面进行测度和描述: 一是数据的分布中心在哪里?越靠近中心数据越密集,我们把这种特征称谓集中趋势,中心值可以代表数据的一般水平; 二是一般数据偏离其中心程度有多大?我们把数据分布偏远离其中心值的程度称谓离中趋势,离散值可以代表数据的变异程度; 三是分布的偏态和峰度,她们也反映数据分布形状的差异。,12,数据分布的特征,13,数据分布特征的测度,14,补充:指标的类型 总量指标,反映现象在一定时间、地点、条件下的总体规模或水平的综合指标,即数量指标,也称为绝对数。,一、概念,是认识社会经济现象的起点; 是实现宏观

5、经济调控和企业经营管理的基本指标; 是计算其他统计指标的基础。,二、作用,15,总体标志总量,总体单位总数,1、按反映的总体内容不同分为:,三、总量指标的基本分类,2、按反映的时间状况不同分为:,时期指标,时点指标,3、按计量单位不同分为:,实物指标,价值指标,劳动指标,16,总体标志总量,总体单位总数,注意:一个总体中只有一个单位总数,但可以有多个标志总量,它们由总体单位的数量标志值汇总而来。,总体各单位某一数量标志的标志值总和,总体所包含的总体单位的数量,1、按反映的基本内容不同,17,时期指标,时点指标,表明现象总体在一段时期内发展过程的总量,如在某一段时期内的出生人数、死亡人数,表明现

6、象总体在某一时刻(瞬间)的数量状况,如在某一时点的总人口数,2、按反映的时间状况不同,18,出生人数,人口总数,死亡人数,关于一个人口总体的总量指标,时期指标,时点指标,19,实物单位,价值单位,劳动单位,四、总量指标的计量单位,多个单位的结合运用:,(如:人次、吨公里),(如:人/平方公里),(如:艘/吨/千瓦),如:台、件,如:米、平方米,如:标准吨,如:工日、工时,如:元,20,公顷,人,辆,计量单位,单一单位,复合单位:工时、吨公里等,自然单位:个、台等 度量衡单位:吨等,21,比较两厂经济效益,不可比,不可比,可比,22,指标的类型:相对指标,指应用对比的方法来反映相关事物之间数量联

7、系程度的指标,也称为相对数。,一、概念,使不能直接对比的现象找到共同的比较基础; 用来进行宏观经济管理和评价经济活动的状况。,二、作用,23,用倍数、系数、成数、等表示,用双重计量单位表示的复名数,三、相对指标的基本表现形式,倍数与成数应当用整数的形式来表述 5倍、3成、近7成 3.25倍、8.6成,24,总人数30人 男生人数20人 女生人数10人 男生比重为2/3 女生比重为1/3 男女比例为2:1,总量指标,非总量指标,相对指标,25,四、相对指标的种类,结构相对数,比例相对数,比较相对数,计划完成程度 相对数,强度相对数,动态相对数,26,例:我国某年国民收入使用额为19715亿元,其

8、中消费额为12945亿元,积累额为6770亿元。则,说 明,为无名数; 同一总体各组的结构相对数之和为1; 用来分析现象总体的内部构成状况。,1、结构相对数,27,例:我国某年国民收入使用额为19715亿元,其中消费额为12945亿元,积累额为6770亿元。则,为无名数,可用百分数或一比几或几比几表示; 用来反映组与组之间的联系程度或比例关系。,说 明,2、比例相对数,28,例:某年某地区甲、乙两个公司商品销售额分别为5.4亿元和3.6亿元。则,为无名数,一般用倍数、百分数表示; 用来说明现象发展的不均衡程度。,说 明,3、比较相对数(横向静态对比),是同类指标数值在不同空间上的对比,比较相对

9、数,29,是同类指标数值在不同时间上的对比,动态相对数,为无名数; 用来反映现象的数量在时间上的变动程度。,说 明,4、动态相对数(纵向对比),30,例:某年某地区年平均人口数为100万人,在该年度内出生的人口数为8600人。则该地区,一般用、表示。,(1)无名数的强度相对数,5、强度相对数,31,例:某地区某年末现有总人口为100万人,医院床位总数为24700张。则该地区,为用双重计量单位表示的复名数,反映的是一种依存性的比例关系或协调关系,可用来反映经济效益、经济实力、现象的密集程度等。,(2)有名数的强度相对数,32,注意:强度相对数虽有“平均”的含 义,但它不是同质总体的标志总量与总体

10、单位数之比,所以不是平均数。,强度:人均GDP、人均粮食产量、资金利润率密度:人口密度、商业网点密度、医疗网密度普遍程度:电话普及率(2005年全国电话普及率57部/百人)、私人汽车普及率,33,直接应用上述公式:,A.计划任务数表现为绝对数(平均数)时,6、计划完成程度相对数,例1:己知某厂2000年的计划产品产量为10万吨,实际产量为12万吨。则:,正指标:1,完成或超额完成计划; 逆指标:1,完成或超额完成计划;,34,B. 计划任务数表现为相对数时,例2:己知某厂2000年的计划规定产品产量要比上年实际提高5,而实际提高了7。则,例3:己知某厂2000年的计划规定产品成本比上年降低5%

11、,实际降低6。则,即实际比计划单位成本下降了1.05%.,35,4.1 集中趋势的度量,4.1.1 分类数据:众数 4.1.2 顺序数据:中位数和分位数 4.1.3 数值型数据:平均数 4.1.4 众数、中位数和平均数的比较,36,集中趋势(central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,37,分类数据:众数,38,众数(mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值

12、的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,39,众数(不惟一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,40,分类数据的众数 (例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买碳酸饮料的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo碳酸饮料,41,顺序数据的众数 (例题分析),解:这里的数据为顺序数据。变量为“回答类别” 甲城市中对住房表示不

13、满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,42,某种商品的价格情况,众数M0=3.00(元),数值型数据的众数 (例题分析),43,表中70-80,即众数所在组。,44,计算众数的近似值:,下限公式:,上限公式:,45,数值型分组数据的众数(要点及计算公式),1. 众数的值与相邻两组频数的分布有关,4. 该公式假定众数组的频数在众数组内均匀分布,2. 相邻两组的频数相等时,众数组的组中值即为众数,3. 相邻两组的频数不相等时,众数采用下列近似公式计算,46,顺序数据:中位数和分位数,47,中位数(median),排序后处于中间位置上的值,不受极端值的影响 主要用

14、于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,48,中位数(位置和数值的确定),位置确定,数值确定,49,顺序数据的中位数 (例题分析),解:中位数的位置为 (300+1)/2150.5 从累计频数看,中位数在“一般”这一组别中 中位数为 Me=一般,50,数值型数据的中位数 (9个数据的算例),【例】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7

15、 8 9,中位数 1080,51,数值型数据的中位数 (10个数据的算例),【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,52,根据组距数列确定中位数, 利用比例分配法推算中位数的近似值。, 由二分之一次数来确定中位数所在组;,53,由组距数列确定中位数,54,下限公式(较小制累计时用):,该公式假定中位数组的频数在该组内均匀分布,55,四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响 计算公式,56,顺序数据的四分位数

16、 (例题分析),解:QL位置= (300)/4 =75 QU位置 =(3300)/4 =225 从累计频数看, QL在“不 满意”这一组别中; QU在 “一般”这一组别中 四分位数为 QL = 不满意 QU = 一般,57,数值型数据的四分位数 (9个数据的算例),【例】:9个家庭的人均月收入数据(4种方法计算) 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,58,数值型数据:平均数,59,平均数(mean),

17、也称为均值 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 有简单平均数和加权平均数之分 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,60,简单平均数(Simple mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,61,加权平均数(Weighted mean),设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk,样本加权平均,总体加权平均,62,加权平均数 (例题分析),63,比值的平均数的计算方法,由于比值(平均数或相对数)不能直接相

18、加,求解比值的平均数时,需将其还原为构成比值的分子、分母原值总计进行对比,设比值,则有:,64,【例A】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度的平均计划完成程度。,比值的平均数的计算方法,65,【例A】某季度某工业公司18个工业企业产值计划完成情况如下:,计算该公司该季度的平均计划完成程度。,应采用加权算术平均数公式计算,比值的平均数的计算方法,66,【例B】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):,计算该公司该季度的平均计划完成程度。,比值的平均数的计算方法,67,【例B】某季度某工业公司18个工业企业产值计划完成情况如下(按

19、计划完成程度分组):,计算该公司该季度的平均计划完成程度。,求解比值的平均数的方法,应采用平均数的基本公式计算,68,几何平均数(geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为,5. 可看作是平均数的一种变形,69,几何平均数 (例题分析),【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,70,【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、8

20、5、80,求整个流水生产线产品的平均合格率。,分析:,设最初投产100A个单位 ,则 第一道工序的合格品为100A0.95; 第二道工序的合格品为(100A0.95)0.92; 第五道工序的合格品为 (100A0.950.920.900.85)0.80;,71,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,72,因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 10

21、0A0.950.920.900.850.80; 则该流水线产品总的合格率为:,即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。,73,思考,若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。,几何平均数的计算方法,74,因各车间彼此独立作业,所以有 第一车间的合格品为:1000.95; 第二车间的合格品为:1000.92; 第五车间的合格品为:1000.80。 则该企业全部合格品应为各车间合格品的总和,即 总合格品=1000.95+1000.8

22、0,几何平均数的计算方法,分析:,75,不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为,应采用加权算术平均数公式计算,即,76,【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。,设本金为V,则至各年末的本利和应为:,第1年末的本利和为:,第2年末的本利和为:, ,第12年末的本利和为:,分析:,77,则该笔本金12年总的本利率为:,即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。,解:,78,几何平均数的计算方法,分析,第1年末的应得利息为:,第2年

23、末的应得利息为:,第12年末的应得利息为:, ,79,则该笔本金12年应得的利息总和为: =V(0.034+0.052+0.151),这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为,假定本金为V,80,所以,应采用加权算术平均数公式计算平均年利息率,即:,解:,(比较:按复利计息时的平均年利率为6.85),81,是否为比率 或速度,各个比率或速 度的连乘积是否等于总比 率或总速度,是否为 其他比值,算术平均法,求解比值的平均数的方法,数值平均数计算公式的选用顺序,指标,82,众数、中位数和平均数的比较,83,众数、中位数和平均数的关系,84,众数、中位

24、数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,85,4.2 离散程度的度量,4.2.1 分类数据:异众比率 4.2.2 顺序数据:四分位差 4.2.3 数值型数据:方差和标准差 4.2.4 相对离散程度:离散系数,86,离中趋势,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,87,分类数据:异众比率,88,异众比率

25、(variation ratio),1.对分类数据离散程度的测度 2.非众数组的频数占总频数的比例 3.计算公式为,4. 用于衡量众数的代表性,89,异众比率 (例题分析),解: 在所调查的50人当中,购买其他品牌饮料的人数占70%,异众比率比较大。因此,用“碳酸饮料”代表消费者购买饮料品牌的状况,其代表性不是很好,90,顺序数据:四分位差,91,四分位差(quartile deviation),对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差 Qd = QU QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,92,四分位差 (例题分析)

26、,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 。 已知 QL = 不满意 = 2 QU = 一般 = 3 四分位差为 Qd = QU - QL = 3 2 = 1,93,数值型数据:方差和标准差,94,极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,95,平均差(mean deviation),各变量值与其平均数离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,96,平均差 (例题

27、分析),97,平均差 (例题分析),含义:每一天的销售量平均数相比, 平均相差17台,98,方差和标准差(variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s),99,样本方差和标准差 (sample variance and standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,100,自由度 (degree of freedom),自由

28、度是指数据个数与附加给独立的观测值的约束或限制的个数之差 从字面涵义来看,自由度是指一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值 按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k,101,自由度 (degree of freedom),样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 为什

29、么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量,102,样本标准差 (例题分析),103,样本标准差 (例题分析),含义:每一天的销售量与平均数相比, 平均相差21.58台,104,总体方差和标准差 (Population variance and Standard deviation),未分组数据,组距分组数据,未分组数据,组距分组

30、数据,方差的计算公式,标准差的计算公式,105,相对位置的度量:标准分数,106,标准分数(standard score),1. 也称标准化值 2.对某一个值在一组数据中相对位置的度量 3.可用于判断一组数据是否有离群点(outlier) 4.用于对变量的标准化处理 5. 计算公式为,107,标准分数(性质),z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1,108,标准分数 (例题分析),109,经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%

31、的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内,110,切比雪夫不等式(Chebyshevs inequality ),如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数,111,切比雪夫不等式(Chebyshevs inequality ),对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内,112,相对离散程度:离散系数,113,离散系数(coefficient of variation),1.标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影响 4.用于对不同组别数据离散程度的比较 5.计算公式为,114,离散系数 (例题分析),【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,115,离散系数 (例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论