版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中级经济师《经济基础知识》第二十四章描述统计教材内容
在描述统计中,可以通过统计量描述数据的分布特征。对于数据分布特征的测
度主要分为三个方面:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的
程度;二是分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据
的代表程度;三是分布的偏态,反映数据分布的不对称性。对于两个定量变量之间
的相关分析,经常采用的描述方法是散点图和相关系数统计量。
一、集中趋势的测度
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的
位置所在。集中趋势的测度也就是寻找数据水平的代表值或中心值。
1.均值。均值也叫作平均数,就是数据组中所有数值的总和除以该组数值的个
数。设一组数据为Xi,X2,…,X、平均数的计算公式为:
例如,某售货小组有5名营业员,元旦全天的销售额分别为520元、600元、
480元、750元和500元,求该日平均销售额。
计算结果表明,元旦5名营业员的平均销售额为570元。
均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据
的平均水平。它主要适用于数值型数据,但不适用于分类数据和顺序数据。此外,
均值容易受到极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得
均值对数据组的代表性减弱。
2.中位数。把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数
值叫作中位数,用Me,表示。中位数将数据分成两部分,其中一半数据小于中位数,
另一半数据大于中位数。设一组数据为XI,X2,...,Xn.按从小型吠顺序为X⑴,X(2),…,X(n),则中位效为:
例如,某地级市下辖9个县,每个县的面积如下(单位:平方千米),计算该市下
辖县面积的中位数:
14552024912101613521031212810752000
首先,将上面的数据排序结果如下:
91210161031107513521455200020242128
中位数位置=(9+1计2=5,中位数为1352,即Mc=1352(平方千米)
在上例中,由于行政区划调整,邻市的一个面积为1000平方千米的县划归该
no行政区划调整后,该市现在下辖10个县,该市下辖县的面积(单位:平方千米)
从小到大依次为:
912100010161031107513521455200020242128
计算行政区划调整后该市下辖县面积的中位数:
中位数位置=(10+1户2=5.5,中位数为(平方千米)
中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类
数据。中位数的优点是不受极端值的影响,抗干扰性强,尤其适用于收入这类偏斜
分布的数值型数据。
3.众数。众数是指一组数据中出现次数(频数)最多的变量值。例如,某能源公
司有9个分公司,每个分公司的主营产品分别是煤制品、有机化工原料、火电、煤
制品、热力、电解铝、火电、煤制品、煤制品,则该能源公司分公司主营产品的众
数为煤制品。
众数适用于描述分类数据和顺序数据的集中趋势。而在定量数据中,可能出现
多众数和无众数的情况,因此众数不适用于描述定量数据的集中位置。
4.均值、中位数和众数的比较及适用范围。三者的关系及各自的适用范围如下。
。均值适用于定量变量。优点是能够充分利用数据的全部信息,均值大小受每个观
测值的影响,比较稳定;缺点是易受极端值的影响,如果观测值中有明显的极端值,
则均值的代表性较差。②中位数不适用于分类变量,适于顺序变量和定量变量,特
别是分布不对称的数据。优点是不受极端值的影响;缺点是没有充分利用数据的全
部信息,稳定性差于均值,优于众数。③众数不适用于定量变量,主要适用于分类
和顺序变量。优点是不受极端值的影响,尤其是分布明显呈偏态时,众数的代表性
更好;缺点是没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。
二、离散程度的测度
离散程度反映的是数据之间的差异程度。集中趋势的测度值是对数据水平的一
人概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。数据的
离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其
代表性就越好。
1.方差。方差是数据组中各数值与其均值离差平方的平均数,它能较好地反映
匕数据的离散程度,是实际中应用最广泛的离散程度测度值。方差越小,说明数据
值与均值的平均距离越小,均值的代表性越好。
对于总体数据,常用的方差计算公式有两种:
前者的分母是总体规模、后者的分母是总体规模N减去1。对于样本数据,常
月的方差计算公式为:
样本方差s2的分母是样本规模n减去1。在有放回的简单随机抽样中,样本方
差s2是总体方差J的无偏估计量;而在不放回的简单随机抽样中,样本方差s2是总
体方差S2的无偏估计量。
根据本章前例中5名营业员元旦当天的销售额样本数据,计算日销售额的样本
方差。
2.标准差。方差是反映数据离散程度的重要测度指标,但是其单位是原数据单
位的平方,没有解释意义。因此,我们经常使用标准差来测度数据的离散程度,标
准差即方差的平方根。对于样本数据,常用的标准差计算公式为:
标准差不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位。
同样地,利用5名营业员元旦当天的销售额样本数据,计算日销售额的标准差。
标准差与方差计算比较简便,又具有比较好的数学性质,是应用最广泛的统计
离散程度的测度方法。但是标准差与方差只适用于数值型数据。此外,与均值一样,
它们对极端值也很敏感。
3.离散系数。离散系数也称变异系数或标准差系数,即标准差与均值的比值,
主要用于不同类别数据离散程度的比较,记为CV。离散系数计算公式为:
根据5名营业员元旦当天的销售额案例数据,计算日销售额的离散系数。
标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能
直接用标准差比较不同变量的离散程度。离散系数消除了测度单位和观测值水平不
同的影响,因而可以直接用来比较变量的离散程度。
三、分布形态的测度
1.偏态系数。偏度是指数据分布的偏斜方向和程度,描述的是数据分布对称程
度。测度数据分布偏度的统计量称为偏态系数,其计算公式为:
偏态系数取决于离差三次方的平均数与标准差三次方的比值。如果偏态系数等
于0,说明数据的分布是对称的;如果偏态系数为正值,说明分布为右偏的,取值在
。和0.5之间说明轻度右偏,取值在0.5和1之间说明中度右偏,取值大于I说明严
重右偏;如果偏态系数为负值,说明分布为左偏,取值在0和-0.5之间说明轻度左
偏,取值在-0.5和-1之间说明中度左偏,取值小于-1说明严重左偏。偏态系数的绝
对值越大,说明数据分布的偏斜程度越大。
2.标准分数。在统计上,均值和标准差不同时,不同变量的数值是不能比较的。
比如,在考核A中员工得分的均值为80分,标准差为20分,在考核B中员工得
分的均值为60分,标准差为5分。同样是80的得分,在考核A中属于中等水平,
在考核B中可能名列前茅。来自不同分布的变量值不可比,但是每个数值在变量分
布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量
的取值。标准分数可以给出数值距离均值的相对位置,计算方法是用数值减去均值
所得的差除以标准差,计算公式为:
在上面所说的两次考核得分分布假定下,在考核A中80分转化后的标准分数
为0,在考核B中70分转化后的标准分数为2,说明70分在考核B中的相对排名高于
80分在考核A中的相对排名。
标准分数也称为Z分数,是统计上常用的一种标准化方法,转变后的标准分数
并没有改变数值在原分布中的位置,也没有改变数据原分布的偏度,但是标准分数
的平均数为0,标准差为lo
在实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均
值的距离在特定倍数标准差之内的数据项所占比例。经验法则表明:约后68%的数
据与平均数的距离在I个标准差之内,约有95%的数据与平均数的距离在2个标准
差之内,约有99%的数据与平均数的距离在3个标准差之内。也就是说,对于服从
对称的钟形分布的标准分数,68%的标准分数在口,+1]范围内,约有95%的标准分
数在[-2,+2]范围之内,约有99%的标准分数在[-3,+引范围之内。因此,根据经验法
则,如果上面的考核B中的得分服从对称钟形分布,则95%的得分都在50分和70
分之间。
四、变量间的相关分析
现实中很多变量之间存在着相关关系。比如,一般来说,身高越高的人体重也
越重,收入较高的家庭消费水平也较高,诸如此类的例子不胜枚举。有的变量间相
关关系较强,有的变量间相关关系较弱,并且变量间相关的模式也是不尽相同的。
因此,我们需要度量变量间相关关系的强弱,并对不同的相关关系进行分类。
(一)变量间的相关关系
客观现象的相关关系可以按不同的标准进行分类。
1.按相关的程度可分为完全相关、不完全相关和不相关。当一个变量的取值变
化完全由另一个变量的取值变化所确定时,称这两个变量间的关系为完全相关。例
如,在价格不变的条件下,某种商品的销售总额由其销售量决定。当两个变量的取
值变化彼此互不影响时,称为不相关现象。例如,通常认为股票价格的高低与气温
的高低是不相关的。当两个变量之间的关系介于完全相关和不相关之间,称为不完
全相关,一般相关现象都是指这种不完全相关。
2.按相关的方向可分为正相关和负相关。当一个变量的取值由小变大,另一个
变量的取值也相应由小变大,这种相关称为正相关。例如,工人的工资随着劳动生
产率的提高而增加。当一个变量的取值由小变大,而另一个变量的取值相反地由大
变小,这种相关称为负相关。例如,商品的销售量随着单价的升高而降低。
3.按相关的形式可分为线性相关和非线性相关。当两个相关变量之间的关系大
致呈现为线性关系时,称之为线性相关。如果两个相关变量之间,并不表现为直线
的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。
需要注意的是,相关关系并不等同于因果关系。例如,夏季我们也许能得到雪
糕的销售量与遮阳伞的销售量之间呈正相关,但常识告诉我们它们之间并不存在因
果关系。
(二)散点图
两个变量间的关系可以用散点图来展示。在散点图中,每个点代表一个观测值,
横纵坐标值分别代表两个变量相应的观测值。
图24-1是一些数据的散点图。横坐标值表示变量X的观测值,纵坐标值表示
变量Y的观测值。图a的点几乎无规律而言,表示这两个变量不相关。图b和图c
口,观测点密集在一条直线周围,表现为较强的线性相关,但相关的方向不同。图
b中的两个变量为正相关关系,图c中的两个变量为负相关关系。图d中的观测点
呈现出曲线模式,这表示两个变量为非线性相关。
图24-1不同形态的散点图
(三)相关系数
相关系数是度量两个变量间相关关系的统计量。最常用的相关系数是Pearson
相关系数,它度量的是两个变量间的线性相关关系。假设分别可得到两个变量X和
Y的n组观测值,即Xi,yi,i=l,2,…,n,其中两组观测值之间是---对应的,那么
Pearson相关系数r的计算公式为:
表24-1是2002-2013年的城镇居民人均可支配收入和人均消费支出数据。图
24-2所示为相应的散点图。从图中可以看出,这两个变量呈正线性相关。
表24-12002—2013年城镇居民人均可支配收入和人均消费支出
资料来源:《中国统计年鉴》
图24-22002—2013年城镇居民人均可支配收入和人均消费支出的散点图
用公式进行计算,可得两变量观测值的Pearson相关系数r:
可以证明,Pearson相关系数的取值范围在+1和-1之间,即-1W长1。若0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件质量保证流程
- 工业智能制造技术实践指南
- 2026年文学鉴赏与文学理论考试题集
- 2026年移动支付呼叫中心业务测试题
- 2026年行政事业单位移民业务考试题目
- 胃炎患者的日常饮食管理
- 2026年一级建造师考试实务科目试题解析
- 2026年全民健身运动会测试卷身体素质锻炼题型
- 2026年交通运输岗位应聘考核题及解答参考
- 2026年国际关系专业综合知识模拟题
- 2025大模型安全白皮书
- 2026国家国防科技工业局所属事业单位第一批招聘62人备考题库及1套参考答案详解
- 工程款纠纷专用!建设工程施工合同纠纷要素式起诉状模板
- 2026湖北武汉长江新区全域土地管理有限公司招聘3人笔试备考题库及答案解析
- 110(66)kV~220kV智能变电站设计规范
- (正式版)DB44∕T 2784-2025 《居家老年人整合照护管理规范》
- 2025年美国心脏病协会心肺复苏和心血管急救指南(中文完整版)
- (2025年)教育博士(EdD)教育领导与管理方向考试真题附答案
- 1、湖南大学本科生毕业论文撰写规范(大文类)
- 基于多源数据融合的深圳市手足口病时空传播模拟与风险预测模型构建及应用
- 咯血的急救及护理
评论
0/150
提交评论