




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学导论,曾五一 肖红叶 主编,3-2,第三章 数据分布特征的描述,第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度,3-3,第一节 统计变量集中趋势的测定,一、测定集中趋势的指标及其作用 二、数值平均数 三、众数与中位数,3-4,一、测定集中趋势的指标及其作用,集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。,测度集中趋势的指标有两大类: 数值平均数是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数; 位置代表值根据数
2、据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。,3-5,测定集中趋势指标的作用,1反映变量分布的集中趋势和一般水平。 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 2可用来比较同一现象在不同空间或不同阶段的发展水平。 不受总体规模大小的影响, 在一定程度上使偶然因素的影响相互抵消。 3可用来分析现象之间的依存关系。 如研究劳动者的文化程度与收入的关系 4平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。,3-6,二、数值平均数,(一)算术平均数(均值) 一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1简单
3、算术平均数 把每项数据直接加总后除以它们的项数。 通常用于对未分组的数据计算算术平均数。 计算公式:,3-7,例 3-1,解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁):,若采用简单平均:,分组数据不能简单平均 !因为各组变量值的次数不等!,3-8,2加权算术平均数,加权算术平均数的计算公式:,正确的计算是:,加权为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi ).,3-9,权数(fi ,也称权重),权数指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。 可以是绝对数形式,也可以是比重形式(如频率)来表示。 事实上比重权数更能够直
4、接表明权数的权衡轻重作用的实质。 当权数完全相等(f1 =f2 = fn)时,加权算术平均数就成了简单算术平均数。,3-10,3由组距数列计算算术平均数,要点: 各组变量值用组中值来代表。 假定条件是各组内数据呈均匀分布或对称分布。 计算结果是近似值 .,解:平均使用寿命为:,3-11,4对相对数求算术平均数,由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。,权数的选择必须符合该相对数本身的计算公式。 权数通常为该相对数的分母指标。,3-12,5算术平均数的主要数学性质,(1)算术平均数与变量值个数的乘积等于各个变量值的总和。,(2)各变量值与算术平均数的离差之总和等于零。
5、,(3)各变量值与算术平均数的离差平方之总和为最小。,3-13,(二)调和平均数(Harmonic mean),调和平均数也称为倒数平均数。 各变量值的倒数(1/xi)的算术平均数的倒数. 其计算公式为:,3-14,(续),社会经济统计中所应用的调和平均数通常是加权算术平均数的变形, 已知各组变量值 xi 和(xi fi)而缺乏 fi 时,加权算术平均数通常可变形为调和平均数形式来计算。 【例3-4】解:,3-15,(三)几何平均数(Geometric mean),几何平均数 n个变量值连乘积的n次方根。 简单几何平均数,加权几何平均数,适用于各个变量值之间存在连乘积关系的场合。 主要用于计算
6、现象的平均发展速度, 也适用于对某些具有环比性质的比率求平均.,3-16,【例3-5】,某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合格率。 解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:,3-17,三、众数与中位数,(一)众数(Mode) 众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。 如表3-2中年龄的众数值MO25。 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 可用来测度定性变量的集中趋势; 销售量最大
7、的产品颜色是“白色”,则有M0“白色” 可以度量定量变量的集中趋势。 从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。,3-18,组距数列中众数的确定,先找到众数组。 在等距数列中,众数组就是次数最多的组; 在异距数列中,众数组应是频数密度最大的组。 根据众数组与其相邻两组的次数差来推算。 其近似公式为:,下限公式:,上限公式:,3-19,(二)中位数(Median),中位数是将数据由小到大排列后位置居中的数值。,由未分组数据计算中位数 若数据项数是奇数,则正好位于中间的数值就是中位数; 如5人收入为: 1200,1450,1500,1600,2000元,则收入的中位数 Me
8、=1500。 若数据项数是偶数,则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数 Me =1550。,3-20,由组距数据计算中位数,先确定中位数组,即中间位置(用f/2来计算)所在的组。 假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。 计算公式为:,下限公式:,上限公式:,3-21,四分位数、十分位数和百分位数,四分位数是将数据由小到大排序后,位于全部数据1/4位置上的数值。 十分位数是将数据由小到大排序后,位于全部数据1/10位置上的数值。 百分位数是将数据由小到大排序后,位
9、于全部数据1/100位置上的数值。 中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。 分位数与其它指标结合,可以更详细地反映数据的分布特征。,3-22,箱线图(boxplot),箱线图由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。 利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。,3-23,(三)众数、中位数和算术平均数的比较,1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有
10、惟一性,但计算和应用众数有两个前提条件: (1)数据项数众多; (2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据,3-24,(续),4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。,3-25,算术平均数和众数、中位数的数量关系,在对称分布中,三者相等.即: 均值 =
11、 Me =Mo;,在左偏分布中,一般有: 均值MeMo,在右偏分布中,一般有:Mo Me 均值。,皮尔生经验公式:在轻微偏态时,三者的近似关系:,3-26,第二节 统计变量离散程度的测定,一、测定离散程度的指标及其作用 二、极差、四分位差和平均差 三、方差和标准差 四、离散系数 五、异众比率,3-27,一则笑话,如果你一只脚放在摄氏 1 度的水里,另一只脚放在摄氏 79 度的水里,平均水温 40 度,你一定感觉很舒服 ? 显然,只了解变量的集中趋势是不够的!,3-28,一、测定离散程度的指标及其作用,1.说明数据的分散程度,反映变量的稳定性、均衡性。 数据之间差异越大,变量的稳定性或均衡性越差
12、。 2.衡量平均数的代表性。 离散程度越大,平均数的代表性就越小。 3. 统计推断的重要依据 判别统计推断前提条件是否成立, 衡量推断效果好坏的重要尺度。,3-29,二、极差、四分位差和平均差,(一)极差(Range) 极差是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。 对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距。 组距数列中,极差最高组的上限-最低组的下限。 优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。,3-30,(二)四分位差,第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表
13、示。计算公式为: 实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。 四分位差越大,表示数据离散程度越大。 是在一定程度上对极差的一种改进,避免了极端值的干扰。但它对数据差异的反映仍然是不充分的。 四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时.,3-31,(三)平均差(Average Deviation),平均差各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为: 未分组数据:,平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,
14、在数学性质上也不是最优的。,已分组数据:,3-32,三、方差和标准差,1. 方差(Variance)的概念和计算 方差是各个数据与其均值的离差平方的算术平均数. 总体方差(2)的计算公式为: 未分组数据:,分组数据:,样本方差(通常用 S2 表示)分母应为(n -1)。,3-33,标准差(standard Deviation),标准差方差的算术平方根。 总体标准差一般用表示。其计算公式为: 未分组数据:,分组数据:,标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。,样本标准差(S)分母应为(n-1)。,3-34,【例3-9
15、】计算平均差和方差、标准差,3-35,2.方差的主要数学性质,(3)分组条件下,总体的方差等于组间方差与各组方差平均数之和。,(1)常数的方差等于零。a为常数,则 (2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有:,组间方差,各组方差平均数,3-36,3.标准化值(Z-score),标准化值或标准得分也称为Z值。 对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。 标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。,3-37
16、,【例3-10】,解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。 利用标准化值进行对比,表明第二次考试的成绩更好一些。,假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢?,3-38,4. 对称钟形分布中的3法则,3 法则关于钟形分布的一个近似的或经验的法则: 变量值落在 -3,+3范围以外的情况极为少见。因此通常将落在区间-3,+3之外的数据称为异常数据或称为离群点。,3-3
17、9,四、离散系数,前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。 对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。 例如,哪个变量的差异较大:体重,还是身高? 例如,体重的差异哪个较大:父亲,还是婴儿? 父亲:平均体重=70 kg,标准差=5 kg 婴儿: 5 kg, 1 kg,3-40,四、离散系数,离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。 将极差与算术平均数
18、对比得到极差系数, 将平均差与算术平均数对比得到平均差系数。 最常用的离散系数是就标准差来计算的,称之为标准差系数: 离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然.,3-41,五、异众比率,异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:,主要用于衡量一组数据以众数为分布中心的集中程度,即衡量众数代表一组数据一般水平的代表性。 其值越小,数据集中程度越高,众数代表性越大.,【例3-12】 规格的异众比率,颜色的异众比率:,3-42,第三节 变量分布的偏度与峰度,一、矩(动差 ) 二、偏度(Skewness) 三、峰度(Kurtosis),3-43,一、矩(动差
19、),矩(动差 ) 一系列刻画数据分布特征的指标的统称。 变量值与数值 a 之离差的 K 次方的平均数称为变量 x 关于 a 的K 阶矩,即:,K 阶原点矩(当a = 0 时)是数据的K次方的平均数. 一阶原点矩即算术平均数; 二阶原点矩即平方平均数。,K 阶中心矩矩(当a =均值 时)是以均值为中心计算的离差 K 次方的平均数 k=1时,称为一阶中心矩,它恒等于0,即 m1=0; k=2时,称为二阶中心矩,也就是方差,即m2=2。,3-44,二、偏度(Skewness),偏度指数据分布的不对称程度或偏斜程度。 以 对称分布 为标准来区分 偏态分布又分左偏(负偏)和右偏(正偏).,3-45,偏态的测度方法,一般有:,(一)由均值与众数(中位数)之间的关系求偏态系数:,3-46,(二)由三个四分位数之间的关系求偏态系数,值域:-1 Sk 1,3-47,偏度系数,(三)利用 3 阶中心矩来计算偏度系数。 测定偏度最常用的方法 原理:若分布不对称,则 3 阶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 隐性金融分权对区域金融风险的影响研究
- 基于计算机视觉的实时车道线检测算法研究
- 乌鲁木齐水费管理办法
- 临时救助实施管理办法
- 会计预算管理暂行办法
- 产权经纪机构管理办法
- 乡镇平安建设管理办法
- 温针灸治疗脾虚湿阻型单纯性肥胖并发血脂异常的临床研究
- 中行金库钥匙管理办法
- 企业员工健康管理办法
- 研发人员的职业发展与晋升途径
- 信访工作课件
- 高教社新国规中职教材《英语1基础模块》英语1-U1-220905改
- 初中物理2022版新课程标准测试卷及答案
- 公司合同管理知识培训课件
- 劳务解除合同
- 招标投标投标文件编制指南
- 2022年助理公路水运试验检测师《公共基础》考试真题及答案(完整版)
- QC小组活动记录【范本模板】
- GB/T 3683-2011橡胶软管及软管组合件油基或水基流体适用的钢丝编织增强液压型规范
- GB/T 3003-2017耐火纤维及制品
评论
0/150
提交评论