




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 四 章 数据分布特征的描述,第 一 节 数据分布集中趋势的测定,一、均值/平均数/数值平均数(mean),(一)概念 是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般水平 (二)特征 1.具有抽象性 2.具有代表性 3.反映总体分布的集中趋势 *举例 1.某市中学生每周平均上网时间为2.8小时 2.某农贸市场2月份牛肉的平均价格为16元/千克 3.某地区“十五”期间经济平均增长率为9.6%,(三)均值的种类及计算,1.算术平均数* (1)概念 算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数 (2)基本公式,算术平均数的计算,*简单算术平均数:针对未分组资料 总体平均数 样本平均数,算术平均数的计算,*加权算术平均数 概念:是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数 计算公式: 未分组数据 其中:w表示各组的标志总量,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同,例4-2根据某公司四个品牌数码相机的销售资料计算平均利润率,表4-1 四个品牌数码相机的利润率和销售额资料,所以,四个品牌数码相机的平均销售利润率为,因为:,*加权算术平均数, 分组的加权平均数:根据分组数据计算均值 样本均值的计算公式: 总体均值的计算公式: 表示各组的变量值(或组距式数列的组中值) 表示各组变量值出现的频数(即权数),例4-3根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。,2.调和平均数,1.问题的由来 思考题:三种蔬菜单价分别为2、3和4元/千克, (1)各买一千克平均单价是多少? (2)各买一元的平均单价是多少? 2.概念: 调和平均数又称倒数平均数,是各个变量值倒数的算术平均数的倒数 3.计算 (1)简单调和平均数:针对未分组资料 计算公式为:,算术平均,调和平均,2.调和平均数,2.加权调和平均数:针对分组资料 计算公式为: 其中: 是一种特殊权数,它不是各组变量值出现的次数,表示各组标志总量 即,例4-4根据某商场职工月工资资料计算月平均工资,课堂练习,资料甲乙企业职工的工资如下表:,要求分别计算甲乙企业职工月工资额的均值,算术平均数和调和平均数的关系*,* 联系实质相同 调和平均数是算术平均数的变形,两者的基本公式均为: *区别适用的情况不同 当已知平均指标的分母资料、未知分子资料时,采用加权算术平均法 当已知平均指标的分子资料、未知分母资料时,采用加权调和平均法,3.几何平均数,(1)概念:几何平均数(geometric mean)又称对称平均数,它是各变量值乘积的n次方根。 (2)计算 基本公式: 对数公式: 在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即,(3)几何平均数的应用及特点,*应用条件 a.变量值是相对数据,如比率或发展速度 b.变量值的连乘积等于总比率或总发展速度 *特点 a.如果数列中有一个标志值等于零或负值,则无法计算 b.受极端值影响较小,故较稳健,例4-5 某电器销售公司20002005年销售量的环比增长率分别为:7.6%、2.5%、0.6、2.7%和2.2%。求这期间销售量的平均增长速度?,表4-4 销售量平均发展速度计算表,几何平均数的计算示例,几何平均数的计算示例,1.采用基本公式计算的销售量平均发展速度为: 2.采用对数公式计算的销售量平均发展速度为: 所以,销售量的平均增长速度=103.1%-1=3.1%,二、位置平均数,(一)中位数(median) 1.概念 中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据,符号为 2.中位数的计算方法 (1)未分组数据的中位数 将变量值按升序或降序排列,找中间位置的变量值 (2)单项数列的中位数 计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数,例4-6 计算某公司销售人员月销售冰箱中位数,中位数的位置,即中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则,2.中位数的计算方法,(3)组距数列的中位数:由下列公式近似计算 下限公式,其中:,为总体单位总数,为中位数组的下限,为中位数组以下的累计频数,为中位数组的频数,为中位数组的组距,例4-7 求以下组距数列的中位数,中位数的近似值为:,某地区家庭收入分组表,中位数的位置在第46(92/2)位,应在第二组,中位数的特点, 是一种位置平均数,不受极端值及开口组的影响 对于分配不对称的数据,中位数比平均值更适合当集中趋势的代表值 对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平 例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素,二、位置平均数,(二)众数(mode) 1.概念 众数(mode)是指在一组数中出现次数最多的那个数值,符号为 2.数据数列的众数分布情况 无众数 如数据数列: 13 7 9 12 6 8 一个众数 如数据数列: 6 5 9 8 6 6 多个众数 如数据数列: 22 35 27 35 27 36,3.众数的计算方法,*品质变量的众数观察次数,出现次数最多的变量值就是众数 例如:企业的所有制结构分布、人口的城乡分布 *数值变量的众数 未分组资料观察次数,出现次数最多的数据就是众数 分组资料 (1)单项式数列直接观察,次数最多的组的变量值即为众数,例4-8单项式变量数列确定众数实例,某市居民家庭按家庭人口数分组,由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人,3.众数的计算方法,组距数列计算众数:由下列公式近似计算 下限公式,其中:,为众数组与前一组频数之差,为众数组的下限,为众数组与后一组频数之差,为众数组的组距,例4-10 组距式数列计算众数示例,其众数的近似值为:,某地区的人均月收入调查数据表,三、均值、中位数和众数的比较,(一)均值、中位数和众数的数量关系 1.当数据呈对称分布的,三者合而为一,如图(a) 2.当数据呈左偏分布时,说明数据存在极小值,必然拉动均值向极小值一方靠,则从左至右依次是均值、中位数和众数,如图(b) 3.当数据呈右偏分布时,说明数据存在极大值,必然拉动均值向极大值一方靠,则从左至右依次是众数、中位数和均值,如图(c),均值、中位数和众数的数量关系,1.当数据呈对称分布的,三者合而为一,均值、中位数和众数的数量关系,2.当数据呈左偏分布时,从左至右依次是均值、中位数和众数,均值、中位数和众数的数量关系,3.当数据呈右偏分布时,从左至右依次是众数、中位数和均值,如图c,三、均值、中位数和众数的比较,(二) 均值、众数和中位数的特点及应用场合 *均值是对数值型数据计算的,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛的集中趋势测度值 *中位数是一组数据中间位置上的代表值,其特点是不受数据极端值的影响,主要适合于作为顺序数据的集中趋势测度值 *众数是一组数据分布的峰值,它也是一种位置代表值,不受极端值的影响,主要适合于作为分类数据的集中趋势测度值,第 三 节 数据分布离散程度的测定,一、极差/全距,(一)概念:又称全距,是数据中最大值和最小值之差。记为 (二)计算 1.未分组数据的极差为: 表示数据的最大值 表示数据的最小值 2.分组数据的极差 极差最大组的上限最小组的下限 若存在开口组,则: 最大组的上限前一组的上限组距 最小组的下限下一组的下限组距,其中:,例4-11 对人均月收入分组如下:2 000元以下、2 0004 000元、8 00010 000元、10 000元以上,计算全距 分析: 其最小组的下限为0 最大组的上限为: 则全距为:,极差/全距的计算示例,(三)修正极差(modified range),1.概念:是去掉极端值后的极差,又称四分位全距(IQR,inter quartile range ),是中间50的数据的间距,即数据分布中第25个和第75个百分位数的间距,也即第1个和第3个四分位数的间距 2.公式: 其中:Q3表示第3个四分位数,即第75个百分位数 Q1表示第1个四分位数,即第25百分位数,二、平均差(MAD),(一)概念: 平均差( mean absolute deviation)是各数据对平均数的离差绝对值的平均数 (二)样本平均差的计算公式为: 1.未分组数据: 2.分组数据:,三、方差和标准差,(一)概念 方差(variance)是各变量值与其均值离差平方的平均数。标准差(standard deviation)是方差的平方根,又称“均方差” (二)比较与评价 1.其内涵与平均差相似,均为各个数据对其平均数的平均离差。但平均差采用求绝对值消除正负离差,标准差采用平方法消除正负离差,在数学处理上标准差上比平均差更为科学合理 2.方差和标准差是测度数值型数据离散程度的最主要的指标,(三)方差和标准差的计算,1.总体方差和标准差,方 差,标准差,未 分 组 数 据,分 组 数 据,例4-12某电脑公司销售量分组数据如下表,计算销售量的方差和标准差,总体方差和标准差计算示例,某电脑公司销售量分组数据方差计算表,总体方差和标准差计算示例,根据公式计算可知总体均值为: 总体方差为: 总体标准差为:,2.样本方差和标准差,说明:在大多数统计应用中,都针对样本数据来分析总体数量特征。因此通常用样本方差来估计总体方差,用样本标准差来估计总体标准差 符号: 样本容量用n 表示 样本方差用S2 表示 样本标准差用S 表示,(三)方差和标准差的计算,2.样本方差和标准差,方 差,标准差,未 分 组 数 据,分 组 数 据,例4-13 根据以下样本数据,计算企业职工平均工资的标准差。(已知平均工资为=760元),某企业职工工资分组数据表,样本方差和标准差计算示例,样本方差为: 样本标准差为:,四、离散系数/变异系数,(一)概念:离散系数(coefficient of variation)是一组数据的离散指标的绝对数与其相应的均值之比。是离散指标的相对数形式 (二)表现形式 有全距系数、平均差系数和标准差系数。最常用的是标准差系数 (三)计算公式,总体标准差系数,样本标准差系数,四、离散系数/变异系数,(四)应用:用于比较不同总体数据分布的离散程度例题4-13 甲乙企业职工的年均收入分别为20 000元和50 000元,收入的标准差分别为3 000元和5 000元,问哪家企业职工的收入差距小一些? 分析不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数 结论乙企业职工收入差距小于甲企业,甲企业标准差系数,乙企业标准差系数,第 四 节 数据分布偏态与峰态的测定,一、偏态及其测定,偏态(skewness) 是指数据分布的不对称性,其度量值称为偏态系数SK 计算 未分组数据: 分组数据:,是样本标准差的三次方,一、偏态及其测定,偏态系数大小的说明 偏态系数 SK 0 说明数据为对称分布 偏态系数 SK 0 说明数据为偏态分布 其中 SK 0 说明数据为正偏(右偏)分布 SK 0 说明数据为负偏(左偏)分布,二、峰态及其测定,峰态(kurtosis)是指正态分布数据的平峰或尖峰程度,其度量值为峰态系数 峰态通常是与标准正态分布相比较而言的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全教育培训试题及答案
- 乌苏市保安考试题及答案
- 工厂包货车运输协议
- 一年级体育教学工作计划(33篇)
- 2025二手房屋买卖合同官方版空白
- 彩票站与体育赛事合作推广协议
- 临时用地拆迁补偿协议书
- 餐饮食品安全管理体系建设与监督协议
- 影视制作现场场记职务聘用协议
- 餐饮店股东联合投资餐饮项目合作协议
- 大模型应用大模型提示词
- 2025福建三明经开区控股集团有限公司子公司招聘16人笔试参考题库附带答案详解析集合
- 新能源充电桩建设项目可行性研究报告(案例新版)
- PMP模拟题(一)+答案
- 租户装修期内退租协议书
- 广东省广州荔湾区真光中学2025年高二下物理期末学业水平测试试题含解析
- 2025-2030全球及中国工业电源(SMPS)行业市场现状供需分析及投资评估规划分析研究报告
- 交通强国背景下的智慧交通发展趋势预测
- 七匹狼存货管理:供应链视角下的分析
- 物流仓储规划方案设计
- 2025年应用统计与数据科学考试试卷及答案
评论
0/150
提交评论