




已阅读5页,还剩88页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 统计数据的描述,统计数据的描述有三个方面:集中趋势、离散程度、分布形态,第四章 统计数据的描述,第一节 集中趋势的测度 第二节 离散程度的测度 第三节 偏态与峰度的测度,学习目标,1.集中趋势各测度值的计算方法 2.集中趋势不同测度值的特点和应用场合 3.离散程度各测度值的计算方法 4.离散程度不同测度值的特点和应用场合 5.偏态与峰度测度方法 6.用Excel、SPSS描述统计量并进行分析,数据分布的特征,集中趋势 (位置),离中趋势 (分散程度),数据分布的特征和测度,方差,集中趋势 (Central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定,均值,1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点所在 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺序数据,一、算术平均数,计算公式:变量值之和/变量值个数 计算方法 简单算术平均数: 加权算术平均数: (请计算P63表4-1到4-8) 如果fi 都相等,那么加权平均和简单平均相同,例题:,加权算术平均数公式转化: 先计算权重 计算P65表3与表4,算术平均数的几何性质,如果 ,那么 如果 ,那么,交替标志平均数,1表示具有某种属性的单位标志值 0表示不具有某种属性的单位标志值 有某种属性的单位数所占比重P=N1/N 不具有某种属性的单位数所占比重P=N2/N 计算公式: 计算表5,P67,几何平均数,1. 集中趋势的测度值之一 2. N 个变量值乘积的 N 次方根 3. 适用于特殊的数据:变量值本身是比率的形式,且比率的连乘积等于末期除以基期 4. 主要用于计算平均发展速度,几何平均数,简单几何平均数: 加权几何平均数: 两边取对数: 请计算P68,表6,二、分类数据:众数,众数 (概念要点),1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数 5. 主要用于分类数据,也可用于顺序数据和数值型数据,众数 (众数的不唯一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,(一)分类数据的众数 (算例),【例】根据下表数据,计算众数,解:这里的变量为“广告类型”,这是个分类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo商品广告,【例】根据下表的数据,计算众数,解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo不满意,(三)数值型分组数据的众数 (要点及计算公式),1. 众数的值与相邻两组频数的分布有关,4. 该公式假定众数组的频数在众数组内均匀分布,2. 相邻两组的频数相等时,众数组的组中值即为众数,3. 相邻两组的频数不相等时,众数采用下列近似公式计算,数值型分组数据的众数 (算例),【例4.1】根据下表数据,计算50名工人日加工零件数的众数,8,14,-,三、顺序数据:中位数和分位数,(一)中位数 (概念要点),1.集中趋势的测度值之一 2.排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据,中位数 (位置的确定),未分组数据:,组距分组数据:,1.未分组数据的中位数 (计算公式),2.顺序数据的中位数 (算例),【例4.2】根据下表中的数据,计算甲城市家庭对住房满意状况评价的中位数,解:中位数的位置为: (300+1)/2150.5 从累计频数看,中位数的在“一般”这一组别中。因此 Me一般,3.数值型未分组数据的中位数 (5个数据的算例),原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,中位数 22,a数值型未分组数据的中位数 (6个数据的算例),原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6,1.根据位置公式确定中位数所在的组 2.采用下列近似公式计算:,3.该公式假定中位数组的频数在该组内均匀分布,b数值型分组数据的中位数 (要点及计算公式),N,数值型分组数据的中位数 (算例),【例4.3】根据第三章表3-5中的数据,计算50 名工人日加工零件数的中位数,14,50,(二)四分位数 (概念要点),1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值,3. 不受极端值的影响 4. 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数 (位置的确定),未分组数据:,组距分组数据:,1.顺序数据的四分位数 (算例),【例4.4】根据下表数据,计算甲城市家庭对住房满意状况评价的四分位数,解:下四分位数(QL)的位置为: QL位置(300+1)/475.25 上四分位数(QL)的位置为: QU位置(3(300+1))/4225.75 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL 不满意 QU 满意,2.数值型未分组数据的四分位数 (7个数据的算例),原始数据: 23 21 30 32 28 25 26 排 序: 21 23 25 26 28 30 32 位 置: 1 2 3 4 5 6 7,N+1,QL= 23,QU = 30,数值型未分组数据的四分位数 (6个数据的算例),原始数据: 23 21 30 28 25 26 排 序: 21 23 25 26 28 30 位 置: 1 2 3 4 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,3.数值型分组数据的四分位数 (计算公式),数值型分组数据的四分位数 (计算示例),QL位置50/412.5,【例4.6】根据第三章表3-5中的数据,计算50 名工人日加工零件数的四分位数,四、众数、中位数和均值的比较,众数、中位数和均值的关系,数据类型与集中趋势测度值,例题:,某百货公司6月份各天的销售数据如下(单位:万元) 257 276 297 252 238 310 240 236 265 278 271 292 261 281 301 274 267 280 291 258 272 284 268 303 273 263 322 249 269 295 (1)计算该百货公司销售额的均值、中位数和四分位数; (2)计算日销售额的标准差。,例:甲、乙两个企业生产三种产品的单位和总成本资料如下:,产品名称 单位成本 总成本 (元) 甲企业 乙企业 A 15 2100 3255 B 20 3000 1500 C 30 1500 1500 比较哪个企业的总平均成本高并分析其原因。,第二节 离散程度的测度,一. 分类数据:异众比率 二. 顺序数据:四分位差 三. 数值型数据:方差及标准差 四. 相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,数据的特征和测度 (本节位置),二、顺序数据:四分位差,四分位差 (概念要点),1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差 QD = QU - QL 4. 反映了中间50%数据的离散程度 5. 不受极端值的影响 6. 用于衡量中位数的代表性,四分位差 (定序数据的算例),【例】根据下表数据,计算甲城市家庭对住房满意状况评价的四分位差,解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2, QU = 满意 = 4 四分位差: QD = QU = QL = 4 2 = 2,三、数值型数据:方差和标准差,(一)极差 (概念要点及计算公式),1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布,未分组数据 R = max(Xi) - min(Xi),5. 计算公式为,(二)平均差 (概念要点及计算公式),1. 离散程度的测度值之一 2. 各变量值与其均值离差绝对值的平均数 3. 能全面反映一组数据的离散程度 4. 数学性质较差,实际中应用较少,5. 计算公式为,未分组数据,组距分组数据,平均差(计算过程及结果),【例】根据下表数据,计算工人日加工零件数的平均差,(三)方差和标准差 (概念要点),1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了各变量值与均值的平均差异 4. 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,1.总体方差和标准差 (计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,总体标准差 (计算过程及结果),【例4.14】根据下表数据,计算工人日加工零件数的标准差,2.样本方差和标准差 (计算公式),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差 3.自由度(degree of freedom),1. 一组数据中可以自由取值的数据的个数 2. 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 3. 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 4. 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量,样本方差 (算例),原始数据: 10 5 9 13 6 8,样本标准差 (算例),样本标准差,原始数据: 10 5 9 13 6 8,方差 (简化计算公式),样本方差,总体方差,4.方差的数学性质,各变量值对均值的方差小于对任意值的方差 设X0为不等于X 的任意数,D2为对X0的方差,则,5.标准化值 (standard score),1. 也称标准分数,通常用于对变量的标准化处理 2. 给出某一个值在一组数据中的相对位置 3. 可用于判断一组数据是否有离群点:四分位差1.5倍的为离群点,3倍为极端值 4. 计算公式为:,练习:,一家公司在招收职员时,首先通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想。,习题:,现场收集数据(不是网络,而是现场),要求如下: 1.收集分类数据,计算异众比率 2.收集顺序数据,计算异众比率和四分位差 3.收集数值型数据,计算极差、平均差、标准差、标准化值 4.指标计算结果不是目的,要好好体会一下指标所代表的含义,如果,代表性不好,你有没有什么更好的建议? 5.计算离散指标的同时,衡量一下相对应的集中趋势指标的代表性? 6.计算完离散指标,与同桌的离散指标比较一下,看谁的离散程度大?前提,要保证你们的离散指标是可比较的!,四、相对离散程度:离散系数,离散系数 (coefficient of variation),1. 标准差与其相应的均值之比 2. 消除了数据水平高低和计量单位的影响 3. 测度了数据的相对离散程度 4. 用于对不同组别数据离散程度的比较 5. 计算 公式为:,离散系数 (实例和计算过程),【例4.16】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度,结论: 计算结果表明,V1V2,说明产品销售额的离散程度小于销售利润的离散程度,练习:,如果投资项目A的预期回报率为7%,标准差为5%;而投资项目B的预期回报率为12%,标准差为7%,哪个投资项目风险大?,交替指标的标准差,数据类型与离散程度测度值,第三节 偏态与峰度的测度,一. 偏态及其测度 二. 峰度及其测度,数据的特征和测度 (本节位置),一、偏 态,偏态与峰度分布的形状,偏态,峰度,左偏分布,偏态 (概念要点),1. 数据分布的不对称性 2. 偏态系数=0为对称分布 3. 偏态系数 0为右偏分布 4. 偏态系数 0为左偏分布 5. 计算公式为,偏态 (实例),【例4.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数,2.28 12.45 20.35 19.52 14.93 10.35 6.56 4.13 2.68 1.81 4.94,500以下 5001000 10001500 15002000 20002500 25003000 30003500 35004000 40004500 45005000 5000以上,户数比重(%),按纯收入分组(元),表4-10 1997年农村居民家庭纯收入数据,农村居民家庭村收入数据的直方图,偏态与峰度 (从直方图上观察),按纯收入分组(元),结论:1. 为右偏分布 2. 峰度适中,偏态系数 (计算过程),偏态系数 (计算结果),根据上表数据计算得,将计算结果代入公式得,结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大,二、峰 度,峰度(kurtosis),1. 数据分布扁平程度的测度 2. 峰度系数=3为扁平程度适中 3.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年特岗教师招聘考试初中生物模拟题及答案
- 2025年网络安全工程师职位面试预测题与解析
- 【教案版】小学二班级上册 轮滑
- 2025年炼油装置中级操作工面试技巧与模拟试题
- 2025年教育培训专员面试技巧与模拟题集
- 2025年中级会计师职称考试试题集与解析
- 2025年权威资料特岗教师招聘初中地理全真模拟题及答案收录
- 2025年生物科技行业招聘面试预测题集萃
- 2025年烷基化工艺作业面试常见问题解答
- 2025年电气工程师初级面试预测题及专业知识点梳理
- 1.1 鸦片战争 课件 2024-2025学年统编版八年级历史上册
- 2024至2030年中国演播室行业市场调查研究及发展战略规划报告
- DB11∕T 420-2019 电梯安装、改造、重大修理和维护保养自检规则
- 国旗台施工合同
- 如何申请非遗
- 总代理授权书
- 越剧《梁山伯与祝英台》剧本
- 广东省广州市越秀区2024年八年级下学期期末英语试卷附答案
- 医疗器械售后服务能力证明资料模板
- (正式版)JBT 14449-2024 起重机械焊接工艺评定
- (正式版)HGT 4144-2024 工业用二正丁胺
评论
0/150
提交评论