数据分布特征的统计描述.ppt_第1页
数据分布特征的统计描述.ppt_第2页
数据分布特征的统计描述.ppt_第3页
数据分布特征的统计描述.ppt_第4页
数据分布特征的统计描述.ppt_第5页
已阅读5页,还剩178页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 除了统计图和统计表之外,还可以用少量 的特征值(代表值)对数据分布的数量规 律进行精确、简洁的描述。 第三章第三章 数据分布数据分布特征的统计描述特征的统计描述 2 大量的数据经过整理后,已经能初步反映总 体分布的特征。 为了更加准确的了解数据分布的特征和规律 ,需要找到反映数据分布特征的代表值 三类:集中趋势、离中趋势、分布形态 说明:说明: 3 集中趋势:即反映各数据向中心值靠拢的程度 返回本节首页 集中趋势集中趋势 ( (位置位置) ) 4 离中趋势:即反映各数据远离中心值的程度 离中趋势离中趋势 ( (分散程度分散程度) ) 两个不同的曲线表示两个不同的总体,它们的两个不同的曲线表示两个不同的总体,它们的 集中趋势相同但离中趋势不同。集中趋势相同但离中趋势不同。 因为即使现象的集中趋势相同,其离中趋势 也可能不同。 5 实际中还会遇到:集中趋势和离中趋势均相同实际中还会遇到:集中趋势和离中趋势均相同 的现象,其分布的形态也可能不同。的现象,其分布的形态也可能不同。 这表明:除了集中和离中趋势外,分布还这表明:除了集中和离中趋势外,分布还 有其他方面的特征:有其他方面的特征:分布的形态分布的形态。 指:数据分布的对称程度和扁平(高低)程度指:数据分布的对称程度和扁平(高低)程度 测度指标是偏度测度指标是偏度测度指标是峰度测度指标是峰度 是相对于是相对于对称分布对称分布而言而言 相对于相对于正态分布正态分布而言而言 6 偏度:测定分布的偏斜程度的指标偏度:测定分布的偏斜程度的指标 偏斜是相对于偏斜是相对于对称分布对称分布而言而言 峰度:测定分布的高低(尖峭)程度的指标峰度:测定分布的高低(尖峭)程度的指标 尖峭是相对于尖峭是相对于正态分布正态分布而言而言 7 偏态偏态 (形状)(形状) 峰态峰态 ( (形状形状) ) 正态分布正态分布 对称分布对称分布 8 扁平分布扁平分布 尖峰分布尖峰分布 峰态峰态 左偏分布左偏分布 右偏分布右偏分布 与正态分布与正态分布 比较!比较! 偏态偏态 与对称分与对称分 布比较布比较 9 正态分布中有两个参数:正态分布中有两个参数: 一般记为:一般记为: 、2 是正态分布的参数,不确定常数。 不同的、不同的2对应不同的正态分布 10 标准正态分布是正态分布中的一种标准正态分布是正态分布中的一种 记为:记为: 11 本章内容本章内容 v第一节 集中趋势的测度 v第二节 离散程度的测度 v第三节 偏度与峰度 12 第一节第一节 集中趋势的测度集中趋势的测度 v集中趋势是指一组数据向其中心值靠拢的倾向 v测度集中趋势就是寻找一组数据的代表值或中 心值,在统计中是使用平均指标来测度的。 13 本节内容本节内容 v一、平均指标含义 v二、平均指标的计算 (一)算术平均数 (二)调和平均数 (三)几何平均数 (四)众数 (五)中位数 v三、各种平均数之间的相互关系 数值平均数值平均 位置平均位置平均 14 一、平均指标含义一、平均指标含义 1、定义:又称平均数。 是将同质总体内各单位的数量差异抽 象化,以反映总体的一般水平。 被平均的对象必须具有同质性 15 2 2、平均指标有两大类、平均指标有两大类 数值平均数值平均: : 位置平均位置平均: : 根据总体内全部数据计算:算根据总体内全部数据计算:算 术平均、调和平均、几术平均、调和平均、几 何平均何平均 。 根据数据在分配数列中的位置根据数据在分配数列中的位置 确定:众数、中位数。确定:众数、中位数。 16 3 3、平均指标作用、平均指标作用 a、反映总体各单位变量值分布的集中趋势 b、比较同一现象在不同空间或不同时间的发展 水平 c、分析现象间的依存关系 17 集中趋势集中趋势: : v总体中各单位某一标志值的具体表现是各不相 v同的,但一般呈正态分布,即很小或很大的标 v志值出现的次数较少,接近平均数的标志值出 v现的次数较多,大多数的标志值都围绕着平均 v数左右波动。 返回本节首页 18 商场按销售 额分(万元 ) 商场数 (家) 各组商品流通 费用率( %) 50以下 50200 200400 400600 600800 8001000 1000以上 25 70 130 75 40 18 10 11.2 10.4 9.9 6.7 5.9 5.5 5.0 注:流通费用率 = 费用额 / 销售额 现象间的依存关系: 19 二、平均指标计算二、平均指标计算 (一)算术平均数(一)算术平均数 又称均值。根据掌握的资料不同又称均值。根据掌握的资料不同: : 简单法和加权法。简单法和加权法。 20 1、简单法:适用于没有分组的原始数据 均值,即算术平均数均值,即算术平均数 x x 标志值或变量值标志值或变量值 见见4949页例题页例题 21 2、加权法:分组且各组标志值出现的次数 (权数 f )不相等时,公式: 返回本节首页 x x 为标志值,又称变量值;为标志值,又称变量值; f f 为各组标志值出现的次数为各组标志值出现的次数 22 计算平均日产量计算平均日产量 23 产量 (件 ) x 人数 f xf 1921 2123 2325 2527 2729 2931 20 22 24 26 28 30 1 4 6 8 12 10 20 88 144 208 336 300 合计-411096 24 用统计功能的计算器计算: 2ndF,ON, 201M+ 224M+ 246M+ 268M+ 2812M+ 3010M+, xM 结果为26.73 25 例例1 1:用计算器对下列数据求平均:用计算器对下列数据求平均 x f 25 25 35 35 45 45 55 55 合计合计 10 10 70 70 90 90 30 30 200 200 26 vmode2 vShift scl = v 25 Shift;10 DT 35 Shift;70 DT 45 Shift;90DT 55 Shift;30 DT vShift 注意:注意: DTDT是储存功能的加号是储存功能的加号 27 注意:当各组权数均相等时,加权算术平均数 等于简单算术平均数: 返回本节首页 28 产量( x )人数( f ) 12 13 14 15 10 10 10 10 合计 40 可用简单式计算均值可用简单式计算均值 各组权数都相等的数列各组权数都相等的数列 29 对称数列:对称数列: 产量( x ) 人数( f ) 12 13 14 15 15 3 10 30 10 3 合计 56 可用简单式计算均值可用简单式计算均值 30 3 3、权数、权数 加权均值的大小受两个因素的影响: 各组变量值(x) 各组次数,即权数(f) 31 (1 1)权数的定义)权数的定义 权数:即次数,分布在各组间的总体单位数, 因为它对均值的大小起权衡轻重的作 用,故又称权数。 出现次数多的标志值 对平均数的影响大 32 (2 2)权数的表现及应用)权数的表现及应用 绝对数权数 f 相对数权数 第一、权数表现:有两种形式: 33 绝对权数:绝对权数: 相对权数:相对权数: 计算公式:计算公式: 例题见教科书例题见教科书5151页表页表3333 34 第二、权数的实质第二、权数的实质 是相对数权数。 即权数对均值的影响作用,取决于相对权数 而非绝对权数。 举例: 35 计算平均奖金额 等级 奖金额(X ) 人数(F1 ) 人数(F2) 一等120812 二等1004263 三等903045 合计80120 虽然各组绝对人数变化了,但各组人数的比重未变 比重% 10 37.5 52.5 100 36 4 4、平均数应用举例:、平均数应用举例: 统计中有三大综合指标: 总量指标、相对指标和平均指标 反映现象总规模、总水平,用绝对数表示 如:2010年中国GDP 39.8万亿元人民币 相对指标是两个有联系的指标值对比的比率, 如:三次产业比重、企业劳动生产率、产出的 计划完成百分数、经济发展速度和增长速度 37 例1、10个企业资金利润率资料: 资金利 润率 企业 数n 企业资金 (万元)f 0-10 10-20 20-30 5 3 2 100 500 800 合计101400 求:10个企业的平均利润率 资金利 润率 企业 数n 企业资金 (万元)f x xf 利润额 0-10 10-20 20-30 5 3 2 100 500 800 5 15 25 5 75 200 合计101400 - 280 “企业的平均利润率” 等同于 “企业的总利润率” 企业的总利润率 = 利润总额 / 资金总额 39 利润总额利润总额 资金总额资金总额 40 计划完成 百分数 企业 数 n 计划产值 f x xf 实际值 105110 110120 120130 30 70 50 5700 20500 22500 1.075 1.15 1.25 6127.5 23575 28125 合计15048700 -57827.5 计算150个企业的平均计划完成百分数 例2、150个企业的资料: 计划完成 百分数 企业 数 n 计划产值 f x xf 实际值 105110 110120 120130 30 70 50 5700 20500 22500 1.075 1.15 1.25 6127.5 23575 28125 合计15048700 -57827.5 “150个企业的平均计划完成百分数” 就是“150个企 业总的计划完成百分数”。 企业总计划完成百分数 = 总实际数 / 总计划数 42 实际产值实际产值 计划产值计划产值 43 5 5、算术平均数的数学性质、算术平均数的数学性质 v见52页 44 (二)调和平均数(二)调和平均数 1、含义:总体内各个变量值倒数的算术平均 数的倒数,又称倒数平均数。 如有三个变量值: 8、10、12,求调和平均数。步骤如下: 45 、 、 即为调和平均数 公式: 46 (1)简单式: (2)加权式: 各变量值出现次数相等 各变量值出现次数不等 设设 mm为次数为次数 2 2、 调和平均数的计算调和平均数的计算 47 举例举例: : 某蔬菜单价早中晚分别为0.5、0.4、 0.25(元/斤 ) (1)早中晚各买1元,求平均价格 (2)早中晚各买1斤,求平均价格 (3)早中晚各买2元、3元、4元,求平均价格 (4)早中晚各买2斤、3斤、4斤,求平均价格 48 (1)问:用调和平均。先求早、中、晚购买的斤 数。早 1/0.5=2(斤) 、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤) (2)问:用算术平均 49 (3)问:用加权调和平均 (4)问:用加权算术平均 50 3、调和平均数和算术平均数间的关系 调和平均数是一种特殊的均值 (1)两者存在着变形关系: 51 (2)当掌握的资料无法直接计算算术 平均数时,可用调和法计算。 这时两者计算结果相同,只是根据已知 条件不同,需选择不同的公式。 52 已知对比分母,将分母定为f,求分子xf,然 后用加权算术公式,即: 已知对比分子,将分子定为m,求分母mx 用加权调和公式,即 : 53 某公司下属三个部门销售利润资料 部门 销售利润 率() x 利润额( 万元) m 销售额 mx A121201000 B102002000 C71051500 合计-4254500 求三个部门的平均利润率。 54 思考: 如果已知销售利润率和销售额资料, 该如何计算? 55 部门 销售利润率 ()x 销售额(万 元) 利润额 A121000 B102000 C71500 合计-4500 56 计算:计算:2020个商店平均销售计划完成程度及个商店平均销售计划完成程度及 总的流通费用率。总的流通费用率。 57 计划完 成百分 数% 计划百 分数的 组中值 %(x1) 实际销 售额 (万元) (M或f ) 计划销 售额( M/x) 流通费 用率% (x2) 流通费 用额( 万元) (xf) 8090 90100 100110 110120 85 95 105 115 45.9 68.4 34.4 94.3 54.0 72.0 32.8 82.0 14.8 13.2 12.0 11.0 6.79 9.03 4.13 10.37 合计-243.024.08-30.32 58 (1)20个商店的平均销售计划完成程度 (2)20个商店总的流通费用率 59 (三)几何平均数(三)几何平均数 1.定义: n 个变量值乘积的 n 次方根 60 3 3、计算方法、计算方法 简单法:简单法: 加权法:加权法: 61 例1:2004-2008年我国某工业品产量环比发 展速度分别为107.6%、102.5%、100.6%、 102.7%、102.2%。计算平均每年的发展速度 62 按计算器:按计算器:1.076,1.076, ,1.025, ,1.025, ,1.006, ,1.006, ,1.027, ,1.027, ,1.022,=,2ndF,1.022,=,2ndF, , 5,=, 5,= 出现结果:出现结果:1.03091.0309 即即103.1%103.1% 63 例2:某厂有四个流水连续作业车间,某月 的合格率分别为:0.95,0.92,0.90,0.80, 求四个车间的平均合格率。 64 例3:某地区25年的年经济发展速度分别是: 1年103%,4年105%,8年108%, 10年 110%,2年115%, 求该地区经济的平均年发展速度。 65 1.03,1.03, ,(,1.05,y,(,1.05,yx,4,), ,(,1.08,y,(,1.08,yx,8,), ,(,1.1,y,(,1.1,yx,10,), ,(,1.15,y,(,1.15,yx,2,), =,2ndF, =,2ndF, , 25,=, 25,= 出现结果:出现结果:1.0861.086 即即108.6%108.6% 66 4 4、使用几何平均法注意问题使用几何平均法注意问题 第一、变量值要是相对数,且不能为负值或零 第二、这些相对数的连乘积要等于总速度或 总比率 几何平均法适用于对比率数据(相对数)的 平均, 主要用于计算平均比率和平均速度 67 几何平均数是一种特殊的均值: 可写成:可写成: 68 (四)众数(四)众数 1、定义: 一组数据中出现次数最多的变量值 2、计算:分两种情况: 品质数列和单项式数列 组距式数列 69 不同品牌饮料的频数分布 饮料品牌频数比例 百分 比(%) 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 15 11 9 6 9 0.30 0.22 0.18 0.12 0.18 30 22 18 12 18 合计501100 MM o o 可口可乐可口可乐 (1)品质数列计算众数 定性变量定性变量 70 MM o o 不满意不满意 回答类别 甲城市 户数 (户)百分比 (%) 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 8 36 31 15 10 合计300100.0 甲城市家庭对住房状况评价的频数分布 71 价格(元)销量(公斤) 2.00 2.40 3.00 4.00 20 60 140 80 众数是数列中出现次数最多的变量值 众数 (2)单项数列计算众数 定性变量定性变量 72 (3 3)组距式数列计算众数)组距式数列计算众数 先确定众数所在的组,然后用公式计算 分:上限公式和下限公式 返回本节首页 定性变量定性变量 73 分数x 人数 f 60以下 2 6070 7 7080 15 8090 10 90以上 6 合计 40 f f m-1m-1 f f m+1m+1 f f mm L :众数所在组的下限 U :众数所在组的上限 74 上限公式:上限公式: 下限公式:下限公式: 75 76 3 3、众数说明、众数说明 (1)不受极端值的影响 (2)既适用于品质数列,也适用于变量数列 (3)一组数据可能没有众数或有几个众数 返回本节首页 77 无众数 原始数据: 10 5 9 12 6 8 多于一个众数多于一个众数 原始数据原始数据: : 25 25 28 2828 28 36 36 42 4242 42 一个众数一个众数 原始数据原始数据: 6 : 6 5 5 9 8 9 8 5 55 5 78 (五)中位数(五)中位数 1、中位数的含义: 将各单位标志值按大小排列,居于中间位 置的那个标志值。 返回本节首页 MM e e 50%50%50%50% 79 2 2、中位数的计算、中位数的计算 分两种情况: (1)未分组原始资料 (2)组距式数据 返回本节首页 80 (1 1)未分组原始资料)未分组原始资料 先将数据从小到大排序 项数为奇数时,中间位置 上的标志值即为中位数 项数为偶数时,中间位置 上2个标志值的平均为中位数 81 有9个数值: 2、3、5、6、9、10、11、13、14 中位数为第5个,即9 有10个数值: 2、3、5、6、9、10、11、13、14、15 中位数为第5、第6个数据的平均值,即9.5 82 分数人数向上累计向下累计 60以下 6070 7080 8090 90以上 2 7 15 10 6 2 9 24 34 40 40 38 31 16 6 合计 40- (2 2)组距数列)组距数列 f f mm S S Me+1Me+1 S S Me-1Me-1 83 B、确定中位数所在的组: 本例为: 40/2=20,即中位数应在将分数从 高到低排列后的第20个学生的分数上 A、先将次数进行累计 C、利用公式计算中位数 ( 公式 见56页 ) 84 公式:公式: 下限公式= 上限公式= 85 带入资料得:带入资料得: v v (分) v v (分) 86 附:四分位数附:四分位数 四分位数:是指位于全部数据 位置和 位 置上的数据,分别称为下四分位数和上四分位 数。也称为第一个四分位数 和 第三个四分位数 。 即:排序后处于25%和75%位置上的值。 实际上,中位数就是第二个四分位数 QQ 1 1 QQMe Me QQ 3 3 25%25%25%25%25%25%25%25% 87 四分位的位置:四分位的位置: 88 箱线图:可以观察数据分布的特征箱线图:可以观察数据分布的特征 4 4 6 6 8 8 10101212 QQ 3 3 QQ 1 1 X X 最大值最大值 X X 最小值最小值 Median/Quart./RangeMedian/Quart./Range箱线图箱线图 MM e e 89 某电脑公司某电脑公司20052005年前四个月年前四个月120120天的销售量数据,天的销售量数据, 试利用箱线图对数据分布特征进行分析。试利用箱线图对数据分布特征进行分析。 90 未分组数据未分组数据单批数据箱线图单批数据箱线图 最小值最小值 141141 最大值最大值 237237 中位数中位数 182182 下四分位数下四分位数 170.25170.25 上四分位数上四分位数 197197 140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240 某电脑公司销售量数据的 Median/Quart./Rang箱线图 91 某电脑公司销量分组表某电脑公司销量分组表 未分组数据未分组数据多批数据箱线图多批数据箱线图 从某大学经从某大学经 济管理专业济管理专业 二年级学生二年级学生 中随机抽取中随机抽取 1111人,对人,对8 8 门主要课程门主要课程 的考试成绩的考试成绩 进行调查,进行调查, 所得结果如所得结果如 表。试通过表。试通过 多批箱线图多批箱线图 分析各科考分析各科考 试成绩的分试成绩的分 布特征。布特征。 11名学生各科的考试成绩数据 课程名称 学生编号 1234567891011 英语 经济数学 西方经济 市场营销 财务管理 基础会计 统计学 计算机应 用 76 65 93 74 68 70 55 85 90 95 81 87 75 73 91 78 97 51 76 85 70 92 68 81 71 74 88 69 84 65 73 95 70 78 66 90 73 78 84 70 93 63 79 80 60 87 81 67 86 91 83 77 76 90 70 82 83 82 92 84 81 70 69 72 78 75 78 91 88 66 94 80 85 71 86 74 68 79 62 81 81 55 78 70 75 68 71 77 93 未分组数据未分组数据多批数据箱线图多批数据箱线图 8门课程考试成绩的Median/Quart./Range箱线图 94 1111名学生名学生8 8门课程考试成绩的门课程考试成绩的Median/Quart./RangeMedian/Quart./Range箱线图箱线图 min-max 25%-75% median value 45 55 65 75 85 95 105 学生1 学生2 学生3 学生4 学生5 学生6 学生7 学生8 学生9 学生10 学生11 未分组数据未分组数据多批数据箱线图多批数据箱线图 95 96 三、各种平均数之间的关系三、各种平均数之间的关系 两者都属于抽象化的代表值,但有区别, 前者容易受极端值的影响,后者不会。 1、数值平均数和位置平均数的比较: 97 某公司中层干部某公司中层干部20102010年的收入,求平均收入年的收入,求平均收入 职位 收入(元) 财务部经理 10 000 市场部经理 450000 人事部经理 90 000 研发部经理 100 000 生产部经理 10 000 实际中可利用切尾平均法:去掉极端值, 将剩余的数据求平均。 98 收入(元) 人数 1000 5 3000 25 5000 56 10000 10 50000 3 30000000 1 计算其平均收入时, 位置平均和数值平均哪一种方法更合适? 99 2 2、三种平均数之间的关系、三种平均数之间的关系 左偏分布左偏分布 均值均值 中位数中位数 众数众数 对称分布对称分布 均值均值 = = 中位数中位数 = = 众数众数 右偏分布右偏分布 众数众数 中位数中位数均值均值 有极小值,拉动均有极小值,拉动均 值向极小值靠近值向极小值靠近 有极大值,拉动均有极大值,拉动均 值向极大值靠近值向极大值靠近 100 众数、中位数、平均数的众数、中位数、平均数的特点和应用特点和应用 众数:不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数:不受极端值影响 数据分布偏斜程度较大时应用 平均数:易受极端值影响 数据对称分布或接近对称分布时应用 101 离散程度是测定数据分布特征的另一重要指标 第二节第二节 离散程度测度离散程度测度 统计是使用变异指标来测度分布的离散程度 用于测定一组数据中各数值之间的差异程度, 即:在一个分布中各数值与均值的离差程度 102 三个集中趋势相同但离中趋势不同的总体 离散程度指标可从另一个角度说明集中趋离散程度指标可从另一个角度说明集中趋 势测度值的代表程度。势测度值的代表程度。 103 一、变异指标的意义和作用 二、变异指标的种类 (一)全距(极差) (二)平均差 (三)标准差 (四)离散系数 返回本章首页 本节内容本节内容 104 一、变异指标的意义和作用一、变异指标的意义和作用 变异指标的含义 又称标志变动度、离散程度或离中程度。 是描述总体内各数据之间差别大小程度的指标 返回本节首页 甲:20,40,60,70,80,100,120 乙:67,68,69,70,71,72,73 如两组数据,请直观判断哪一组的离散程度大 105 7070 7070 返回本节首页 106 标志变动度的作用 2、能衡量现象变动的均衡性或稳定性 3、能反映各变量值分布的离散程度(离中趋势) 1、是评价平均数代表性的依据 甲企业 25 25 25 25 均匀、协调 乙企业 10 15 20 55 丙企业 5 10 15 70 不均匀。 企业产值各季度计划完成情况企业产值各季度计划完成情况 107 平均数的代表性和标志变动度的关系平均数的代表性和标志变动度的关系 标志变动度大,平均数的代表性就小; 反之 ,平均数的代表性就大 例如:三组学生的年龄(岁) 20 20 20 20 20 -差距最小,20岁的代表性最好 18 19 20 21 22 15 16 20 24 25-差距最大,20 岁的代表性最差 108 二、标志变异指标的种类二、标志变异指标的种类 全距 1、含义:总体各单位标志的最大值和最小值 之差。 R = Xmax-Xmin 109 2 2、全距的优点和缺点、全距的优点和缺点 优点:计算简单、涵义直观 缺点:易受极端数值的影响 不能反映中间标志值的变动 110 附:四分位差(见附:四分位差(见 60 60 页)页) 四分位差Qd = Q3 - Q1 111 (二)平均差(二)平均差 1、含义 是各变量值与其算术平均数离差绝对值 的算术平均数,即: 平均差能全面反映一组数据的离散状况平均差能全面反映一组数据的离散状况 112 2 2、平均差计算:、平均差计算: 返回本节首页 简单式: 加权式: 113 1818 1919 2020 2121 2222 -2-2 -1-1 0 0 1 1 2 2 2 2 1 1 0 0 1 1 2 2 x x 合计合计 - - 6 6 一组学生年龄: 18 19 20 21 22 求平均差。 114 某厂某厂200200个工人产量资料(单位:公斤)个工人产量资料(单位:公斤) 日产量日产量 3030以下以下 30403040 40504050 5050以上以上 合计合计 求求A.DA.D 工人数工人数 1010 70 70 90 90 30 30 200 200 115 X X 2525 3535 4545 5555 合计合计 -17-17 -7 -7 3 3 13 13 - - f f 1010 7070 9090 3030 200200 1717 7 7 3 3 13 13 - - 170 170 490 490 270 270 390 390 1320 1320 250 250 2450 2450 4050 4050 1650 1650 8400 8400 116 结论:结论: 该厂工人平均日产量为该厂工人平均日产量为4242公斤,但各工人公斤,但各工人 生产水平有差异,其差异平均为生产水平有差异,其差异平均为6.66.6公斤。公斤。 117 3 3、平均差的优缺点、平均差的优缺点 v优点:和全距相比,弥补了全距不足,能反 映中间标志值的变动。 v缺点:加绝对值号为计算带来了不便。 118 (三)标准差(均方差)(三)标准差(均方差) 1、概念 是各变量值与其算术平均数离差平方的算术 平均数的平方根,又称均方差。 119 2、计算: 已知资料不同采用不同方法: 加权式: 简单式: 120 标准差的平方即为方差标准差的平方即为方差 121 一组学生年龄: 18 19 20 21 22 18 -2 4 19 -1 1 20 0 0 21 1 1 22 2 4 合计 - 10 简单式举例: 122 某厂某厂200200个工个工 人产量资料人产量资料: : (单位:公斤)(单位:公斤) 日产量日产量 3030以下以下 30403040 40504050 5050以上以上 合计合计 工人数工人数 1010 70 70 90 90 30 30 200 200 求标准差求标准差 加权式举例:加权式举例: 123 x x 2525 3535 4545 5555 合计合计 -17-17 -7 -7 3 3 13 13 - - f f 1010 7070 9090 3030 200200 289289 49 49 9 9 169169 - - 2890 2890 3430 3430 810 810 5070 5070 1220012200 250 250 2450 2450 4050 4050 1650 1650 8400 8400 124 标准差的计算可以用统计功能的计算器。标准差的计算可以用统计功能的计算器。 结论:结论: 各工人生产产量与平均产量相比,平均相各工人生产产量与平均产量相比,平均相 差差7.87.8公斤。公斤。 125 计算器的使用计算器的使用 v开机:ON,2ndF,ON v进入到统计功能后,用计算平均数的方 法输数据 v所有的数据输完后,按 2ndF 键, v再按xM 健,即为标准差 注意:注意:所有的数据输完后,如果直接 按xM 健,即为平均数。 126 统计功能的计算器的使用 Mode2 Shift scl = 25 Shift;10 DT 35 Shift;70 DT 45 Shift;90 DT 55 Shift;30 DT Shift 127 3 3、标准差的优缺点、标准差的优缺点 v优点:弥补了平均差和全距的不足。 v缺点:利用标准差不能比较性质不同的数列( 即水平高低不等和计量单位不同)离散程度的 大小。 128 如:两组动物体重(单位:公斤)如:两组动物体重(单位:公斤) 甲: , , 乙:, 试比较平均数的代表性。 129 130 上述结论不一定正确上述结论不一定正确 因为:两组数据性质不同(水平高低不等或者 计量单位不同),不能直接用标准差(或平均 差)比较平均数的代表性。须用相对离散程度 指标 离散系数。 131 (四)离散系数(四)离散系数 又称变异系数,是一组相对数形式的变异指标 有全距系数、平均差系数、标准差系数等等 以标准差系数为例说明其计算。 132 对于上例对于上例 133 总结:总结: 比较两组数据的离散程度,即比较平均数的代 表性时: 如果两组数据的平均数相等且计量单位相同 ,可直接使用标准差比较; 除此之外,均需使用标准差系数比较。 134 对称钟形分布特点:以均值为中心两边对称, 且中间数据出现的频数多而两尾出现的频数少。 附:标准差的应用附:标准差的应用 约有68%数据在均值加减1个标准差的范围之内 约有95%数据在均值加减2个标准差的范围之内 约有99%数据在均值加减3个标准差的范围之内 1 1、对称钟形分布中的、对称钟形分布中的法则: 法则: 135 1、求是非标志(交替标志)的标准差 按品质标志分组且只有两种表现的标志按品质标志分组且只有两种表现的标志 按是否合格分 表 现 取值 x 次数 n 合格 不合格 是 非(不是 ) 1 0 n1 n0 136 按是否合格分 数量 一等品 二等品 三等品 等外品 1000 10 5 3 合计 1018 是否是是非标志?是否是是非标志? 按是否合格分 数量 合格品 等外品 1015 3 合计 1018 137 是非标志 变量 x 次数 是 1 否 0 求是非标志的平均数及方差 138 139 140 3 3、标准化值(数据的标准得分)、标准化值(数据的标准得分) 有两个班(1、2班)的同一门课成绩,假定两个 班水平类似,但由于两个任课老师的评分标准不 同,使得两个班成绩的均值和标准差都不同: 那么1班得90分的张英和2班得82分的刘抒成 绩能否比较? 1班均值:78.53,标准差:9.43 2班均值:70.19,标准差:7.0 不能直接比,但可以将它们进行标准化后再 对比。 141 标准化的方法: 刘抒标准得分: 张英的标准得分: 刘抒的成绩优于张英。 142 标准化值实际上是将不同均值和标准差的 总体都转化为均值为0 ,标准差为1 的总体 。 如:一组数据:如:一组数据:2525、2828、3131、3434、3737、 4040、4343。试计算其标准化值。试计算其标准化值。 首先计算出均值为首先计算出均值为3434,标准差为,标准差为6 6 143 均值为均值为3434,标准差为,标准差为6 6 均值为均值为0 0,标准差为,标准差为1 1 标准化后的数据虽然均值和标准差发生了改变标准化后的数据虽然均值和标准差发生了改变 但数据内部点的相对位置是没有变化的。但数据内部点的相对位置是没有变化的。 144 科目 平均分 标准差 甲生 乙生 语文 70 8 91 71 数学 56 4 50 64 外语 42 5 40 51 政治 80 10 85 80 物理 50 4 60 70 化学 40 12 75 45 合计 - - 401 381 原始成绩原始成绩 例:已知某年高考全部考生分科总平均成绩和 标准差值,又知两名考生的实际成绩如下: 计算两考生的 标准化值,并 进行比较。 145 科目平均分 标准差 原始成绩原始成绩 标准化成绩标准化成绩 甲生 乙生甲生 乙生 语文 数学 外语 政治 物理 化学 70 56 42 80 50 40 8 4 5 10 4 12 91 50 40 85 60 75 71 64 51 80 70 45 2.625 -1.5 -0.4 0.5 2.5 2.917 0.125 2.0 1.8 0.0 5.0 0.417 合计-4013816.6429.342 146 第一、甲考生偏科,数学和英语成绩均低于 平均成绩;乙考生比较全面,各科成绩都不 低于平均成绩。 原因:原因: 第二、乙考生在平均分偏低且水平差距较小( 标准差)的物理、数学和英语等科目中取得了 较好的成绩,甲考生则在这些科目上表现不好 ,影响了其标准成绩。 147 3 3、总方差、组间方差和组内方差、总方差、组间方差和组内方差 在总体分组的情况下会产生上述三种方差 总方差:各标志值与总平均数的离差 组间方差:各组平均数与总平均数的离差 组内方差:各组组内的标志值与各组内平均数 的离差 三者关系: 总方差 = 组间方差 + 组内方差的算术平均数 148 其中其中 i i 代表总体内的组数代表总体内的组数 149 150 举例:举例: 某公司7个门市部营业额数据: 88、90、96、98、110、140、200 分成两组: 88、90、96、98 110、140、200 计算总方差、组内方差和组间方差 151 152 组组内方差的算术术平均数: 153 第三节第三节 分布形态的测定分布形态的测定 (偏度和峰度)(偏度和峰度) 集中趋势和离中趋势是数据分布的两个重要集中趋势和离中趋势是数据分布的两个重要 特征。特征。但即使但即使集中趋势和离中趋势均相同的集中趋势和离中趋势均相同的 现象,其分布的形态也有可能不同。现象,其分布的形态也有可能不同。 这表明:除了集中趋势和离中趋势外,分这表明:除了集中趋势和离中趋势外,分 布还有其他方面的特征:分布的形态。布还有其他方面的特征:分布的形态。 154 反映数据分布形状的指标有两个:偏态和峰度反映数据分布形状的指标有两个:偏态和峰度 偏态:是测定分布的偏斜方向和偏斜程度的指标偏态:是测定分布的偏斜方向和偏斜程度的指标 是相对于对称分布而言是相对于对称分布而言 峰度:是测定分布的尖峭程度的指标峰度:是测定分布的尖峭程度的指标 是相对于正态分布而言是相对于正态分布而言 155 偏态偏态 (形状)(形状) 峰态峰态 ( (形状形状) ) 正态分布正态分布 对称分布对称分布 156 首先介绍首先介绍“ “矩矩” ”的概念的概念 矩:又称动差,物理学上的术语。统计上用 来刻画数据分布特征的的指标的统称。 K K 阶矩:阶矩:所有变量值与数值所有变量值与数值a a之离差的之离差的K K 次方次方 的平均数称为变量的平均数称为变量 x x 关于关于 a a 的的K K 阶矩阶矩 当:当:a a等于等于0 0时称为时称为 K K 阶原点矩阶原点矩 a a等于等于 时称为时称为 K K 阶原点矩阶原点矩 一阶原点阶矩就是算术平均数一阶原点阶矩就是算术平均数 二阶中心距就是方差二阶中心距就是方差 157 一阶原点矩一阶原点矩 即为均值即为均值 二阶中心矩二阶中心矩 即为方差即为方差 158 1 1、偏态:、偏态: 偏态:是对分布的偏斜方向和偏斜程度的测定 测定偏态程度的指标称为偏态系数 如果次数的分布是完全对称的,称为对称分布 否为非对称分布,即偏态分布,分左偏和右偏 和 对称分布比较而言 159 偏态系数:用三阶中心矩定义偏态系数:用三阶中心矩定义 该系数为0时,为对称分布 大于0时,为右偏态分布 小于0时,为左偏态分布 越接近0,偏斜程度就越低 若分布不对称,只有一阶中若分布不对称,只有一阶中 心矩为心矩为0 0,其余的奇数阶中心,其余的奇数阶中心 矩都不为矩都不为0 0。若分布对称,所。若分布对称,所 有奇数阶中心矩应为有奇数阶中心矩应为0 0, 消除消除 量纲量纲 160 2 2、峰度、峰度 峰度:是指分布图形的尖峭程度。 和标准正态分布比较而言的 实际中,标准正态分布曲线的峰顶为正态峰, 和标准正态分布曲线相比,陡峭的为尖峰, 平缓的为平峰顶。 测定峰度的指标称为 峰度系数。 161 扁平分布扁平分布 尖峰分布尖峰分布 峰态峰态 与正态分布与正态分布 比较!比较! 162 峰度系数峰度系数:用四阶中心矩定义。因为分布用四阶中心矩定义。因为分布 的尖峭程度和偶数阶中心矩数值大小有关的尖峭程度和偶数阶中心矩数值大小有关 . . 所以该系数和所以该系数和3 3比:等于比:等于3 3,为正态分布;,为正态分布; 大于大于3 3时,为尖峰分布;小于时,为尖峰分布;小于3 3时,平峰分布时,平峰分布 消除量纲消除量纲 因为:正态分布曲线的四阶中心因为:正态分布曲线的四阶中心 矩和标准差的矩和标准差的4 4次方之比为次方之比为3 3 163 尖顶分布(尖顶分布(KK3 3) 平顶分布(平顶分布(KK3 3) 正态分布(正态分布(KK = = 3 3) 164 v因为对于正态分布 所以,峰度的标准测定公式为:所以,峰度的标准测定公式为: 165 用用EXCELEXCEL计算描述统计量计算描述统计量 v 用EXCEL计算平均数、标准差等描述性统计 量有两种方法: 一是用函数 二是用“数据分析”工具 166 第一、函数 均值:average 中位数:median 众数:mode 标准差: 总体标准差:stdevp; 样本标准差: stdev 分位数:quartile Excel用于计算描述统计量的函数: 167 168 分位数分位数quartilequartile的语法结构的语法结构 v Quartile(array, quart) Array:计算四分数的数据区域。输入待计算四分数的数据区域。输入待 计算数据的地址即可。计算数据的地址即可。 Quart:计算的是第几个四分数计算的是第几个四分数 可输入:可输入:0 0、1 1、2 2、3 3、4 4。分别表示最小值、。分别表示最小值、 第第1 1、2 2、3 3个四分位数和最大值。个四分位数和最大值。 169 第二、第二、 “ “数据分析数据分析” ”工具工具 v第一次使用“数据分析”时,需在EXCEL工具 菜单中选“加载宏”,选“分析工具库”。 这样在“工具”菜单中就会出现“数据分析”。 170 选择“网上冲浪”工作表。 打开“工具”菜单,选择“数据分析”选项,打开数 据分析对话框如图所示。 171 双击“描述统计”项或先单击此项再选择“确定”按钮,描述统 计对话框打开如图所示。 在“输入区域”中输入A1:A21。 172 由于所选数据范围包括一个标志名称,单击“标 志位于第一行”选项边上的复选框。 单击“输出区域”项,旁边出现了一个输入框,单 击此框出现插入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论