




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 除了统计图和统计表之外,还可以用少量除了统计图和统计表之外,还可以用少量的的特征值(代表值)特征值(代表值)对数据分布的数量规对数据分布的数量规律进行精确、简洁的描述。律进行精确、简洁的描述。2 大量的数据经过整理后,已经能初步反映总大量的数据经过整理后,已经能初步反映总体分布的特征。体分布的特征。 为了更加准确的了解数据分布的特征和规律,为了更加准确的了解数据分布的特征和规律,需要找到反映数据分布特征的需要找到反映数据分布特征的代表值代表值 三类:集中趋势、离中趋势、分布形态三类:集中趋势、离中趋势、分布形态3集中趋势集中趋势:即反映各数据向中心值靠拢的程度:即反映各数据向中心值靠拢的程
2、度返回本节首页4离中趋势离中趋势:即反映各数据远离中心值的程度:即反映各数据远离中心值的程度因为即使现象的集中趋势相同,其离中趋势因为即使现象的集中趋势相同,其离中趋势也可能不同。也可能不同。5672 ( ,)x 892( ,)xn 2和、2 是正态分布的参数,不确定常数。是正态分布的参数,不确定常数。 不同的不同的、不同的、不同的2对应不同的正态分布对应不同的正态分布101 , 0 nx11v第一节第一节 集中趋势的测度集中趋势的测度 v第二节第二节 离散程度的测度离散程度的测度 v第三节第三节 偏度与峰度偏度与峰度 12v集中趋势集中趋势是指一组数据向其中心值靠拢的倾向是指一组数据向其中心
3、值靠拢的倾向v测度集中趋势测度集中趋势就是寻找一组数据的代表值或中就是寻找一组数据的代表值或中心值,在统计中是使用心值,在统计中是使用平均指标平均指标来测度的。来测度的。13v一、平均指标含义一、平均指标含义v二、平均指标的计算二、平均指标的计算 (一)算术平均数(一)算术平均数 (二)调和平均数(二)调和平均数 (三)几何平均数(三)几何平均数 (四)众数(四)众数 (五)中位数(五)中位数v三、各种平均数之间的相互关系三、各种平均数之间的相互关系141、定义:又称平均数。、定义:又称平均数。 是将同质总体内各单位的数量差异抽是将同质总体内各单位的数量差异抽象化,以反映总体的一般水平。象化,
4、以反映总体的一般水平。被平均的对象必须具有同质性被平均的对象必须具有同质性1516 a、反映总体各单位变量值分布的集中趋势、反映总体各单位变量值分布的集中趋势 b、比较同一现象在不同空间或不同时间的发展、比较同一现象在不同空间或不同时间的发展 水平水平 c、分析现象间的依存关系、分析现象间的依存关系17v总体中各单位某一标志值的具体表现是各不相总体中各单位某一标志值的具体表现是各不相v同的,但一般呈正态分布,即很小或很大的标同的,但一般呈正态分布,即很小或很大的标v志值出现的次数较少,接近平均数的标志值出志值出现的次数较少,接近平均数的标志值出v现的次数较多,大多数的标志值都围绕着平均现的次数
5、较多,大多数的标志值都围绕着平均v数左右波动。数左右波动。返回本节首页18商场按销售商场按销售额分(万元)额分(万元) 商场数商场数 (家)(家) 各组商品流通各组商品流通 费用率(费用率( %) 50以下以下 50200 200400 400600 600800 8001000 1000以上以上 25 70 130 75 40 18 10 11.2 10.4 9.9 6.7 5.9 5.5 5.0 注:流通费用率注:流通费用率 = 费用额费用额 / 销售额销售额现象间的依存关系:现象间的依存关系:1920nxxxnxxn.211、简单法:适用于没有分组的原始数据、简单法:适用于没有分组的原始
6、数据212、加权法、加权法:分组且各组标志值出现的次数分组且各组标志值出现的次数 (权数(权数 f )不相等时,公式:)不相等时,公式:nnnffffxfxfxfxfx.212211返回本节首页2223件)(73.2641/1096fxfx产量产量(件)(件) x 人数人数 f xf192121232325252727292931202224262830146812102088144208336300合计合计-41109624用统计功能的计算器计算:用统计功能的计算器计算:2ndf,on,20 1m+ 22 4m+ 24 6m+26 8m+ 28 12m+ 30 10m+, xm结果为结果为2
7、6.7325 x f26vmode2vshift scl =v 25 shift;10 dt 35 shift;70 dt 45 shift;90dt 55 shift;30 dtvshift 42x 27 注意:注意:当各组权数均相等时,加权算术平均数当各组权数均相等时,加权算术平均数等于简单算术平均数等于简单算术平均数:nxnaxaffffxfxfxxnnn.212211返回本节首页28产量产量( x )人数人数( f )1213141510101010合计合计4029产量产量( x )人数人数( f )121314151531030103合计合计5630 加权均值的大小受两个因素的影响:
8、加权均值的大小受两个因素的影响: 各组变量值(各组变量值(x) 各组次数,即权数(各组次数,即权数(f)31权数:权数:即次数,分布在各组间的总体单位数,即次数,分布在各组间的总体单位数, 因为它对均值的大小起权衡轻重的作因为它对均值的大小起权衡轻重的作 用,故又称权数。用,故又称权数。出现次数多的标志值出现次数多的标志值对平均数的影响大对平均数的影响大32 绝对数权数绝对数权数 f 相对数权数相对数权数ffffff第一、权数表现:有两种形式:第一、权数表现:有两种形式:33fxfxffxx34 是相对数权数。是相对数权数。 即权数对均值的影响作用,取决于相对权数即权数对均值的影响作用,取决于
9、相对权数而非绝对权数。而非绝对权数。举例:举例:35(元)25.98221121fxffxfxx计算平均奖金额计算平均奖金额等级等级奖金额(奖金额(x x)人数(人数(f f1 1) 人数(人数(f f2 2)一等一等1201208 81212二等二等10010042426363三等三等909030304545合计合计8080120120虽然各组绝对人数变化了,但各组人数的比重未变虽然各组绝对人数变化了,但各组人数的比重未变比重比重%1037.552.510036 统计中有三大综合指标:统计中有三大综合指标: 总量指标、相对指标和平均指标总量指标、相对指标和平均指标反映现象总规模、总水平,用绝
10、对数表示反映现象总规模、总水平,用绝对数表示如:如:2010年中国年中国gdp 39.8万亿元人民币万亿元人民币相对指标相对指标是两个有联系的指标值对比的比率,是两个有联系的指标值对比的比率,如:三次产业比重、企业劳动生产率、产出的如:三次产业比重、企业劳动生产率、产出的计划完成百分数计划完成百分数、经济发展速度和增长速度、经济发展速度和增长速度37例例1、10个企业资金利润率资料:个企业资金利润率资料:资金利资金利润率润率 企业企业数数n 企业资金企业资金(万元)(万元)f 0-1010-2020-30532100500800合计合计101400求:求:10个企业的平均利润率个企业的平均利润
11、率%202 . 01400280fxfx资金利资金利润率润率 企业企业数数n 企业资金企业资金(万元)(万元)fx xf利润额利润额 0-1010-2020-3053210050080051525575200合计合计101400-280“企业的平均利润率企业的平均利润率” 等同于等同于 “企业的总利润率企业的总利润率” 企业的总利润率企业的总利润率 = 利润总额利润总额 / 资金总额资金总额39%202 . 01400280fxfx40计划完成计划完成百分数百分数 企业企业数数 n 计划产值计划产值fx xf实际值实际值1051101101201201303070505700205002250
12、01.0751.151.256127.52357528125合计合计15048700 -57827.5 计算计算150个企业的平均计划完成百分数个企业的平均计划完成百分数例例2、150个企业的资料:个企业的资料:%74.1181874. 1487005 .57827fxfx计划完成计划完成百分数百分数 企业企业数数 n 计划产值计划产值fx xf实际值实际值105110110120120130307050570020500225001.0751.151.256127.52357528125合计合计15048700 -57827.5 “150个企业的平均计划完成百分数个企业的平均计划完成百分数”
13、 就是就是“150个企个企业总的计划完成百分数业总的计划完成百分数”。企业总计划完成百分数企业总计划完成百分数 = 总实际数总实际数 / 总计划数总计划数42%74.1181874. 1487005 .57827fxfx43v见见52页页44 1、含义:、含义:总体内各个变量值倒数的算术平均总体内各个变量值倒数的算术平均 数的倒数,又称倒数平均数。数的倒数,又称倒数平均数。如有三个变量值:如有三个变量值: 8、10、12,求调和平均数。步骤如下:,求调和平均数。步骤如下:45、12110181;312110181 121101 81 3即为调和平均数即为调和平均数 xnxxxxnxnh1111
14、1321公式:公式:46(1)简单式:)简单式:(2)加权式:)加权式:各变量值出现次数相等各变量值出现次数相等各变量值出现次数不等各变量值出现次数不等 xnxxxxnxnh11111321 mxmmxmxmxmxmmmxnnnh11111.3322112147 某蔬菜单价早中晚分别为某蔬菜单价早中晚分别为0.5、0.4、 0.25(元(元/斤)斤) (1)早中晚各买)早中晚各买1元,求平均价格元,求平均价格 (2)早中晚各买)早中晚各买1斤,求平均价格斤,求平均价格 (3)早中晚各买)早中晚各买2元、元、3元、元、4元,求平均价格元,求平均价格 (4)早中晚各买)早中晚各买2斤、斤、3斤、斤
15、、4斤,求平均价格斤,求平均价格48(1)问:用调和平均。)问:用调和平均。先求早、中、晚购买的斤先求早、中、晚购买的斤数。早数。早 1/0.5=2(斤斤) 、中、中 1/0.4=2.5(斤斤)、晚、晚 1/0.25=4(斤斤) 元35. 05 . 8325. 014 . 015 . 01111hx(2)问:用算术平均)问:用算术平均元38. 0325. 04 . 05 . 0x49元33. 05 .27925. 044 . 035 . 02432hx(3)问:用加权调和平均)问:用加权调和平均元36. 092 . 343225. 044 . 035 . 02x(4)问:用加权算术平均)问:用
16、加权算术平均503、调和平均数和算术平均数间的关系、调和平均数和算术平均数间的关系调和平均数是一种特殊的均值调和平均数是一种特殊的均值(1)两者存在着变形关系:)两者存在着变形关系:51(2 2)当掌握的资料无法直接计算算术)当掌握的资料无法直接计算算术平均数时,可用调和法计算。平均数时,可用调和法计算。这时两者计算结果相同,只是根据已知这时两者计算结果相同,只是根据已知条件不同,需选择不同的公式。条件不同,需选择不同的公式。52 已知对比分母,将分母定为已知对比分母,将分母定为f,求分子,求分子xf,然,然后用加权算术公式,即:后用加权算术公式,即: fxfxmxmxh1已知对比分子,将分子
17、定为已知对比分子,将分子定为m,求分母,求分母mx用加权调和公式,即用加权调和公式,即 :53某公司下属三个部门销售利润资料某公司下属三个部门销售利润资料部门部门销售利润销售利润率()率()x x利润额利润额(万元)(万元)m m销售额销售额m mx xa a121212012010001000b b101020020020002000c c7 710510515001500合计合计- -42542545004500求三个部门的平均利润率。求三个部门的平均利润率。54%44. 945004251mxmxh思考:思考:如果已知销售利润率和销售额资料,如果已知销售利润率和销售额资料,该如何计算?该
18、如何计算?55部门部门销售利润率销售利润率()()x x销售额(万销售额(万元)元)利润额利润额a a121210001000b b101020002000c c7 715001500合计合计- -450045005657计划完计划完成百分成百分数数%计划百计划百分数的分数的组中值组中值%(x1)实际销实际销售额售额 (万元万元) (m或或f )计划销计划销售额售额(m/x)流通费流通费用率用率%(x2)流通费流通费用额用额(万元)(万元)(xf)809090100100110110120859510511545.968.434.494.354.072.032.882.014.813.212.
19、011.06.799.034.1310.37合计合计-243.024.08-30.3258(1)20个商店的平均销售计划完成程度个商店的平均销售计划完成程度243100.9%1240.8hmxmx30.3212.48%243xfxf(2)20个商店总的流通费用率个商店总的流通费用率59nngxxxx.211.定义:定义: n 个变量值乘积的个变量值乘积的 n 次方根次方根60fngxxxxfffn.212161 例例1:2004-2008年我国某工业品产量环比发年我国某工业品产量环比发展速度分别为展速度分别为107.6%、102.5%、100.6%、102.7%、102.2%。计算平均每年的发
20、展速度。计算平均每年的发展速度%1 .103031. 1022. 1027. 1006. 1025. 1076. 1.521nngxxxx62%1 .103031. 1022. 1027. 1006. 1025. 1076. 1.521nngxxxxxy63 例例2:某厂有四个流水连续作业车间,某月:某厂有四个流水连续作业车间,某月的合格率分别为:的合格率分别为:0.95,0.92,0.90,0.80,求四个车间的平均合格率。求四个车间的平均合格率。%43.909043. 080. 090. 092. 095. 0.421nngxxxx64例例3:某地区:某地区25年的年经济发展速度分别是:年
21、的年经济发展速度分别是: 1年年103%,4年年105%,8年年108%, 10年年 110%,2年年115%, 求该地区经济的平均年发展速度。求该地区经济的平均年发展速度。%6 .108086. 115. 121 . 11008. 1805. 1403. 1.221125fxfnnxfxfxg65x,4,),x,8,), x,10,),x,2,),xy%6 .108086. 115. 121 . 11008. 1805. 1403. 1.221125fxfnnxfxfxg66第一、变量值要是相对数,且不能为第一、变量值要是相对数,且不能为负值或零负值或零第二、这些相对数的连乘积要等于总速度或
22、第二、这些相对数的连乘积要等于总速度或总比率总比率几何平均法适用于对比率数据(相对数)的几何平均法适用于对比率数据(相对数)的平均,平均, 主要用于计算主要用于计算平均比率和平均速度平均比率和平均速度67几何平均数是一种特殊的均值:几何平均数是一种特殊的均值:68 1、定义:、定义: 一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值om2、计算:分、计算:分两种情况:两种情况: 品质数列和单项式数列品质数列和单项式数列组距式数列组距式数列69不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌频数频数比例比例百分百分比比(%) 可口可乐可口可乐 旭日升冰茶旭日升冰茶 百事
23、可乐百事可乐 汇源果汁汇源果汁 露露露露1511 9 6 90.300.220.180.120.183022181218合计合计501100(1)品质数列计算众数)品质数列计算众数70回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%) 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意 24108 93 45 30 836311510合计合计300100.0甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布71价格(元)价格(元)销量(公斤)销量(公斤)2.00 2.40 3.00 4.00206014080众数众数是数列中出现次数最多的
24、变量值是数列中出现次数最多的变量值众数众数(2)单项数列计算众数)单项数列计算众数72先确定众数所在的组,然后用公式计算先确定众数所在的组,然后用公式计算分:上限公式和下限公式分:上限公式和下限公式返回本节首页73分数分数x 人数人数 f60以下以下 26070 77080 15 8090 10 90以上以上 6 合计合计 40 l :众数所在组的下限:众数所在组的下限u :众数所在组的上限:众数所在组的上限74 dffffffl1mm1mm1mm2110dlm dffffffu1mm1mm1mm2120dum75 分)(7610)1015()715()715(70dffffffl1mm1mm
25、1mm2110dlm76(1)不受极端值的影响)不受极端值的影响(2)既适用于品质数列,也适用于变量数列)既适用于品质数列,也适用于变量数列(3)一组数据可能没有众数或有几个众数)一组数据可能没有众数或有几个众数返回本节首页77无众数无众数原始数据原始数据: 10 5 9 12 6 878 1、中位数的含义:、中位数的含义: 将各单位标志值按大小排列,居于中间位将各单位标志值按大小排列,居于中间位 置的那个标志值。置的那个标志值。返回本节首页79分两种情况:分两种情况:(1)未分组原始资料)未分组原始资料(2)组距式数据)组距式数据返回本节首页80 先将数据从小到大排序先将数据从小到大排序 项
26、数为奇数时,中间位置项数为奇数时,中间位置上的标志值即为中位数上的标志值即为中位数21n项数为偶数时,中间位置项数为偶数时,中间位置上上2个标志值的平均为中位数个标志值的平均为中位数122nn和81 有有9个数值:个数值: 2、3、5、6、9、10、11、13、14 中位数为第中位数为第5个,即个,即9 有有10个数值个数值: 2、3、5、6、9、10、11、13、14、15 中位数为第中位数为第5、第、第6个数据的平均值,即个数据的平均值,即9.582分数分数人数人数向上累计向上累计向下累计向下累计60以下以下60707080809090以上以上27151062924344040383116
27、6合计合计 40-83b、确定中位数所在的组:确定中位数所在的组: 本例为:本例为: 40/2=20,即中位数应在将分数从,即中位数应在将分数从 高到低排列后的第高到低排列后的第20个学生的分数上个学生的分数上2fa、先将次数进行累计先将次数进行累计c、利用公式计算中位数利用公式计算中位数 ( 公式公式 见见56页页 )84下限公式下限公式=上限公式上限公式=eeeemmmmedfsflm12eeeemmmmedfsfum1285v v (分)v v (分)33.7710151624080em33.771015924007em86四分位数:四分位数:是指位于全部数据是指位于全部数据 位置和位置
28、和 位位置上的数据,分别称为下四分位数和上四分位置上的数据,分别称为下四分位数和上四分位数。也称为第一个四分位数数。也称为第一个四分位数 和和 第三个四分位数。第三个四分位数。即:排序后处于即:排序后处于25%和和75%位置上的值。位置上的值。实际上,中位数就是第二个四分位数实际上,中位数就是第二个四分位数87888990某电脑公司销售量数据的某电脑公司销售量数据的median/quart./rang箱线图箱线图9111名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济西方经济市场营销市场营销财务管理财务管
29、理基础会计基础会计统计学统计学计算机应计算机应用用76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177938门课程考试成绩的门课程考试成绩的median/quart./range箱线图箱线图94min-max25%-75%median value455565758595105学生1学生2学生3学生4
30、学生5学生6学生7学生8学生9学生10学生119596两者都属于抽象化的代表值,但有区别,两者都属于抽象化的代表值,但有区别,前者容易受极端值的影响,后者不会。前者容易受极端值的影响,后者不会。1、数值平均数和位置平均数的比较:、数值平均数和位置平均数的比较:97 职位职位 收入收入(元元)财务部经理财务部经理 10 000市场部经理市场部经理 450000人事部经理人事部经理 90 000研发部经理研发部经理 100 000生产部经理生产部经理 10 000 实际中可利用实际中可利用切尾平均法切尾平均法:去掉极端值,:去掉极端值, 将剩余的数据求平均。将剩余的数据求平均。98收入收入(元元)
31、 人数人数1000 53000 255000 5610000 1050000 330000000 1计算其平均收入时,计算其平均收入时,位置平均和数值平均哪一种方法更合适?位置平均和数值平均哪一种方法更合适?99100 众数:众数:不受极端值影响不受极端值影响 具有不惟一性具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用 中位数:中位数:不受极端值影响不受极端值影响 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用 平均数:平均数:易受极端值影响易受极端值影响 数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用101离散程度离散程度是
32、测定数据分布特征的另一重要指标是测定数据分布特征的另一重要指标统计是使用统计是使用变异指标变异指标来测度分布的离散程度来测度分布的离散程度用于测定一组数据中各数值之间的差异程度,用于测定一组数据中各数值之间的差异程度,即:在一个分布中各数值与均值的离差程度即:在一个分布中各数值与均值的离差程度102三个集中趋势相同但离中趋势不同的总体三个集中趋势相同但离中趋势不同的总体103一、变异指标的意义和作用一、变异指标的意义和作用二、变异指标的种类二、变异指标的种类(一)全距(一)全距(极差)(极差)(二)平均差(二)平均差(三)标准差(三)标准差(四)离散系数(四)离散系数返回本章首页104变异指标
33、的含义变异指标的含义 又称标志变动度、离散程度或离中程度。又称标志变动度、离散程度或离中程度。 是描述总体内各数据之间差别大小程度的指标是描述总体内各数据之间差别大小程度的指标返回本节首页甲:甲:20,40,60,70,80,100,120乙:乙:67,68,69,70,71,72,73如两组数据,请直观判断哪一组的离散程度大如两组数据,请直观判断哪一组的离散程度大105返回本节首页106 标志变动度的作用标志变动度的作用2、能衡量现象变动的均衡性或稳定性、能衡量现象变动的均衡性或稳定性3、能反映各变量值分布的离散程度(离中趋势)、能反映各变量值分布的离散程度(离中趋势) 1、是评价平均数代表
34、性的依据、是评价平均数代表性的依据甲企业甲企业 25 25 25 25 均匀、协调均匀、协调乙企业乙企业 10 15 20 55丙企业丙企业 5 10 15 70 不均匀。不均匀。107标志变动度大,平均数的代表性就小;标志变动度大,平均数的代表性就小;反之反之 ,平均数的代表性就大平均数的代表性就大例如:三组学生的年龄例如:三组学生的年龄(岁)(岁) 20 20 20 20 20 -差距最小,差距最小,20岁的代表性最好岁的代表性最好 18 19 20 21 22 15 16 20 24 25-差距最大,差距最大,20 岁的代表性最差岁的代表性最差108全距全距 1、含义:总体各单位标志的最
35、大值和最小值、含义:总体各单位标志的最大值和最小值之差。之差。 r = xmax-xmin109 优点:计算简单、涵义直观优点:计算简单、涵义直观缺点:易受极端数值的影响缺点:易受极端数值的影响 不能反映中间标志值的变动不能反映中间标志值的变动110 四分位差四分位差qd = q3 - q1111 1、含义、含义 是各变量值与其算术平均数离差绝对值是各变量值与其算术平均数离差绝对值 的算术平均数,即:的算术平均数,即:nxx112返回本节首页简单式:简单式:nxxd.a加权式:加权式:ffxxd.a113岁)(2 . 156.nxxdaxxxx一组学生年龄:组学生年龄: 18 19 20 21
36、 22求平均差。求平均差。114115xxfxxxf(公斤)422008400fxfxxx116公斤)6(. 62001320fxxd.af117v优点:优点:和全距相比,弥补了全距不足,能反和全距相比,弥补了全距不足,能反 映中间标志值的变动。映中间标志值的变动。v缺点:缺点:加绝对值号为计算带来了不便。加绝对值号为计算带来了不便。1181、概念、概念 是各变量值与其算术平均数离差平方的算是各变量值与其算术平均数离差平方的算术术 平均数的平方根,又称均方差。平均数的平方根,又称均方差。nxx2119 2、计算:、计算: 已知资料不同采用不同方法:已知资料不同采用不同方法:nxx2加权式:加权
37、式:ffxx2简单式:简单式:120nx22xffxx22121一组学生年龄一组学生年龄: 18 19 20 21 2218 -2 419 -1 120 0 021 1 122 2 4 合计 - 10 xx 2xxx(岁)414. 15102nxx简单式举例简单式举例:1221232xxxxxffxx2公斤)(422008400 xfxf124(公斤)8 . 720012200ffxx2125v开机:开机:on,2ndf,onv进入到统计功能后,用计算平均数的方进入到统计功能后,用计算平均数的方法输数据法输数据v所有的数据输完后,按所有的数据输完后,按 2ndf 键,键,v再按再按xm 健,即
38、为标准差健,即为标准差所有的数据输完后,如果直接所有的数据输完后,如果直接按按xm 健,即为平均数。健,即为平均数。126统计功能的计算器的使用统计功能的计算器的使用mode2shift scl = 25 shift;10 dt 35 shift;70 dt45 shift;90 dt 55 shift;30 dtshift7.8nx127v优点优点:弥补了平均差和全距的不足。:弥补了平均差和全距的不足。v缺点缺点:利用标准差不能比较性质不同的数列:利用标准差不能比较性质不同的数列(即水平高低不等和计量单位不同)离散程度(即水平高低不等和计量单位不同)离散程度的大小。的大小。128甲:甲: ,
39、 , 乙:,乙:,试比较平均数的代表性。试比较平均数的代表性。)3(公斤甲nxx(公斤)乙210nxx129公斤(甲816. 03)43()33()32()2222nxx公斤(乙16. 83)210220()210210()210200()2222nxx公斤的代表性好于,所以公斤的代表性因为乙甲210130 因为:两组数据性质不同(水平高低不等或因为:两组数据性质不同(水平高低不等或者计量单位不同),不能直接用标准差(或平者计量单位不同),不能直接用标准差(或平均差)比较平均数的代表性。须用相对离散程均差)比较平均数的代表性。须用相对离散程度指标度指标 离散系数离散系数。131%100 x标准
40、差系数又称变异系数,是一组相对数形式的变异指又称变异系数,是一组相对数形式的变异指标标有全距系数、平均差系数、标准差系数等等有全距系数、平均差系数、标准差系数等等以标准差系数为例说明其计算。以标准差系数为例说明其计算。132%2 .27%1003816. 0甲甲甲xv%89. 3%10021016. 8乙乙乙xv公斤。公斤代表性小于所以因为乙甲2103vv133比较两组数据的离散程度,即比较平均数的代比较两组数据的离散程度,即比较平均数的代表性时:表性时: 如果如果两组数据的平均数相等且计量单位相同,两组数据的平均数相等且计量单位相同,可直接使用标准差比较;可直接使用标准差比较; 除此之外除此
41、之外,均需使用标准差系数比较。,均需使用标准差系数比较。134 对称钟形分布特点:对称钟形分布特点:以均值为中心两边对称,以均值为中心两边对称,且中间数据出现的频数多而两尾出现的频数少。且中间数据出现的频数多而两尾出现的频数少。3约有约有68%数据在均值加减数据在均值加减1个标准差的范围之内个标准差的范围之内约有约有95%数据在均值加减数据在均值加减2个标准差的范围之内个标准差的范围之内约有约有99%数据在均值加减数据在均值加减3个标准差的范围之内个标准差的范围之内 1351、求是非标志(交替标志)的标准差、求是非标志(交替标志)的标准差 按是否合格分按是否合格分 表表 现现 取值取值 x 次
42、数次数 n 合格合格 不合格不合格 是是非(不是)非(不是) 1 0 n1 n0136 按是否合格分按是否合格分 数量数量 一等品一等品 二等品二等品 三等品三等品 等外品等外品 1000 10 5 3 合计合计 1018 按是否合格分按是否合格分 数量数量 合格品合格品 等外品等外品 1015 3 合计合计 1018137是非标志是非标志 变量变量 x 次数次数 是是 1 否否 0 求是非标志的平均数及方差求是非标志的平均数及方差 1n0nf138pnnnnnnfxfx1010101p1ppqpqppqnnpnqnnnp0np1ffxx22021201021222pqq139p1ppqpqp
43、qqppqnnpnqnnnp0np1ffxx22021201021222方差140有两个班(有两个班(1、2班)的同一门课成绩,假定两个班)的同一门课成绩,假定两个班水平类似,但由于两个任课老师的评分标准不班水平类似,但由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不同:同,使得两个班成绩的均值和标准差都不同:那么那么1班得班得90分的张英和分的张英和2班得班得82分的刘抒成分的刘抒成绩能否比较?绩能否比较?1班均值:班均值:78.53,标准差:,标准差:9.432班均值:班均值:70.19,标准差:,标准差:7.0不能直接比,但可以将它们进行标准化后再不能直接比,但可以将它们
44、进行标准化后再对比。对比。14122. 143. 953.7890iziiixxz标准化的方法:标准化的方法:69. 1719.7082iz刘抒标准得分:刘抒标准得分:张英的标准得分:张英的标准得分:刘抒的成绩优于张英。刘抒的成绩优于张英。142标准化值实际上是将不同均值和标准差的标准化值实际上是将不同均值和标准差的总体都转化为均值为总体都转化为均值为0 ,标准差为,标准差为1 的总体。的总体。143144科目科目 平均分平均分 标准差标准差 甲生甲生 乙生乙生语文语文 70 8 91 71数学数学 56 4 50 64 外语外语 42 5 40 51 政治政治 80 10 85 80物理物理
45、 50 4 60 70 化学化学 40 12 75 45合计合计 - - 401 381例:已知某年高考全部考生分科总平均成绩和例:已知某年高考全部考生分科总平均成绩和标准差值,又知两名考生的实际成绩如下:标准差值,又知两名考生的实际成绩如下:计算两考生的计算两考生的标准化值,并标准化值,并进行比较。进行比较。145科目科目平均分平均分 标准差标准差甲生甲生 乙生乙生甲生甲生 乙生乙生语文语文数学数学外语外语政治政治物理物理化学化学705642805040845104129150408560757164518070452.625-1.5 -0.4 0.5 2.5 2.917 0.125 2.0
46、1.80.05.00.417合计合计-4013816.6429.342146 第一、甲考生偏科,数学和英语成绩均低于第一、甲考生偏科,数学和英语成绩均低于 平均成绩;乙考生比较全面,各科成绩都不平均成绩;乙考生比较全面,各科成绩都不 低于平均成绩。低于平均成绩。第二、乙考生在平均分偏低且水平差距较小第二、乙考生在平均分偏低且水平差距较小(标准差)的物理、数学和英语等科目中取得(标准差)的物理、数学和英语等科目中取得了较好的成绩,甲考生则在这些科目上表现不了较好的成绩,甲考生则在这些科目上表现不好,影响了其标准成绩。好,影响了其标准成绩。147 在总体分组的情况下会产生上述三种方差在总体分组的情
47、况下会产生上述三种方差 总方差总方差:各标志值与总平均数的离差:各标志值与总平均数的离差 组间方差组间方差:各组平均数与总平均数的离差:各组平均数与总平均数的离差 组内方差组内方差:各组组内的标志值与各组内平均数:各组组内的标志值与各组内平均数的离差的离差三者关系:三者关系:总方差总方差 = 组间方差组间方差 + 组内方差的算术平均数组内方差的算术平均数148i2iij2nxx) 1 (组内组内方差ii22nn组内组内组内方差算术平均数149代表总体的平均数其中组间方差组间xnnxx)2(ii2i2nxx)3(2ij2总方差150 某公司某公司7个门市部营业额数据:个门市部营业额数据: 88、
48、90、96、98、110、140、200 分成两组:分成两组: 88、90、96、98 110、140、200 计算总方差、组内方差和组间方差计算总方差、组内方差和组间方差15138.1405nxx2i2总67.79534343.1171504117.43-93nxx22i2i2组间152组内方差的算术平均数:组内方差的算术平均数:3431400417nnii22组内组内140017nxx22i2ii2组内组内第二组的:第一组的:组内方差:组内1531541552 ( ,)x 156矩:矩:又称动差,物理学上的术语。统计上用又称动差,物理学上的术语。统计上用 来刻画数据分布特征的的指标的统称。
49、来刻画数据分布特征的的指标的统称。x157158 偏态偏态:是对分布的偏斜方向和偏斜程度的测:是对分布的偏斜方向和偏斜程度的测定定测定偏态程度的指标称为测定偏态程度的指标称为偏态系数偏态系数如果次数的分布是完全对称的,称为对称分布如果次数的分布是完全对称的,称为对称分布否为非对称分布,即偏态分布,分左偏和右偏否为非对称分布,即偏态分布,分左偏和右偏和和 对称分布比较而言对称分布比较而言159该系数为该系数为0时,为对称分布时,为对称分布大于大于0时,为右偏态分布时,为右偏态分布小于小于0时,为左偏态分布时,为左偏态分布越接近越接近0,偏斜程度就越低,偏斜程度就越低 160峰度:是指分布图形的尖
50、峭程度。峰度:是指分布图形的尖峭程度。和标准正态分布比较而言的和标准正态分布比较而言的实际中,标准正态分布曲线的峰顶为正态峰,实际中,标准正态分布曲线的峰顶为正态峰,和标准正态分布曲线相比,陡峭的为尖峰,和标准正态分布曲线相比,陡峭的为尖峰,平缓的为平峰顶。平缓的为平峰顶。测定峰度的指标称为测定峰度的指标称为 峰度系数。峰度系数。161162163164v因为对于正态分布因为对于正态分布4443343165v 用用excel计算平均数、标准差等描述性统计计算平均数、标准差等描述性统计 量有两种方法:量有两种方法: 一是用函数一是用函数 二是用二是用“数据分析数据分析”工具工具166 第一、函数
51、第一、函数均值:均值:average中位数:中位数:median众数:众数:mode标准差:标准差: 总体标准差:总体标准差:stdevp; 样本标准差:样本标准差: stdev分位数:分位数:quartileexcel用于计算描述统计量的函数:用于计算描述统计量的函数:167ffxxxx22或总体的:n1-ffxx1xx22或样本的:ns168v quartile(array, quart)array:quart:169v第一次使用第一次使用“数据分析数据分析”时,需在时,需在excel工工具具 菜单中选菜单中选“加载宏加载宏”,选,选“分析工具库分析工具库”。 这样在这样在“工具工具”菜单
52、中就会出现菜单中就会出现“数据分析数据分析”。170选择“网上冲浪”工作表。打开“工具”菜单,选择“数据分析”选项,打开数据分析对话框如图所示。171双击“描述统计”项或先单击此项再选择“确定”按钮,描述统计对话框打开如图所示。在“输入区域”中输入a1:a21。172由于所选数据范围包括一个标志名称,单击“标志位于第一行”选项边上的复选框。单击“输出区域”项,旁边出现了一个输入框,单击此框出现插入符,单击c1,在输入框中出现输出地址“$b$1”,这是输出结果的左上角起始位置。单击“汇总统计”,如不选此项,则excel省略部分输出结果。173平均平均 38.7538.75标准误差标准误差 2.4
53、353482.435348中位数中位数 38.538.5众数众数 2929标准差标准差 10.8912110.89121方差方差 118.6184118.6184峰度峰度 -1.0812-1.0812偏度偏度 0.2770130.277013区域区域 3636最小值最小值 2222最大值最大值 5858求和求和 775775观测数观测数 2020单击单击“确定确定”按钮,输出结果如下图所示:按钮,输出结果如下图所示:174间歇喷泉是一种向空中喷出热水和热气的温泉,间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对其名字的由来是因为这种喷泉要经过一段相对稳定的状态
54、后才能喷发。有时它喷射的时间间稳定的状态后才能喷发。有时它喷射的时间间隔不太稳定。隔不太稳定。ohio(俄亥俄俄亥俄)州黄石国家公园中的州黄石国家公园中的“old faithful”间歇喷泉是世界上最著名的间歇喷泉间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指国家公园的服务部门就在喷泉处安装了一个指示牌,预报下次喷泉喷发的时间,如下表所示。示牌,预报下次喷泉喷发的时间,如下表所示。175开始时开始时间间持续时持续时间间预测区预测区间间预测下预测下一次喷一
55、次喷发时间发时间6:351分分55秒秒58分分7:33am7:32接近接近4秒秒82分分8:54am8:591分分51秒秒58分分9:57am10:124分分33秒秒89分分11:41am11:461分分42秒秒58分分12:44am中午吃饭中午吃饭 14:061分分41秒秒55分分3:01pm“old faithful”间歇喷泉喷发时间表间歇喷泉喷发时间表176公园是如何得到这个结果的呢?为了了解喷泉喷发间隔公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以时间的规律,以1978年年8月至月至1979年年8月间喷泉月间喷泉222次喷次喷发的间隔时间记录为样本进行分析。发的间隔时间记录为样本进行分析。打开打开“喷泉喷泉“工作表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高速食品真空包装机创新企业制定与实施新质生产力项目商业计划书
- 低脂牛奶系列企业制定与实施新质生产力项目商业计划书
- 农耕文化实景剧表演行业深度调研及发展项目商业计划书
- 养生粥铺与炖品店行业跨境出海项目商业计划书
- 稀有金属表面处理服务行业跨境出海项目商业计划书
- 2025年老年教育课程体系改革与智能辅助教学系统研究
- (冀教版)三年级上册期中综合测评语文试卷
- 儿科三基考试题和答案解析
- 【7历期末】安徽省宿州市砀山县2023-2024学年下学期期末质量监测七年级历史试题(含解析)
- DB62T 4201-2020 青海云杉二代优树选择技术规程
- 齐鲁名校大联考2025届山东省高三第七次学业水平联合检测语文试题及答案
- 外科肛肠科试题及答案
- 食堂从业人员培训内容
- 骨科围手术期的疼痛护理
- 行政管理本科毕业论文-论电动自行车管理存在的问题与对策-以福州市为例
- 严重过敏反应诊断和临床管理专家共识(2025年版)解读
- 山东健康集团招聘考试真题2024
- 中国2型糖尿病运动治疗指南(2024版)解读 2
- 木材行业火灾事故案例
- 公安机关对旅馆业培训
- 旱地划龙舟课件
评论
0/150
提交评论