《统计学导论》第四章数据分布趋势的测定课件_第1页
《统计学导论》第四章数据分布趋势的测定课件_第2页
《统计学导论》第四章数据分布趋势的测定课件_第3页
《统计学导论》第四章数据分布趋势的测定课件_第4页
《统计学导论》第四章数据分布趋势的测定课件_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第三章 数据分布特征的描述3.1 集中趋势的测定3.2 离中趋势的测定 一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若且,则吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?” 数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!” 统计学家与数学家 如果你的腳已經踩在爐子上,而頭卻在冰箱裡,統計學家會告訴你,平均而言,你相當舒服。 调侃统计学家 4.1 集中趋势的测定一、集中趋势的涵义 二、平均指标的种类及计算方法83名女生的身高分布的集中趋势、中心数值第四章 数据分布

2、特征的描述算术平均数3.1 集中趋势的测定一、集中趋势的涵义 二、平均指标的种类及计算方法二、平均指标的种类及计算方法 算术平均数 调和平均数 几何平均数 中位数 众数数值平均数位置平均数A. 简单算术平均数适用于总体资料未经分组整理、尚为原始资料的情况式中: 为算术平均数; 为总体单位总数; 为第 个单位的标志值。算术平均数的计算方法第四章 数据分布特征的描述平均每人日销售额为:算术平均数的计算方法某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,则【例】第四章 数据分布特征的描述B. 加权算术平均数适用于总体资料经过分组整理形成变量数列的情况式中: 为算

3、术平均数; 为第 组的次数; 为组数; 为第 组的标志值或组中值。算术平均数的计算方法第四章 数据分布特征的描述解:算术平均数的计算方法若上述资料为组距数列,则应取各组的组中值作为该组的代表值用于计算;此时求得的算术平均数只是其真值的近似值。说明第四章 数据分布特征的描述分析:成绩(分)人数(人)甲班乙班丙班603915010013950平均成绩(分)619980起到权衡轻重的作用算术平均数的计算方法第四章 数据分布特征的描述决定平均数的变动范围邱东教授对权数的定义:第四章 数据分布特征的描述第一,权数的数量形式可以是多种多样的,可以是绝对数,也可以是相对数;可以是结构相对数,也可以是比例相对

4、数;可以取正数,甚至有时也可以取负数。第二,权数尽管可以以绝对数或比例相对数的形式出现,但权数的实质是结构相对数。第三,权数是用来衡量诸内部因素在总体中重要程度的,由于人们是从不同方面来把握重要程度的,因而这个定义就不是把权数仅仅限于频率和同度量因素这一狭窄的范围内。 权数是以某种数量形式对比、权衡被评价事物总体中诸因素相对重要程度的量值。 第四章 数据分布特征的描述曾宪报在其博士学位论文统计权数论中提出了他认为“简洁性好、概括性强”、“关于权数的最新认识”的定义: 权数是衡量系统内诸要素相对重要程度的一组数值。 第四章 数据分布特征的描述权数与加权234567819第四章 数据分布特征的描述

5、权数与加权234567819第四章 数据分布特征的描述权数与加权234567819第四章 数据分布特征的描述权数与加权234567819 算术平均数的计算取决于变量值和权数的共同作用:变量值决定平均数的范围;权数则决定平均数的位置.离差的概念12345678-1-1-213第四章 数据分布特征的描述第四章 数据分布特征的描述思考题 比特啤酒公司雇用了468名员工,其中有56名管理人员,130名行政和技术人员,其余282人是工人。这三组人的周平均工资分别是500英镑、300英镑和200英镑。财务主管希望计算全体员工的平均工资。?二、平均指标的种类及计算方法 算术平均数 调和平均数 几何平均数 中

6、位数 众数数值平均数位置平均数【例】 设X=(2,4,6,8),则其调和平均数可由定义计算如下:再求算术平均数:求各标志值的倒数 : , , ,再求倒数:是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数调和平均数harmean(harmonic mean)第四章 数据分布特征的描述A. 简单调和平均数适用于总体资料未经分组整理、尚为原始资料的情况式中: 为调和平均数; 为变量值 的个数; 为第 个变量值。调和平均数的计算方法第四章 数据分布特征的描述B. 加权调和平均数适用于总体资料经过分组整理形成变量数列的情况式中: 为第 组的变量值; 为第 组的标志总量。调和平均数的计算方法第四章

7、 数据分布特征的描述当已知各组变量值和标志总量时,作为算术平均数的变形使用。因为:调和平均数的应用第四章 数据分布特征的描述第四章 数据分布特征的描述调和平均数的用途:作为独立意义上的平均数使用基本上没有用途。作为算术平均数的变形使用是其常见的用法。但此时已经不能称为调和平均数,只能称其为调和平均方法。日产量(件)各组工人日总产量(件)10111213147001100456019501400合计9710【例】某企业某日工人的日产量资料如下:计算该企业该日全部工人的平均日产量。调和平均数的应用第四章 数据分布特征的描述即该企业该日全部工人的平均日产量为12.1375件。调和平均数的应用解:第四

8、章 数据分布特征的描述求解比值的平均数的方法由于比值(平均数或相对数)不能直接相加,求解比值的平均数时,需将其还原为构成比值的分子、分母原值总计进行对比设比值 分子变量分母变量则有:第四章 数据分布特征的描述求解比值的平均数的方法己知 ,采用基本平均数公式己知 ,采用加权算术平均数公式己知 ,采用加权调和平均数公式比值第四章 数据分布特征的描述【例A】某季度某工业公司18个工业企业产值计划完成情况如下:计划完成程度()组中值()企业数(个)计划产值(万元)90以下90100100110110以上8595105115231038002500172004400合计1824900计算该公司该季度的平

9、均计划完成程度。求解比值的平均数的方法第四章 数据分布特征的描述【例A】某季度某工业公司18个工业企业产值计划完成情况如下:计划完成程度()组中值()企业数(个)计划产值(万元)90以下90100100110110以上8595105115231038002500172004400合计1824900计算该公司该季度的平均计划完成程度。求解比值的平均数的方法分析:应采用加权算术平均数公式计算第四章 数据分布特征的描述【例B】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):组别企业数(个)计划产值(万元)实际产值(万元)123423103800250017200440068

10、02375180605060合计182490026175计算该公司该季度的平均计划完成程度。求解比值的平均数的方法第四章 数据分布特征的描述【例B】某季度某工业公司18个工业企业产值计划完成情况如下(按计划完成程度分组):组别企业数(个)计划产值(万元)实际产值(万元)12342310380025001720044006802375180605060合计182490026175计算该公司该季度的平均计划完成程度。求解比值的平均数的方法分析:应采用平均数的基本公式计算第四章 数据分布特征的描述二、平均指标的种类及计算方法 算术平均数 调和平均数 几何平均数 中位数 众数数值平均数位置平均数是N项

11、变量值连乘积的开N次方根几何平均数Geomean(geomatric mean)用于计算现象的平均比率或平均速度各个比率或速度的连乘积等于总比率或总速度;相乘的各个比率或速度不为零或负值。应用的前提条件:第四章 数据分布特征的描述A. 简单几何平均数适用于总体资料未经分组整理尚为原始资料的情况式中: 为几何平均数; 为变量值的个数; 为第 个变量值。几何平均数的计算方法第四章 数据分布特征的描述【例】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95、92、90、85、80,求整个流水生产线产品的平均合格率。分析:设最初投产100A个单位 ,则第一道工序的合格品为100A0.9

12、5;第二道工序的合格品为(100A0.95)0.92;第五道工序的合格品为(100A0.950.920.900.85)0.80;第四章 数据分布特征的描述因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。第四章 数据分布特征的描述因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A0.950.920.900.850.80;则该流水线产品总的合格率为:即该流水线总的合格率

13、等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。解第四章 数据分布特征的描述思考若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。几何平均数的计算方法第四章 数据分布特征的描述 因各车间彼此独立作业,所以有 第一车间的合格品为:1000.95; 第二车间的合格品为:1000.92; 第五车间的合格品为:1000.80。则该企业全部合格品应为各车间合格品的总和,即总合格品=1000.95+1000.80几何平均数的计算方法分析:第四章 数据分布特征的描述不再符合几何

14、平均数的适用条件,需按照求解比值的平均数的方法计算。又因为应采用加权算术平均数公式计算,即第四章 数据分布特征的描述B. 加权几何平均数适用于总体资料经过分组整理形成变量数列的情况式中: 为几何平均数; 为第 组的次数; 为组数; 为第 组的标志值或组中值。几何平均数的计算方法第四章 数据分布特征的描述【例】某金融机构以复利计息。近12年来的年利率有4年为3,2年为5,2年为8,3年为10,1年为15。求平均年利率。设本金为V,则至各年末的本利和应为:第1年末的本利和为:第2年末的本利和为: 第12年末的本利和为:分析:第2年的计息基础第12年的计息基础第四章 数据分布特征的描述则该笔本金12

15、年总的本利率为:即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。解第四章 数据分布特征的描述几何平均数的计算方法思考若上题中不是按复利而是按单利计息,且各年的利率与上相同,求平均年利率。分析第1年末的应得利息为:第2年末的应得利息为:第12年末的应得利息为: 设本金为V,则各年末应得利息为:第四章 数据分布特征的描述则该笔本金12年应得的利息总和为:=V(0.034+0.052+0.151) 这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为假定本金为V第四章 数据分布特征的描述所以,应采用加权算术平均

16、数公式计算平均年利息率,即:解:第四章 数据分布特征的描述(比较:按复利计息时的平均年利率为6.85)第四章 数据分布特征的描述就同一资料计算时,有:第四章 数据分布特征的描述设 x 取值为:、10算术平均与几何平均更为常用一些,其中几何平均数对小的极端值敏感,算术平均数对大的极端值敏感。是否为比率或速度各个比率或速度的连乘积是否等于总比率或总速度是否为其他比值是否否是否是几何平均法算术平均法求解比值的平均数的方法数值平均数计算公式的选用顺序指标第四章 数据分布特征的描述二、平均指标的种类及计算方法 算术平均数 调和平均数 几何平均数 中位数 众数数值平均数位置平均数将总体各单位标志值按大小顺

17、序排列后,指处于数列中间位置的标志值,用 表示中位数(Median)不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。中位数的作用:二、平均指标的种类及计算方法第四章 数据分布特征的描述 如果统计资料中含有异常的或极端的数据,就有可能得到非典型的甚至可能产生误导的平均数,这时使用中位数来度量集中趋势比较合适。比如有5笔付款: 9元,10元,10元,11元,60元 平均付款为100/5=20元。 很明显,这并不是一个好的代表值,而中位数10元是一个更好的代表值。中位数的位次为:即第3个单位的标志值就是中位数【例A】某售货小组5个人,某天的销售额按从小到大的顺序排列为440元、480元

18、、520元、600元、750元,则中位数的确定(未分组资料)第四章 数据分布特征的描述中位数的位次为:中位数应为第3和第4个单位标志值的算术平均数,即【例B】若上述售货小组为6个人,某天的销售额按从小到大的顺序排列为440元、480元、520元、600元、750元、760元,则中位数的确定(未分组资料)第四章 数据分布特征的描述【例C】某企业某日工人的日产量资料如下:日产量(件)工人人数(人)向上累计次数(人)10111213147010038015010070170550700800合计800计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的确定(单值数列)第四章 数据分布特征的描

19、述中位数的确定(组距数列)【例D】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下200400400600600以上373283104250合计50计算该车间工人月产量的中位数。第四章 数据分布特征的描述中位数的确定(组距数列)共 个单位共 个单位共 个单位共 个单位LU中位数组组距为d共 个单位假定该组内的单位呈均匀分布共有单位数 中位数下限公式为 该段长度应为 第四章 数据分布特征的描述二、平均指标的种类及计算方法 算术平均数 调和平均数 几何平均数 中位数 众数数值平均数位置平均数指总体中出现次数最多的变量值,用 表示,它不受极端数值的影响,用来说

20、明总体中大多数单位所达到的一般水平。众数(Mode)二、平均指标的种类及计算方法第四章 数据分布特征的描述有时众数是一个合适的代表值 比如在服装行业中,生产商、批发商和零售商在做有关生产或存货的决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。 日产量(件)工人人数(人)101112131470100380150100合计800【例A】已知某企业某日工人的日产量资料如下:众数的确定(单值数列)计算该企业该日全部工人日产量的众数。第四章 数据分布特征的描述众数的确定(组距数列)【例B】某车间50名工人月产量的资料如下:月产量(件)工人人数(人)向上累计次数(人)200以下2004004006006

21、00以上373283104250合计50计算该车间工人月产量的众数。众数的原理及应用83名女生身高原始数据83名女生身高组距数列第四章 数据分布特征的描述当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,等于没有众数)。众数的原理及应用第四章 数据分布特征的描述第四章 数据分布特征的描述出生1981.01980.01979.01978.01977.01976.01975.0160140120100806040200413名学生出生时间分布直方图众数的原理及应用没有突出地集中在某个

22、年份第四章 数据分布特征的描述192.5190.5188.5186.5184.5182.5180.5178.5176.5174.5172.5170.5168.5166.5164.5162.5160.5158.5156.5154.5152.5150.5148.56050403020100众数的原理及应用413名学生的身高分布直方图出现了两个明显的分布中心第四章 数据分布特征的描述形状 Shape表明数据是如何分布的偏态Skew 与 对称Symmetry左偏: 均值中位数对称(零偏度) :均值 = 中位数右偏的左偏的对称的均值 = 中位数 = 众数均值 中位数 众数众数 中位数 均值第四章 数据分

23、布特征的描述 位置测度的一种常用方法: 百分位数(Percentile)概念:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100p)%个数值跟它一样大或比它大。 例如,一个考生入学考试的口语成绩是54分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。 第四章 数据分布特征的描述 位置测度的另一种常用方法: 四分位数 (Quartile)通常将数据分成四个部分是合乎需要的,每一部分大约包括1/4或25%的数据,分位点称为四分位数。第四章 数据分布特征的描述 位置测度的另一种常用方法: 四分位数 (Quartile

24、)25%25%25%25%Q1Q2Q3把排序数据等分为四个区间Quarters 第三章 数据分布特征的描述3.1 集中趋势的测定3.2 离中趋势的测定 课程学生语文数学英语总成绩平均成绩甲乙丙606555656565706575195195195656565单位:分某班三名同学三门课程的成绩如下:请比较三名同学学习成绩的差异。第四章 数据分布特征的描述集中趋势弱、离中趋势强集中趋势强、离中趋势弱第四章 数据分布特征的描述3.2 离中趋势的测定一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差指总体中各单位标志值背离分布中心的规模或程度,用标志变异指标来反映。离中趋势反映

25、统计数据差异程度的综合指标,也称为标志变动度变异指标值越大,平均指标的代表性越小;反之,平均指标的代表性越大第四章 数据分布特征的描述测定离中趋势的意义用来衡量和比较平均数代表性的大小;用来反映社会经济活动过程的均衡性和节奏性;用来测定变量数列次数分布较正态分布的偏离程度。 第四章 数据分布特征的描述3.2 离中趋势的测定一、离中趋势的涵义 二、标志变异指标的种类及计算三、是非标志的标准差及方差测定标志变异度的绝对量指标(与原变量值名数相同)测定标志变异度的相对量指标(表现为无名数)全距平均差标准差全距系数平均差系数标准差系数标志变异指标的种类第四章 数据分布特征的描述指所研究的数据中,最大值

26、与最小值之差,又称极差。全距最大变量值或最高组上限或开口组假定上限最小变量值或最低组下限或开口组假定下限【例A】某售货小组5人某天的销售额分别为440元、480元、520元、600元、750元,则第四章 数据分布特征的描述【例B】某季度某工业公司18个工业企业产值计划完成情况如下:计划完成程度()组中值()企业数(个)计划产值(万元)90以下90100100110110以上8595105115231038002500172004400合计1824900计算该公司该季度计划完成程度的全距。第四章 数据分布特征的描述优点:计算方法简单、易懂;缺点:易受极端数值的影响,不能全面反映所有标志值差异大小

27、及分布状况,准确程度差往往应用于生产过程的质量控制中全距的特点第四章 数据分布特征的描述 简单平均差适用于未分组资料是各个数据与其算术平均数的离差绝对值的算术平均数,用 表示平均差计算公式:总体算术平均数总体单位总数第 个单位的变量值第四章 数据分布特征的描述【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。解:即该售货小组5个人销售额的平均差为93.6元。第四章 数据分布特征的描述 加权平均差适用于分组资料平均差的计算公式总体算术平均数第 组变量值出现的次数第 组的变量值或组中值第四章 数据分布特征的描述【例B】计算下表

28、中某公司职工月工资的平均差。月工资(元)组中值(元)职工人数(人)300以下300400400500500600600700700800800900900以上2503504505506507508509502083143824563052377820合计2000第四章 数据分布特征的描述解即该公司职工月工资的平均差为138.95元。第四章 数据分布特征的描述优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。平均差的特点一般情况下都是通过计算另一种标志变异指标标准差,来反映总体内部

29、各单位标志值的差异状况第四章 数据分布特征的描述 简单标准差适用于未分组资料各个数据与其算术平均数的离差平方的算术平均数的开平方根,用 来表示;标准差的平方又叫作方差,用 来表示。标准差计算公式:总体单位总数第 个单位的变量值总体算术平均数第四章 数据分布特征的描述【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。解(比较:其销售额的平均差为93.6元)即该售货小组销售额的标准差为109.62元。第四章 数据分布特征的描述 加权标准差适用于分组资料标准差的计算公式总体算术平均数第 组变量值出现的次数第 组的变量值或组中值第四章 数据分布特征的描述【例B】计算下表中某公司职工月工资的标准差。月工资(元)组中值(元)职工人数(人)300以下300400400500500600600700700800800900900以上2503504505506507508509502083143824563052377820合计2000第四章 数据分布特征的描述解(比较:其工资的平均差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论