第三数据分布特征的描述演示文稿_第1页
第三数据分布特征的描述演示文稿_第2页
第三数据分布特征的描述演示文稿_第3页
第三数据分布特征的描述演示文稿_第4页
第三数据分布特征的描述演示文稿_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三数据分布特征的描述演示文稿当前1页,总共88页。(优选)第三数据分布特征的描述当前2页,总共88页。数据分布的特征和测度峰度偏态数据的特征和测度分布的形状集中趋势离散程度众数中位数离散系数方差和标准差四分位差异众比率位置平均数数值平均数算术平均数调和平均数几何平均数平均差极差四分位数当前3页,总共88页。第一节数据分布集中趋势的测定一.众数二.中位数和分位数三.算术平均数四.调和平均数五.几何平均数当前4页,总共88页。集中趋势

(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定当前5页,总共88页。众数当前6页,总共88页。众数

(概念要点)集中趋势的测度值之一;出现次数最多的变量值;不受极端值的影响;可能没有众数或有几个众数;适用于定类数据、定序数据、定距数据和定比数据。当前7页,总共88页。众数

(众数的不唯一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242当前8页,总共88页。定类数据众数的确定

(算例)表3-1某城市居民关注广告类型的频数分布

广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100【例3.1】根据表3-1中的数据,计算众数。解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即

Mo=商品广告当前9页,总共88页。定序数据众数的确定

(算例)【例3.2】根据表3-2中的数据,计算众数。解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意

不满意

一般

满意

非常满意24108934530836311510合计300100.0当前10页,总共88页。数值型分组数据众数的确定

(要点及计算公式)1.

众数的值与相邻两组频数的分布有关4.

该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo当前11页,总共88页。数值型分组数据众数的确定

(算例)表3-3某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例3.3】根据表3-3中的数据,计算50名工人日加工零件数的众数当前12页,总共88页。中位数当前13页,总共88页。中位数

(概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值Me50%50%不受极端值的影响适用于定序数据和数值型数据各变量值与中位数的离差绝对值之和最小,即当前14页,总共88页。中位数

(位置的确定)未分组资料:组距分组资料:2∑f=中位数位置N为奇数N为偶数当前15页,总共88页。定序数据中位数的确定

(算例)【例3.4】根据表3-4中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此

Me=一般表3-4甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—当前16页,总共88页。数值型数据中位数的测定当前17页,总共88页。未分组数据中位数的测定

(计算公式)当前18页,总共88页。未分组数据中位数的测定

(5个数据的算例)原始数据:

2422212620排序: 2021222426位置: 123 45中位数22当前19页,总共88页。未分组数据中位数的测定

(6个数据的算例)原始数据:105 91268排序:56891012位置: 123

4

56N+16+1位置223.5中位数8+928.5当前20页,总共88页。根据位置公式确定中位数所在的组采用下列近似公式计算:该公式假定中位数组的频数在该组内均匀分布组距分组数据中位数的确定

(要点及计算公式)当前21页,总共88页。组距分组数据中位数的确定

(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例3.5】根据第三章表3-5中的数据,计算50名工人日加工零件数的中位数当前22页,总共88页。四分位数

(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值,又称为四分位点3.不受极端值的影响4.适用于定序数据、数值型数据QLQMQU25%25%25%25%当前23页,总共88页。四分位数

(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=∑f4上四分位数(QL)位置=3∑f4单变量值分组数据:当前24页,总共88页。定序数据的四分位数

(算例)【例3.11】根据第三章表3-11中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:

QL位置=(300)/4=75上四分位数(QL)的位置为:

QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此

QL

=不满意

QU

=一般表3-11甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—当前25页,总共88页。数值型未分组数据的四分位数

(7个数据的算例)原始数据:

2321 3032 282526排序:21232526283032位置:1234567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30当前26页,总共88页。数值型未分组数据的四分位数

(6个数据的算例)原始数据:

232130 282526排序:212325262830位置:1234 56QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.5当前27页,总共88页。数值型分组数据的四分位数

(计算公式)上四分位数:

下四分位数:

当前28页,总共88页。数值型分组数据的四分位数

(计算示例)QL位置=50/4=12.5QU位置=3×50/4=37.5表3-12某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例3.12-1】根据表3-12中的数据,计算50名工人日加工零件数的四分位数。当前29页,总共88页。算术平均数当前30页,总共88页。算术平均数

(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.适用于数值型数据当前31页,总共88页。算术平均数

(计算公式)设一组数据为:X1,X2,…,XN

简单均值的计算公式为设分组后的数据为:X1,X2,…,XK

相应的频数为:F1,F2,…,FK加权均值的计算公式为当前32页,总共88页。简单算术平均数

(算例)原始数据: 10 5 9 13 6 8当前33页,总共88页。加权算术平均数

(算例)表3-6某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0【例3.6】根据表3-6中的数据,计算50名工人日加工零件数的均值当前34页,总共88页。权数对算术平均数的影响加权算术平均数其数值的大小,不仅受各组变量值大小的影响,而且受各组变量值出现的频数即权数大小的影响。如果某一组的权数大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就越大,反之,则越小。当前35页,总共88页。权数对算术平均数的影响甲乙两组各有10名学生,他们的考试成绩及其分布数据如下:甲组:考试成绩(X): 020100

人数分布(F):118乙组:考试成绩(X): 020100

人数分布(F):811X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi12(分)当前36页,总共88页。算术平均数的数学性质1.各变量值与均值的离差之和等于零

2.各变量值与均值的离差平方和最小当前37页,总共88页。调和平均数当前38页,总共88页。调和平均数

(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.计算公式为当前39页,总共88页。调和平均数

(算例)表3-7某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)

Xi成交额(元)mi成交量(公斤)mi/

Xi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例3.7】某蔬菜批发市场三种蔬菜的日成交数据如表3-7,计算三种蔬菜该日的平均批发价格(元/公斤)当前40页,总共88页。几何平均数当前41页,总共88页。几何平均数

(概念要点)1.集中趋势的测度值之一2.N

个变量值乘积的N

次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.可看作是均值的一种变形当前42页,总共88页。几何平均数

(算例)【例3.8】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%当前43页,总共88页。众数、中位数和

算术平均数的比较当前44页,总共88页。众数、中位数和

算术平均数的关系左偏分布算术平均数

中位数

众数右偏分布众数

中位数

算术平均数对称分布

算术平均数=中位数=众数当前45页,总共88页。数据类型与集中趋势测度值表3-9数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值众数中位数算术平均数算术平均数—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数红色为该数据类型最适合用的测度值当前46页,总共88页。第二节数据分布离散程度的测定一.异众比率二.极差三.四分位差四.平均差五.方差及标准差六.离散系数当前47页,总共88页。离散程度数据分布的另一个重要特征;离散程度测度值是对数据分散程度所作的描述;反映各变量值远离其中心值的程度,因此也称为离中趋势;从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值。当前48页,总共88页。数据的特征和测度

(本节位置)峰度偏态数据的特征和测度分布的形状集中趋势离散程度众数中位数离散系数方差和标准差四分位差异众比率位置平均数数值平均数算术平均数调和平均数几何平均数平均差极差当前49页,总共88页。异众比率当前50页,总共88页。异众比率

(概念要点)1. 离散程度的测度值之一2. 非众数组的频数占总频数的比率3. 用于衡量众数的代表性4.计算公式为当前51页,总共88页。异众比率的测算

(算例)表3-10某城市居民关注广告类型的频数分布

广告类型人数(人)频率(%)

商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100【例3.10】根据第三章表3-10中的数据,计算异众比率解:

在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好

Vr=200-112200

=1-112200

=0.44=44%当前52页,总共88页。四分位差当前53页,总共88页。四分位差

(概念要点)四分位数是离散程度的测度值之一,是上四分位数与下四分位数之差,又称为四分位差,亦称为内距或四分间距(inter-quartilerange),用表示。计算公式为:当前54页,总共88页。四分位差

(定序数据的算例)【例3.13】根据第三章表3-13中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL=不满意=2

QU=

一般=

3四分位差:

QD

=QU

=

QL

=3–2

=1表3-13甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意

不满意

一般

满意

非常满意2410893453024132225270300合计300—当前55页,总共88页。数值型分组数据的四分位差

(计算示例)表3-12某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例3.12-2】根据表3-12中的数据,计算50名工人日加工零件数的四分位差。当前56页,总共88页。极差当前57页,总共88页。极差

(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据

R

=max(Xi)-min(Xi).=组距分组数据R

最高组上限-最低组下限

计算公式为当前58页,总共88页。平均差当前59页,总共88页。平均差

(概念要点及计算公式)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少

计算公式为未分组数据组距分组数据当前60页,总共88页。平均差

(计算过程及结果)表3-14某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计—50—312【例3.14】根据第三章表3-14中的数据,计算工人日加工零件数的平均差当前61页,总共88页。方差与标准差当前62页,总共88页。方差和标准差

(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.3当前63页,总共88页。总体方差和标准差

(计算公式)未分组数据:组距分组数据:标准差的计算公式未分组数据:组距分组数据:方差的计算公式当前64页,总共88页。总体标准差

(计算过程及结果)3100.5739.47572.45259.926.86184.90518.94817.96—246.49114.4932.490.4918.4986.49204.4950—合计358141064107.5112.5117.5122.5127.5132.5137.5105~110110~115115~120120~125125~130130~135135~140频数(Fi)组中值(Xi)按零件数分组表3-15某车间50名工人日加工零件标准差计算表【例3.15】根据第三章表3-15中的数据,计算工人日加工零件数的标准差当前65页,总共88页。样本方差和标准差

(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!当前66页,总共88页。样本方差

自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数。当样本数据的个数为

n时,若样本均值x

确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。例如,样本有3个数值,即x1=2,x2=4,x3=9,则x

=5。当x

=5

确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值。样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量。当前67页,总共88页。样本方差

(算例)原始数据:10 591368样本标准差当前68页,总共88页。样本标准差

(算例)样本标准差原始数据:

10591368当前69页,总共88页。方差的数学性质

当前70页,总共88页。方差的数学性质1、变量的方差等于变量平方的平均数减去变量平均数的平方,即:当前71页,总共88页。方差

(数学性质)各变量值对均值的方差小于对任意值的方差证明提示:设X0为不等于X的任意数,D2为对X0的方差,则:当前72页,总共88页。相对离散程度:

离散系数当前73页,总共88页。离散系数

(概念要点)1.各种变异指标与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同总体数据离散程度的比较5.常用的离散系数为标准差系数。当前74页,总共88页。标准差系数

(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较计算公式为当前75页,总共88页。标准差系数

(实例和计算过程)表3-16某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例3.16】某管理局抽查了所属的8家企业,其产品销售数据如表3-16。试比较产品销售额与销售利润的离散程度当前76页,总共88页。标准差系数

(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度

当前77页,总共88页。数据类型与离散程度测度值数据类型和所适用的离散程度测度值数据类型定类数据定序数据定距数据或定比数据适用的测度值※异众比率※四分位差

※方差或标准差—

异众比率

※离散系数(比较时用)——

平均差——

极差——

四分位差——

异众比率※为该数据类型最适合用的测度值当前78页,总共88页。第三节数据分布偏态与峰度的测度一.偏态及其测度二.峰度及其测度当前79页,总共88页。数据的特征和测度

(本节位置)数据的特征和测度分布的形状离散程度众数中位数离散系数方差和标准差四分位差异众比率位置平均数数值平均数算术平均数调和平均数几何平均数集中趋势偏态峰度当前80页,总共88页。偏态及其测度当前81页,总共88页。偏态与峰度分布的形状扁平分布尖峰分布偏态峰度左偏分布右偏分布与标准正态分布比较!当前82页,总共88页。偏态

(概念要点)1.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数>0为右偏分布4.偏态系数<0为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论