统计数据的特征描述_第1页
统计数据的特征描述_第2页
统计数据的特征描述_第3页
统计数据的特征描述_第4页
统计数据的特征描述_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数据的特征描述第1页,共35页,2023年,2月20日,星期二§3.1集中趋势的描述集中趋势(centraltendency):指一组数据向某一中心值靠拢或集中的程度用途:为了表示社会经济现象总体各单位某一标志在一定时间、地点和条件下达到的一般水平,经常被作为评价事物和决策的数量标准或参考。主要测度值:平均数、众数、中位数、分位数第2页,共35页,2023年,2月20日,星期二3.1.1平均数平均数:全部数据的算术平均,常用来表示。是数据集中趋势的最主要测度值。适用条件:数值型数据常用形式:简单平均数加权平均数第3页,共35页,2023年,2月20日,星期二1.算术平均数(mean)1)简单算术平均数简单算术平均数:全部数据的算术平均适用条件:未经分组整理的原始数据资料。计算公式:

式中,是一组样本数据的观测值,n为样本容量。第4页,共35页,2023年,2月20日,星期二【例3.1】某班级20名学生的期末数学成绩是67、78、49、56、98、87、62、100、73、45、70、44、96、80、49、61、60、88、93、60(分),求该班学生的数学成绩的平均数。解:由公式(3.1)

该班学生的数学平均成绩是70.8分。第5页,共35页,2023年,2月20日,星期二2)加权算术平均数加权算术平均数:各组标志值与各组频数相乘的总和除以各组频数之和。适用:已经分组整理并编制出频数分布的数据资料。计算公式:式中,是单项式分组形式下第i组的变量值或组距式分组形式下第i组的组中值;是第i组的频数;n为组数。第6页,共35页,2023年,2月20日,星期二=0.027+0.298+1.236+0.848+0.610+0.468=3.487

即职工的平均家庭人口数是3.487人第7页,共35页,2023年,2月20日,星期二例3.3(已整理的组距式分组数据平均数算例)根据第2章中的表2-7中的数据资料计算某单位某种产品平均销售量的近似值。(见课本P43)2.调和平均数(harmonicmean)简单调和平均数简单调和平均数:各观测值倒数的算术平均数的倒数适用条件:未分组资料且各标志值对应的标志总量相等计算公式:

第8页,共35页,2023年,2月20日,星期二2)加权调和平均数适用条件:分组资料且各标志值对应的标志总量不等计算公式:

mi表示第i个单位或第i组标志值对应的标志总量,当各组标志总量相等,即m1=m2=…=mn=m时,即例题见课本P44第9页,共35页,2023年,2月20日,星期二3.几何平均数(geometricmean)适用条件:用于时间上有联系或有先后顺序关系的比率求平均。1)简单几何平均数计算公式:

2)加权几何平均数计算公式:例题见P46第10页,共35页,2023年,2月20日,星期二3.1.2众数众数(mode):数据中出现次数最多的那个观测值,一般用M0表示。适用条件:分类数据、顺序数据以及数值型数据。1.根据品质型和单项式分组数据计算众数2.根据组距式分组数据计算众数要确定众数所在组,即众数组。通过下面的下限公式或上限公式来计算众数。

第11页,共35页,2023年,2月20日,星期二式中:L、U分别为众数组的下限和上限。是众数组与其前一组的频数之差;d是众数组的组距。是众数组与其后一组的频数之差;例:P49页-例3.11第12页,共35页,2023年,2月20日,星期二3.1.3中位数中位数(median):将一组数据按一定顺序排列后,处于中间位置上的变量值,一般用Me表示。适用条件:顺序数据和数值型数据1.根据未分组数据计算中位数

中位数位置=奇数:对应中位数位置的那个数值偶数:对应于中位数位置左右相邻的两个数值的平均值第13页,共35页,2023年,2月20日,星期二例1:4,4,3,2,2,2,1,3,1排序:1,1,2,2,2,3,3,4,4中位数:2例2:年收入(in$000):

$80,90,100,110,120,500中位数:第14页,共35页,2023年,2月20日,星期二2.根据分组数据计算中位数中位数位置=见【例3.13】【例3.14】

对于组距式分组数据下限公式:上限公式:第15页,共35页,2023年,2月20日,星期二LMe表示中位数所在组的下限;UMe表示中位数所在组的上限;SMe-1表示向上累计至中位数所在组前一组的频数;SMe+1表示向下累计至中位数所在组后一组的频数;fMe表示中位数所在组的频数;dMe表示中位数所在组的组距;n表示各组频数之和注:见P53-【例3.15】

第16页,共35页,2023年,2月20日,星期二3.1.4分位数四分位数(quartile):一组数据排序后处于25%和75%位置上的值,也称之为四分位点。分位数:衡量数据位置的测定指标1.根据未分组数据计算四分位数

Qi位置=i=1时,即为下四分位数QL(LowerQuartile)i=2时,即为中位数i=3时,即为上四分位数QU(UpperQuartile)第17页,共35页,2023年,2月20日,星期二例:第一组数据:2300、3500、2900、4500、7000、3000、8100、3200(万元),计算两组数据的四分位数。解:按从小到大顺序的排列结果为2300、2900、3000、3200、3500、4500、7000、8100QL位置==(8+1)/4=2.25=3(8+1)/4=6.75QU位置=QL=[2900+0.25×(3000-2900)]万元=2925万元

QU=[4500+0.75×(7000-4500)]万元=6375万元

第18页,共35页,2023年,2月20日,星期二2.根据分组数据计算四分位数QL组位置=QU组位置=确定四分位数所在组根据各组的累积频数确定四分位数的具体值。(1)对单项式分组数据,该组的变量值就是四分位数。(2)对于组距式分组数据,通过下面的公式来计算:第19页,共35页,2023年,2月20日,星期二L1和L3表示下四分位数和上四分位数所在组的下限;SM1-1和SM3-1分别表示下和上四分位数所在组以下各组的向上累计频数;fQ1和fQ3分别表示下四分位数和上四分位数所在组的频数;d表示下四分位数和上四分位数所在组的组距;n表示各组频数之和例见P55【例3.17】

第20页,共35页,2023年,2月20日,星期二3.1.5集中趋势各测定指标之间的区别与关系

区别指标样本利用度稳健性适用数据众数位置特征数好分类,顺序,数值中位数位置特征数好顺序数据数值数据均值100%较差数值数据第21页,共35页,2023年,2月20日,星期二关系分布形态常态图形对称正态分布右偏分布左偏分布=M0=Me

>Me>M0

<Me<M0

第22页,共35页,2023年,2月20日,星期二§3.2离散程度的描述数据的离散程度:反映各变量值远离其集中趋势测度值的程度。数据的离散程度越大,集中趋势测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。相关应用:投资的风险度常用指标:1极差和四分位差

2方差和标准差

3变异系数和异众比率第23页,共35页,2023年,2月20日,星期二3.2.1极差和四分位差极差:一组数据的最大值与最小值之差,未分组或单项式分组数据:R=max(xi)-min(xi)

组距式分组数据:R=末组上限值-首组下限值四分位差:

Qd=QU-QL

注:反映中间50%数据的离散程度,不受极端值影响注:受极端值的影响。第24页,共35页,2023年,2月20日,星期二3.2.2方差和标准差方差(variance)与标准差(standarddeviation):测定一组数据离散程度的最常用的测度值,它反映了每个数据与其平均数相比平均相差的数值。未分组数据资料计算公式:第25页,共35页,2023年,2月20日,星期二分组数据资料计算公式:第26页,共35页,2023年,2月20日,星期二注:方差和标准差是根据全部数据计算的,它能比较准确地反映出全部数据的离散程度。标准差有计量单位的且与变量值相同,因此其实际意义要比方差清楚。在对社会经济现象进行分析时,更多地使用标准差作为离散程度的度量值。方差与标准差都不是系数,因此对不同数据不能通过比较它们的大小得出离散程度的大小。见P59—【例3.18】

第27页,共35页,2023年,2月20日,星期二3.2.3变异系数和异众比率变异系数(coefficientofvariation):

注:变异系数是一个无量纲的量,它适合比较不同现象或具有不同水平数据的离散程度。异众比率(variationratio)

:一组数据的非众数的频数与全部数据个数的比率。注:异众比率也是一个无量纲的量第28页,共35页,2023年,2月20日,星期二计算公式:fm:众数所在组的频数fi:各分组的频数第29页,共35页,2023年,2月20日,星期二§3.3分布形态的描述数据分布的形态:指数据分布的形状是否对称,偏斜的程度以及分布的扁平程度等。刻画数据分布形态的测度值:偏度和峰度。第30页,共35页,2023年,2月20日,星期二3.3.1偏度偏度(skewness):一组数据分布的偏斜方向和程度。计算公式:Sk=0Sk>0Sk<0第31页,共35页,2023年,2月20日,星期二对称分布右偏分布左偏分布(1)分布对称时,偏度值等于零。(2)分布右(正)偏时,Sk>0

。且Sk值越大,偏斜的程度就越大(3)分布左(负)偏时,Sk<0

。且Sk值越小,偏斜的程度就越大第32页,共35页,2023年,2月20日,星期二3.3.2峰度峰度(kurtosis):一组数据分布的陡缓程度,它是与标准正态分布相比较而言的。其计算公式为:正态分布尖峰态分布平峰态分布

normalleptokurticplatykurtic第33页,共35页,2023年,2月20日,星期二(1)当数据分布与标准正态分布的陡缓程度相同时,则峰度值等于零。(2)当数据分布的形状比标准正态分布更尖时,则峰度值Ku>0,称为尖峰态分布。尖峰分布表明集中趋势显著

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论