统计学第四章数据的描述性分析.ppt_第1页
统计学第四章数据的描述性分析.ppt_第2页
统计学第四章数据的描述性分析.ppt_第3页
统计学第四章数据的描述性分析.ppt_第4页
统计学第四章数据的描述性分析.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 数据的描述性分析,本章内容,一、 集中趋势的描述 二、 离散程度的描述 三、 分布的偏态与峰度,集中趋势的描述,数值平均数 1. 算术平均数 2. 调和平均数 3. 几何平均数,集中趋势的描述,位置平均数 1. 中位数 2. 众数,对比,离散程度的描述,绝对指标 1. 极差与四分位差 2. 平均差 3. 标准差与方差 相对指标离散系数,离散程度的描述,数据标准化,分布的偏态与峰度,原点距 中心距,分布的偏态与峰度,分布的偏态 分布的峰度,集中趋势,集中趋势(Central Tendency)是一组数据向其中心靠拢的倾向。 测定集中趋势就是寻找数据一般水平的代表值或中心值。 集中趋势往往使用平均指标来测度,算术平均数,算术平均数(Arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号 表示。,简单算术平均数 加权算术平均数分组数据 算术平均数的数学性质,简单算术平均数,加权算术平均数分组,某厂某车间20名工人加工某种零件的产量资料如下:-单项式变量分布数列 20名工人零件生产数量分组资料,加权算术平均数,权数,组距式,加权均值 (权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8 乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1,选择-4,权数,次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。有时权数也用比重(频率)来表示,算术平均数的数学性质,各变量值关于算术平均数的偏离,在平方的意义下达到最小,调和平均数,调和平均数(Harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称作倒数平均数,通常用 表示。,简单调和平均数 加权调和平均数 调和平均数是算术平均数的变形,调和平均数,某蔬菜批发市场三种蔬菜的日成交量数据如下,计算三种蔬菜该日的平均批发价格。,算术平均数,调和平均数,若已知成交额,未知成交量,资料如下:,加权调和平均数,变量值倒数,简单调和平均数,调和平均数是算术平均数的变形,调和平均数是标志值倒数的算术平均数的倒数,它和算术平均数的实际意义是相同的,计算公式也可以互推,几何平均数,几何平均数(Geometric mean)是n个变量值连乘积的n次方根。它主要用于计算比率或速度的平均,当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,就应采用几何平均法计算平均比率。,简单几何平均数 加权几何平均数,简单几何平均数,案例: 某水泥厂1995年的水泥产量为100万吨,1996年与1995年相比增长率为9,1997年比1996相比增长率为6,1998年比1997年相比增长率为20,求这三年的年平均增长率,简单几何平均数,案例2: 一位投资者在1996年初买进一种股票,1996,1997,1998,1999这四年的收益率分别为4.5,2,3.5,5.4,计算该投资者在这四年内的平均收益率r,简单几何平均数,加权几何平均数,位置平均数 1. 中位数 2. 众数,中位数,中位数(Median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。,由未分组数据确定中位数 由单项数列确定中位数,分位数,数值型未分组数据的中位数 (5个数据的算例),原始数据: 24 22 21 26 20 排 序: 20 21 22 24 26 位 置: 1 2 3 4 5,中位数 22,数值型未分组数据的中位数 (6个数据的算例),原始数据: 10 5 9 12 6 8 排 序: 5 6 8 9 10 12 位 置: 1 2 3 4 5 6,由未分组数据确定中位数,对未分组数据资料,需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。,当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。 例: 7、6、8、2、3 当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。 例: 2、5、7、8、11、12,未分组数据的中位数 (计算公式),分组数据确定中位数-单项式,组距式(见分位数),由单项数列确定中位数,按公式 确定中位数的位置 并对照累计次数确定中位数。,由单项数列确定中位数,先计算各组的累计次数,再按公式 确定 中位数的位置,并对照累计次数确定中位数。,分位数,三个数值可以将变量数列划分为项数相等的四部分,这三个数值就定义为四分位数(Quartiles)。 九个数值可以将变量数列划分为项数相等的十部分,这九个数值就定义为十分位数 (Dectile) 99个数值可以将变量数列划分为项数相等的100部分,这99个数值就定义为百分位数 (Percentile),四分位数,第一个四分位数称为下四分位数 第三个四分位数称为上四分位数,1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值,未分组资料和单项资料的四分位数,先排序,若为单项分组资料,需计算累计频数 再通过公式确定位置: 如果四分位数的位置不在某变量值上,必须按比例分摊变量值,以确定四分位数。,数值型未分组数据的四分位数 (7个数据的算例),原始数据: 23 21 30 32 28 25 26 排 序: 21 23 25 26 28 30 32 位 置: 1 2 3 4 5 6 7,N+1,QL= 23,QU = 30,3. 不易受极端值的影响(数据中有极大值或极小值时,影响不大),数值型未分组数据的四分位数 (6个数据的算例),原始数据: 23 21 30 28 25 26 排 序: 21 23 25 26 28 30 位 置: 1 2 3 4 5 6,QL= 21+0.75(23-21) = 22. 5,QU = 28+0.25(30-28) = 28.5,2、分组资料,先求累积频数 再确定位置 最后依公式求四分位数(也是按比例分摊),其中 为该分位数组的下限; 为总次数; 为较小累计该分位数所在组前一组的累计次数 为分位数组的次数; 为分位数组的组距。,以第一四分位数公式说明参数,众数,众数(Mode)是一组数据中出现次数最多的那个变量值,通常用 表示。,由未分组数据确定众数 由单项数列确定众数 由组距数列确定众数,由未分组数据确定众数,例1: 7、6、8、2、3 例2: 7、6、8、2、3 、4、3、2、3 例3: 7、6、8、2、3 、4、3、2、3、2,由单项数列确定众数,由组距式数列确定众数,先确定众数组; 再用下述公式计算:,符号含义: (A)L为众数组的下限,U为上限; (B)i为众数组的组距; (C)1=fmfm-1,即众数组的次数与前一组次数之差; 2=fm fm+1,即众数组的次数与后一组次数之差。,STAT,40 50 60 70 80 90 100,50 40 30 20 10,B C,E D,x y,(L) (U),Mo=L+x=U-y,O,A,F,重点考察众数位置和相邻两组次数的关系,众数取值的特点: 众数的数值始终偏向相邻组中次数较大的组,当相邻两组的次数相等时,众数则是众数组的组中值。 注意问题 (1)优点:不易受极端值的影响。 (2)缺点:未利用所有信息, 缺乏敏感性和不适合代数运算,对比,1. 众数、中位数和算术平均数的关系确定分布是否有偏,偏斜情况如何,已知某班学生的平均年龄为17.8岁,18岁的人数最多,则该分布属于( )。 A正态 B左偏 C右偏 D无法判断,对比,2. 众数、中位数和算术平均数的特点与应用场合,位置平均数不易受极端值的影响,比较稳健。 位置平均数的取值只与中间位置的一或两个数值有关,利用信 息不充分,忽略了其它数据的大小,并且不适合于代数运算。 平均数所用的的数据信息比较完整,但易受极端值影响,1.计算平均指标最常用的方法和最基本的形式是( )。 A.中位数 B.众数 C.算术平均数 D.调和平数,2受极端数值影响最小的集中趋势值是( )。 A算术平均数 B调和平均数 C几何平均数 D众数,4位置平均数是指( ) A算术均值 B调和均值 C几何均值 D众数 E中位数,极差与四分位差,极差(Range)也叫全距,是一组数据的最大值与最小值之离差,即:,四分位差(Interquartile range)是指第三四分位数与第一四分位数之差,也称为内距或四分间距,用表示。四分位差的计算公式为:,离散程度刻画指标,极差: 是数据离散程度的一种简单刻画,其中只考虑了两端数值,没有体现各单位变量值的变异程度,且易受极端值影响,四分位差:反映了数据排序后中间50%数据的离散程度,其值越小,说明中间50%数据越集中;四分位差是由位置平均数定义,不易受极端值影响,在某种程度上弥补了极差的不足,但同样没有考虑所有数据,特点,平均差,平均差(Mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用 MD表示。,简单式平均差 加权式平均差,简单式平均差,平均差: Avedev( ),加权式平均差,标准差与方差,标准差(Standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用 表示。它是测度数据离散程度的最主要方法。 方差(Variance)是各变量值与其算术平均数离差平方和的平均数,即是标准差的平方; 用 表示总体的方差;用 表示样本的方差标准差。,而样本标准差记为s,标准差的表达式,总体与样本标准差,简单式标准差 加权式标准差,简单式标准差,总体标准差 Stdevp( ),结论:平均差和标准差的大小,,加权式标准差,总体与样本标准差,简单式,加权式,总体,样本,标准差: 样本标准差 Stdev( ) 总体标准差 Stdevp( ) 方差: 样本方差 Var( ) 总体方差 Varp( ),离散系数,对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数,又称标准差系数(无名数)。其一般公式是:,离散系数,例:某地随机抽取一组男青年和女青年,测量他们的平均体重和标准差如下,离散系数为,说明女青年间体重的差异比男青年要大一些,数据标准化判断是否有离群点,标准化数值是变量值与其平均数的离差除以标准差后的值,也称为z分数或标准分数。设标准化数值为z,则有:,度量的是数据偏离平均值有多少个标准差; 经验表明:当数据分布对称时 约有68.27%的数据与平均值的偏离在1个标准差的范围内, 约有95.45%的数据与平均值的偏离在2个标准差的范围内, 约有99.73%的数据与平均值的偏离在3个标准差的范围内; 可见,偏离3个标准差之外的数据时很少的; 一般,偏离3个标准差之外的数据就称为是离群点或异常值,也就是说,标准化之后约有99.73%(95.45%)的结果是在+-3(+-2)之间-实际中有此特性的是正态分布变量,数据标准化判断是否有离群点,如果我们认为偏离超过3个标准差即为离群点,那么-3.6所对应的数值为离群点,数据标准化判断是否有离群点,Normsdist(z)=p(x1.5)=2(normsdist(-1.5)=0.1336 Normsinv (probability):返回p(xz)=probability所对应的z normsinv (0.975)= 1.96 根据对称性,有normsinv(0.025)=-1.96,标准正态分布的有关函数,课后单选12 :-normsinv (0.01)=2.33 -normsinv (0.06)=1.55,数据分成k组,每组的次数ni,i=1.2.k,记 为第i组的第j个数据, 为第i组的平均数,为第i组的组内方差,则,各组内方差的加权平均数:,总方差,组间方差,组内方差,组内离差平方和,记 为总平均数,组间方差:,总方差:,可证明,也被称为方差加法定理,组间离差平方和,总离差平方和,第三章 描述统计学:数量方法,STAT,例题:教材数据(ch4-方差分解),原点矩,k阶原点矩,一阶原点矩,二阶原点矩,k阶样本原点矩,一阶样本原点矩,二阶样本原点矩,中心矩,k阶原点矩,二阶原点矩,k阶样本原点矩,二阶样本原点矩,一般式-k阶原点矩,一阶原点矩-加权算术平均数,对于分组数据,中心矩,一般式-K阶中心矩,三阶中心矩,四阶中心矩,二阶中心矩-分组数据的方差,偏态,偏态(Skewness)是对分布偏斜方向和程度的测度。变量分组后,总体中各个体在不同的分组变量值下分布并不均匀对称,而呈现出偏斜的分布状况,统计上将其称为偏态分布。,偏态系数 的数值一般在0与3之间,越接近0,分布的偏斜度越小;越接近3,分布的偏斜度越大。大于0称为是正偏(右偏),小于0称为是负偏(左偏),例题,偏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论