《数据特征的描述》PPT课件.ppt_第1页
《数据特征的描述》PPT课件.ppt_第2页
《数据特征的描述》PPT课件.ppt_第3页
《数据特征的描述》PPT课件.ppt_第4页
《数据特征的描述》PPT课件.ppt_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/6/11,宁波大学商学院 郑建华,1,第三章 数据特征的描述,大量数据经过整理后,已经能够初步反映数据(或总体)的分布规律,特别地频率分布图形给了我们一个直观的印象。然而,在统计分析和决策中,还需要通过一些概括性的数值来对数据的分布特征进行更为精确、简练的描述。 3.1 数据集中趋势特征的描述 3.2 数据离中趋势特征的描述 3.3 数据分布形态特征的描述 3.4 统计表与统计图,2019/6/11,宁波大学商学院 郑建华,2,3.1 数据集中趋势特征的描述,集中趋势(central tendency)是指一组数据向某一中心值靠拢的倾向。描述集中趋势就是寻找数据一般水平的代表值或中心值。 3.1.1 算术平均数(arithmetic mean) 3.1.2 众数(mode) 3.1.3 中位数(median) 3.1.4 均值、众数、中位数的比较,2019/6/11,宁波大学商学院 郑建华,3,3.1.1 算术平均数,算术平均数有时简称为均值(mean),定义为全部数据的总和除以数据的个数。一般用记号:(总体数据的均值)和(样本数据的均值)。 根据数据的表现形式不同,有不同的计算公式。 原始数据:简单算术平均 分组数据:加权算术平均,2019/6/11,宁波大学商学院 郑建华,4,例题:数据特征描述案例.xls,2019/6/11,宁波大学商学院 郑建华,5,均值的性质特点: 对一个数量数据(观察值全体),只可能有一个均值存在; 均值考虑了数据集中的每个观察值; 均值易受极端观察值的影响; 每个观察值与均值的离差值和为零(正负抵消); 每个观察值与均值的离差平方和为最小。,2019/6/11,宁波大学商学院 郑建华,6,3.1.2 众数,众数(Mode)是一组数据中出现次数最多或最频繁的观察值。如: (a) 5,7,10,8,9,9,6,100; (b)3,3,4,5,7,5; (c)2,4,8,7,9 (d)某停车处停放汽车的颜色:3红,12黑,6兰。 可见: 众数既可用于变量数据也可用于属性数据; 众数不受极端值的影响; 一组数据不一定存在众数,也可能不止一个众数。,2019/6/11,宁波大学商学院 郑建华,7,对于组距分组,假设数据的分布具有明显的集中趋势,频数直方图具有单峰形态,同时假设众数组的频数在该组是分布均匀的,则众数的估计方法如下: 频数分布图法:modemedian.doc 公式法:modemedian.doc 计算举例:数据特征描述案例.xls,2019/6/11,宁波大学商学院 郑建华,8,3.1.3 中位数,中位数(median)是一组数据按大小顺序排列后,处于全部数据中间位置的数值。数据包含n个观察值,则中位数的位置由(n+1)/2确定。当n为奇数时,该位置存在一个观察数值,它就是中位数。当n为偶数时,该位置处于n/2和n/2+1两个整数位置的中间,因而不存在观察值与其对应,定义中位数为处于n/2和n/2+1位置的两数的算术平均数。 原始数据情形,组距分组数据情形。数据特征描述案例.xls,2019/6/11,宁波大学商学院 郑建华,9,中位数存在如下特点: 中位数受极端值的影响很小; 中位数适合于任何类型的数据,只要数据能够以某种方式排序; 在确定中位数时,并没有考虑所有的观察值;,2019/6/11,宁波大学商学院 郑建华,10,3.1.4 均值、众数、中位数的比较,均值、众数、中位数的关系 从频率曲线图看:众数出现的频率最高,始终对应曲线的最高峰;中位数处于数据的中间位置,平分频率分布曲线下方的面积;均值为所有数据的算术平均,对应分布曲线的型心(或重心)。 从数值大小看,Me处于三数中间;且存在近似关系: Mo-mean3(Me-mean). 平均数关系.doc,2019/6/11,宁波大学商学院 郑建华,11,使用场合: 如果数据分布具有明显的单峰形态,且峰值较为突出,想用一个数据代表“典型水平”,则众数比较合适. 如果想说明“一般水平”或“中间水平”,中位数和均值比较合适. 如果数据包含极端值,我们希望用一个代表性数值反映数据的“一般水平”或“中间水平”,而且侧重于后者,中位数更合适. 均值只能适合于定量性数据,中位数适合于有序数据和定量性数据,众数适合于定性和定量的数据.,2019/6/11,宁波大学商学院 郑建华,12,3.2 数据离中趋势特征的描述,离中趋势(tendency of deviation from the central value)反映的是数据的观察值之间的差异或远离中心值的程度,也称离散(dispersion or spread)程度. 集中趋势和离中趋势是数据分布的两个不同侧面的特征. 极差(range): 平均差(mean deviation) 方差和标准差(variance and standard deviation): 离散系数(coefficient of variation): 数据标准化得分(score

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论