管理统计学》马庆国著.ppt_第1页
管理统计学》马庆国著.ppt_第2页
管理统计学》马庆国著.ppt_第3页
管理统计学》马庆国著.ppt_第4页
管理统计学》马庆国著.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 样本数据特征的 初步分析,一、整理样本数据,信息在被操纵或处理后并没有超出其原有的格式,原始数据 -,两种整理原始数据的基本方法,2、整理数据 -数据阵列,保留了数据的原值 ,并按数值的升序或降序显示数据。 易观察到:, 数据集中包含最大观察值和最小观察值, 确认在某个数据集中哪些数组具有相同的值, 很容易发现各个值之间的差异,3、样本数据结构的基本特征:频次与频率,一、一些基本概念 1、频次(频数) 在有限的样本数据集合中,同样的数据值(样本值)出现的次数 称为该样本值出现的频次。 2、频率 该样本值出现的频次 / 该数据集合的数据总数。 常用表示方法: (1)表 ; (2)饼图; (3)条形图;,二、样本数据集合的基本特征的延伸:累积频率 当样本数据的测度在顺次级以上时,把样本值小于等于某个样本数据xi的频率值累加起来,就得到“小于等于xi”的累积频率。 注:名义级的样本数据集合,不存在累积频率问题。 表示法同上。,整理数据 -频数分布,将数据值分成几组,显示各组中有多少数值,很容易发现数据的图形特点,无法保留原始数据的值 ,频数分布, 定义,某个变量所有可能值的集合 显示了变量的图形特点,分布,当数据集为小型时,数据之间的变化特点很容易观察出来 随着数据集变为中型或大型,变量的特性一般表现得越来越不明显,定 义,频数分布的类别,频数分布,频数,每一组包含的观察值数目,组,组限,每一组的上限和下限,组宽,上限和下限之间的间距,如何将数据转换成表格 ? 哪些重要或必要的信息应当包括在内 ?, 确定 “组数”和“组宽 ” 频数分布一般包括与每组有关的频数、累积频数、相对频数和相对累积频数,频数分布,频数分布,累积频数,相对频数,相对累积频数,显示每组范围内或其下有多少观察值,相对频数描述每组范围内观察值所占的百分比,即每组的频数除以观察值的总数目,显示每组范围内或其下观察值所占的百分比,对于定性变量而言 - 常常根据变量结果的种类来选择组,例如,为了研究本班100名学生的性别 -,频数分布,对于定量变量而言 - 选择“组数” 和“组宽 ”是主要问题,频数分布,应当遵循哪些基本原则来确定组 -,1.各个组之间必须是“相互排斥”的,2.各个组必须将“所有数据均包括在内”,3.组数K 的经验法则 2K n ,此处n代表观察值的总数目,4. 各组之间的宽度最好相等,但这并不是必要条件。当组宽相等时, W,频数分布,5.应当尽量避免开口组,6.组宽最好是整数,例如,为了研究某班100名学生的身高 - 我们确定将整个数据分成5组,每组宽度相等,W = 10厘米,频数分布,1. 一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来 2. 有助于采用图形方式来汇总数据 数据集表格不具有唯一性,频数分布,频数分布,以下数据表示一个当地咖啡馆进行的30笔交易,举例,14 64 15 34 75 24 81 67 19 25 48 57 69 62 41 46 35 27 72 64 48 51 77 64 51 50 26 42 83 38,频数分布,首先-确定“组数” 和“组宽 ”,样本大小 n =30 25 = 32 30 5 组,最小观察值 = 14, 最大观察值 = 83 ,最好采用“整数” W = 15, 组数, 组宽,频数分布,茎叶图形,数据必须按照升序排列 为了构造图形,我们将数值的第一个数字作为茎 茎叶排列使我们可以通过图形来了解数据的分布,茎叶图形,例如,我们想将12个数据转换成一张茎叶图形 : 4.4 3.6 4.4 3.7 7.6 3.9 3.6 3.5 3.0 4.5 3.8 2.2,2| 2 3| 0 5 6 6 7 8 9 4| 4 4 5 5| 6| 7| 6,茎叶图形,用直观方式显示定量变量, 三种最常使用的图形类型 - 直方图 频数多边形 分布曲线 在构造图形之前,需要用频数分布来显示数据,用直观方式显示定量变量 -直方图, 应当将数据转换成频数分布表 水平轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应,用直观方式显示定量变量 -直方图,例如,我们在本单元中想通过绘制直方图来表示100名学生的身高分布,用直观方式显示定量变量 -频数多边形,用线段将各组中点和频数(或相对频数)的交叉点连接起来,就可以得到频数多边形图形,身高.,190.0,180.0,170.0,160.0,150.0,累积计数频数,80,60,40,20,0,140.0,100,用直观方式显示定量-分布曲线,图形显示了每一组的累积频数或相对累积频数 它可以用“小于”或“大于”来表示, 定性变量常常用非数值刻度来测量 对这些变量可以进行分类 可以采用两种最为常见的图形来描述定性变量的分布 饼图 条形图,用直观方式显示定性变量, 饼图的圆圈代表了所有观察值的集合 根据定性变量的类型数目将饼图分成几个部分 饼图每一部分的大小与每一类型的相对频数成正比,用直观方式显示定性变量 - 饼图,例如,我们可以用饼图来描述某班100名学生的性别分布状况,用直观方式显示定性变量 - 饼图,对于定性变量而言,条形图表示每一类型的百分比或 计数频数 每个条形图的高度代表每一类型的百分比或比例 条形图的宽度没有意义,所有类型的宽度均相同,用直观方式显示定性变量 -条形图,例如,我们用条形图来显示某班100名学生的性别分布状况,用直观方式显示定性变量 -条形图,SPSS统计软件给我们的工作带来了方便,饼图 : 图形 饼图 对各组情形进行总结,条形图 : 图形 条形图 对各组情形进行总结,SPSS统计软件给我们的工作带来了方便,直方图 : 图形 直方图 选择关心的变量,茎叶图形 : 分析 描述统计学 寻找 选择绘图选项,集中趋势测度 -未分组数据, 定义,所有观察值 的平均值,均值,所有观察值中位于最中心位置的那个值,中位数,出现最频繁的数据值,众数,均值 -,总体均值,样本均值,集中趋势测度 -未分组数据,Kim 测验的平均成绩等于,在此我们可以看到,在汇总Kim的测验成绩时,均值并不能发挥很好的作用。在大多数情况下,Kim的测验成绩低于30分,她只在一次测验中意外地获得了98的高分,因此她的平均成绩被提高到35分。,集中趋势测度 -未分组数据,Kim是一名中等学校的学生,她上星期进行了5次测验,成绩分别如下 7, 98, 25, 19, 和26,均值对极值表现得非常敏感 如果数据中存在极值(或者说数据分布有所偏斜),那么均值就不能很好地测度集中趋势,集中趋势测度 -未分组数据,中位数 (Md) -,1.将n个观察值按升序或降序排列 2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观察值,即数据集中的第 个观察值 3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的平均值,即数据集中的第 个和第 个观察值的平均值,集中趋势测度 -未分组数据,举例: 有6名工人组成一个样本,请找出他们每周工资的中位数 151 179 163 142 180 195,按升序重新排列每周的工资 142 151 163 179 180 195 最中心位置的两个数值 求这两个数值的平均数 中位数 =,集中趋势测度 -未分组数据,Kim的5次测验成绩 又如何呢?,Kim成绩的中位数为25,看来中位数能更好地测度Kim测验成绩的中心位置 - 中位数不受“极值”的影响,集中趋势测度 -未分组数据,众数 (Mo) -,并不经常用众数来测度中心位置 适用于定性变量 众数不具有唯一性,集中趋势测度 -未分组数据,集中趋势测度 -未分组数据,举例: 有6名工人组成一个样本,请找出他们每周工资的众数, 151 179 163 142 180 195 不存在 众数, 151 180 163 142 180 195 180, 142 180 163 142 180 195 142 和180 (双峰 ),对两个旅行团的小孩年龄进行了数据调查,以下是调查结果: -,A组 年龄 : 14, 17, 11, 10, 11, 14, 9, 12, 8, 10, 9,均值 ,中位数 11,众数 9, 10 , 11 和 14 (有4 个众数 ),集中趋势测度 -未分组数据,B组 age: 9, 14, 8, 10, 13, 7, 9, 11, 16, 10, 12, 9,均值,中位数 10,众数 9,集中趋势测度 -未分组数据,均值、中位数和众数之间的关系 -,1. 对称分布 (均值 = Md = Mo),均值 = Md = Mo,集中趋势测度 -未分组数据,均值、中位数和众数之间的关系 -,2.倾向左侧 (均值 Md Mo),均值,Md,Mo,集中趋势测度 -未分组数据,均值、中位数和众数之间的关系 -,3.倾向右侧 (均值 Md Mo),Md,Mo,均值,集中趋势测度 -未分组数据,集中趋势测度 -分组数据,为了计算分组数据的均值 ,计算每一组的中点,假设观察值都落在各组的中点上, 总体均值 样本均值,集中趋势测度 -分组数据,举例:下列频数分布显示了某家公司50名工人的每周工资收入,估计每周工资的平均水平,集中趋势测度 -分组数据,每周的平均工资,集中趋势测度 -分组数据,为了计算分组数据的中位数 ,计算每一组的累积频数,包括“最中心位置” 观察值的那一组就是“中位数组”,LMd :中位数组的下 限,fMd :中位数组的频数,w :中位数组的宽度,c :位于中位数组之前那一组的累积频数,集中趋势测度 -分组数据,举例: 继续讨论前面的例子,即计算50名工人每周工资收入的中位数,集中趋势测度 -分组数据,LMd = 169.5,fMd = 12,w = 10,c = 19,中位数组 170 179,每周工资收入的中位数,集中趋势测度 -分组数据,为了计算分组数据的众数 ,出现最频繁的那一组就是“众数组”,LMo :众数组的下限,d1 : 众数组的频数减去众数组之前那一组的频数,w :众数组的宽度,d2 : 众数组的频数减去众数组之后那一组的频数,集中趋势测度 -分组数据,举例: 继续讨论前面的例子,即计算50名工人每周工资收入的众数,集中趋势测度 -分组数据,LMo = 169.5,w = 10,d1 = 12 9 = 3,众数组 170 179,每周工资收入的众数,d2 = 12 9 = 3,集中趋势测度,举例:,A列数据: 55 56 57 58 59 60 61 62 63 64 65 均值 = Md = Mo = 60,B列数据: 35 40 45 50 55 60 65 70 75 80 85 均值= Md = Mo = 60,离中趋势测度 -未分组数据,测度离中趋势最常用的三种方法 -,1.全距,2.标准差 (SD),3.变异系数 (CV),离中趋势测度 -未分组数据,全距 =最大观察值 最小观察值,全距有两个主要缺点 -,1.对数据集中的极值显得非常敏感 2. 忽略了位于最大观察值与最小观察值之间的数据是如何分布的, 定义,离中趋势测度 -未分组数据,离中趋势测度 -未分组数据,举例: 有5名工人组成一个样本,请找出他们每周工资的全距 151 179 163 142 180,X最大值 = 180 X最小值 = 142,全距 = 180 142 = 38,标准差可以让我们大致了解数据值距离均值有多远, 定义,标准差,离中趋势测度 -未分组数据,总体标准差 , ,样本标准差 , s,离中趋势测度 -未分组数据,计算标准差的其他公式 ,总体标准差 :,样本标准差 :,离中趋势测度 -未分组数据,举例:有5名工人组成一个总体,请找出他们每周工资的标准差 151 179 163 142 180,X,X,-m,(,X,-m,),2,151,-,12,144,179,16,256,163,0,0,142,-,21,441,180,17,289,S,X = 815,S,(,X,-m,),2,=1130,数据分布的经验法则 -,当数据集接近对称分布时 ,则大约, 68.3 %的数据落在均值的1倍标准差范围内 95.5 %的数据落在均值的2倍标准差范围内 99.7 5%的数据落在均值的3倍标准差范围内,离中趋势测度 -未分组数据,测量数据相对于均值的离中趋势, 定义,变异系数 (CV),离中趋势测度 -未分组数据,? 什么时候采用变异系数 (CV) 来测度离中趋势 ?, 比较具有不同单位的数据集 比较具有不同幅度的数据集,离中趋势测度 -未分组数据,举例:,例如,我们想比较1993年2月至1994年1月期间黄金和锌块的价格波动情况,我们收集了价格数据并得出如下计算结果:,黄金:,锌块 :,每盎司,每磅,离中趋势测度 -未分组数据,CV表示每种商品相对于其自身平均价格的波动幅度 :,黄金:,锌块 :,离中趋势测度 -未分组数据,离中趋势测度 -分组数据,为了计算分组数据的标准差 ,计算每一组的中点,假设观察值都落在各组的中点上,总体标准差 样本标准差,离中趋势测度 -分组数据,总体标准差,样本标准差,计算标准差的其他公式,离中趋势测度 -分组数据,举例: 计算工人每周工资的总体标准差 -,离中趋势测度 -分组数据,每周工资,收入,工人人数,(,f,),中点,(,x,),(x,-m,),(x,-m,),2,f(x,-m,),2,140, 149,4,144.5,-29.8,888.04,3552.16,150,159,6,154.5,-19.8,392.04,2352.24,160,169,9,164.5,- 9.8,96.04,864.36,170,179,12,174.5,-0.2,0.04,0.48,180,189,9,184.5,-10.2,104.04,936.36,190,199,7,19,4.5,20.2,408.05,2856.28,200,209,3,204.5,30.2,912.04,2736.12,N,=,S,f,= 50,S,f (x,-m,),2,= 13298,总体标准差,离中趋势测度 -分组数据,举例: 计算工人每周工资的样本标准差,离中趋势测度 -分组数据,每周工资,收入,工人人数,(,f,),中点,(,x,),(x,-,),(x,-,),2,f(x,-,),2,140, 149,4,144.5,-29.8,888.04,3552.16,150,159,6,154.5,-19.8,392.04,2352.24,160,169,9,164.5,- 9.8,96.04,864.36,170,179,12,174

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论