第5章 统计数据的描述性分析.doc_第1页
第5章 统计数据的描述性分析.doc_第2页
第5章 统计数据的描述性分析.doc_第3页
第5章 统计数据的描述性分析.doc_第4页
第5章 统计数据的描述性分析.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章 统计数据的描述性分析v 常用来度量集中趋势的指标包括:平均数、中位数、众数。v 平均数是说明社会经济现象、传播现象等一般水平的统计指标,反映标志值分布的集中趋势。v 学习目标n 了解集中趋势的量数 n 计算一组数据的均值 n 计算一组数据的众数和中位数n 选择一种集中趋势度量数 一. 平均数v 是根据总体各单位所有标志值计算出的平均数。 v (一). 算术平均数v 平均数的基本公式v (1)简单算术平均数v 简单算术平均数主要用于未分组资料,用总体各单位标志值简单加总得到的标志总量除以单位总量而得。计算公式:我国电视观众调查v 加权算术平均数主要用于原始资料已经分组,并得出次数分布的条件。计算公式: 例:2006年1月比特啤酒公司销售点销售量 v 60个销售点的啤酒销售量 (单位:桶)比特啤酒公司每个销售点月销售量?n 权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。n 当各组的次数都相同时,即当f1=f2=f3=fn时:n 加权算术平均数就等于简单算术平均数。使用 SPSS求算术平均数v 利用Analyze=Descriptive Statistics=Descriptives菜单算术平均数v 二.中位数(Median)v 将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数,记为Me。v 中位数是描述分布中心趋势的另一种典型的度量。中位数是“最中间的数”,一半的观测值比它小,一半比它大。v 中位数是是根据总体标志值所处的特殊位置确定的一类平均指标-位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。v 一种比如有 5 笔付款:9元,10元,10元,11元,60元v 付款的均值为 20 元,显然这并不是一个很好的代表值,而中位数 M = 10 元则更能代表平均每笔的付款数。v 观测变量为定序变量、定距变量或定比率变量时,中位数都是有意义的;但是不适于定类变量。寻找中位数的步骤n 将所有n个观测值按由小到大的顺序排列;n 如果观测值的个数为奇数n 如果观测值的个数为偶数,中位数就是排序后最中间的两个观测值的平均。三、众数( Mode)v 是总体中出现次数最多的标志值,记为M 0。v 众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。v 在某些情况下,众数是一个较好的代表值。v 例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。v 又如,当要了解大多数家庭的收入状况时,也要用到众数。v 平均数、中位数、众数间的关系l 1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。v 在偏斜分布中,中位数和平均数可能相差很远。v 例如有关收入、广告投入等的分布,出于有少数人的收入非常高,或有个别几家企业投入了天文数字的广告费用,致使分布的右边尾巴很长。这个长尾巴会将平均数拉高,这时再采用平均数来描述分布的中心就没有什么实际意义v 不管这些巨额广告投入有多大,对中位数的值不会有什么影响,因为它们只不过是“中间点”右边的个别点而已。v 因此,对于分布中有少数极端值存在、或分布严重偏斜致使一边拖着很长尾巴的情况下,最好采用中位数而不是平均数来描述分布的中心,以免造成误会。v 当分布比较有规律时,采用平均数则优于中位数n 当次数分配呈右偏(正偏)时:算术平均数受极大值的影响 n 当次数分配呈左偏(负偏)时,算术平均数受极小值的影响 n 中位数则总是介于众数和平均数之间。 均值和中位数的关系n 均值是一系列数值的中间点。 n 中位数是一系列个体的中间点 n 中位数关注的是有多少个个体,而不是有多少个数值,极值(奇异值)就不会对中位数产生影响。 练习:v 1.假定你是快餐厅的经理,向老板汇报每天的特惠食品的经营情况,写一个简短的报告:v 特惠食品售出数量价格(美元)v Huge Burger 20 2.95v Baby Burger 18 1.49v Chicken Littles 25 3.50v Porker Burger 19 2.95v Yummy Burger 17 1.99v Con Dog 20 1.99v 售出总数119v 如果仅有平均指标而没有描述分布的伸展程度的统计量来配合,对观测数据的描述不仅是不完整的,还有可能造成误导。v 例如北京市01年某行业的家庭平均月收入调查,平均数和中位数分别是观l000和1271元,但是如果只给出这两个数或只给出其中的一个,就掩盖了其中有25的家庭月收入低于300元、有18的家庭月收入高于20000元的事实。v 为此还需要有关分布伸展程度或数据的散布程度的统计量.v 要分析总体的分布规律,仅了解中心趋势指标是不够的,还需要了解数据的离散程度或差异状况。几个总体可以有相同的均值,但取值情况却可以相差很大。对变异性的理解u 7,6,3,3,1 u 3,4,4,5,4 u 4,4,4,4,4一.极差(Range)v 描述分布的伸展程度的最简单的方法之一, 找出观测数据的最大值和最小值,这两个数表示了数据的分布范围,称它们的差为极差(也称全距),通常记为R 。v 极差R=最大值-最小值v 显然,一组数据的差异越大,其极差也越大。v 极差是最简单的变异指标,表明总体中标志值变动的范围。广泛应用于产品质量管理中控制质量的差异,一旦发现超过控制范围,就采取措施加以纠正,以保证产品质量的稳定。v 但极差有很大的局限性,它仅考虑了两个极端的数据,没有利用其余数据分布的信息,不能反映大部分数据的分布范围。而且最大值和最小值也有可能是远离其他观测值的奇异值,因而是一种比较粗糙的变异指标。二. 四分位数差(Inter-Quartile Range)n 将全部数据由小到大排序,用三个数把数据分成四部分,每一部分都包含25%的数据,这三个数分别叫第一四分位数、第二四分位数和第三四分位数,用Q1、Q2、和Q3。n Q2就是中位数M。有25的数据小于Q1;有25的数据大于Q3;Q1和Q3给出了中间一半数据的范围,四分位数差(IQR) 为Q1和Q3之间的距离:n IQR=Q3-Q1n 利用找中位数的方法,就可以计算四分位数QI和Q3n 将数据按从小到大的顺序排列,找出中位数M,即Q2;n 找出中位数左边所有观测值的中位数,得到Q1;n 找出中位数右边所有观测值的中位数,得到Q3。二. 四分位数差(Inter-Quartile Range)n 将全部数据由小到大排序,用三个数把数据分成四部分,每一部分都包含25%的数据,这三个数分别叫第一四分位数、第二四分位数和第三四分位数,用Q1、Q2、和Q3。n Q2就是中位数M。有25的数据小于Q1;有25的数据大于Q3;Q1和Q3给出了中间一半数据的范围,四分位数差(IQR) 为Q1和Q3之间的距离:n IQR=Q3-Q1n 利用找中位数的方法,就可以计算四分位数QI和Q3n 将数据按从小到大的顺序排列,找出中位数M,即Q2;n 找出中位数左边所有观测值的中位数,得到Q1;n 找出中位数右边所有观测值的中位数,得到Q3。三.五数综合v 描述一组观测值分布伸展程度的最简易可行的方法是同时采用五个数,叫五数综合:v 最小值、第一四分位数、中位数、第三四分位数、最大值v 用符号表示:Min、Q1、M 、Q3 、Maxv 根据分布的五数综合,可画出盒型图(box plot)。v 图形的两端是最小值和最大值,中间的“盒型”部分的两端位于两个四分位数,盒型里面的直线段标出中位数的位置。v 盒型图不能像直方图那样给出分布的具体形状,因此盒型图不适于描述单个的分布,可用于做比较研究。例:v 根据1998年的一次受众调查,某省电视台以新闻类、体育类和电影类节目为主的三个频道观众的日收看时间 (分钟)的五数综合分别为:v 新闻频道A 15 30 45 50 120v 体育频道B 15 40 60 90 300v 电影频道C 10 60 90 120 300v 试做出这三个频道观众日收看时间长度的盒型图并做出简要的说明。 观众日收看时间长度的盒型图v 从三个盒型图可以清楚地看到,电影频道观众的收看时间最长,其中半数观众的收看时间都在1至2个小时之间;v 体育频道(B)观众的收看时间虽然短于电影频道,但是约有1/4的观众日收看时间都超过了1个半小时,其中最长者也达到了5小时;v 而新闻频道(A)观众的收看时间则相对少得多、也集中得多。新闻工作者年龄(n=30)电视广告与广播广告效果比较例:v 根据1998年的一次受众调查,某省电视台以新闻类、体育类和电影类节目为主的三个频道观众的日收看时间 (分钟)的五数综合分别为:v 新闻频道A 15 30 45 50 120v 体育频道B 15 40 60 90 300v 电影频道C 10 60 90 120 300v 试做出这三个频道观众日收看时间长度的盒型图并做出简要的说明。 不同时段播出的电视广告效果比较对变异性的理解u 7,6,3,3,1 u 3,4,4,5,4 u 4,4,4,4,4四.平均差v 平均差是各数据与其均值离差绝对值的算术平均数,通常记为A.D。五.方差和标准差v 描述分布的最常用的统计量是平均数加上标准差,前者描述分布的中心;后者描述分布的伸展程度或离散程度。v 标准差标准化了与某个值的偏差。v 标准差每个值与均值的平均距离;v 方差是标准差的平方。方差和标准差计算公式:v v 1. 总体标准差v 总体标准差记为s。2.样本方差与样本标准差v 样本标准差记为 S,样本方差记为 S 2,在推断统计中,它们分别是总体方差和标准差的优良估计。计算标准差:v 5,8,5,4,6,7,8,8,3,6 对于分组数据方差:例:试计算观众日收看电视时间X的平均数和标准差方差和标准差的计算v 方差和标准差的手工计算非常烦琐,一般依托软件,如SPSS。v 使用SPSS数据分析统计功能返回所有参数中数据的样本方差、标准差。v 注意:第三节 度量偏斜程度的指标v 除了描述分布的中心和分布的伸展程度外,对于定比或定距变量的观测数据的分布还常常需要考虑它们分布的形状,是否对称的?是“瘦高的”还是“矮胖的”?1斜度(skewed)v 斜度也叫做偏度。一个分布如果是不对称的,即一端的观测值个数多于另一端时,则称该分布为偏斜的。斜度描述分布的偏斜程度和方向:v 如果分布是对称的,斜度为零;v 如果长尾巴指向大的值,则称正偏,斜度为正值;v 如果长尾巴指向小的值,则称负偏,斜度为负值;分布的斜度示意图:2峰度(kurtosis)v 峰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论