《数据的整理》PPT课件.ppt_第1页
《数据的整理》PPT课件.ppt_第2页
《数据的整理》PPT课件.ppt_第3页
《数据的整理》PPT课件.ppt_第4页
《数据的整理》PPT课件.ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 统计整理,重点:了数据整理的全过程,掌握分组方法及变量数列编制的原则,灵活设计统计表和统计图。 难点:针对不同类型的数据进行图、表的设计,区分不同图、表的应用。,一家评估机构为调查不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对照50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。下面的表31是记录的原始数据。,一家评估机构为调查不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对照50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。下面的表41是记录的原始数据。,顾客购买饮料的品牌名称,如:,己知某班35个学生统计学期末考试成绩如下,单位(分) 77 89 94 60 44 85 65 50 91 56 88 63 65 78 70 93 87 94 74 92 76 78 62 91 69 80 83 79 84 69 85 90 73 69 86,表42 购买饮料的频数分布,第一节 统计整理的意义和步骤,一、统计整理的概念和意义 统计整理是统计工作的中间环节,它是在统计调查的基础上进行的,是统计调查的继续,同时又是统计分析的前提,在统计工作中起着承前启后的重要作用。,统计整理的概念,统计整理是根据统计研究的目的,将统计调查得到的原始资料进行科学的分类和汇总,使之成为系统化、条理化的综合资料,以反映研究总体的特征。,二、统计整理的步骤,1设计统计整理方案 2对原始资料进行审核 3对原始资料进行分组 和汇总 4编制统计表或绘制统计图,指根据事物的内在特点和统计研究的目的,按一定的标志将统计总体区分为若干性质不同的组成部分的统计研究方法。,一、统计分组的概念与种类,对总体而言,是“分”,即将总体区分为性质相异的若干部分。,对总体单位而言,是“合”,即将性质相同的个体组合起来,在同一组内则保持着相同的性质。,统计分组,第二节 统计分组,二、统计分组的作用,1.区分社会经济现象的性质。 例:按所有制性质划分,我国现有8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;港澳台投资经济 例:某校新生按民族分组表,2.研究总体的内部结构,例如:我国按三次产业分类的就业人员构成情况 单位:%,资料来源:中国统计年鉴(2005),资料表明,1996年2004年第三产业就业人员的比重不断上升,这是我国大力发展第三产业的结果,也是建设小康社会不断提高人民生活水平的需要。,3)分析现象之间的依存关系,例如:某地区65个百货商店流通费用率资料 由此可以看出,商品流通费用率与商品销售额之间存在着明显的依存关系:商品流通费用率随着商品销售额的增加而下降。,(一)选择分组标志,根据统计研究的目的选择分组标志,根据现象的本质特征选择分组标志,根据现象所处的历史条件选择分组标志,正确选择分组标志是做好统计分组的前提。,三、统计分组的方法,组限的确定应考虑以下几点:,第一、组限的确定应有利于表现总体分配的规律性,组限应是决定事物性质的数量界限。 例如,按学生考试成绩分组,60分必须作为组限,因为它是及格与不及格的界限。按计划完成程度分组100%必须作为组限,因为它是完成还是未完成计划的界限。 第二、最低组下限应低于总体中最小变量值,最高组上限应高于总体中最大变量值,但不应过于悬殊。 第三、总体中如果出现特大或特小变量值时,最低组和最高组可采用开口式(即只有上限或只有下限)。 第四、组限一般采用整数值。 第五、如果变量是连续型变量,相邻组的组限必须重叠。在计算各组单位数或标志值时,应按“上组限不在内(不含上限)”的原则。如果变量是离散型变量,并且以自然单位作为计量单位,相邻组的组限可以断开;如果计量单位是自然单位的扩大倍数,相邻组的组限必须重叠。,统计分组的原则,互斥原则:就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。,穷尽原则:就是使总体中的每一个单位都应有可归,或者说各分组的空间足以容纳总体中所有单位。,对大学生月生活费支出情况进行分组研究: 按家庭收入水平分组; 按城乡分组; 按性别分组; 按年龄分组。,统计分组的方法,对父母亲下岗情况进行分组研究 单亲下岗; 双亲下岗; 双亲在岗。,不符合科学性,不符合完备性和互斥性,城乡区别离退休 是否健在,?,统计学第二章,按品质标志分组,按数量标志分组,品质分组就是按品质(或属性) 标志的分组。例如工业企业按经济类型、部门、人口按性别、职业地区等标志分组。,数量分组就是按数量标志的分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。例如工业企业按职工人数、资产总额分组;人口按年龄、收入等标志分组。,(二)按品质标志和数量标志分组,品质标志:统计分类;数量标志:量的界限,简单分组,复合分组,即总体按一个标志进行分组。它只能从某一方面说明总体的分布状况和内部结构。,复合分组是指对所研究的总体按两个或两个以上的标志层叠或交叉起来分组。可用于对事物多方面、多层次的分析研究。,(三)按分组标志的多少分为简单分组和复合分组,简单分组,复合分组,某校教师按性别、职称复合分组表,按数量标志分组的形式,单项式分组,指用单一的数值作为分组标志的分组。每个数值作为一个组。适用条件:离散型变量,且变动幅度较小。,如某班学生按年龄分组:17岁,18岁,19岁,20岁, 21岁,22岁。,组距式分组,将作为分组依据的数量标志的整个取值范围依次划分为若干个满足互斥性和包容性的区间,用这些数值区间作为组的名称。适用条件:连续变量;离散变量,若变动幅度大,也适宜采用组距分组。,某班学生统计学成绩分组,60分以下 6070分 7080分 8090分 90分以上,组距式分组中的一些概念,组限,上限,下限,区间数值的最大值,区间数值的最小值,组距,每一组的区间长度,组距=上限-下限,组中值,每一组中点位置的数值,组中值=(上限+下限)2,开口组,缺少上限数值或下限数值的组,注意,开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。,上组限U,下组限L,如:组距d=U-L =100-50=50(万元),如:组中值x=(U+L)/2 =(100+200)/2 =150(万元),组距式分组中的一些概念,等距分组,异距分组,各组组距相等的分组称为等距分组。,各组组距不全相等的分组称为异距分组。,间断式分组,凡是组限不相连,以整数位断开的分组,称为间断组距式分组。,连续式分组,凡是组限相连,即相邻组上、下限重叠,称为连续式分组。,60分以下6070分7080分8090分90分以上,300以下301400人401500人501600人601人以上,间断式分组,连续式分组,第三节 次数分布,一、次数分布的概念和种类 次数分布是指对总体按某个标志分组,把总体单位按组依次排列就形成分配数列,又称次数分布。 分布数列由两个要素构成,即:总体按某标志的分组;各组次数或频率。,某车间工人按日产量分组表,组别 次数(频数) 比率(频率),分类,单项数列 以每一个变量值为一组,组距数列 用两个变量值确定一个区间范围,等距数列 各组组距都相等,异距数列 各组组距不全相等,射击 射击 体操 体操 乒乓球 举重 乒乓球 羽毛球 举重 乒乓球 羽毛球 举重 举重 跳水 跳水 跳水 乒乓球 跳水 射击 体操 羽毛球 柔道 柔道 举重 田径 羽毛球 跆拳道,中国体育代表团在悉尼奥运会上获金牌的项目,二、品质数列的编制,获金牌项目 金牌数 占总数比例 跳水 枚 0.1786 举重 枚 0.1786 乒乓球 枚 0.1429 羽毛球 枚 0.1429 体操 枚 0.1071 射击 枚 0.1071 柔道 枚 0.0714 田径 枚 0.0357 跆拳道 枚 0.0357,1.品质数列的编制,获金牌项目 金牌数 占总数比例 跳水 枚 0.1786 举重 枚 0.1786 乒乓球 枚 0.1429 羽毛球 枚 0.1429 体操 枚 0.1071 射击 枚 0.1071 柔道 枚 0.0714 田径 枚 0.0357 跆拳道 枚 0.0357,变量值 x,次数(频数) f,频率 f /f,品质数列的编制,同时 具备,【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。,三、变量数列的编制 1. 单项式变量数列的编制,编制结果如下:,统计学第二章,编制步聚:,第一,将变量值的原始资料按顺序排列,一般是由小到大排列。 第二,确定各组的变量值和组数。一个变量值为一组,重复出现的变量值只取一个。 第三,整理出变量值出现的次数,编制单项式变量数列。,2. 组距式变量数列的编制,变量值变动区间的长度相等。适用于总体单位的标志值变动比较均匀的情况,变量值变动区间的长度不完全相等,己知某班35个学生统计学期末考试成绩如下,单位(分) 44 50 56 60 62 63 65 65 69 69 69 70 74 76 77 78 78 79 80 83 84 85 85 86 87 88 89 90 91 91 92 93 94 94 要求编制组距数列。,实例,组距数列的编制,原始数据,计算组中值,排序,确定组限,计算变异全距,确定组数、组距,汇总各组单位数,制作组距数列统计表,编制步骤或内容,编制步骤:,求变异全距,确定组距及组数,确定组距的原则:,要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍,R组距(d) 组数(n),编制等距数列,统计学第二章,(1)计算组数(组数不宜过多,也不宜太少),n=1+3.3logN (斯特杰斯经验公式) 式中:n为组数,N为总体单位数,(2)计算组距,d = R/n = R / (1+3.3logN) 式中:d为组距,R为全距,确定组限,统计学第二章,4、计算各组次数,5、制作组距数列,某班统计学考试成绩表,三、次数分布的主要类型,第四节统计表,一、统计表的概念和构成 (一)意义 统计调查所得来的原始资料,经过整理,得到说明社会现象及其发展过程的数据,将这些数据按一定的顺序排列在表格上,就形成了统计表。 广义的统计表包括统计工作各个阶段中所用的一切表格。,作用,1.能够系统组织和合理安排大量的统计资料,使资料表现的紧凑、清晰和醒目。 2.能反映总体特征及个部分之间的关系便于进行对比和计算各种分析指标。 3.是积累和保存统计资料的主要手段。,(二)统计表的结构,统计表的结构,可以从表式和内容两个方面来认识。 1.从表式上看,统计表包括总标题、横行标题、纵栏标题和指标数值四个部分。 总标题是统计表的名称,它扼要地说明表的基本内容,并指明时间和范围。它置于统计表格的正上方。 横行标题是横行的名称,一般放在表格的左方; 纵栏标题是纵行的名称,一般放在表格的上方。横行标题和纵行标题共同说明填入表格中的统计数字所指的内容。 指标数值是列在横行和纵栏的交叉处,即表格中的数字就是指标数值,用来说明总体及其组成部分的数量特征,它是填写在统计表格的核心部分。,总标题,横行标题,指标数值,纵栏标题,我国2000年国内生产总值,第一产业 第二产业 第三产业 合计,组别 增加值 比重 (亿元) (),14628 16.3 44935 50.3 29879 33.4 89442 100.0,2.从内容上来看,,从内容上来看,统计表是由主词栏和宾词栏两个部分组成。 主词栏是统计表所要说明的总体及其组成部分,一般都列在表的左半部分;宾词栏是统计表用来说明总体数量特征的各个统计指标及其数值,一般都列在统计表的右半部分。 此外,统计表还有补充资料、注解、资料来源、填表单位、填表人等附加内容。,我国2000年国内生产总值,主词,宾词,组别 第一产业 第二产业 第三产业 合计,增加值 比重 (亿元) () 14628 16.3 44935 50.3 29879 33.4 89442 100.0,(三)统计表的种类,统计表按主词是否分组及分组的程度,分为: 简单表 分组表 复合表,简单表,主词未经任何分组的统计表 简单表即主词未经任何分组的统计表,主词仅罗列总体各单位的名称或各个时期。,我国20002004年粮食总产量,李集镇2005年镇办企业生产经营情况统计表,分组表,主词只按某一个标志进行分组的统计表,我国2000年国内生产总值,某班学生考试成绩分布,复合表,主词按两个或两个以上的标志进行层叠分组的统计表。,(四)统计表的编制规则,为了使统计表能够简明扼要、准确地说明问题,在编制时应遵守以下规则: 1、统计表的各种标题,特别是总标题应简明、确切地概括反映表中的基本内容,以及资料所属的时间和空间。 2、如果统计表的栏数较多,应加以编号,并可以标明其相互关系。 主词栏和计量单位栏一般用(甲)、(乙)、(丙)、(丁)等文字编号。宾词各栏则用(1)、(2)、(3)、等数字编号。,3、统计表中的数字应对齐位数,当有相同数值时应填写该数,不能用“同上”、“同左”、“同右”等字样代替,若没有数字或不应该有数字,则要用短线“”表示,当缺乏某项资料时,可用简略号“”标明,表示不是漏填。 4、统计表中必须注明数字资料的计量单位或设计量单位栏,如果表中资料都属同一计量单位,可以将计量单位写在表的右上方。 5、统计表一般采取开口式,即左右两边不封口。表的上下端横线用粗线表示。 6、统计表的资料来源以及其它需要附加的说明可以写在表的下端,以便核查。,二、统计图(补充),统计图的概念 统计图是指利用点、线、面或立体图像等形式来反映统计资料的图形。 统计图包括;标题、坐标轴和网格线、 图例 统计图的种类 直方图、折线图、曲线图、散点图、 柱形图、饼图等。,某市三次产业增加值柱形图,2000年,2005年,增加值(亿元),一产,二产,三产,图形,图例,图目,尺度线,尺度数,图目,图题,(一)直方图(Histogram),直方图是用矩形的宽度和高度来表示频数分布的图形。绘制直方图时,将所研究的变量放在横轴上,频数、相对频数或百分比频数放在纵轴上。每组的频数、相对频数或频率在图上就是一个长方形,长方形的底在横轴上,宽度是组距,长方形的高就是对应的频数。,(二)折线图,折线图也称频数多边形图(Frequency polygon)。在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。,甲班54名学生统计学考试成绩,60 79 48 76 67 58 65 78 64 75 76 78 84 48 25 90 98 70 77 78 68 74 95 85 68 80 92 88 73 65 72 74 99 69 72 74 85 67 33 94 57 60 61 78 83 66 77 82 94 55 76 75 80 61,(一)编制频数分布数列 根据成绩高低分为五组: 059 6069 7079 80

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论