统计学第三章统计整理新.ppt_第1页
统计学第三章统计整理新.ppt_第2页
统计学第三章统计整理新.ppt_第3页
统计学第三章统计整理新.ppt_第4页
统计学第三章统计整理新.ppt_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内容,2.2数据整理和显示,原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。通过统计分组以便为在统计分析中提炼各种有用信息打下基础。,统计表,变量数列的编制,统计图,统计分组,一、统计整理的概念 1、统计整理:是指根据统计研究目的,对统计所收集到的数据进行科学的加工处理,使之条理化、系统化成为能反映总体数量特征的统计数据的过程。 2、统计整理的任务(目的): 一是对原始数据的整理,将反映个体的原始资料进行科学的分类、加工和汇总,转化为说明总体数量特征 的数据。 二是对次级数据的再整理,使之满足新要求。,二、统计整理的作用和要求 作用 1、是统计工作的中间环节起着承上启下的作用 2、是认识的飞跃。感性认识上升到理性认识。 要求 科学性(质的界限)、充分性(方法和技术)和条理性(逻辑关系),三、统计整理的步骤 1、整理方案设计 2、数据预处理 审核数据(对原始数据从准确性和完整性检查,次级资料主要是适用性和时效性检查) 数据筛选(剔除不符合要求的数据或筛选出符合要求的数据) 数据排序(发现数据的特征和趋势) 3、统计分组和汇总(关键) 4、统计数据的显示。编制统计表、图(表现形式) 5、统计数据的保存和公布。,2.2.3 统计分组,一、统计分组的定义与性质 1、定义 根据统计研究目的和现象总体的内在特点,把统计总体按照一定标志划分为若干性质不同而又有联系的几个部分的统计方法,称为统计分组。 2、目的:组内同质,组间异质 3、方向:对于总体而言,是“分”,对于总体单位而言,是“合”。故分组可以有两个方向:识(判)别与聚类。 4、关键:选择分组标志和划分各组界限 5、原则: 穷尽原则,使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。 互斥原则,在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。,统计分组的性质,1、统计分组兼有分和合的功能 2、统计分组必须遵循互斥原则和穷尽原则 3、统计分组目的是要使组内同质,组间异质 4、统计分组在某一标志的组间异质的同时却可能掩盖其他标志的组间差异 5、统计分组关键选择分组标志划分各组界限,非运动员,运动员,属于哪一组?(待识别),性别分组,运动与否分组,把总体按两个标志切成四块,正确选择分组标志的原则: 1、根据研究目的选择 2、选择反映本质特征的标志(研究人们生活水平的高低用工资水平还是家庭成员平均收入水平为标志呢) 3、根据历史和经济条件的变化选择,二、统计分组的作用 1、划分现象总体的类型 例如,对经济活动单位按产业进行分类,有第一次产业(大农业)、第二次产业(工业与建筑业)、第三次产业(流通与服务部门)。 对经济活动单位按所有制性质进行分类,2、反映总体内部的构成及其变化 例如,产业结构、消费结构、人口结构(年龄结构、性别结构、民族结构)。恩格尔定律,例:某市按GDP计算的三次产业结构(%) 2006年 2007年 2008年 2009年 GDP 100 100 100 100 第一产业 3.2 4.3 2.5 2.3 第二产业 75.7 63.8 54.5 52.2 第三产业 21.1 31.9 43.0 45.5,某省城镇居民人均消费性支出构成表 城镇居民 2007% 2008% 消费性支出 100.0 100.0 食品 51.3 36.3 衣着 12.9 8.4 家庭设备用品及支出 9.6 11.7 医疗保健 2.6 6.7 交通和通讯 3.3 8.7 娱乐教育文化 9.1 13.4 居住 6.0 9.1 杂项商品和服务 5.2 5.7 从表中可明显看出,某省城镇居民消费支出中,食品消费、衣着消费支出所占比重下降,而交通和通讯、娱乐教育文化、医疗保健 等方面的支出上升,消费结构不断优化。,3研究现象之间的依存关系,例:某年中国农民家庭按收入分组的恩格尔系数,按收入分组(元) 200 300 400 500 600 800 1000 恩格尔系数(%) 64.9 60.2 56.7 54.4 50.5 49.9 43.6,三、统计分组的种类,按分组目的或者作用划分,类型分组 结构分组 分析分组,按分组标志性质划分,品质标志分组 数量标志分组,按分组标志多少划分,简单分组 复合分组,品质标志分组:人口按性别、职业、地区、职称分类等。 数量标志分组:按收入、成绩的多少等等,通过这种分组,可以反映各组间的数量差异及其质方面的变化。,XX大学教师按职称分组的科研统计,XX大学教师按开课门数分组情况,简单分组是指按一个标志进行的分组,只说明社会现象在某一方面的特征。如人口按性别分组,居民按消费支出分组等。 复合分组是社会现象按两个或两个以上的标志层叠进行分组。如企业职工在按性别分组的同时又按文化程度分组。 复合分组适合于被研究的社会现象所包含的单位数较多的情况。,2.2.4分(配)布数列,一、分配数列的概念、组成要素及分类 1、概念 在统计分组的基础上,把总体的所有单位按组归类,并计算各组的个体数,就形成分配数列,也称为统计分布。 2、要素 分配数列包括两个要素: (1)统计分组所形成的各组 (2)各组次数(频数)或者频率 所谓频数f(次数):分配在各组的个体数称为频数,分别以f1f2表示。各组频数之和等于总频数。 所谓频率,就是指各组频数在总频数(总次数)中所占的比重,以 表示。,3、种类 根据统计分组标志的性质不同,分布数列有: 品质数列:按品质标志分组所形成的分布数列。体现现象质上的差别且较稳定。 变量数列:按数量标志分组所形成的分布数列。体现现象量上的差别且有多种编制方法。,变量数列,单项数列 组距数列 等距数列 异距数列,(1)组限(上限,下限) (2)组距=上限-下限 =U-L=D,二、编制步骤 计算全距 1、分析资料 变量的性质 变量值的分布是否均匀,单项数列 a)概念单一变量值为一组的变量数列; b)适用范围:变动范围不大的离散变量和取整数的连续变量。 c)特点:保持资料真实性, d)编制步骤:确定组数,把总体单位分配在相应各组。,组距数列的编制: a.) 概念以区间表示一个组的变量数列; b.) 适用范围:连续变量、变动范围大的离散变量; c.)特点:掩盖资料真实性, d.)步骤:确定组距、组数;确定等距或异距;确定组限;计算组中值。,某地区不同存款规模家庭的年收入情况,企业职工按年龄分组,数量标志分组(不等距分组).适用于现象性质变化不均匀的连续型变量及取值范围很大的离散型变量,数量标志分组(等距分组).适用于现象性质变化均匀的连续型变量及取值范围很大的离散型变量,2、确定组距和组数 原则:能清晰反映数据的分布特征。,注意的问题,(1)一般情况下应采用等距数列 便于进行统计分析时不受组距不等的影响,也便于制图、计算。 (2)经验表明,对于任一个特征来说,分组组数不应多于20个。,(3)为了选择组距长度的最佳值,既不使变量数列很庞大,又不使现象的特征被掩盖,通常采用下列公式计算: 式中xmax和xmin分别表示总体中的最大值和最小值,N表示总体单位的总数,1gN表示数N的十进位对数。,例如,在所研究的总体里(N=1000),年龄如果在20岁至60岁之间变化,那么: 即区间(组距)长度应等于4岁,此外对于等距数列来说,其组数的确定还可参考如下两个公式: n=R/d n=1+3.322 (N为总体单位数) (4)根据标志值性质编制异距数列,异距数列在分析时,为消除组距的影响需计算频数(率)密度。 频数(率)密度=频数(率) /组距,例如,按“家庭藏书的数目”这一特征对家庭分组时,根据已经了解到的情况,多数家庭的藏书在500册以下,很少有藏书一万册的家庭,这时应采用长度不等的组距: 150,51100,101200,201300,301500,501700,7011000,10012000,20015000,500110000。,3、组距数列的界限和组中值的确定。 对于离散型特征来说,区间界限的确定是上限和下限不重叠。 对于连续型特征来说,上限和下限重叠并遵循“上限不在内” 原则。 此外如资料中出现极大值或极小值还可编制开口组即xx以下或xx以上,组距数列组中值的计算。假定各组次数分布是均匀的条件下 组中值=(上限+下限)/2 意义:近似代表一组变量值的平均水平 开口组的组中值计算:按邻组组距推算,4、各单位依组归类就形成变量数列,我们下面举例说明变量数列的编制。例如假定某研究所30位研究人员的月工资资料如下:,106、84、110、91、109、91、111、107、121、105、99、94、119、88、118、97、103、106、95、106、85、106、101、105、96、105、107、128、111、101。 从资料看可知最大值为128元,最小值为84元。可选择10为组距,编制等距区间数列如表所示:,某研究所研究人员月工资分配表,月工资分组(元) 人 数 80-90,3 90-100 7 100-110 13 110-120 5 120-130 2 合计 30,编制变量数列的目的是从数据中提取对我们探索内在数量规律有用的信息。 经整理后,我们大致可以看出该所研究人员月工资的分布规律,即大多数人的工资在100-110元间,形成两头小中间大的规律。但80-100元低收入的两组人数比110-130元之间的高收入两组人数多,因而是不对称分布。,但是经整理编制分布数列后,原始数据丢失,看不出各个单位具体的标志值,计算出来的指标都是近似值,三、频率分布 (一)频率分布性质 1、0 1 2、,(二)频率分布图:根据变量的层次,反映定类和定序变量的频率分布可用条形图,反映定距及以上的变量的分布可用直方图、折线图和曲线图。 1条形图:是用长条的高度来表示资料的次数类别的次数或频率。而长条的宽度没有意义,一般都画成等宽长条。如果是定类变量,图形画成离散的长条,如果是定序变量,则长条的排列次序应与变量取值的次序相一致,且图形可画成紧挨的长条或离散的长条。: 人数 600 500 400 300 200 100 教授 副教授 讲师 助教 其他,2、直方图:直方的面积表示次数分布。直方图从图形来看,也是由紧挨的长条所组成,但它与条形图不同,直方图的宽度是有意义的。一般说,直方图是以长条的面积(长与宽的乘积)来表示频数或频率。而条形的长度,即纵轴高度表示的是频数密度或频率密度。对于等距分组,用频数或频数密度作为条形的高度,图形的相对比例关系是不变的,因此仍可以用频数作为条形高度。,但异距数列就必须用频数密度,否则会产生错误。 例如:婚龄统计 直接比较频数不对。 26-27 30 40-50 35,3、折线图:用直线连接直方图中条形顶端的中点,就得折线图。折线图可使资料的频数分布趋势更一目了然。 4、曲线图:当组距逐渐减少时,折线将逐渐平滑为曲线。,例如:某股票按开盘价格分组,11.11%,20%,26.67%,28.89%,13.33%,直方图,45以下,4555,5565,6575,75以上,11.11%,20%,26.67%,28.89%,13.33%,折线图,45以下,4555,5565,6575,75以上,11.11%,20%,26.67%,28.89%,13.33%,曲线图,45以下,4555,5565,6575,75以上,这种频率分布采用光滑的曲线来拟合,曲线下方面积为频率之和等于100%,(三)常见的频率分布形式 (1)钟型分布:中间大,两头小。最常见。分为对称钟型分布、左偏分布、右偏分布。如收入的分布,企业按产出规模划分的分布,上证或者深证总指数的分布,等等。 (2)U型分布:两头大,中间小。如年龄别的死亡人口数。 (3)J型分布(或者反J型分布)。“越来越多”或者“越来越少”。如,西方经济学中的供给、需求曲线,供给曲线是正J形分布曲线,表现为随价格的增加,供给量以更快的速度增加;需求曲线是反J形分布曲线,表现为随价格的增加,需求量减少。,右偏分布,左偏分布,对称分布,死亡人口数,年龄,U 型分布,从事科研时间(年),成果件数,J 型分布,来杭州的次数,人数,反J 型分布,下表是诺贝尔获奖者的年龄分布表。(1)请根据数据 制作直方图和折线图;(2)将折线图修匀为一条曲线 图,并描述该曲线的特点。,(四)分布的重要性 分布的形状不仅可帮助我们更好的了解变量,而且可帮助我们比较变量。 例如一个国家收入的分布图是对称的,另一个国家收入的分布图是不对称的,可知两个国家的社会经济结果有很大不同。又如两个国家的产业分布图如下所示:,一产二产三产,1、所谓累计频率分布 表示的是小于或大于某一变量值的累计频数或频率是多少。 它有两种形式:向上累计和向下累计,(五)累计频率分布,向上累计: 是将各组频数(率)由标志值低的组向标志值高的组依次累计,说明至某组上限以下的各组频数(率)累计分布状况。 向下累计: 是将各组频数(率)由标志高的组向标志值低的组依次累计,说明至某组下限以上各组频数(率)累计分布状况。 根据累计频率分布表,就可绘制成累计曲线图。,x,f(x),x,F(x),1.0,2、累计频数分布特点 1)第一组的累计频数等于第一组本身的频数; 2)最后一组累计频数等于总体单位数。 累计频率同样也具有两个特点: 1)第一组的累计频率等于第一组本身的频率; 2)最后一组的累计频率等于1。 累计频数(频率)分布图分为向上累计频数(频率)分布图和向下累计频数(频率)分布图。以分组变量为横轴,以累计频数(频率)为纵轴。 在直角坐标点系上将各组组距的上限与其相应的累计频数(频率)所构成坐标点,依次用直线(或光滑曲线)相连,即是向上累计曲线。 在直角坐标系上将各组组距下限与其相应累计频数(频率)所构成坐标点,依次用直线(或光滑曲线)相连,即是向下累计分布曲线图。,3、累计频率图和累计频率表应用 (1)可以比较个体在总体的位置。 例如甲乙两人在各自班上都考了80分,那么谁在班上的成绩好。可计算累计表。为比较方便,设两班人数都为100人。 可得甲:=95 95% 乙:=60 60% 可知甲在班上成绩好于乙。,当所有家庭具有相同收入时,X(累计人口)的取值与Y(累计收入)的取值相同,称为完全的平均分配,见下表 X 0 20% 40% 50% 60% 80% 100% Y 0 20% 40% 50% 60% 80% 100% 反之,当社会财富集中在极少数人手中,极限的情况如下表所示,称为完全的分配不均。而实际情况将是介于两者间的曲线,又称洛伦茨曲线。收入分配愈不平均,洛伦茨曲线愈下凸(见图)。 X 0 20% 40% 50% 60% 80% 100% Y 0 0% 0% 0% 0% 0% 100%, 基尼系数 意大利经济学家基尼(Gini)根据洛仑兹曲线提出了 判断收入分配平均程度的指标。,合理界限0.20.3;警戒线0.4;红线0.6。 (中国, 2003,0.46),2.3统计数据的显示,2.3.1 统计表 一、概念: 经过汇总,得到一系列总量指标的数字资料,把这些数字按一定的逻辑顺序在表格上表现出来,这种表称为统计表 所以,统计表是反映统计整理结果的表格。,二、统计表的作用 1、系统合理安排大量数据,具有条理清楚、简明扼要特点。 2、能反映总体特征和各部分关系,便于进行对比和计算各部分指标是进行统计分析的重要工具。 3、是积累和保保存统计资料的最主要手段。,2002年我国城乡人口情况,按城乡分,比重(%),人口数(万人),128453,39.09,60.91,78241,50212,总标题,乡村,城镇,100.00,合计,纵栏标题,统计数值,横行标题,三、统计表的结构 从外型看由: 总标题 横行标题 纵栏标题 数字资料 四要素构成。,1、总标题就是统计表的名称,它简便地说明表中统计资料的内容,一般写在表的顶端中部。,2、横行标题,通常写在表的左边,用以说明总体各组的名称。 3、纵栏标题,通常放在表的右上方。用来表示统计指标的名称。,4、数字资料,是统计表的主体,用来表明有关指标的数量,一般用绝对数、相对数、平均数表示。,从内容上看由: 统计表由主词和宾词两个部分组成。 主词,就是统计表所要说明的总体或总体的各个组、各个单位的名称,通常排在表的左边。 宾词,就是统计表用来说明主词的各种指标,通常排在表的右边。,统计表的结构见表 某年某企业青年职工文化程度状况表 总标题,文化程度 人数 比重% (纵栏标题) 横 大学 120 11.4 行 中学 850 81.0 数字 标 题 小学 80 7.6 合计 1050 100.0 (主词) (宾词),四、统计表的种类 统计表有: 简单表(未分组表) 分组表(简单分组表) 复合表,1、简单表(未分组表):这种统计表是指对总体不进行任何分组的统计表。它一般是将主词按时间的先后顺序排列,或将总体内各单位依次罗列。 2、分组表(简单分组表):就是总体按一个标志对总体进行分组的结果。 3、复合表:则是总体按两个或两个以上的标志对总体进行分组的结果。,五、统计表的宾词设计:宾词指标的设计也就是统计表中指标体系的设置顺序问题。这直接关系到统计表的作用大小。一般要求设置指标一要根据指标说明问题的主次先后,二要保持指标之间的逻辑关系。 宾词指标的设计分简单设计和复合设计两种。 (一)简单设计:就是各指标作平行设置,不重叠。 (二)复合设计:就是将统计指标重叠设置。这种设计比简单设计更能综合反映总体特征。但复合设计情况下,主词栏的统计分组不能太复杂,即分组标志不宜过多,否则整个表会显得过于繁杂,不便阅读。,中国人口年龄结构状况 单位:%,资料来源|:2003中国统计年鉴第99页。, 简单分组表, 复合分组表 我国社会福利主要费用情况 单位:亿元,资料来源|:2003中国统计年鉴第838页。,六、编制统计表应注意的问题 1总标题要简练、明确,能概括反映统计资料的基本内容,包括资料所属的时间和地点。 2表内主词各行与宾词各栏的排列次序要合乎逻辑,一般先局部,后全部,合计在后。 3如果表的栏数较多,通常要给栏编号。一般主词和计量单位栏用“甲、乙、丙”等文字标注,宾词栏用(1)、(2)、(3)等数字编号。 4表中数字应上下整齐填写,并不留空白格。数字为0时要填上,无数字或不用填的要在格内填上“”,缺资料格内用“”标明。 5应注明表内各项资料的计量单位。当全表只用一种计量单位时,可注在表的右上方。如果表中各栏计量单位不同,可给各横行专设一计量单位栏,也可与纵栏各指标注在一起。 6统计表是“开口”式的,即表的左右两端不画纵线,上下边线画粗线。 7必要时,要给统计表加注说明或注释。如资料来源、指标解释、编制日期、编表人等。,第五节 统计图 1、意义 是用来表示统计资料及其相互关系的各种图形。它是用点的多少,线的疏密或粗细、条的长短、颜色的深浅、面积或体积的大小、曲线的起伏来表现统计资料的多少、分布状况、变化趋势和相互关系。 统计图生动形象,给人以深刻印象,往往与统计表同时使用,互补不足。 2、类型 按照形式分:折线(曲线)图、饼图、条形(带形)图、直方图、象形图、统计地图等,还有统计中一些特殊的图形如质量控制图。 按维数分:平面图、立体图。 WORD,Excel中均有相应的图形。,1912年4月15日泰坦尼克号人员与死亡构成图,各等级舱人员及船员死亡构成,表示原始数据的图形-茎叶图和箱形图,茎叶图:由茎和叶两部分组成的,反映原始数据分布的图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论