2.数据的初步整理.ppt_第1页
2.数据的初步整理.ppt_第2页
2.数据的初步整理.ppt_第3页
2.数据的初步整理.ppt_第4页
2.数据的初步整理.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主要内容,第二章 数据的初步整理,原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组就是按统计研究的目的和要求,将总体单位或全部调查数据划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。,100名男性青年的身高表 单位:厘米,166 181 173 171 168 164 178 167 156 194 169 175 183 168 165 180 170 172 167 175 173 169 174 172 171 169 173 184 173 169 170 18

2、1 185 168 174 187 167 174 169 165 167 172 174 173 155 179 164 158 165 162 157 175 182 168 176 161 171 163 176 159 171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164,统计调查搜集来的资料往往是没有次序的原始资料,使原始

3、资料有序化,是数据分析的第一步工作。,第一节 统计数据的整理,排序,就是把定量数据按从大到小或从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其条理。,统计分组,1分组应使各类别构成之和等于总体,“穷举”,“互斥”,2分组设计应能反映统计总体的分布规律性 统计分组主要是为了能很好地反映统计总体的构成状况,即反映总体中各单位的分布特征。分组设计要适应这一要求,必须在分组后使总体单位总数在各组的分配情况能够反映总体的分布规律性。,“同质”,“差异”,某社团成员的构成,性别,人数,男 女,28 22,人数,年龄,3 7 12 18 10,55-65,35-45,45-55,25-35

4、,15-25,在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。,频数分布编制,分组的关键,选择与研究的问题有关的变量。,组限的确定,应遵循穷尽和互斥原则 。,定性数列编制:,组限的确定一般比较简单。,如人口按性别分组、企业按所有制分组等。,定量变量编制:,分为单项数列和组距数列两种形式。,单项数列:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。,组距数列:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且变量的取值较

5、多的情况。,频数分布编制,统计表的结构及其编制原则 统计表:描述统计资料数量关系的表格。 统计表一般由标题、表号、标目、线条、数字、表注等构成。 在编制统计表时对各组成部分有一些具体的要求。,第二节 统计表,表2.1 2002年我国城乡人口情况,按城乡分,比重(%),人口数(万人),128453,39.09,60.91,78241,50212,标题,乡村,城镇,100.00,合计,纵标目,数字,横标目,表号,资料来源:2002中国统计年鉴。,统计表的种类,简单表:只列出观察对象的名称、地点、时序或统计指标名称的统计表。 分组表:只按一个标志分组的统计表。 复合表:按两个或两个以上标志分组的统计

6、表。,表2.2 某年级各班学生人数, 简单表,表2.3 某校高三学生各年高考录取人数,表2.4 我国城市居民家庭基本情况(2002年), 分组表,表2.5 离婚案件构成, 分组表,表2.6 中国人口年龄结构状况 单位:%,资料来源:2003中国统计年鉴第99页。, 复合表(交互表),表2.7 我国社会福利主要费用情况 单位:亿元,资料来源:2003中国统计年鉴第838页。, 复合表(交互表),表2.8 安全带使用与性别的交互表,选择行或列百分比描述数据。,标题部分 标题置于表格正上方。 标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区。 表号:左 ;单位:右 对分页的同一表格,

7、在每页上端都要写标题,加(续一)、(续二) 栏目部分 先局部后整体。 若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。,统计表的制作规则,线格部分 统计表上下两端线应以粗线或双细线标划,表的左右两侧开口。 各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。 数字部分 表中数字要对准位数。 不存在某数字时,用“”表示;缺少某项数字时,用“”表示。 数字较大时,加分位点。 其他规则 资料来源写在表格下方。 有说明解释需要时,在表下方注释。 单位有数种时而不能在表右上角划一标注时,分两种情况处理。,统计表的制作规则,频次分布:对一个变量所有观察到的取值进行分类组合

8、,并给出每一组的频数。 相对频次分布:比率 (pi ) = fi/N 百分比(%) = (fi /N)*100 累计频次:小于(或者大于)某一个变量值(取值)的总频数。 累计百分比:小于(或者大于)某一个变量值(取值)的频数所占百分比。,频次分布表,表2.8 全国六岁以上人口教育程度分布(2000年),资料来源:2000年全国人口 注:(1)高中包括普通高中、职业高中、中专(技校)等 (2),表2.9 全国六岁以上人口教育程度分布(2000年),资料来源:2000年全国人口 注:(1)高中包括普通高中、职业高中、中专(技校)等 (2),表2.10 全国人口年龄分布,关于频次分布的几个概念,全距

9、 组数 组距 组限 组中值,表2.11 某社区各户人口数统计表,离散变量频次分布 单项式频次分布每一组的变量值只有一个。单项频次分布用于离散变量整数值变动幅度较小时。,几种常见的频次分布,组中值(,离散变量频次分布 组距式频数分布离散变量的整数值如果变动幅度较大,而且总体单位数N又很大,则要编制组距式频次分布。,表2.12 某地区小学班级数,连续变量频次分布 连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距频次分布。与离散变量组距频次分布不同之处在于,根据连续变量的特征,此时组距频次分布中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。至于恰

10、等于某一组限的数据(如下表中身高164厘米)归于哪一组,应该按照“上限不包括在内”的原则处理。这就是说,164应归于“164168”这一组,而不应归于“160l64”这一组。有了这一规定,就不会在编制连续变量的频次分布时,发生违背“穷举”与“互斥”这两个基本原则的情况了。,表2.13 男青年身高按4厘米的间距分组时的频数分布,连续变量频次分布,累计频次分布,向上累计以变量数 列首组的频数为始点,逐 个累计各组的频数,展示 小于该组上限的频数和。,向下累计以变量数 列末组的频数为始点,逐 个累计各组的频数,展示 大于该组下限的频数和。,频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现

11、。用统计图表示频数分布,较之用统计表,要直观便捷得多。但缺点是不及统计表精确。统计图的种类很多,本节仅就与频数分布数列相衔接的统计图加以介绍。 根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。具体方法是:先画直角坐标系,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。,第三节 统计图,饼图是以整个圆的360度代表全部数据的总和,按照各类组所占的百分比(频率),把一个“饼”切割为各个扇形。适用于定性数据。,50家门店按区域分组的饼图,饼图,饼图,条形图中,每一分类组表示成一个条,条的长度代表了这个组中所

12、含数据的频数或频率。适用于定性、定序数据。,条形图,直方图与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定量数据。,直方图,对于异距数列,以组距为宽,以频数密度为高来绘制直方图。,频数密度=,该组的组距,某组的频数,折线图可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成 。,折线图,曲线图当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。,曲线图,下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制作直方图和折线图;(2

13、)将折线图修匀为一条曲线图,并描述该曲线的特点。,常见曲线图类型, 钟形曲线: “中间大,两头小”,对称分布 正态分布,非对称分布: 偏态分布右偏、左偏,以横轴为渐近线,与横轴所围的面积为1,代表变量X全部可能取值的概率。 婚龄、学生身高近似正态分布 收入分配、资源配置偏态分布, U形曲线:中间 小,两头大, J形曲线:正J分布,反J分布,逻辑斯蒂曲线:变量值分布的次数随变 量值增大 而增多或相反,但有上限。,累计频数分布曲线只有两种形状:或持续增长的或持续减少的。这分别取决于向上累计或向下累计。累计频数分布曲线一般都呈逻辑斯谛曲线形,其斜率最大的地方对应于频数最大的组,其水平的地方对应于空组。,累计频数分布曲线,洛仑兹曲线和基尼系数,基尼系数 意大利经济学家基尼(Gini)根据洛仑兹曲线提出了判断收入分配平均程度的指标。,合理界限0.20.3;警戒线0.4;红线0.6。 (中国,2003,0.46),枝叶图是对一批数据进行组织整理的很有价值的一个工具,可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论