《数据的整理》PPT课件.ppt_第1页
《数据的整理》PPT课件.ppt_第2页
《数据的整理》PPT课件.ppt_第3页
《数据的整理》PPT课件.ppt_第4页
《数据的整理》PPT课件.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学 第3章 数据的整理,2020年8月16日/上午11时2分,统计学 第3章 数据的整理,3.1 统计数据的预处理 3.1.1 统计数据的审核 3.1.2 统计数据的筛选 3.1.3 数据的排序 3.2 统计分组与频数分布 3.2.1 统计分组的概念 3.2.2 频数分布 3.3 统计图 3.4 统计表,2020年8月16日/上午11时2分,学习目标,了解数据预处理的内容和目的 掌握分类和顺序数据的整理与显示方法 掌握数值型数据的整理与显示方法 用Excel做频数分布表和图形 合理绘制和使用各种图表,第3章 数据的整理,3.1 统计数据的预处理,2020年8月16日/上午11时2分,统计学

2、第3章 数据的整理,3.1.1 统计数据的审核 数据审核(Data Auditing)是指在进行数据整理之前对原始数据的审查和核对,是运用各种检查规则来辨别缺失、无效或不一致的录入。 数据审核的内容: (1)直接调查取得的原始数据的审核 完整性审核:检查应调查的单位或个体是否有遗漏; 所有的调查项目或指标是否填写齐全。,3.1 统计数据的预处理,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.1 统计数据的与处理,准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际; 检查数据是否有错误,计算是否正确等。 审核数据准确性的方法: A逻辑检查:从定性角度,审核数据是

3、否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。主要用于对分类和顺序数据的审核。 B计算检查:检查调查表中的各项数据在计算结果和计算方法上有无错误。主要用于对定距和定比数据的审核。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.1 统计数据的与处理,(2)间接取得的二手数据的审核 除了从完整性和准确性两个方面进行审核外,还应着重审核数据的适用性和时效性。 适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料,确定数据是否符合自己分析研究的需要。 时效性审核:尽可能使用最新的数据。 另外,看一下是否要进一步的加工整理。,2020年8月16日/上午11时2

4、分,统计学第3章 数据的整理,3.1 统计数据的与处理,从数据的表现性质来看,数据的审核内容主要有有效性审核、一致性审核和分布审核。 有效性审核:检查被调查者回答语句的语法是否正确,检查包括是否在规定填数字的地方填上了非数字的字符以及问卷中的回答是否有缺失等各种错误。 一致性审核:检查不同问题之间的关系是否正确。 分布审核:试图通过数据的分布,来辨识记录是否远远脱离分布的正常范围,即是否为离群值。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.1.2 统计数据的筛选 数据筛选(Data Filter)是指对已有数据的有意识的过滤和挑选。主要有两方面的内容:一是将某些不符合

5、要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。 从广义上讲,数据审核也是一种数据筛选。这里所讲的数据筛选是指按照数据分析的要求所确定的挑选数据标准,通过对现有数据的逐一比较,从中挑选出一组数据,构成一个数据集合的过程。,3.1 统计数据的预处理,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.1 统计数据的预处理,下面举例说明Excel进行数据筛选的过程。 表3-1 8名学生的考试成绩数据 单位:分,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.1 统计数据的预处理,3.1.3 数据的排序

6、数据排序就是按一定顺序将数据排列,其目的是为了便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。 无论是定性数据还是定量数据的排序,均可借助计算机很容易地完成。对于数值型数据排序只有两种:递增或递减。对于定性数据可采用不同的方法,字母型数据可采用升降序排列,汉字型数据可按拼音方式或姓氏笔画排序。,第3章 数据的整理,3.2 统计分组与频数分布,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,3.2.1 统计分组的概念 统计分组是指根据统计研究的目的和客观现象的内在特点,按照一定的标志把被研究总体划分为若干个性质不同但又有联系的组的过

7、程。 经过数据分组之后形成的分布在各个组里的数据称为分组数据。作为数据分组标准的这一特征称为分组标志。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,统计分组具有以下作用: 划分总体现象的类型 研究总体现象的结构和比例关系 研究总体现象之间的依存关系 统计分组按分组标志的个数多少不同可以分为简单分组和复合分组。 统计分组包括非数值型数据分组和数值型数据分组。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,3.2.2 非数值型数据的分组 非数值型数据的分组也称为分类。定类数据和定序数据都是对事物质的属性的

8、描述,两者都是一种分类性质的数据,只在分类划分的无序和有序上存在差别。 反映事物自然属性的非数值型数据的分组一般比较简单,只要进行适当的细分或合并,以及选择恰当的分组标志即可。 例如:按性别分组,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,反映事物社会经济属性的非数值型数据的分组一般比较复杂,往往是人们对事物数量特征进行深入地统计分析之后形成的一种质的划分,这种质的划分体现了人们认识活动对与事物由量变到质变的把握,一般采用国家标准、行业标准或者企业标准等标准化的形式确定下来,并借助统计报表和统计调查方案等方式加以明确,以此来规范和指导后续的统计活

9、动。 例如:按职称、工种、级别分组。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,在我国现行统计制度中,将城镇家庭分成收入水平由低到高的七组,即最低收入户、低收入户、中等偏下收入户、中等收入户、中等偏上收入户、高收入户、最高收入户,属于定序数据的分组。这七组的划分是将所有调查户依户人均可支配收入由低到高排序,然后按照10%,10%,20%,20%,20%,10%,10%的频数比例依次分组,最后构成了我国城镇家庭收入水平由低到高不同收入阶层的定性分组。,2020年8月16日/上午11时2分,统计学第3章 数据的整理与显示,3.2 统计分组与频数分布

10、,表3-2 2003年我国城镇居民家庭基本情况 元 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,3.2.3 数值型数据的分组 1分组方法 数值型数据分组可以分为单变量值分组和组距分组。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,组限:在组距分组中,各组之间的取值界限称为组限,其中大者为该组数值变量可能取的最大数值,称之为上限(Upper Limit ,U )。小者为该组数值变量可能取的最小数值,称之为下限(Low Limit ,L

11、 )。 在一个组距分组中,既有上限又有下限的组称为闭口组,否则称为开口组。 组距:组距分组中,同一分组的上限与下限之间的绝对距离称为组距(Class Width,d)。一般有,组距d上限U 下限L 。 组中值:下限与上限之间的中点值。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,2等距分组 等距分组是各组组距全都相等的组距分组,等距分组中各组单位数的多少不会受到组距大小的影响,便于直接比较各组次数的多少,研究次数分布的特征。因此,等距分组是组距分组的基本方法。 等距分组的具体步骤如下: (1)计算取值范围; (2)确定组数; (3)计算组距; (

12、4)确定组限; (5)将原始数据按照各自数值大小分配到各组中。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,(1)计算取值范围 取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了该组数值变量取值的变动幅度,一般用R表示,有 (3.1),2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,(2)确定组数 在进行数值型数据分组时,有一个计算组数的经验公式,即斯特杰斯(Sturges)公式: (3.2) 确定组数的目的是为了使数据恰当地分布在各组中,数据过于集中和过于分散都有碍于对数据分布

13、特征的展示,不利于后续的分析研究,组距的确定还要根据实际情况,因地制宜地加以确定。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,(3)计算组距 由于取值范围是客观存在的,当组数确定之后,组距也就随之确定了,两者之间成反比例关系。设K为组数,即有组距d=R/K 。为了便于数据分组和组限的划定,组距一般取5,10的整数倍。 也可借助Sturges的经验公式来确定: (3.3),2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,(4)确定组限 确定组限就是具体规定各组中变量可能取值的上限和下限。确定组限的原则是

14、“不重不漏”,使每一数据都能够被分配到其中一组里,并且只能分配到其中一组里。组限的具体形式有间断组限和重合组限,闭口组限和开口组限。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,间断组限是每一组的组限与邻组的组限都是间断设置的。 表3-3 某车间50名工人日加工零件数分组表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,重合组限是每一组的组限与邻组的组限都是相互重叠设置的。 表3-4 某车间50名工人日加工零件数分组表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与

15、频数分布,闭口组限是既有上限又有下限的组限设置。由闭口组限设置形成的数据分组称为闭口组。 开口组限是缺少上限或者缺少下限的组限设置。由开口组限设置形成的数据分组称为开口组。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,开口组限 表3-5 某车间50名工人日加工零件数分组表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,(5)将原始数据按照各自数值大小分配到各组中 组限确定之后,就可以将原始数据按照各自数值大小分配到各组中。 一般先按照分组标志对原始数据进行排序,然后根据各组的组限水平,将经过排序之后的

16、有序数据进行分段,归入到各个组中。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组频数分布,3.组中值 组中值(Class Midpoint)是指组距分组中处在各组取值范围中点位置上的数值。 在缺乏原始数据,仅拥有已经过分组整理后的数据情况下,只能采用组中值取代组平均数,作为一个代表性的数值,进行各种数据分析。 组中值作为代表性数值所隐含的假定前提是该组数据呈均匀分布,或者对称分布。在该组数据明显偏离均匀分布,或者非对称分布时,使用组中值作为该组数据取值代表性数值存在着较大偏误。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组

17、与频数分布,(1)重合组限分组的组中值计算 在采用重合组限设置的组距分组中,组中值为本组的上限与本组下限之和除以2。有: 组中值(上限+下限)/ (3.4) (2)间断组限分组的组中值计算 在采用间断组限设置的组距分组中,计算组中值需要将以上一组的下限与本组的下限之和除以2。即有: 组中值(本组下限+下组下限 )/ (3.5),2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,重合组限 表3-6 某车间50名工人日加工零件数分组表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,间断组限 表3-7 某车间50

18、名工人日加工零件数分组表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,(3)开口组组中值的计算 计算开口组组中值,需先确定其缺少的下限或上限。一般以邻组组距近似地作为本组的组距,来确定其下限或上限,进而计算出开口组组中值。开口组组中值的计算仍然要区分重合组限设置间断组限设置两种情况。 重合组限设置开口组组中值的计算: 缺少下限组的组中值该组上限邻组组距/2 缺少上限组的组中值该组下限邻组组距/2(3.6),2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,表3-8 2003年我国按年龄和性别分人口数及组中

19、值,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,3.2.4 频数与频数分布 1、频数及相关概念 频数与频数分布是在统计数据分组基础形成的概念。频数与频数分布是在具体的分组设置前提下的对总体数据分布特征的描述。 频数(Frequence)是落在某一特定分组中的数据个数,也称为次数。频数有两点要素,一是组的名称,一是落在该组中的数据个数。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,频数分布(Frequence Distribution)是由各组的频数组成的一个数组。一般需要用统计图或统计表的形式将频数

20、分布展示出来,以便更加直观和全面地了解和把握总体的频数分布特征。 比例(Proportion)是指各组数据个数(频数)占数据总数(各组频数之和)的比重,为频数的相对形式,又称为频率,一般用百分数表示。显然有,各组比例之和等于100%。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计分组与频数分布,表3-9 2001-2003年我国按性别分人口数及构成 本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计分组与频数分

21、布,表3-9 2001-2003年我国按性别分人口数及构成 本表各年人口未包括香港、澳门特别行政区和台湾省的人口数据。 资料来源:2004中国统计年鉴. 北京. 中国统计出版社 2004,统计分组,分配在各组的单位数及其相对形式,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计分组与频数分布,2、累积频数 累积频数(Cumulative Frequence)按照各组数据取值范围高低的次序,依次逐组累加各组频数得到的一组频数。累积数,表明了在某一数值水平以上,或以下总共包含的数据个数。 从最高的数据取值组开始,依次向较低组进行累加所形成的累积频数称为向下累积频数,表明

22、了各组下限以上的数据个数之和;从最低的数据取值组开始,依次向较高组进行累加所形成的累积频数称为向上累积频数,表明了各组上限以下总共包含的数据个数。 同样,可以用数据总的个数分别去除各组的累积频数,得到各组累积频数的相对数值,以相对的形式来描述累积频数。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.2 统计分组与频数分布,表3-10 某车间50名工人日加工零件数分组表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计分组与频数分布,统计分组的要点和基本概念: 统计分组 基本概念:R、d、H、组中值; 间断组距、重合组距、开口组、闭口组; 频数、

23、频数分布、频率、累积频数、累积频率。,非数值型数据分组,数值型数据分组,单变量分组,组距分组,等距分组,异距分组,第3章 数据的整理,3.3 统计图,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,1非数值型数据的统计图 非数值型数据通常使用的统计图有条形图和饼图等。 (1)条形图(Bar Chart)是以一簇宽度相等、相互分离的条状图形的长度(或高度)来表示频数分布的统计图。当以条状图形的高度来表示频数分布特征时,条形图也称为柱形图。条形图中条状图形的长度(或高度)所表示的数据可以是频数,也可以是频数的相对比例,还可以是事物具体的数值水平等。,2020年8月1

24、6日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,(2)饼图(Pie Chart)是以同一圆形内一簇扇形的面积的大小来表示数值分布的统计图。 (3)环形图(Doughnut Chart)与饼图类似,也有区别。饼图只能显示一个总体或样本的构成情况,环形图可以同时绘制多个总体或样本的数据构成情况,有利于进行比较研究。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,2. 数值型数据的统计图 数值型数据常用的有直方图和折线图。 (1)直方图(Histogram)是以各组的组距为宽, 以各组的频数为高,在直角坐标系的第一象限依次绘制一系列矩形来表示频数分布

25、状态的统计图。 对于异距分组,绘制直方图时应以各组的实际组距为宽,以相应的标准组距频数,或频数密度为高。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,直方图与柱形图的区别: 直方图是用面积表示频数分布的,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。柱形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。 直方图的各矩形通常是连续排列,柱形图则是分开排列。 直方图主要用于展示数值型数据,柱形图主要用于展示分类数据。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,(2)折线图(

26、Line Graph) 如果掌握的数据是时间序列数据,则可以绘制折线图,以反映事物发展变化的规律和趋势。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,3.其他图 (1)二维散点图(2D Scatterplots)是用二维坐标展示两个变量之间关系的这一种图形,用横轴代表变量x,用纵轴代表变量y,每组数据(xi,yi)在坐标中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图就称为散点图。 (2)气泡图(Bubble Chart)可用于展示3个变量之间的关系。与散点图类似,绘制时将一个变量放在横轴,一个变量放在纵轴,第三个变量用

27、气泡的大小来表示。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,4.绘制统计图时的注意事项 (1)通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。 时间一般绘在横轴,指标数据绘在纵轴。 长宽比例要适当,其长宽比例大致为10:7。 一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。如下图所示。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,(2)图形要尽量简明。图形应该

28、突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力。 (3)图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。 (4)反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,不恰当的统计图形举例:纵横比例不当,左图增长速度惊人 上图增长速度缓慢,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,不恰当的统计图形举例:三维效果滥用,不必要的三维效果:三维图形可能比二维图形更能吸引读者的

29、注意,但只能用来反映变化的趋势,不能用来进行精确的比较。,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,不恰当的统计图形举例:图形类型不当,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,不恰当的统计图形举例:压缩纵轴,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.3 统计图,不恰当的统计图形举例:纵轴无零点,第3章 数据的整理,3.4 统计表,2020年8月16日/上午11时2分,统计学第3章 数据的整理,3.4 统计表,统计表是纵横交叉的线条所绘制表现统计资料的一种表格形式。统计表是展示数据的基本工具。 通过统计表不仅能够将统计数据条理化地呈现出来,还可以通过同一张统计表中的数据之间的数量对等关系,来反映事物内部的相互关联,使原本单独杂乱的数据变为有序和清晰。 1统计表的构成 从形式上看,统计表由表头、行标题、列标题和数据4个主要部分内容组成。此外,在需要时做某些说明时,可以在表的上下端加上附注。,2020年8月16日/上午11时2分,统计学第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论