统计数据整理_第1页
统计数据整理_第2页
统计数据整理_第3页
统计数据整理_第4页
统计数据整理_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章 统计数据的整理统计数据的整理第一节第一节 统计整理概述统计整理概述 一、统计整理概念一、统计整理概念 统计数据的整理(统计数据的整理(summarizing data)summarizing data)是指是指对所搜集的数据进行加工整理、使之系统化、条对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。理化,以符合分析的需要。包括对包括对原始资料原始资料的整理和的整理和次级资料次级资料的整理的整理 统计资料的整理是实现从个体单位标志值过统计资料的整理是实现从个体单位标志值过渡到总体数量特征值的必经阶段,是统计分析的渡到总体数量特征值的必经阶段,是统计分析的前提。前提

2、。二、统计整理的程序二、统计整理的程序(一)设计统计整理方案(二)对统计资料进行审核(三)统计资料的分组与汇总(四)编制统计图表(五)统计资料的积累和保管 统计资料具体整理过程统计资料具体整理过程统计数据的具体整理过程统计数据的具体整理过程主要包括包主要包括包括括数据的预处理、分类或分组、汇总数据的预处理、分类或分组、汇总等几等几个方面。个方面。一、数据的预处理一、数据的预处理 主要包括:数据的主要包括:数据的审核、筛选、排队审核、筛选、排队 (一)、数据的审核与筛选(一)、数据的审核与筛选(一)、数据的审核与筛选(一)、数据的审核与筛选审核审核: 对第一手资料第一手资料(直接调查或试验取得)

3、:审核其完整性完整性与准确性准确性 完整性完整性审核:应调查的单位或个体是否有遗漏;所调查的项目是否填齐全。 准确性准确性审核:内容是否符合实际;计算是否正确。 对对第二手资料第二手资料(获取他人的资料):审(获取他人的资料):审核其核其完整性完整性、准确性、适用性、时效性准确性、适用性、时效性筛选:筛选: 调查结束后,当对数据中发现的错误不调查结束后,当对数据中发现的错误不能予以纠正,或者有些数据不符合调查的要能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。求而又无法弥补时,就需要对数据进行筛选。 筛选筛选包括:剔除不符合要求的数据或有包括:剔除不符合要求的数据

4、或有明显错误的数据;将符合特定条件的数据筛明显错误的数据;将符合特定条件的数据筛选出来。选出来。 (二)数据的排序(二)数据的排序数据排序数据排序是按一定顺序将数据排列。排序目的:排序目的:通过浏览数据发现一些明显的特征趋势或解决问题的线索;有助于数据的检查纠错。排序方式:排序方式:数字型数据/字母型数据 :升序或降序; 汉字型数据:多种顺序 , 比如:拼音字母顺序或笔划顺序 。第二节第二节 统计分组统计分组一统计分组的概念与种类1、统计分组的概念统计分组统计分组是将预处理过的数据按照某种标志(特征或标准)分成不同性质的组。统计分组标志统计分组标志:分组时所依据的特征或标准,有品质标志品质标志

5、和数量标志数量标志。统计分组对总体总体而言是分分,对于单位单位而言是合合。由此可见,选择一种分组方法,突出一种差异,显示了一种矛盾,同时必然掩盖了其他差异。不同的分组方法,可能得出不同的结论。、统计分组的原则、统计分组的原则穷尽性原则穷尽性原则互斥性原则互斥性原则、统计分组的种类、统计分组的种类(1)按分组标志的多少多少,分为简单分组简单分组和复合分组复合分组。(2)按分组标志的性质性质不同,分为品质标品质标志分组志分组(或称属性分组)和数量标志分数量标志分组组(或称变量分组)(3)按分组的作用和任务作用和任务的不同,分为类类型分组型分组、结构分组结构分组和分析分组分析分组。二统计分组的方法二

6、统计分组的方法 1、品质标志的分组方法、品质标志的分组方法 关键是确定分组标志确定分组标志。一般比较简单,主要采用统一的分类标准。品质标志划分各组界限一般取决于统计分析对各组粗细的要求。但也要注意变异间的过度形态,是组限不易划分。例城乡划分。 2、数量标志的分组方法数量标志的分组方法 关键是确定分组标志确定分组标志和确定分组界限确定分组界限。分组数列的种类分组数列的种类: 分组数列离散型连续型单项式组距式等距数列异距数列等距数列异距数列 2、数量标志的分组方法数量标志的分组方法 (1)单项式分组与组距式分组 单项式分组单项式分组适用于离散型变量离散型变量且变量变动范围不大的场合。比如育龄妇女按

7、其生育子女存活数分组。 组距式分组组距式分组适合于连续型变量连续型变量或者变动范围较大的离散型变量。(2)间断组距式分组和连续组距式)间断组距式分组和连续组距式分组分组 如果变量值只是在整数整数间变动,可采用间断组距式分组间断组距式分组,也可采用连续组距式连续组距式分组分组。比如企业数、职工人数等。 如果变量值在一定范围内的表现既可以是整数整数,也可以是小数小数,只能采用连续连续组距式分组组距式分组。比如产值、身高、体重。 注意:“上限不在内上限不在内”原则的应用。(3)等距分组与异距分组)等距分组与异距分组 等距分组等距分组适用: 标志值变动比较均匀均匀的情况。 异距分组异距分组适用: 标志

8、值分布很不均匀很不均匀的场合; 标志值相等的量具有不同意义不同意义的场合; 标志值按一定的比例发展变化比例发展变化的场合。(4)组距、组数、组限与组中值的计算)组距、组数、组限与组中值的计算 组距组距=上限-下限= 本组上限-前组上限 =本组下限-前组下限 组数组数的确定: 经验上经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。 组数组数的确定:实际分组实际分组时常按斯特格斯(sturges)提出的经验公式来确定组数k:组中值组中值计算:组中值=(上限+下限)/2n210n10lg322. 31 loglog1k或 一、频数分布的基本概念一、频数分布的基本概念 (一

9、)频数频数:对分组后的数据,计算各组中数据出现的次数叫频数。 (二)分布数列的两个要素 一个是总体按某种标志所分的组组,另一个是各,另一个是各组对应所出现的组对应所出现的次数次数。预处理数据分组分组计算频数计算频数描述统计第三节第三节 频数分布频数分布 频数分布频数分布或次数分布次数分布(frequency distributionfrequency distribution) ):全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数频数或次数次数。 a frequency distributionfrequency distribution is a tabular su

10、mmary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.相对频数相对频数(relative relative frequencyfrequency)/频率频率/ /比重比重:各组频数与全部频数之和的比值。 the relative frequencyrelative frequency of a class is the proportion of the total number of data items belonging to

11、the class.(=frequency of the class/n) 百分数频数百分数频数(percentage (percentage frequency)frequency):is the relative frequency multiplied by 100.二二、 分配数列的编制分配数列的编制 (一)、品质数据的分组与频数分布(一)、品质数据的分组与频数分布 例例1:501:50个计算机购买者所购买的不同品牌的机型数据个计算机购买者所购买的不同品牌的机型数据t able, data from a sample of 50 computer purchases(11/15,199

12、4)ibmibmpackard bellcompaqibmpackard bellgateway200packard bellcompaqcompaqgateway200packard bellibmapplecompaqibmpackard bellappleapplecompaqgateway2000compaqpackard bellcompaqcompaqapplepackard bellpackard bellappleibmibmappleapplegateway2000packard bellappleappleibmappleibmpackard bellapplecompaq

13、applecompaqpackard bellgateway200compaqapplecompaq 分组与求频数分组与求频数 :table,table, frequency distribution/relative and percentage frequency distribution/relative and percentage frequency of computer purchasesfrequency of computer purchases company frequency relative percentagecompany frequency relative p

14、ercentage frequency frequency frequency frequency apple 13 0.26 26 compaq 12 0.24 24 gatewy2000 5 0.10 10 ibm 9 0.18 18 packard bell 11 0.22 22 total 50 1.00 100the objectivethe objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by

15、looking only at the original data.(二)(二)、数值数据的分组与频数分布、数值数据的分组与频数分布 对数值数据(或按数值标志)分组时,可先先将数据进行排序排序,然后后根据需要分组分组;对较少的数据也可不排序直接根据需要分组。 分组计频分组计频基本步骤基本步骤: 确定组数确定组数 确定组距确定组距 (按组)整理成分布频数表整理成分布频数表 例例2 2:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表:tabletable year-end audit times(in days)year-end audit times

16、(in days) 12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13 第一步第一步,确定组数确定组数(number of classes)。组数的确定一般视数据本身的特点及数据的多少而定。 按照前面所提,可采用斯特格斯(sturges)提出的经验公式来确定组数k:其中n为数据的个数(总体单位数或样本数),一般对结果取整数。例2中k=5。 n210n10lg322. 31 loglog1k或 第二步第二步,确定组距确定组距(width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的

17、组数来确定: 组距=(最大值 - 最小值)/组数例2中,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。 第三步,第三步,确定各组组限确定各组组限(class limits)(class limits)并据此整理频数分布表并据此整理频数分布表。 注意:注意: 1 1、分组所遵循的主要原则主要原则是“不重不不重不漏漏”(each data value belongs to one class and only one class)。因此, 首先,最低组限最低组限(the lower class limit)应等于或小于数据的最小值,最大组限最大组限(the upper class

18、limit)应等于或大于数据的最大值; 其次,对数据在每组中的归属习惯上采用“上组限不在内上组限不在内”。 注意:注意: 最后,确定组限应遵循的原则原则: 一一是各组组限应将总体中事物质的差异区分开来。 二二是按所确定的组限编制的变量数列应能真实地反映总体内部分布的特征。注意:注意:3 3、对离散型数据离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如610,1115,1620等); 对连续型数据连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如510,1015,1520等)。 例2是离散型数据(天),采用组限间断方法,因此可得频数分布表如下: tab

19、letable, frequency distribution, relative frequency distribution, relative frequency and percent frequency distribution frequency and percent frequency distribution for the audit-time datafor the audit-time data audit frequency relative percent audit frequency relative percent time(days) frequency f

20、requencytime(days) frequency frequency 1014 4 0.20 20 1519 8 0.40 40 2024 5 0.25 25 2529 2 0.10 10 3034 1 0.05 5 total 20 1.00 100 注意:注意: 1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用“xx以下”及“xx以上”这样的开口组开口组; 2、在组距分组时,如果各组组距相等则称为等距分组等距分组,否则为不等距分组不等距分组。 不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度频数密度(=频数/组距),才能准确反映频数分

21、布的实际; 3、有时为了统计需要,需进一步计算累积频累积频数数(某数值以上或以下的频之数和)。三、累计频数和累计频率三、累计频数和累计频率累计频数(频率)有向上累计向上累计和向下累计向下累计。 例3 某班学生统计学考试成绩考分 频数 频率 向上累计 向下累计 频数 频率% 频数 频率 % 5060 2 5.0 2 5.0 40 100.06070 7 17.5 9 22.5 38 95.0 7080 11 27.5 20 50.0 31 77.58090 12 30.0 32 80.0 20 50.090100 8 20.0 40 100.0 8 20.0四、次数分布的图示四、次数分布的图示品

22、质数据品质数据往往使用条形图条形图(bar graphs)和饼状图饼状图(pie charts);数值数据数值数据往往使用直方图直方图(histograms)、折线图折线图(polygon)、茎叶图茎叶图(stem-and-leaf display) 。fig1, bar graph of computer purchasesfig1, bar graph of computer purchases024681 01 21 4a pplec om paqgatew ay2000ib mp ackard b ellfrequency( (一一) )、直方图和折线图、直方图和折线图 1、直方图直方

23、图是用距形的宽度和高度来表示频数分布的图形(以横轴表示数据分组,纵轴表示频数或频率)。 注意:注意: 1)1)、对于等距分组等距分组的数据,可用距形的高度高度直接表示频数的分布;对于不等距不等距分组分组的数据,用距形的面积面积(而不是高度)表示各组的频数分布。 2 2)、)、从本质上说,直方图应用频数密度频数密度来绘制,这样可使直方图总面积为1。fig 2, histogram for the audit-time fig 2, histogram for the audit-time datadata 10 8 6 4 2 10 15 20 25 30 352 2、折线图:折线图:也称频数多

24、边形图频数多边形图(polygon),它是将直方图顶部的中点(即组中值)用直线连接起来而成的图形。fig 3, frequency polygon for the audit-fig 3, frequency polygon for the audit-time datatime data 108 6 4 2 10 15 20 25 30 35 注意:注意: 1)、折线图的两个终点要与横轴相折线图的两个终点要与横轴相交交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点与其右竖边中点连接到横轴)。 2)、折线图下所围成的面积与直方折线图下所围成的面积与直方图面积相等图面积相

25、等(为1),从而使二者表示的频率分布是一致的。折线图折线图也可用于表示累计频数分布累计频数分布,称为累计频数分布折线图累计频数分布折线图。它是根据累计频数绘制而成的,有向上累计向上累计和向下累计向下累计两种图形。100100(二 )茎叶图茎叶图 茎叶图茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。 a stem-and-leaf displaystem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of

26、quantitative data. 茎叶图由两部分组成茎叶图由两部分组成: 茎(茎(stemstem)与叶(叶(leafleaf)茎:茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边;叶:叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。fig4fig4是上述例中会计公司对其20个客户年终财务审计所用时间的茎叶图,可知其对大多数客户的审计时间在1020天之间。fig 4, stem-and-leaf display for the fig 4, stem-and-leaf display for the audit-time da

27、taaudit-time data 1 2 3 4 4 5 5 6 7 8 8 8 9 2 0 1 2 2 3 7 8 3 3 上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为fig5的形式。 fig 5, stem-and-leaf display fig 5, stem-and-leaf display for the audit-time data for the audit-time data 1 2 3 4 4 1 5 5 6 7 8 8 8 9 2 0 1 2 2 3 2 7 8 3 3 可以看出,fig5所表现的数据分布特征与fig3的直方图十分相似。但茎叶图有明明显优势

28、显优势: 1. the stem-and-leaf display is easier to construct; 2. the stem-and-leaf display provides more information because it shows the actual data values. 五、频数分布的类型五、频数分布的类型 日常经济生活中,常见的频数分布曲线主要有正态分布正态分布、偏态分布、偏态分布、j j型分布、型分布、u u型分布型分布等几种类型等几种类型(见下图)。其次还有双峰型双峰型、孤孤岛型岛型及锯齿型锯齿型等其他类型。()正态分布()正态分布()偏态分布()偏态

29、分布正偏(右偏)负偏(左偏)正正j型分布型分布反反j型分布型分布()()u型分布型分布()() j型分布型分布(e)孤岛型 (f)双峰型(g)锯齿型练习题:练习题:40个学生的高等数学测验成绩如下(单位:分) 42 54 58 65 68 78 63 84 75 91 72 45 73 81 84 64 78 69 70 88 56 73 80 83 85 82 87 73 80 87 95 89 82 75 89 95 82 90 87 74 要求要求:1、对资料进行分组 2、描绘次数分布直方图折线图 3、描绘向上累计频率分布曲线图 4、用累计频率曲线求出超过学生人数25%的成绩区间频数分布

30、的应用:频数分布的应用: 例例4 4:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的床单进行抽检,并做了直方图。 按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下: 频数分布表 床单长度分组(cm) 床单数(条) 213218 5 218223 8 223228 16 228233 32 233238 17 238243 12 243248 5 248253 0 253258 1 258263 3 263258 1 total 100直方图直方图

31、 32 212 218 16 17 12 8 5 5 3 1 1 213 218 223 228 233 238 243 248 253 258 263 268 直方图呈孤岛型,说明直方图呈孤岛型,说明: 1 1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属一总体,5%的单位属另一总体。 2 2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95%的床单均大于218cm,显然存在着对床单的长度“宁长毋短”的思想,因此造成浪费(上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。 原因检

32、查:原因检查: 为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情况,发现: 床单的生产工序是在一大联匹布上,印上印花,由一位老女工手工量测并用剪刀裁剪。 基本的做法是:双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否有残次花色及其他疵点。 工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是“孤岛”产生的原因。 解决问题:解决问题: 在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行: 在保持用手扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。 一

33、拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又提高了经济效益。第四节 绝对数指标概念概念总量指标是反映社会经济现象总量指标是反映社会经济现象总规模、总总规模、总水平的水平的 总和指标。总和指标。作用作用 (1)反映国情、国力和企事业单位人、财、物)反映国情、国力和企事业单位人、财、物的状况;的状况;(2)是国民经济宏观管理和企业经济核算的基础)是国民经济宏观管理和企业经济核算的基础性指标,是实行目标管理的工具;性指标,是实行目标管理的工具;分类分类 按反映总体的内容分按反映总体的内容分按反映的时间状态分按反映的时间状态分 (1)社会总产品,)社

34、会总产品, (2)增加值,)增加值, (3)国内生产总值()国内生产总值(gdp) 按计量单位分按计量单位分国民经济统计中几个重要的生产总量指标国民经济统计中几个重要的生产总量指标标志总量标志总量总体单位总数总体单位总数时期总量时期总量时点总量时点总量实物量实物量劳动量劳动量价值量价值量概念概念 相对指标是两个有联系的指标对比的比值,相对指标是两个有联系的指标对比的比值,反映事物的数量特征和数量关系。反映事物的数量特征和数量关系。作用作用 (1)反映总体内在的结构特征)反映总体内在的结构特征 (2)用于不同对象的比较评价)用于不同对象的比较评价 (3)反映事物发展变化的过程和趋势)反映事物发展

35、变化的过程和趋势种类种类计划完成相对数计划完成相对数结构相对数结构相对数比例相对数比例相对数比较相对数比较相对数强度相对数强度相对数动态相对数动态相对数不同时期不同时期比比 较较动动 态态相对数相对数强强 度度相对数相对数不同现象不同现象比较比较不同总体不同总体比较比较比比 较较相对数相对数同一总体中同一总体中部分与部分部分与部分比比 较较部分与总体部分与总体比比 较较实际与计划实际与计划比比 较较比比 例例相对数相对数结结 构构相对数相对数计划完成计划完成相对数相对数同一时期比较同一时期比较同类现象比较同类现象比较第六节第六节 统计表和统计图统计表和统计图一、统计表的概念一、统计表的概念将一

36、系列说明总体特征的统计资料统计资料,按一定的次序和格式列在一份表上就是统计表二、统计表的结构与种类二、统计表的结构与种类(一)统计表结构(一)统计表结构从表的形式形式上看,由总标题总标题、横行标题横行标题、纵栏标题纵栏标题和数字资料数字资料构成。总标题总标题:是统计表的名称,它扼要地说明该表的基本内容基本内容,并指明时间和范围。放在表的上方。上方。横行标题横行标题:是横行的名称,主要是所研究问题的类别名称类别名称,一般放在表格的左方左方。纵栏标题纵栏标题:是纵栏的名称,主要是所研究问题的指标名称指标名称,一般放在表格的上方上方。指标数值指标数值:说明总体特征的各项指标值指标值,它是统计表的核心

37、内容。 从内容上内容上看,统计表由主词栏主词栏和宾词栏宾词栏两个部分组成。 主词:主词:是指被研究的总体总体及其分组分组。结合表的形式,也就是说主词实际就是横横行标题行标题。 宾词:宾词:是说明总体特征的统计指标统计指标,既包括统计指标的名称名称,也包括统计指标的数值数值。 结合表的形式,宾词宾词包括纵栏标题纵栏标题和数字资料数字资料。某市某市2001、2002年国内生产总值年国内生产总值 指标 单位 2001年 2002年 2002年比 2001年增长% gdp 万元 622051 505774 18.7第一产业 万元 64385 60782 6.9第二产业 万元 334301 258651 23.7第三产业 万元 223365 186331

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论