《数据收集和整理》PPT课件_第1页
《数据收集和整理》PPT课件_第2页
《数据收集和整理》PPT课件_第3页
《数据收集和整理》PPT课件_第4页
《数据收集和整理》PPT课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本章内容回顾,内容:统计与统计学统计学的分类统计学与其他学科的关系统计学产生与发展统计学在经济管理中的应用课后习题:,第二章数据收集和整理,数据(data)是统计分析的基础.本章主要介绍:数据的分类(类型);数据的来源(搜集方法);调查方案的设计;统计数据的质量要求.,二、统计数据的间接来源,公司内部保存2.专门从事数据收集的公司财经资讯:DowJones,4.有关网站:中国统计信息网:国研网:中国经济信息网:美国国家统计局:日本国家统计局:www.stat.go.jp/台湾统计局:.tw,本章小节,数据定义数据分类:定性资料:变量类别的名称和代码定量资料:对象数量的大小和多少原始数据收集(统计调查)已有数据来源,第二章课后作业,第三章数据资料的统计描述:,统计表与统计图,本章内容简介:数据分组与频数分布:定性资料定量资料频数数据的图示:定性资料定量资料软件介绍:EXCEL相关表与相关图,第一节数据分组与频数分布,统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。,预处理数据,分组,计算频数,描述统计,数据分组与频数分布,频数分布或次数分布(Frequencydistribution):全部数据按其分组标志在各组内的分布状况。分布在各组内的数据个数称为频数或次数。Afrequencydistributionisatabularsummaryofasetofdatashowingthefrequency(ornumber)ofitemsineachofseveralnonoverlappingclasses.相对频数(Relativefrequency)/频率/比重:各组频数与全部频数之和的比重。Therelativefrequencyofaclassistheproportionofthetotalnumberofdataitemsbelongingtotheclass.(=Frequencyoftheclass/n)百分数频数(Percentagefrequency):istherelativefrequencymultipliedby100.,概念:频数/次数分布;相对频数;百分数频数,(一)品质数据(定性数据)的分组与频数分布,例1:50个计算机购买者所购买的不同品牌的机型数据,Table,FrequencyDistribution/RelativeandPercentageFrequencyofComputerPurchasesCompanyFrequencyRelativeFrequencyPercentageFrequencyApple130.2626Compaq120.2424Gatewy200050.1010IBM90.1818PackardBell110.2222Total501.00100,分组与求频数:,Theobjectiveindevelopingafrequencydistributionistoprovideinsightsaboutthedatathatcannotbequicklyobtainedbylookingonlyattheoriginaldata.,分组计频基本步骤:确定组数确定组距(按组)整理成分布频数表例2:一会计事务所对其20家客户(clients)年底帐目辑核(audits)时间(天)统计如下表:,(二)数值(定量)数据的分组与频数分布,可先将数据进行排序,然后根据需要分组;对较少的数据也可不排序直接根据需要分组。,TableYear-EndAuditTimes(indays)1214191815151817202722232221332814181613,第一步,确定组数(Numberofclasses)。组数的确定一般视数据本身的特点及数据的多少而定。,经验上以520之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:,其中N为数据的个数(总体单位数或样本数),一般对结果取整数。,例7中:K=1+lg20/lg2=1+4.32=5.325,第二步,确定组距(Widthofclasses):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:组距=(最大值-最小值)/组数,例2中,组距=(33-12)/5=4.2,可取整数5为最后选定的组距。第三步,确定各组组限(Classlimits)并据此整理频数分布表。,1、分组所遵循的主要原则是“不重不漏”(eachdatavaluebelongstooneclassandonlyoneclass)。因此,最低组限(Thelowerclasslimit)数据的最小值,最大组限(Theupperclasslimit)数据的最大值;另外,数据在每组中的归属习惯上采用“上组限不在内”。,注意:,2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如610,1115,1620等);对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如5,10),10,15),15,20)等)。,例2是离散型数据(天),采用组限间断方法,因此可得频数分布表如下:Table,Frequencydistribution,relativefrequencyandpercentfrequencydistributionfortheaudit-timedataAuditFrequencyRelativePercentTime(days)FrequencyFrequency101440.2020151980.4040202450.2525252920.1010303410.055Total201.00100,1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用“XX以下”及“XX以上”这样的开口组;2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。,注意:,练习:频数分布表的编制,某电脑公司2002年前四个月各天的销售量数据(单位:台)。试对数据进行分组。,练习要求:编制等距分组的频数表写出分组步骤;编制频数表,频数分布表的编制(步骤),确定组数:根据Sturges提出的经验公式得组数K为:,确定各组的组距:组距(237-141)10=9.610,用Excel制作频数分布表,等距分组表,第二节频数分布的图示,定性数据往往使用条形图(Bargraphs)和饼状图(PieCharts);Fig1,BarGraphofComputerPurchases,频数分配的图示,数据的图示条形图(barChart),用宽度相同的条形的高度或长短来表示各类别数据的图形主要用于反映分类数据的频数分布绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,例,【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据,用Excel制作频数分布表,分类数据的图示条形图,数据的图示饼图,也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占3600的相应比例确定的,数据的图示饼图,数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎叶图(Stem-and-leafdisplay)。,直方图是用距形的宽度和高度来表示频数分布的图形(以横轴表示数据分组,纵轴表示频数或频率)。,(一)直方图和折线图,Fig2,HistogramfortheAudit-TimeData,注意:,1、对于等距分组的数据,可用距形的高度直接表示频数的分布;对于不等距分组的数据,用距形的面积(而不是高度)表示各组的频数分布。2、从本质上说,直方图应用频数密度来绘制,这样可使直方图总面积为1。,折线图也称频数多边形图(polygon),是将直方图顶部的中点(即组中值)用直线连接起来而成的图形。,Fig3,FrequencyPolygonfortheAudit-TimeData,1、折线图的两个终点要与横轴相交(将第一个矩形顶部中点通过左竖边中点连接到横轴;将最后一个矩形顶部中点与其右竖边中点连接到横轴)。2、折线图下所围成的面积与直方图面积相等(为1),从而使二者表示的频率分布是一致的。折线图也可用于表示累计频数分布,称为累计频数分布折线图。它是根据累计频数绘制而成的,有向上累计和向下累计两种图形。,注意:,100,100,软件演示,频数分布表及直方图,软件演示:频数分布及直方图,某百货公司连续40天的商品销售额(单位:万元)见book3.03。要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。,茎叶图是一种既给出数据的分布状况,又能显示每一个原始数值的图形。Astem-and-leafdisplaycanbeusedtorankorderdataandprovideanideaoftheshapeofthedistributionofasetofquantitativedata.茎叶图由两部分组成:茎(stem)与叶(leaf)茎:通常由每组数的高位数值(leadingdigits)形成,按组竖立在左边;叶:通常由每组数的低位数值(lastdigits)形成,按组横排在“茎”的右边。,(二)茎叶图,Fig4是上述例中会计公司对其20个客户年终财务审计所用时间的茎叶图。,Fig4,Stem-and-leafdisplayfortheAudit-TimeData12344556788892012237833,可知其对大多数客户的审计时间在1020天之间,上面茎叶显得过于拥挤,尤其是第一行有太多数,可将期扩展为Fig5的形式。,Fig5所表现的数据分布特征与Fig3的直方图十分相似。但茎叶图有明显优势:1.Thestem-and-leafdisplayiseasiertoconstruct;2.Thestem-and-leafdisplayprovidesmoreinformationbecauseitshowstheactualdatavalues.,Fig5,Stem-and-leafdisplayfortheAudit-TimeData1234415567888920122327833,(三)频数分布的类型,日常经济生活中,常见的频数分布曲线主要有正态分布、偏态分布、J型分布、U型分布等几种类型。其次还有双峰型、孤岛型及锯齿型等其他类型。,频数分布的应用:例3:80年代初,我国工业企业推行全面质量管理,某床单厂厂长曾对其生产的某种规格的床单进行抽检,并做了直方图。按长度质量标准,合格的床单长度为215cm,容许误差为3cm。对所抽取的100条床单进行统计,发现最长的达265cm,最短的为214cm,分组后的频数分布表及直方图如下:,频数分布表床单长度分组(cm)床单数(条)213218521822382232281622823332233238172382431224324852482530253258125826332632581Total100,直方图,直方图呈孤岛型,说明:1、本质上反映了两个总体,该两总体都遵从正态分布;其中95%的单位属一总体,5%的单位属另一总体。,2、根据长度质量标准,只有5%的床单在正常范围(在212218cm之间),而95%的床单均大于218cm,显然存在着对床单的长度“宁长勿短”的思想,因此造成浪费(上述100条床单总长度达233m,如果按照215cm的标准长度,可裁成108床,若按212cm长度可裁成110床)。,原因检查:为了提高生产水平,增加经济效益,厂长深入到裁剪长度工序了解情况,发现:床单的生产工序是在一大联匹布上,印上印花,由一位老女工手工量测并用剪刀裁剪。,基本的做法是:双手拉着床单量两下,然后下剪。在裁剪工序还有两位女工,目测检查所裁床单是否有残次花色及其他疵点。工作时,总以为手扯的长度可能会短,于是再目测一下,加一点长度再下剪;有时还会有一位检查残次的女工帮助裁剪,其误差更大,这就是“孤岛”产生的原因。,解决问题:在没有使用机器裁剪的情况下,厂长会同车间管理者一道要求裁剪时按下述做法进行:在保持用手扯两次,将要下剪时,将原来习惯上要下剪处用左手握拳,少裁一拳。一拳大约有15cm,这样,原来下100条的床单料,此时几乎可多裁出8床床单。既提高了床单合格率,又提高了经济效益。,补充:相关表和相关图,一、相关分析(一)相关关系的概念1函数关系它反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。如:圆的面积与半径之间的关系,即2相关关系它反映现象之间确实存在的,但关系数值不固定的相互依存关系。这一概念表明:(1)相关关系是指现象之间确实存在数量上的相互依存关系。(2)现象之间数量依存关系的具体关系值不是固定的。,(一)相关关系的概念,3相关关系与函数关系的联系由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。在研究相关关系时,又常常要使用函数关系的形式来表现,以便找到相关关系的一般数量表现形式。,(二)相关关系的种类,1.按相关的程度可分为完全相关、不完全相关和不相关。2.按相关的方向可分为正相关和负相关。3.按相关的形式可分为线性相关和非线性相关。,各类相关关系的表现形态图,(四)相关表和相关图,1相关表相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。例1:某地区某企业近8年产品产量与生产费用的相关情况如表1所示:,表1产品产量与生产费用相关表,从上表可看出,产品产量与生产费用之间存在一定的正相关关系。,2相关图,相关图又称散点图,它是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。例2:以表1为例,用EXCEL绘制相关图如下,产品产量与生产费用相关图,第三章小结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论