




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章统计数据的整理与显示第3章统计数据的整理与显示1统计整理是根据统计研究的目的,将统计调查所得到的原始资料(也称初级资料)进行科学的分类和汇总,或对已经经过加工的综合资料(也称次级资料)进行再加工,为统计分析准备系统化的、条理化的、能够反映总体特征的综合资料的工作过程。例如,某班50名学生,调查其考分资料如下:7765835668709965737288667463718462528078847981645882766273758979616554928673685169647863766872778176上述这些考分(原始资料)的特点是零星分散、不系统、无规律,不能反映学生总体的学习情况。统计整理是根据统计研究的目的,将统计调查所得到的原始资料(也2按考分分组(分)学生人数(人)60以下60~7070~8080~9090~10051518102合计50由表3-1可见,整理后的学生考分资料,较整理前的考分资料明显要条理、系统。由上表可见,在学生总体中,60分以下和90分以上的学生人数都较少,绝大多数学生的考分分布在60—89分之间。表3-1
所以,统计整理是统计调查的继续,是统计分析的前提,它实现了从个别单位的标志表现(标志值)向总体综合指标的过渡,在统计研究中起着承前启后重要的作用。按考分分组(分)学生人数(人)60以下5合3统计数据的整理与显示3.1统计数据的整理程序
3.2品质数据的整理与显示
3.3数值型数据的整理与显示3.4次数分布及其类型3.5统计表与统计图统计数据的整理与显示3.1统计数据的整理程序4学习目标充分认识统计整理在统计研究中的承前启后的地位;掌握统计数据的整理和显示方法,特别是分组与变量数列的编制;了解统计表和统计图的构成和展示,能实际设计统计表和统计图。学习目标充分认识统计整理在统计研究中的承前启后的地位;5统计数据整理的程序1.制定整理方案(汇总方案);2.对调查资料进行审核和纠正等(预处理);3.进行统计分组(关键);4.进行统计汇总;5.汇总后审核;6.编制统计表,绘制统计图,显示整理结果。统计数据整理的程序1.制定整理方案(汇总方案);6
根据统计调查目的,获得统计资料的整理流程计划:一是对总体资料的处理方法,如如何分组;二是确定用哪些具体的统计指标来说明总体。一、制定统计整理方案一、制定统计整理方案7数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序二、数据的预处理数据的审核二、数据的预处理8(1)统计资料的审核资料的审核
原始资料完整性准确性逻辑检查计算检查二手资料适用
时效(1)统计资料的审核资料的审核原始资料完整性准确性逻辑检查9审核对第一手数据:(1)完整性审核:检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全(2)准确性审核:
真实性:检查数据是否真实反映客观实际情况,内容是否符合实际——逻辑检查正确性:检查数据是否有错误,计算是否正确等——计算检查(定量数据)
审核对第一手数据:10审核对第二手数据:完整性:准确性:适用性:数据的来源、口径以及有关背景资料;时效性:尽可能使用最新的数据。审核对第二手数据:11(2)数据筛选当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。数据筛选的内容:将某些不符合要求的数据或有明显错误的数据予以剔除;将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。(2)数据筛选当数据中的错误不能予以纠正,或者有些数据不符合12(3)数据的排序(3)数据的排序13数据的排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成。数据的排序按一定顺序将数据排列,以发现一些明显的特征或趋势,14定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分定距和定比数据的排序递增排序:设一组数据为X1,X2,…,XN,递增排序后可表示为:X(1)<X(2)<…<X(N)递减排序可表示为:X(1)>X(2)>…>X(N)定类数据的排序15
(五).汇总后审核:审核汇总工作质量,汇总过程有无差错。主要四种方法:一是复计审核;二是表表审核;三是表实审核;四是对照审核。(五).汇总后审核:16三.统计分组分组前分组后统计分组就是根据统计研究的目的和被研究现象的本质特征,将统计总体按照一定的标志划分为若干性质不同的部分或组。三.统计分组分组前分组后统计分组就是根据统计研究的目的和被研17.
.
统计分组是在总体内部进行的一种定性分类,它客观上把总体划分为一个个性质不同,范围更小的总体。统计分组有两个方面的含义,即:统计分组对总体而言即将总体区分为性质不同的若干组成部分是“合”即将性质相同的总体单位合为一组是“分”对单位而言..统计分组是在总体内部进行的一种定性分类,它18.
1、统计分组的作用划分现象的类型(区分事物的类型);研究总体的结构(构成)或比例关系;分析(探讨)现象之间的依存关系。
注意:统计分组是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。
2、统计分组的原则穷尽原则互斥原则.1、统计分组的作用划分现象的类型(区分事物的类型);19揭露社会经济现象的类型,反映各类型的特点。
⑴类型分组类型1999年2000年2001年2002年农业14106.213873.614462.814931.5林业886.3936.5938.81033.5牧业6997.67393.17963.18454.6渔业2539.02712.62815.02971.1合计24519.124915.826179.627390.8例单位:亿元揭露社会经济现象的类型,反映各类型的特点。⑴类型分组类20说明社会经济现象的内部结构。⑵结构分组说明社会经济现象的内部结构。⑵结构分组21例年份19961997199819992000第一产业20.419.118.617.615.9第二产业49.550.049.349.450.9第三产业30.130.932.133.033.2合计100.0100.0100.0100.0100.0“九五”期间我国国内生产总值构成(%)例年份19961997199819992000第一产业22研究经济现象之间的依存关系。⑶分析分组研究经济现象之间的依存关系。⑶分析分组23例耕作深度分组(cm)地块数平均收获率(斤/亩)10-12740012-141046014-161654016-1818-20125620680某乡某种农作物的耕作深度与收获率的关系例耕作深度分组(cm)地块数平均收获率(斤/亩)10-1224.
.
3、统计分组的种类
(一)按分组标志的多少不同
(二)按分组标志的性质不同简单分组品质分组数量(变量)分组复合分组..3、统计分组的种类25.
4、统计分组的方法
分组标志的选择:选择分组标志是统计分组的核心问题,必须根据统计研究的目的选择分组标志。品质分组:是按品质标志进行的分组。国民经济按产业分组:第一产业第二产业第三产业人口按性别分组:男性女性用文字来表示各组性质上的差别.4、统计分组的方法26.
.
数量分组数量分组的概念单项式分组与组距式分组
进行组距式分组时应注意的问题..数量分组27.
.
数量分组是按数量标志进行的分组。数量分组的概念例如,学生按考分分组(分)用数量来表示各组性质上的差别60以下60~7070~8080~9090以上..数量分组是按数量标志进行的分组。数量分组的概28.
.
(1)单项式分组:即在变量分组中,一个组只有一个变量值。单项式分组与组距式分组
适用条件:
它适用于当变量值变化范围不大、不同变量值个数较少的离散型变量的场合。例如:居民家庭按子女数分组:0123(离散型变量)..(1)单项式分组:即在变量分组中,一个组只有29(2)组距式分组:就是将变量依次划分为几段区间,一段区间表现为从“……到……”距离,把一段区间内的所有变量值归为一组。区间的距离就是组距。例如:企业按人数分组499及以下500~9991000~29993000及以上工人按工资分组600~700700~800800~12001200~1500适用条件:
它适用于变量值变化范围较大、不同变量值个数较多的离散型变量及连续型变量的场合。(离散型变量)(连续型变量)注意:连续型变量的数值不能一一列举,故其只能采用组距式分组。(2)组距式分组:就是将变量依次划分为几段区间,一段区间表现30进行组距式分组时应注意的问题(1)组限及划分方法
(2)等距分组与不等距分组(3)组中值进行组距式分组时应注意的问题(1)组限及划分方法31499及以下500~9991000~29993000及以上600~700700~800800~12001200~1500(1)组限及划分方法
组限:确立每组界限的两个数字。其中,每组最大变量值称为上限,每组最小变量值称为下限。工人按工资分组:(连续变量)企业按人数分组:(离散变量)(重叠组限)(不重叠组限)499及以下600~700(1)组限及划分方32组限的划分方法:组限的划分方法不重叠组限重叠组限(只适用于离散型变量)(适用于连续型变量和离散型变量.)重叠组限:不重叠组限:即相邻两组的上下限为同一个数值。即相邻两组的上下限为两个不同的确定数值。故当某单位的变量值刚好等于相邻两组的上下限时,一般把此值归到作为下限的那一组中,即遵循“上限不在其内”的原则。组限的划分方法:组限的划分方法不重叠组限重叠组限(只33.
.
企业按人数分组:499及以下500~9991000~29993000及以上(不重叠组限)企业按人数分组:500以下500~10001000~30003000及以上(重叠组限)..企业按人数分组:499及以下34.
.
(2)等距分组与不等距分组
组距分组等距分组不等距分组例如:按身高、考分分组等,应采用等距分组。它便于各组间单位数与变量值的直接对比和各项指标计算。适用场合:等距分组:即各组组距相同的分组。凡是在变量值分布比较均匀时采用。组距:每组变量值的变动范围,即组距=上限–下限
..(2)等距分组与不等距分组35不等距分组:即各组组距不都相等的分组。适用场合:当变量值分布很不均匀时采用。不等距分组多数是根据事物性质变化的数量界限来确定组距,如人口按年龄分组。要注意不同年龄生理变化的特点,可分为:1岁以下;1~6岁;7~12岁;13~18岁;19~59岁;60岁以上。年龄段工人按工资分组(元)
600~700700~800800~12001200~1500不等距分组:即各组组距不都相等的分组。适用场合:当变量值分布36.
(3)组中值
组中值是指组距数列中各组上限和下限之间的中点数值。注意:组中值经常用来代表各组标志值的平均水平,但要假定各组内标志值呈均匀分布。按考分分组50~6060~7070~8080~9090~100
55
75
658595组中值人数51518102.(3)组中值37.
.
若第一组出现“×××以下”或最末组出现“×××以上”字样的组叫做开口组。首组组中值=首组上限–相邻组组距的一半=末组下限+相邻组组距的一半末组组中值50–10/2100+10/2例如:.首组:末组:按考分分组组中值50~605560~706570~807580~908590~1009550以下100以上45105..若第一组出现“×××以下”或最末组出现“×38年均收入(元)频数(村)600—4000114000—5000355000—6000146000—100001610000—2500012合计88年均收入(元)频数(村)<4000114000—5000355000—6000146000—1000016>1000012合计88或例:某地区农户收入分布年均收入(元)频数(村)600—4000114000—50039编制:1、单变量数列还是组距式数列:变量的性质及变异程度离散型变量且变异小:单变量数列离散型变量但变异大或连续型变量:组距式数列例如:按以五分制计分的成绩对全班100名学生进行分组,宜单变量数列;按以百分制计分的成绩对全班100名学生进行分组,宜组距式数列;例如:按身高对全班100名学生分组,只能组距式数列。编制:402、等距数列还是异距数列:变量分布的特征当分布值很不均匀时,一般采用异距数列。如学生成绩一般密集于某一区间,低于这一区间的学生为少数,高于这一区间的学生也为少数。合理的做法是在密集区间内使用较短的组距,在稀少区间内使用较长的组距。当等量的标志值不具有相同的意义时,一般采用异距数列。如:对新生儿和成人的年龄,同样的一年或一月,其意义是不同的。进行人口疾病研究的年龄分组时,一般1岁以下按月分组,1-10岁按年分组,11-20岁按5年分组……当标志值按一定比例发展变化:某些时候采用公比为10的不等距分组。如商场按营业额分组为:5万元以下、5—50万元、50—500万元、500—5000万元……2、等距数列还是异距数列:变量分布的特征413、开口数列还是闭口数列:极端变量值偏离分布中心的程度。极端变量值(极大值或极小值)远离分布中心:开口数列极端变量值(极大值或极小值)接近分布中心:闭口数列例如:成绩:20分1人、55分1人、58分3人、60—70分10人……80—90分30人、91分3人、92分2人、95分1人最小组:“<60分”优于“20—60分”(实际平均分49.8分)最大组:“90—95分”优于“>90分”(实际平均分92分)同时兼顾习惯。统计数据的整理及其显示42四、统计汇总频数:各组内的总体单位数频率:各组内总体单位数占总体全部单位数的比率累计频数(率):各组的频数(率)累计加和向上累计制:由标志值较小组向较大组累计。每一组的累计次数表示小于该组下限(变量)值的次数共有多少。向下累计制:由标志值较大组向较小组累计。每一组的累计次数表示大于该组下限(变量)值的次数共有多少。四、统计汇总频数:各组内的总体单位数43例考分次数向上累计向下累计
人数(人)比率(%)人数(人)比率(%)人数(人)比率(%)50-6025.025.040100.060-70717.5922.53895.070-801127.52050.03177.580-901230.03280.02050.090-100820.040100.0820.0合计40100.04010040100某班统计学考试成绩次数分配例次数向上累计向下累计
人数(人)比率(%)人数(人44
审核汇总工作质量,汇总过程有无差错。主要四种方法:一是复计审核;二是表表审核;三是表实审核;四是对照审核。五、汇总后审核五、汇总后审核453.2品质数据的整理与显示3.2品质数据的整理与显示46数据的整理与显示的基本问题要弄清所面对的数据类型;不同类型的数据,处理方式和方法不同。适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。数据的整理与显示的基本问题要弄清所面对的数据类型;47品质数据的整理与显示3.2.1定类数据的整理与显示3.2.2定序数据的整理与显示品质数据的整理与显示3.2.1定类数据的整理与显示48定类数据的整理的基本过程2.计算各类别的频数;3.制作频数分布表;分类频数比例百分比比率ABCDE列出各类别;4.用图形显示数据;定类数据的整理的基本过程2.计算各类别的频数;49定类数据的整理(可计算的统计量)频数(frequency):落在各类别中的数据个数。比例(proportion):某一类别数据占全部数据的比值。百分比(percentage):将对比的基数作为100而计算的比值。比率(ratio):不同类别数值的比值。频数分布:也叫次数分布,就是把各个类别及落在其中的相应频数全部列出,并用表格的形式表现出来。
定类数据的整理(可计算的统计量)频数(frequency)50按品质标志分组形成的频数分布某厂职工人数统计表按性别分组男职工女职工合计人数(人)(频数)比例(%)(频率)25311536868.7531.25100.00按品质标志分组形成的频数分布某厂职工人数统计表按性别分组男51定类数据整理—频数分布表【例1】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次。右边就是记录的原始数据。绿色健康饮品定类数据整理—频数分布表【例1】一家市场调查公司为研究不同品52一、定类数据整理—频数分布表
【例3.1】为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是“您比较关心下列哪一类广告?”1.商品广告;2.服务广告;3.金融广告;4.房地产广告;5.招生招聘广告;6.其他广告。表3-1某城市居民关注广告类型的频数分布
广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100一、定类数据整理—频数分布表
【例3.1】为研究广告市场的状53定类数据的图形显示1、条形图(barchart)通过宽度相同的条形的高度或长短来比较各类别数据的图形有单式条形图、复式条形图等形式主要用于反映分类数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(columnchart)定类数据的图形显示1、条形图(barchart)54定类数据的图示—条形图人数(人)5191610211204080120
商品广告
服务广告
金融广告
房地产广告
招生招聘广告
其他广告广告类型
图3-1某城市居民关注不同类型广告的人数分布定类数据的图示—条形图人数(人)5191610211204055定类数据的图示2、饼图(piechart)也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占3600的相应比例确定。定类数据的图示2、饼图(piechart)56定类数据的图示—圆形图
其他广告1.0%
房地产广告8.0%
商品广告56.0%
金融广告4.5%
服务广告25.5%
招生招聘广告5.8%图3-2某城市居民关注不同类型广告的人数构成定类数据的图示—圆形图其他广告1.0%房地产广告8.573.2.2定序数据的整理可计算的统计量:
对于定序数据,除了可用定类数据整理和显示的方法之外,还可以计算:1.累积频数(cumulativefrequencies):各类别频数的逐级累加。2.累积频率(cumulativepercentages):各类别频率(百分比)的逐级累加。3.2.2定序数据的整理可计算的统计量:58.
.
在研究次数和频率的分布时,常需要编制次数或频率的累计分布数列。1.向上累计:是指将各组次数或频率由变量值低的组向变量高的组累计。2.向下累计:是指将各组次数或频率,由变量值高的组向变量值低的组逐组累计。如:表3-2
.累计分布有向上累计和向下累计两种:如:表3-2
...在研究次数和频率的分布时,常需要编制次数或59二、定序数据频数分布表【例3.2】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————二、定序数据频数分布表【例3.2】在一项城市住房问题的研究中60表3-3乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.0————表3-3乙城市家庭对住房状况评价的频数分布回答类别乙61顺序数据的图示—累计频数分布图243001322252700100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(a)向上累积27616830300750100200300400
非常不满意
不满意
一般
满意
非常满意累积户数(户)(b)向下累积甲城市家庭对住房状况评价的累积频数分布顺序数据的图示—累计频数分布图24300132225270062环形图环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示;与饼图类似,但又有区别:饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究;用于展示分类和顺序数据。环形图环形图中间有一个“空洞”,样本或总体中的每一部分数据用638%36%31%15%7%33%26%21%13%10%
非常不满意
不满意
一般
满意
非常满意
甲乙两城市家庭对住房状况的评价环形图8%36%31%15%7%33%26%21%13%10%非643.3数值型数据的整理与展示3.3数值型数据的整理与展示653.3.1数据分组与频数分析3.3.2数值型数据的图示3.3.1数据分组与频数分析663.3.1数据分组与频数分布1、排序,求全距(全距=最大值-最小值);2、确定变量的数据形式(单变量分组、组距分组);3、确定组数:斯特格斯(Sturges)经验公式:4、确定各组组距:组距=全距/组数=(最大值-最小值)/组数5、根据分组整理成频数分布表(确定各组组限,计算频数)数据分组的步骤3.3.1数据分组与频数分布1、排序,求全距(全距=最大67频数分布表的编制实例117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121【例2】某生产车间50名工人日加工零件数如下(单位:个)。对数据进行分组。
频数分布表的编制实例117122124129681、排序,求全距:107108108110112112112114115117117117118118118119120120121122122122122123123123123124124124125125126126127127127128128129130131133133134134135137139139全距=最大值-最小值=139-107=321、排序,求全距:692、确定变量的数据形式表3-3某车间50名工人日加工零件数分组表(**单变量值分组)零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)1071081101121131141151171181212111331191201211221231241251261271214432231281291301311331341351371392111221122、确定变量的数据形式表3-3某车间50名工人日加工703、确定组数K=1+log10N/log102=1+3.322lgN=1+3.322×lg50
≈73、确定组数K=1+log10N/log102714、确定各组组距组距=全距/组数=(最大值-最小值)/组数=32/7=4.6≈54、确定各组组距组距=全距/组数725、根据分组整理成频数分布表表3-4某车间50名工人日加工零件数分组表(**组距分组:等距分组)按零件数分组频数(人)频率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合计501005、根据分组整理成频数分布表表3-4某车间50名工人73等距分组表(使用开口组)表2-5某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110~115115~120120~125125~130130~135135以上358141064610162820128合计50100等距分组表(使用开口组)表2-5某车间50名工人日加工74频数分布表的编制【例3】表中是某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组频数分布表的编制【例3】表中是某电脑公司2005年前四个月各753.3.2数据值型数据的图形显示Excel1、分组数据—直方图和折线图2、未分组数据—茎叶图和箱线图3.3.2数据值型数据的图形显示Excel1、分组数据—直76分组数据—直方图(histogram)用于展示分组数据分布的一种图形。用矩形的宽度和高度来表示频数分布。本质上是用矩形的面积来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。直方图下的总面积等于1。分组数据—直方图(histogram)用于展示分组数据分布的77直方图的绘制140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240销售量(台)直方图的绘制140150210直方图下的面积之和等于1某电脑78直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;直方图的各矩形通常是连续排列,条形图则是分开排列;条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别79分组数据—折线图折线图也称频数多边形图;是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉;折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布一致。分组数据—折线图折线图也称频数多边形图;80折线图的绘制折线图与直方图下的面积相等!140150210某电脑公司销售量分布的折线图190200180160170220230240频数(天)25201510530销售量(台)折线图的绘制折线图与直方图140150210某电脑公司销售量81未分组数据—茎叶图(stem-and-leaf)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字对于n(20n300)个数据,茎叶图最大行数不超过
L=[10×lgn]茎叶图类似于横置的直方图,但又有区别:直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据未分组数据—茎叶图(stem-and-leaf)用于显示未分82树茎树叶7880223477788890012222333344466777889013344579910111213数据个数3132410茎叶图类似横置的直方图茎叶图的制作某车间工人日加工零件数的茎叶图树茎树叶7880223477788890012222333383未分组数据—箱线图(boxplot)用于显示未分组的原始数据的分布;由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成;绘制方法:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU);连接两个四分位数画出箱子,再将两个极值点与箱子相连接;该箱线图也称为Median/Quart./Range箱线图。未分组数据—箱线图(boxplot)用于显示未分组的原始数84箱线图的构成中位数4681012QUQLX最大值X最小值Median/Quart./Range箱线图箱线图的构成:箱线图的构成中位数4681012QUQLX最大值X最小值Me85单批数据箱线图最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的Median/Quart./Range箱线图单批数据箱线图最小值最大值中位数下四分位数上四分位数14086分布的形状与箱线图
对称分布QL中位数
QU左偏分布QL中位数
QU右偏分布QL
中位数
QU不同分布的箱线图分布的形状与箱线图对称分布QL中位数QU左偏分布QL873.4次数分布及其类型
3.4次数分布及其类型88次数分布及其类型3.4.1分配数列的概念和构成要素3.4.2分配数列的种类及编制方法3.4.3次数分布的主要类型次数分布及其类型3.4.1分配数列的概念和构成要素89.
.
3.4.1分配数列的概念和构成要素
分配数列是指在统计分组的基础上,将总体所有单位按组归类排队,形成总体中各单位在各组间的分布,又称分布数列或统计分布。
分配数列的概念。按性别分组男生女生合计表3-6表3-7按考分分组
50~6060~7070~8080~9090~100合计
人数(人)
频率(%)20306040501005人数(人)
频率(%)103010151850236420100..3.4.1分配数列的概念和构成要素90.
.
分配数列的构成要素分配数列的构成要素总体按某标志所分的各个组各组次数或频率次数(频数):频率:所以,次数或频率分布形成的数列叫分配数列。即分布在各组的单位数。即各组次数与总次数之比。..分配数列的构成要素分配数列的构成要素总体按91.
.
3.4.2分配数列的种类及编制方法
(一)品质数列
分配数列的种类1.单项式变
量数列
2.组距式变
量数列
(二)变量数列
..3.4.2分配数列的种类及编制方法92.
.
(一)品质分配数列
按品质标志分组所形成的分配数列称为品质分配数列(品质数列)。按性别分组人数(人)
频率(%)男生女生30206040合计50100一般来说品质数列较容易编制,它通常能准确地反映总体的分配特征,一旦分组标志确定以后,其分布数列的形式是唯一的。例如:表3-8..(一)品质分配数列93.
.
(二)变量数列
按数量标志分组所形成的分布数列称为变量分配数列(变量数列)。按顺序列出的各组变量值及相应的频率,即成为变量的频率分布。按考分分组人数(人)频率(%)50~6060~7070~8080~9090~10051518102103036204合计50100例如:表3-9
注意:任何一个频率分布都必须满足两个条件:一是各组频率≥0;二是各组频率之和等于100%。..(二)变量数列941.单项式变量数列2.组距式变量数列(由单项式分组形成)居民家庭按子女数分组(个)户数(户)0123420601509040合计360按考分分组人数(人)频率(%)50~6060~7070~8080~9090~10051518102103036204合计50100表3-10(单项式变量数列)(组距式变量数列)表3-11变量数列(由组距式分组形成)1.单项式变量数列2.组距式变量数列(由单项式分组形成)居民95.
.
3.4.3次数分布的主要类型
次数分布类型主要有三种:钟型分布、U型分布和J型分布。
其分布特征是“两头小,中间大”,即靠近中间的变量值分布分布的次数多,靠近两端的变量值分布分布的次数少。1.钟型分布:fx正态分布即其分布曲线形如一口古钟,故称钟型分布例如,如人的身高、体重、职工工资、农作物亩产量、市场价格、学生的考分等现象都属于钟型分布。其分布又可分为以下两种:正态分布和偏态分布。
图3-1...3.4.3次数分布的主要类型96.
.
正态分布:
中间变量值分布的次数最多,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。见图3-1
。.偏态分布:当变量值存在极大值时,次数分布曲线会较正态分布向右延伸,这种分布称为右偏分布,见图3-2。右偏分布当变量值存在极小值时,次数分布曲线就会较正态分布向左延伸,这种分布称为左偏分布。图3-2图3-3左偏分布见图3-3。
xffx..正态分布:中间变量值分97其分布的特征是一边小一边大的单调分布,即形如字母J字。它是与钟型分布图形相反的分布,其特点是:越靠近中间变量值分布次数较少;越靠近两端变量值分布的次数较多,形成“两头大、中间小”的分布特征。.
.
2.U型分布:见图3-4。3.J型分布:U型分布xf图3-4J型分布有两种类型,即:正J型分布与反J分布。见图3-5和图3-6。图3-5xf正J型分布反J型分布图3-6xf其分布的特征是一边小一98频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U型分布几种常见的频数分布频数分布的类型对称分布右偏分布左偏分布正J型分布反J型分布U993.5统计图和统计表的使用3.5统计图和统计表的使用100统计图和统计表3.5.1统计图3.5.2统计表统计图和统计表3.5.1统计图1013.5.1统计表2002~2003年我国城镇居民家庭抽样调查资料项目单位2002年2003年
调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入#可支配收入平均每人消费性支出户人人%元元元元453173.041.5851.971.928177.407702.806029.88480283.011.5852.491.919061.228472.206510.94资料来源:《中国统计年鉴2004》,中国统计出版社,2004,第359页。注:本表为城市和县城的城镇居民家庭抽样调查资料。
行标题列标题数字资料表头附加主词栏宾词栏统计表的结构(分别从形式和内容来看)3.5.1统计表2002~2003年我国城镇居民家庭抽样调102总标题要简明确切地概括统计表内容,一般需满足3W(统计数据的时间、地点及何种数据)要求;数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明;表中的上下两条横线一般用粗线,其他用细线;通常情况下,统计表的左右两边不封口;表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一;对于没有数字的表格单元,一般用“—”表示;必要时可在表的下方加上注释。统计表的设计总标题要简明确切地概括统计表内容,一般需满足3W(统计数据103统计图是用点、线、面或立体图形等形式直观地表达统计资料的数值大小、分布情况、发展变化趋势或相互关系等。统计图所表示的数量关系,比统计表更加明白具体,使人一目了然,印象深刻。5.5.2统计图统计图是用点、线、面或立体图形等形式直观地表104标题:图的标题应简明扼要,切合图的内容,必要时可注明时间、地点。图号:文章中若有几幅画,则需按其出现的先后次序编上序号,写在图题的左前方。标目:对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其尺度。图形:图形线在图中为最粗,而且要清晰。统计图的结构标题:图的标题应简明扼要,切合图的内容,必要时可注明时间、地105条形图与柱状图(大小的比较)饼图(总体的结构)直方图、茎叶图和箱式图(数据分布)时序图(发展变化趋势)散点图(两变量之间的关系)常用统计图条形图与柱状图(大小的比较)常用统计图106第3章统计数据的整理与显示第3章统计数据的整理与显示107统计整理是根据统计研究的目的,将统计调查所得到的原始资料(也称初级资料)进行科学的分类和汇总,或对已经经过加工的综合资料(也称次级资料)进行再加工,为统计分析准备系统化的、条理化的、能够反映总体特征的综合资料的工作过程。例如,某班50名学生,调查其考分资料如下:7765835668709965737288667463718462528078847981645882766273758979616554928673685169647863766872778176上述这些考分(原始资料)的特点是零星分散、不系统、无规律,不能反映学生总体的学习情况。统计整理是根据统计研究的目的,将统计调查所得到的原始资料(也108按考分分组(分)学生人数(人)60以下60~7070~8080~9090~10051518102合计50由表3-1可见,整理后的学生考分资料,较整理前的考分资料明显要条理、系统。由上表可见,在学生总体中,60分以下和90分以上的学生人数都较少,绝大多数学生的考分分布在60—89分之间。表3-1
所以,统计整理是统计调查的继续,是统计分析的前提,它实现了从个别单位的标志表现(标志值)向总体综合指标的过渡,在统计研究中起着承前启后重要的作用。按考分分组(分)学生人数(人)60以下5合109统计数据的整理与显示3.1统计数据的整理程序
3.2品质数据的整理与显示
3.3数值型数据的整理与显示3.4次数分布及其类型3.5统计表与统计图统计数据的整理与显示3.1统计数据的整理程序110学习目标充分认识统计整理在统计研究中的承前启后的地位;掌握统计数据的整理和显示方法,特别是分组与变量数列的编制;了解统计表和统计图的构成和展示,能实际设计统计表和统计图。学习目标充分认识统计整理在统计研究中的承前启后的地位;111统计数据整理的程序1.制定整理方案(汇总方案);2.对调查资料进行审核和纠正等(预处理);3.进行统计分组(关键);4.进行统计汇总;5.汇总后审核;6.编制统计表,绘制统计图,显示整理结果。统计数据整理的程序1.制定整理方案(汇总方案);112
根据统计调查目的,获得统计资料的整理流程计划:一是对总体资料的处理方法,如如何分组;二是确定用哪些具体的统计指标来说明总体。一、制定统计整理方案一、制定统计整理方案113数据的审核发现数据中的错误数据的筛选找出符合条件的数据数据排序发现数据的基本特征升序和降序二、数据的预处理数据的审核二、数据的预处理114(1)统计资料的审核资料的审核
原始资料完整性准确性逻辑检查计算检查二手资料适用
时效(1)统计资料的审核资料的审核原始资料完整性准确性逻辑检查115审核对第一手数据:(1)完整性审核:检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全(2)准确性审核:
真实性:检查数据是否真实反映客观实际情况,内容是否符合实际——逻辑检查正确性:检查数据是否有错误,计算是否正确等——计算检查(定量数据)
审核对第一手数据:116审核对第二手数据:完整性:准确性:适用性:数据的来源、口径以及有关背景资料;时效性:尽可能使用最新的数据。审核对第二手数据:117(2)数据筛选当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。数据筛选的内容:将某些不符合要求的数据或有明显错误的数据予以剔除;将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。(2)数据筛选当数据中的错误不能予以纠正,或者有些数据不符合118(3)数据的排序(3)数据的排序119数据的排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成。数据的排序按一定顺序将数据排列,以发现一些明显的特征或趋势,120定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分定距和定比数据的排序递增排序:设一组数据为X1,X2,…,XN,递增排序后可表示为:X(1)<X(2)<…<X(N)递减排序可表示为:X(1)>X(2)>…>X(N)定类数据的排序121
(五).汇总后审核:审核汇总工作质量,汇总过程有无差错。主要四种方法:一是复计审核;二是表表审核;三是表实审核;四是对照审核。(五).汇总后审核:122三.统计分组分组前分组后统计分组就是根据统计研究的目的和被研究现象的本质特征,将统计总体按照一定的标志划分为若干性质不同的部分或组。三.统计分组分组前分组后统计分组就是根据统计研究的目的和被研123.
.
统计分组是在总体内部进行的一种定性分类,它客观上把总体划分为一个个性质不同,范围更小的总体。统计分组有两个方面的含义,即:统计分组对总体而言即将总体区分为性质不同的若干组成部分是“合”即将性质相同的总体单位合为一组是“分”对单位而言..统计分组是在总体内部进行的一种定性分类,它124.
1、统计分组的作用划分现象的类型(区分事物的类型);研究总体的结构(构成)或比例关系;分析(探讨)现象之间的依存关系。
注意:统计分组是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。
2、统计分组的原则穷尽原则互斥原则.1、统计分组的作用划分现象的类型(区分事物的类型);125揭露社会经济现象的类型,反映各类型的特点。
⑴类型分组类型1999年2000年2001年2002年农业14106.213873.614462.814931.5林业886.3936.5938.81033.5牧业6997.67393.17963.18454.6渔业2539.02712.62815.02971.1合计24519.124915.826179.627390.8例单位:亿元揭露社会经济现象的类型,反映各类型的特点。⑴类型分组类126说明社会经济现象的内部结构。⑵结构分组说明社会经济现象的内部结构。⑵结构分组127例年份19961997199819992000第一产业20.419.118.617.615.9第二产业49.550.049.349.450.9第三产业30.130.932.133.033.2合计100.0100.0100.0100.0100.0“九五”期间我国国内生产总值构成(%)例年份19961997199819992000第一产业128研究经济现象之间的依存关系。⑶分析分组研究经济现象之间的依存关系。⑶分析分组129例耕作深度分组(cm)地块数平均收获率(斤/亩)10-12740012-141046014-161654016-1818-20125620680某乡某种农作物的耕作深度与收获率的关系例耕作深度分组(cm)地块数平均收获率(斤/亩)10-12130.
.
3、统计分组的种类
(一)按分组标志的多少不同
(二)按分组标志的性质不同简单分组品质分组数量(变量)分组复合分组..3、统计分组的种类131.
4、统计分组的方法
分组标志的选择:选择分组标志是统计分组的核心问题,必须根据统计研究的目的选择分组标志。品质分组:是按品质标志进行的分组。国民经济按产业分组:第一产业第二产业第三产业人口按性别分组:男性女性用文字来表示各组性质上的差别.4、统计分组的方法132.
.
数量分组数量分组的概念单项式分组与组距式分组
进行组距式分组时应注意的问题..数量分组133.
.
数量分组是按数量标志进行的分组。数量分组的概念例如,学生按考分分组(分)用数量来表示各组性质上的差别60以下60~7070~8080~9090以上..数量分组是按数量标志进行的分组。数量分组的概134.
.
(1)单项式分组:即在变量分组中,一个组只有一个变量值。单项式分组与组距式分组
适用条件:
它适用于当变量值变化范围不大、不同变量值个数较少的离散型变量的场合。例如:居民家庭按子女数分组:0123(离散型变量)..(1)单项式分组:即在变量分组中,一个组只有135(2)组距式分组:就是将变量依次划分为几段区间,一段区间表现为从“……到……”距离,把一段区间内的所有变量值归为一组。区间的距离就是组距。例如:企业按人数分组499及以下500~9991000~29993000及以上工人按工资分组600~700700~800800~12001200~1500适用条件:
它适用于变量值变化范围较大、不同变量值个数较多的离散型变量及连续型变量的场合。(离散型变量)(连续型变量)注意:连续型变量的数值不能一一列举,故其只能采用组距式分组。(2)组距式分组:就是将变量依次划分为几段区间,一段区间表现136进行组距式分组时应注意的问题(1)组限及划分方法
(2)等距分组与不等距分组(3)组中值进行组距式分组时应注意的问题(1)组限及划分方法137499及以下500~9991000~29993000及以上600~700700~800800~12001200~1500(1)组限及划分方法
组限:确立每组界限的两个数字。其中,每组最大变量值称为上限,每组最小变量值称为下限。工人按工资分组:(连续变量)企业按人数分组:(离散变量)(重叠组限)(不重叠组限)499及以下600~700(1)组限及划分方138组限的划分方法:组限的划分方法不重叠组限重叠组限(只适用于离散型变量)(适用于连续型变量和离散型变量.)重叠组限:不重叠组限:即相邻两组的上下限为同一个数值。即相邻两组的上下限为两个不同的确定数值。故当某单位的变量值刚好等于相邻两组的上下限时,一般把此值归到作为下限的那一组中,即遵循“上限不在其内”的原则。组限的划分方法:组限的划分方法不重叠组限重叠组限(只139.
.
企业按人数分组:499及以下500~9991000~29993000及以上(不重叠组限)企业按人数分组:500以下500~10001000~30003000及以上(重叠组限)..企业按人数分组:499及以下140.
.
(2)等距分组与不等距分组
组距分组等距分组不等距分组例如:按身高、考分分组等,应采用等距分组。它便于各组间单位数与变量值的直接对比和各项指标计算。适用场合:等距分组:即各组组距相同的分组。凡是在变量值分布比较均匀时采用。组距:每组变量值的变动范围,即组距=上限–下限
..(2)等距分组与不等距分组141不等距分组:即各组组距不都相等的分组。适用场合:当变量值分布很不均匀时采用。不等距分组多数是根据事物性质变化的数量界限来确定组距,如人口按年龄分组。要注意不同年龄生理变化的特点,可分为:1岁以下;1~6岁;7~12岁;13~18岁;19~59岁;60岁以上。年龄段工人按工资分组(元)
600~700700~800800~12001200~1500不等距分组:即各组组距不都相等的分组。适用场合:当变量值分布142.
(3)组中值
组中值是指组距数列中各组上限和下限之间的中点数值。注意:组中值经常用来代表各组标志值的平均水平,但要假定各组内标志值呈均匀分布。按考分分组50~60
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行政管理经济法专注考点试题及答案
- 市政工程考试趋势与未来展望及试题及答案
- 行政管理与经济法教育试题及答案
- 酒店管理服务培训合作协议
- 物流管理与供应链知识测试卷
- 通信技术与网络应用知识考点
- 行政管理经济法热点追踪试题及答案汇编
- 经济师学术与实务结合试题及答案
- 优化药品使用管理的工作思路计划
- 宿舍门标设计
- 心脏骤停和心源性猝死诊疗规范诊疗指南
- 建筑智能化弱电系统建设项目设计方案建筑施工
- 航道治理工程施工组织设计
- 马工程教材《公共财政概论》PPT-第四章 政府消费支出
- GB/T 29531-2013泵的振动测量与评价方法
- GA/T 832-2014道路交通安全违法行为图像取证技术规范
- 博士生招生面试评分表
- SWOT分析法很全面课件
- 膀胱造瘘的护理课件
- 消防应急疏散演练人员签到表(标准通用版)
- 陕旅版五年级英语上册句型词汇知识点总结
评论
0/150
提交评论