第二章统计数据的描述方案课件_第1页
第二章统计数据的描述方案课件_第2页
第二章统计数据的描述方案课件_第3页
第二章统计数据的描述方案课件_第4页
第二章统计数据的描述方案课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章统计数据的描述第二章统计数据的描述第二章统计数据的描述方案课件第二章统计数据的描述方案课件一、数据的预处理通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。数据整理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步骤。数据的预处理是数据分组整理的先前步骤,内容包括数据的审核与筛选、排序等。(一)数据的审核与筛选在对统计数据进行整理时,首先需要进行审核,以保证数据的质量,为进一步整理与分析打下基础。从不同渠道取得的统计数据,在审核的内容与方法上都有所不同。对于通过直接调查取得的原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面,一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查数据的审核和计算检查。一、数据的预处理对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查取得的,或者是已经按照特定目的的需要做了加工整理,对于使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景资料,以便确定这些数据是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外还要对数据的时效性进行审核,对于有些时效性较强的问题,如果所取得的数据过于滞后,可能失去了研究的意义,一般来说,我们应尽可能使用最新的统计数据。数据在经过审核后,确认适合于实际需要,才有必要做进一步的加工整理。对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行数据筛选对审核过程中发现的错误,应尽可能予以纠正,在调查结束后,当对数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔出;二是将符合特定条件的数据筛选出来,而不符合特定条件的数据予以剔出。数据的筛选对通过市场调查取得的数据十分必要。数据筛选(二)数据的排序数据排序是按一定顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征趋势或解决问题的线索,除此之外,排序还有助于对数据检查纠错,以及为重新归类分组等提供依据。在某些场合,排序本身就是分析的目的之一。排序可借助于计算机很容易地完成。对于数字型数据排序只有两种:递增和递减。市场调查中的数据许多是属于定性的,对于字母型数据排序也有升序降序之分,但习惯上升序用得多些,因升序与字母的自然顺序相同。汉字型数据的排序方式最多,按拼音方式排列与字母型数据排序完全一样,而按笔画则有笔多少的升序降序之分。交替运用不同方式排序在汉字型数据的检错纠错过程中十分有用,应予重视。(二)数据的排序第二章统计数据的描述方案课件统计分组是数据整理中的一项重要工作,它是根据统计研究的需要,将数据按照某种特征或标准分成不同的组别。分组时所依据的特征或标准称为统计分组标志,它有品质标志和数量标志两种。品质标志是说明事物的性质和属性特征的,它不能用数值来表现。数量标志是说明事物数量特征的,它可以具体表现为数值。将统计数据按分组标志进行分组的过程,就是次数分配形成的过程。次数分配就是观测值按其分组标志分配在各组内的次数。统计分组是数据整理中的一项重要工作,它是根据统计研究的需要,2.1.3次数分配第二章统计数据的描述方案课件按某种标志对数据进行分组后,再计算出所有类别或数据在各组中出现的次数或频数,就形成了一张频数分布表。我们把全部数据按其分组标志在各组内的分布状况称为频数分布或次数分布,分布在各组内的数据个数称为频数或次数,各组频数与全部频数之和的比值称为频率或比重。对数据进行分组的过程也就是频数分布的形成过程。按某种标志对数据进行分组后,再计算出所有类别或数据在各组中出按品质标志分组的同时计算出各组的频数或频率,就形成我们所需要的频数分布表。

1998年我国大陆人口按性别分组表按性别分组人数(万人)比重(%)男6362950.98女6118149.02合计124810100按品质标志分组的同时计算出各组的频数或频率,就形成我们所需要按数量标志分组时,可先将数据进行排序,然后再根据需要进行分组。按数量标志分组的方法很多,主要有两种:一是单变量值分组,二是组距分组。按数量标志分组时,可先将数据进行排序,然后再根据需要进行分组单变量值分组单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量,且变量值较少的情况下使用。在数据较多的情况下,单变量值分组由于组数较多而不便于观察数据分布的特征和规律,而且对于连续变量或变量值较多的情况,可采用组距分组。单变量值分组单变量值分组是把每一个变量值作为一组,这种分组方第二章统计数据的描述方案课件第二章统计数据的描述方案课件缺下限的组中值=本组上限-邻组组距/2缺上限的组中值=本组下限+邻组组距/2缺下限的组中值=本组上限-邻组组距/2第二章统计数据的描述方案课件次数分配表按零件加工数分组人数80-90390-1007100-11013110-1205120-1302合计30次数分配表按零件加工数分组人数80-90390-100710第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件根据单变量数列众数的确定

某班学生按年龄分组按年龄分组(岁)人数(人)176181419众数18频数最大209213合计50根据单变量数列众数的确定

某班学生按年龄分组按年龄分组(岁)按零件加工数分组人数80-90390-1007100-11013110-1205120-1302合计30根据组距数列确定众数按零件加工数分组人数80-90390-1007100-110根据组距数列确定众数下限公式:上限公式:根据组距数列确定众数下限公式:组距分组众数的计算组距分组众数的计算第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件分组数据中位数的计算单值分组:先根据公式N/2确定中位数的位置,再根据累计频数确定其所在组,对应的变量值即为中位数。组距分组:先根据公式N/2确定中位数的位置,再根据累计频数确定其所在组,然后采用下面公式:N为数据个数,L为中位数所在组的下限,Sm-1为中位数所在组以前各组的累积频数,Sm+1为中位数所在组以后各组的累积频数,fm为中位数所在组的频数,i为中位数所在组的组距。分组数据中位数的计算单值分组:先根据公式N/2确定中位数的位某车间工人周加工零件数计算表按加工数量分组组中值权数累积频数向上累积向下累积80~9085333090~1009571027100~110105132320110~1201155287120~1301252302合计—30——某车间工人周加工零件数计算表按加工数量分组组中值权数累积频数根据累积频数可确定中位数在第三组根据累积频数可确定中位数在第三组第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件均值均值第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件加权均值的变形加权均值的变形第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件加权几何均值:加权几何均值:第二章统计数据的描述方案课件<<<<<<<<第二章统计数据的描述方案课件调和均值:各变量值倒数的算术平均数的倒数.简单调和均值:加权调和均值:调和均值:各变量值倒数的算术平均数的倒数.第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件第二章统计数据的描述方案课件2.4分布偏态与峰度的测度2.4分布偏态与峰度的测度偏态及其测度

偏态是对分布偏斜方向及程度的测度。常用偏态系数。

当a3=0时,为对称分布;a3>0时,为正偏或右偏分布;a3<0时,为负偏或左偏分布。偏态及其测度偏态是对分布偏斜方向及程度的峰度及其测度峰度是分布集中趋势高峰的形状。峰度系数:

正态分布的峰度系数为3,当a4>3时为尖峰分布,a4<3时为扁平分布。峰度及其测度峰度是分布集中趋势高峰的形状。第二章统计数据的描述方案课件统计表是用于显示统计数据的基本工具一般有四个主要的组成部分:表头、行标题、列标题和数字资料表头一般应包括表号、总标题和表中数据的单位等内容,标题内容应满足3W(时间When,地点Where以及何种数据What)表中的上下两条横线一般用粗线,中间的其他线用细线,统计表的左右两边不封口,列标题之间一般用竖线分开,而行标题之间通常不必用横线隔开,表中数据一般是右对齐,有小数点时应以小数点对齐,且小数点位数应统一,对于没有数据的单元格,一般用“—”表示。使用统计表时,必要时可在表的下方加上必要的注释,特别要注意注明资料来源。统计表是用于显示统计数据的基本工具年份城镇居民农村居民

19911700.6708.619922026.6784.019932577.4921.619943496.21221.019954283.01577.719964838.91926.119975160.32091.11991-1997年我国城乡居民家庭人均收入

单位:元↑行标题表头↓←列标题数字资料↓年份城镇居民农村居民统计图是统计数据直观的表现形式。可将复杂的数据用生动的图形表现出来,因而,汇制并使用好统计图就成为统计分析的基本功。在Excel的“插入”功能中有个“图表”功能键,可以利用已有数据画出折线图、条形图、圆形图、环形图、雷达图等。具有生动、形象、简单易懂的特点。统计图是统计数据直观的表现形式。可将复杂的数据用生动的图形表折线图折线图条形图条形图我国国内生产总值(万元)年份20062005第一产业24710.0322607.80第二产业101981.2186237.83第三产业82715.7773475.36合计209407.00182321.00我国国内生产总值(万元)年份20062005第一产圆形图圆形图环形图环形图茎叶图

(stem-and-leafdisplay)用于显示未分组的原始数据的分布由“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息茎叶图

(stem-and-leafdisplay)用于显茎叶图

(例题分析)茎叶图

(例题分析)茎叶图

(扩展的茎叶图)茎叶图

(扩展的茎叶图)箱线图

(箱线图的构成)中位数4681012QUQLX最大值X最小值简单箱线图箱线图

(箱线图的构成)中位数4681012QUQLX最大值箱线图

(例题分析)最小值84最大值128中位数105下四分位数96上四分位数10980859095100105110150120125130周加工零件数的箱线图箱线图

(例题分析)最小值最大值中位数下四分位数上四分位数8分布的形状与箱线图

对称分布QL中位数

QU左偏分布QL中位数

QU右偏分布QL

中位数

QU不同分布的箱线图分布的形状与箱线图对称分布QL中位数QU左偏分布QL未分组数据—多批数据箱线图

(例题分析)【例】

从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征11名学生各科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础7665937468705585909581877573917897517685709268817174

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论