第三章-数据的描述1_第1页
第三章-数据的描述1_第2页
第三章-数据的描述1_第3页
第三章-数据的描述1_第4页
第三章-数据的描述1_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第三章

数据的描述1——数据的直观显示第三章数据的描述1----数据的直观显示

§1用统计表描述数据§2用统计图描述数据§1用统计表描述数据§1.1统计表的构成§1.2统计表的类型§1.3统计表的编制规则

§1.4数据的统计表描述

§1.1统计表的构成统计表一般是由四个主要部分构成:表头,行标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。§1.2统计表的类型1.简单表

行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。

表3-22011年我国主要宏观经济运行指标

主要宏观经济指标单位数值国内生产总值亿元472881.6就业人数万人76420居民消费价格指数——105.4农村居民家庭人均纯收入元6977.3城镇居民家庭人均可支配收入元21809.8资料来源:中国国家统计局网站《2012年统计年鉴》§1.2统计表的类型2.分组表

行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。表3-32003-2011年我国黄金和外汇储备

年份黄金储备(万盎司)外汇储备(亿美元)200319294032.51200419296099.32200519298188.722006192910663.42007192915282.492008192919460.32009338923991.522010338928473.382011338931811.48资料来源:《2012年中国统计年鉴》§1.2统计表的类型3.复合表

行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。表3-42006-2011年主要年份国内生产总值及其构成单位:亿元

年份国内生产总值

第一产业第二产业

第三产业工业建筑业2006216314.424040103719.591310.9412408.6188554.882007265810.328627125831.4110534.915296.48111351.92008314045.433702149003.4130260.218743.21313402009340902.835226157638.8135239.922398.831480382010401512.840533.6187383.2160722.226660.981735962011472881.647486.21220412.8188470.231942.66204982.5资料来源:《2012年中国统计年鉴》§1.2统计表的类型4.交叉表

行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。表3-5某项调查被访问者受教育水平和性别分布交叉表

受教育水平性别合计人数(人)百分比(%)男女小学及以下1001402408初中50046096032高中600630123041大学及以上26031057019合计146015403000100§1.3统计表的编制规则

编制统计表的基本指导原则:“简练、美观、科学、实用”表头结构计量单位线条数据表外附加§1.4数据的统计表描述

§1.4.1定性变量的统计表描述

定性变量包括分类变量和顺序变量两种类型。分类变量的取值是对事物的一种分类,而顺序变量的取值是对事物的分类排序。在整理和描述定性变量时,需要根据分类变量和顺序变量的取值进行统计分组,同时计算每一组对应的频数。§1.4.1定性变量的统计表描述分类变量

频数(frequencey)

是指落在某一特定类别(或组)中的数据个数。频率或比例(proportion)

把各类的频数与全部频数之和求比值得到。频数分布(frequencydistribution)和频率分布

把各个类别及其相应的频数或频率全部列出,并用统计表的形式表现出来形成。§1.4.1定性变量的统计表描述例如:假设某项调查中3000名被访问者按性别分类(组)后,即可整理得到男性和女性的人数,从而得到每一类的频数、频率以及比例分布表:表3-7某项调查3000名被访问者按性别分组性别频数(人)频率百分比例(%)男14600.486748.67女15400.513351.33§1.4.1定性变量的统计表描述顺序变量累积的方法

向上累积:从顺序变量取值的最小一方,向最大一方累加。向下累积:从顺序变量取值的最大一方,向最小一方累加。累积频数:将顺序变量各个取值的观测频数逐级累加起来得到的频数。累积频率或累积百分比将顺序变量各取值所对应频数的百分比累加起来得到的百分比,§1.4.1定性变量的统计表描述例如:假设某项调查中3000名被访问者按照受教育水平高低可分为四大类时,除了可以得到每一类所对应的频数、比例分布表,还可计算累积频数或频率分布表:

表3-8被访者受教育水平累积分布表受教育水平人数(人)百分比(%)向上累积向下累积频数(人)频率(%)频数(人)频率(%)小学及以下240824083000100初中96032120040276092高中123041243081180060大学及以上57019300010057019合计3000100

§1.4.2定量变量的统计表描述

对于定量变量,通常采用统计分组,得到每一组所对应的频数、频率或比例表,用来对数据特征进行描述。

统计分组按照分组标志的不同可分为:单变量分组组距分组§1.4.2定量变量的统计表描述单变量分组:把每一变量取值都作为分组标志。这种方法适用于离散型变量,且变量取值较少时的情形。例如:某项调查中100名调查员每人调查的有效问卷数。表3-9100名调查员的有效问卷数

95101103105107108110111114115115116116121122122124124125125125126126128128131131132133133134134135135135136136136137138139139140140142142142143143144144144145145145145147147147148152153153153154154154154155155155155156156159160161163163163163165166166166167171171171174175177178179180182182188191196§1.4.2定量变量的统计表描述对于有效问卷数处于130到150份之间的调查员根据其问卷数进行单变量分组,得到分组表:

表3-10调查员按有效问卷数单变量分组问卷数频数问卷数频数1312139213211402133214231342143213531443136314541371147313811481§1.4.2定量变量的统计表描述

单变量分组会使得分组过细,组数过多,不利于观察数据分布的特征和规律。对于连续型变量也无法采用单变量分组方式。在连续型变量或变量取值较多的情况下,通常采用组距分组。§1.4.2定量变量的统计表描述组距分组将全部变量取值划分为若干个区间,并将这一区间值作为分组标志1.确定组数:按照经验公式来确定组数n:为数据个数,对结果四舍五入取整即可得到经验分组数。2.确定各组的组距:组距是一组的上限与下限数值的差。

当采用等距分组时,组距=(最大值-最小值)÷组数。定量变量进行统计分组表描述时遵循“不重不漏”原则,为此,对于组距分组,采用“上组限不在组内”原则。1.4.2定量变量的统计表描述根据分组结果整理频数分布表:表3-11100调查员按有效问卷数组距分组表分组(份)频数(人)频率(%)90-10011100-11055110-12077120-1301212130-1401717140-1501818150-1601515160-1701111170-18088180-19044190-20022合计100100§2用统计图描述数据§2.1统计图§2.2定性变量的图示

§2.3定量变量的图示

§2.4趋势的图示

§2.5如何制作好的统计图§2.1统计图

统计图是以图形形象地表现统计数据的一种形式。统计图的分类,根据描述统计变量的个数单变量统计图双变量统计图多变量统计图统计图的分类,根据描述统计变量的性质和外形特征:条形图,饼图,环形图,直方图,折线图,箱线图,线图,散点图

§2.2定性变量的图示1.条形图

条形图(bargraph)可用于显示分类变量和顺序变量取值的频数或频率分布。用宽度相同的条形的高度或长短来表示频数的多少或频率的大小。条形图可以横置或纵置,纵置时也称为柱形(columngraph)。根据图形描述的定性变量的个数,条形图有单式、复式等形式。

§2.2定性变量的图示单式条形图复式条形图图3-12011年我国人口中男女比例图

图3-21949年和2011年我国人口中男女比例图§2.2定性变量的图示2.饼图

饼图(piechart)可用于显示分类变量和顺序变量取值所对应的频数或频率分布。用圆形及圆内扇形的面积来表示数值的大小。可用于表示分类变量中各组频数所占的比例,即相对大小。对于研究结构性问题十分有用。§2.2定性变量的图示图3-32011年我国人口中男女比例图

§2.2定性变量的图示3.环形图

环形图(doughnutchart)可以同时绘制多个总体或样本的数据系列。每一个总体或样本的数据系列为一个环。环形图可显示多个总体或样本各部分所占的相应比例。有利于进行比较研究。§2.2定性变量的图示图3-41949年和2011年我国人口中男女比例图

§2.3定量变量的图示定量变量也称为数值型变量。

按照数据的取值类型,分为:连续性变量和离散型变量

用来描述定性变量取值的图示法都能够用来描述定性变量的数值。此外,还可以采用直方图、折线图、箱线图、茎叶图等来进行描述。§2.3定量变量的图示1.直方图

直方图(Histogram)是根据定量变量的取值范围来显示观测频数的图。常用于显示连续型变量在取值区间内的频数分布。用矩形的宽度和高度(即面积)来表示频数的分布。

§2.3定量变量的图示图3-5100名调查员的有效问卷数分布直方图§2.3定量变量的图示直方图与条形图的不同:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此,其高度与宽度均有意义。(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(3)条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。§2.3定量变量的图示2.折线图折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。§2.3定量变量的图示图3-6100名调查员的有效问卷数分布折线图§2.3定量变量的图示当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布正态分布偏态分布

右偏(正偏)左偏(负偏)§2.3定量变量的图示J型分布

U型分布

§2.3定量变量的图示3.箱线图

箱线图(boxplot)主要用来反映原始数据的分布特征。它由一组数据的最大值、最小值、中位数、上下四分位数这个五个特征数值组成。箱线图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。§2.3定量变量的图示图3-8按性别区分的男女学生外语成绩箱线图§2.4趋势的图示

当我们需要考虑定量变量取值在不同时间截面上的分布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。§2.4趋势的图示1.线图线图(lineplot)在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论