版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章,描述数据:频数分布与图形表示,2、1引言,在处理企业的月度销售报告时,往往希望使用一些图表以便了解销售价格趋向与哪里,价格的变动程度。一般来说,从市场获得的直接信息都是反映个体的量,是分散的、无系统的,而且也有可能重复、遗漏或错误。为了使数据系统化,反映总体的特征、规律及发展趋势,需要用一定的方法对数据处理,使其可以提供概要信息并能反映研究对象的基本数量特征。描述统计学的主要做用就是展示和理解数据,对数据的机制进行探索,利用人的直觉来识别模式,以发现其内在规律。在这一章里,我们将介绍统计表和统计图这些实用的统计方法。,2、2构造频数分布,我们经常需要用各种各样的方法描述、组织数据,指出
2、数据趋向与集中到哪个数值范围,并帮助辨认最大值和最小值。而描述数据的最基础的方法就是频数分布。1、频数分布的概念:把一组数据分到互不包含的组里以显示各组中观察值得个数的过程叫做频数分布。2、频数分布的两个要素:(1)总体按其标志所分的组;(2)各组所分的单位数量。为了显示每一组占观测值总数的比率,通常要求把每组频数转化成频率(相对频数分布)。频率=频数观测值总数,怎样获得频数分布呢?,1、构造频数分布五个步骤:(1)确定组的个数;(2)确定组距或组宽;(3)确定各组的组限;(4)把各个数据记入相应各组中;(5)数出各组中的项目个数。我们的目标就是构造一张能够迅速揭示数据分布形态的表格,这个表格
3、我们成为频数分布表或者相对频数分布表。,下面我们通过例题进一步了解频数分布表的构造过程,例1:某生产车间30名工人日加工零件数如下(单位:个)。,我,(1)确定组的个数(numberofclasses):组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按2的k次方法则来确定组数,即使2的k次方大于n(观察值个数)的最小的k。在本例中,n=30,如果取k=4,则2的4次方为16,小于30,若取k=5,则2的5次方为32,因此适合组数为,5.,(2)确定各组的组距:组距(ClassWidthorclassinterval)是一个组的上限与下限之差,可根据全部数据的最大值和最小值
4、及所分的组数来确定,即组距(最大值-最小值)组数用公式表示;其中i为组距;H为最大观测值;L为最小观测值;k为组数。在本例中,最大值为128,最小值为84,组数为5,则组距=(128-83)5=9。,(3)确定各组的组限:必须遵循“不重不漏”的原则。因为把组距四舍五入得到一个较简便的组距大小,使得覆盖的范围比实际大。下限:一个组的最小值;上限:一个组的最大值请同学们指出上图的各组组限是多少?,在实际中,组距大小通常四舍五入到某个简便的数,例如,10或100的倍数。在这个例题中我们可以取10作为组距,则将数据分成5组,各组的范围是:,(4)把各个数据记入相应各组中,首先将表中的83记入8090这
5、一组,然后抽出在该组的所有数值,其余各组以此类推。填入下表:日加工零件数的频数分布图:,(5)数出各组中的项目个数,在每一组中数出观测值,如,第一组有3个值。整个数据集中总的观察值或总的频数应该为30.为了显示每一组占观测值总数的分数(比例),通常要求把每组频数转化成相对频数。我们知道这个转化过程就是用频数除以观测值总数。日加工零件的相对频数分布图,由图表,我们可以清晰的概括出工人工作的效率情况:()工作效率范围:83128;()效率大多集中在102112这组中;这样,我们就描绘出一张清晰图画。但是,在将信息整理成频数分布表的过程中将会失去一些信息。,频数分布表的主要优点:1、简便,可以得到清
6、晰的数据分布形态。频数分布表的缺点:1、失去了每一个真实值;2、不清楚在每一组里数据是怎样分布的接下来我们将学习比较简练清晰表示数据的方法:,2、3茎叶图,1、茎叶图示一种较为简练地表示数据信息的图表。2、茎叶图由两部分组成:打头的数字为茎;尾随的数字为叶。其中茎沿竖直轴线放置,叶沿水平轴线放置。3、注意:茎叶图适用于数据量不大时,既能显示完全的原始数据,又显示了数据的分布形态。当数据量大时,茎叶图就显得不方便了。,如何制作茎叶图呢,我们以例题来说明制作茎叶图的过程!,例:以地区1高三163个男生身高为例,茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位
7、数的数字。,这些表示身高的数据有什么规律,各个数据出现的频数有时多少,我们再保持原有数据的情况下,将信息已茎叶图的形式展现出来。首先我们看一下茎叶图的结构,由频数、茎、叶三部分组成。,如图所示:其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。,茎叶图,请同学们回答可以从茎叶图里得到高三男,生身高的什么信息
8、呢?可以从茎叶图中得到的一些结论:首先身高最低是150cm,最多高与198cm。大部分人身高在160-175之间等等。,2、4频数分布的图形的表示,为了更清晰的了解数据信息趋势,通常可以用图形描述出这种趋势,常用的三种描绘频数分布的图形分别为:直方图频数折线图累积频数折线图,是定量数据,能在excel中绘图,也可以用spss。,2、4、1直方图,对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高(S3height1.txt)。用图形来表示这些数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。直方图主要用以表示分组数据的频数分布特征,是
9、分析数据分布特征的最有用工具之一。在直方图中,把横轴分为若干等距的区间,然后计算各数据在各区间上得频数,并在各区间上画出高度与数据在相应区间的频数成比例的矩形图。这样,直方图利用一系列相邻的矩形描述频数分布。注意:横轴和纵轴的比例也可以不等距,但只有等距情况下才能最直观的反应数据分布特征。图3.1就是利用这个数据由SPSS软件所画的直方图。,该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。显然从直方图可以看出数据分布的疏密。,从图形上看,直方图类似于立起来的茎叶图。但是与茎叶图相比,直方图
10、对原始数据做了简化和总汇,因此,直方图不能恢复原始数据。,要注意的是:如果用相对频数分布代替实际频数,那么我们会得到相同的结论,并且直方图的形状也一样。唯一的不同是量纲不同,即纵坐标表示的身高区间频数的百分比,而不是实际的身高区间频数本身。,2、4、2频数折线图,频数折线图类似于直方图,它由连接组中值与每组频数的交点的线段组成。其中,组中值是每组上下限的平均数。注意:频数折线图也称频数多边形图(Frequencypolygon)是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频
11、数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的,折线图的绘制,图2某车间工人日加工零件数的折线图,15,12,9,6,3,105,110,115,120,125,130,135,140,频数(人),直方图和频数折线图都便于我们对数据的主要特征(高点、低点、集中点等)形成直观的印象。,尽管两种图形在用途上是相似的,但是直方图的优点是用矩形条描述每一组,矩形条的高度表示每组的频数或频率。频数折线图也有优于直方图的地方,它使我们能直接比较两个或多个频数分布。例如,比较亚洲区和欧洲区的GDP在同一季度的变化一月二
12、月三月四月亚洲区48.576.1112.799.2欧洲区56.871.467.386.3,2、4、3累计频数分布,有时候我们希望了解在一定范围的数据分布,此时我们可以利用累积频数分布或累积频数折线图。正如名称所示,累积频数分布和累积频数折线图需要的是累积频数。如何构造累积频数分布呢,看下图:,再看一个例题:在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?1非常不满意;2不满意;3一般;4满意;5非常满意。,利用Excel软件画出累积频数分布图时,要在X轴上按比例标出每组上限,在Y轴上按比例标出相应的累积频数。要想提供更
13、多的信息,还可以在左边的纵轴上标出频数,而在右边的纵轴上标出百分比或者频率。如图:,甲城市家庭对住房状况评价的累积频数分布,2、5如何用统计图显示数据,在前面可以看出,茎叶图,直方图,频数折线图和累积频数折线图都有很强的视觉吸引力,它们可以抓住读者的注意力。在本节里,我们来考察一些其他常用的统计图,包括饼图,条形图,线图,散点图等。这些统计图的细节可以不用记,但是要能够理解图形的意义并会使用计算机软件画出需要的图形。,2、5、1定性数据的图形表示饼图、条形图,1、饼图是用圆形及圆内扇形的面积表示数值大小图形;2、主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用;3、在绘制圆形
14、图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比例描述。例如:在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?回答类别频数(户数)频率(百分比)非常不满248不满意10836一般9331满意4515非常满意3010,满意住房情况的人数占总人数的百分比为15%,那么其扇形的中心角度就应为360015%540,其余类推。,对住房满意程度的调查饼图,2、5、2条形图,1、条形图是用宽度相同的条形的高度或长短来表示数据变动的图形,可以描述那些已经用频数或频率汇总了得定性变量。2、条形
15、图中一个坐标轴代表定性变量的各个取值。3、在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率4、绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图。5、条形图(柱形图)最大的特点:就是可以在一个图形中同时表示和比较多个时间序列数据在各个时期的变化情况。,2、5、2定量数据的图形表示,1、线图(1)线图经常用来描述时间序列数据,(如公司每周的销售量、季度利润等),用以反映某些指标或变量随时间的变化趋势,有时也称为时间序列图。(2)时间序列图实际上是后面讲到的散点图的一种。(3)线图以度量值为纵轴,以度量值发生的时间或者次序为横轴建立,揭示了所监控(如销量)的运动
16、(趋势)和变化(变动)。(4)我们还可以在同一张线图里描绘两个或更多个序列的图形。,时间序列数据线图(例题分析),2、盒型图,盒型图又称箱图、箱线图、盒子图;它是由一个盒子和分居两边的两条线组成的。盒型图中涉及以下几个指标:上四分位数:意味着有约3/4的数据值小于它,约1/4的数据大于它,因此上四分位数又称为75分位数;下四分位数:意味着有约1/4的数据值小于它,约3/4的数据大于它,因此下四分位数又称为25分位数;中位数:也称50分位数,是对应于数据按大小居中的一个数(样本量为奇数时)或是中间两数的平均数(样本量为偶数时)。四分位间距(四分位极差)IQR:是上四分位数Q3和下四分位数Q1的差
17、,记为Q3Q1。这些信息我们将在第三章里详细讨论。,盒型图的绘制:,先根据上四分位数Q3、下四分位数Q1和中位数Q2画出中间的盒子,盒子的长度为Q3Q1。盒型图上下两条线的长度则可以有不同的选择。以盒型图上面的线为例,通常的选择为:如果没有数据值大于Q3+1.5IQR,那么该线以数据最大值为端点,否则,线的上端点为上四分位数加上1.5倍的盒子长度,比该端点大的数值则分别在其上方按照实际值标出。如果数据处于Q3+1.5IQR至Q3+3IQR的范围内用圆圈标出,超出了Q3+3IQR的用星号标出。下面的线也类似,即由Q1至Q11.5IQR区间内的最小值向盒子的底部连线;Q11.5IQR至Q13IQR的范围内用圆圈标出,小于Q13IQR的用星号标出。,以某一地区高三男生的身高为例,,盒型图的优点:,(1)盒型图可以帮助我们探测出数据的异常值:由于上、下四分位数不会受到数据集中的极值影响,超过盒型图内线的值就被认为是潜在的异常值,因为他们代表相对稀有事件发生的极值。(2)盒型图也会提供数据集变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内部品鉴用酒规章制度
- 内部市场跟踪营销制度
- 内部招聘奖金制度
- 内部走动式管理制度
- 内部销售管理制度
- 内部食堂包房管理制度
- 大数据与云计算技术融合应用研究报告
- 工程网络中的信息同步与控制策略
- 写生基地内部规章制度
- 制药企业内部规章制度
- DB61 1226-2018 锅炉大气污染物排放标准
- 2025江苏常州溧阳市卫生健康系统农村订单定向医学毕业生定向招聘19人备考试题及答案解析
- 2025年海关总署公开遴选公务员面试模拟题及答案
- 中老年化妆课件
- 电机与电气控制技术习题汇编
- 腹腔引流管相关感染及预防
- 服装设计基础(第三版)课件:服装设计与面料
- 巡察临时支部管理办法
- 急腹症的鉴别诊断及抢救处理
- 静脉留置针课件
- 患者安全专项行动方案(2023-2025年) 2
评论
0/150
提交评论