旅游统计学(教学课件)第三章 统计资料的分析_第1页
旅游统计学(教学课件)第三章 统计资料的分析_第2页
旅游统计学(教学课件)第三章 统计资料的分析_第3页
旅游统计学(教学课件)第三章 统计资料的分析_第4页
旅游统计学(教学课件)第三章 统计资料的分析_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章统计资料的整理与分析第一节

资料的整理一、资料整理的概念和原则

是根据统计研究的目的要求,对统计调查所取得的原始资料进行科学的分类、汇总使之成为系统化、条理化的综合资料,以反映现象总体特征的工作过程。

二、统计分组

(一)统计分组的概念和作用

1、概念根据某种标志,将总体划分为性质不同的组成部分,即在总体内部进行的一种定性分类分:对总体而言,将总体区分为性质相异的若干部分——组间差异性合:对个体而言,将性质相同的个体组织起来——组内的同质性

2、作用(1)划分现象的性质差异(2)反映总体的内部结构及其变化(3)研究现象间的依存关系(4)统计分组可以反映现象的发展变化规律

性别200920102011男203035女807065某单位员工性别结构(单位:人)

正的依存关系月收入旅游者单次旅游人均消费额1000元以下5001000-1500元

7001500-2000元10002000-2500元12002500元以上2000

负的依存关系工作时间(小时/周)平均停留天数602482.5403364依存关系不同于因果关系饭店接待人数客源国一月二月三月四月五月六月日本1000

12501300154016701700美国100160160150147145

(二)分组标志的选择分组的关键在于选择和确定分组标志.1.根据统计研究目的进行分组研究饭店规模、经济类型结构、员工文化素质、员工性别结构2.必须坚持穷尽性和互斥性的原则

分组标志的种类一、按标志的特征

★按品质标志分组如性别、企业所有制

按数量标志分组

单值分组(单项式分组)组距分组

单项式分组:按每一个具体变量值分组,适用于变量取值有限的离散型变量按家庭人口数1人

2人

3人

4人

5人

5人以上

组距式分组:按变量值的一定范围对现象总体所进行的分组将总体划分为若干区间适用于变量取值范围较大的离散型变量和连续型变量按成绩分组:

60分以下

60-70分

70-80分

80-90分

90-100分按职工人数分组:100人以下

100-500人

500-1000人

1000-2000人

2000人以上组距式分组的相关问题:⑴组限:表示各组之间的界限的变量值下限上限

60分以下

60-70分

70-80分

80-90分

90-100分⑵组限重合式:相邻两组中,前一组的上限与后一组的下限数值重叠

※作为重叠的组限应归到下一组组限不重合式:相邻两组中,前一组的上限与后一组的下限数值紧密相连但不重叠按职工人数分组:100人以下

101-500人

501-1000人

1001-2000人

2001人以上组限重合式组限不重合式连续型变量√离散型变量√√(3)组距:指一组变量值的区间长度=上限-下限

60分以下

60-70分

70-80分

80-90分

90-100分

100人以下

100-500人

500-1000人

1000-2000人

2000人以上(4)开口组:有上限无下限或有下限无上限

⑸等距式分组:各组组距都相等的分组按成绩分组:

60分以下

60-70分

70-80分

80-90分

90-100分

不等距式分组:各组组距不相等的分组(异距分组)按职工人数分组:100人以下

100-500人

500-1000人

1000-2000人

2000人以上(6)组数:即分组个数组数与组距成反比关系组数既不能太多也不能太少,应准确反映总体的分布特征

60分以下

60-70分

70-80分

80-90分

90-100分

(7)组中值:各组变量值的代表性水平重合式组限组的组中值=上限+下限2

例1:60分以下

60-70分

70-80分

80-90分

90-100分

100人以下

100-500人

500-1000人

1000-2000人

2000人以上组中值3007501500

非重合式组限组的组中值=

例2

100人以下

101-500人

501-1000人

1001-2000人

2001人以上本组下限+后一组下限2组中值3017511501开口组组中值:缺下限组的组中值=上限-邻组组距2缺上限组的组中值=下限+邻组组距2

60分以下

60-70分

70-80分

80-90分

90分以上组中值60-10/2=5590+10/2=95二、按标志的个数

简单分组复合分组

简单分组:只按一个标志进行分组,只能说明社会经济现象某一方面的状况。年龄情况:19岁以下

19岁

20岁

21岁及以上性别:男女复合分组:对社会经济现象总体按两个或两个以上的标志结合起来所进行的分组

19岁以下

19岁

20岁

21岁及以上男女男男男女女女注意:分组标志要分清主次分组标志不宜过多总体单位数很多才使用层叠结构分组比(%)5000以下116000-7000147000-8000108000-9000159000-100002010000-11000911000-120001212000140002140000以上3合计1008000以下8000-1000010000-1200012000以上再分组

练习题1:产值:

30万元以下

30万-50万元

50万-100万元

100万-500万元

500万元以上请问是哪一种分组方式,组数,组距,组中值练习题2按职工人数分组如下:

500人及以下

501-1000人

1001-2000人

2001-5000人

5001-10000人

10000人以上请问是哪一种分组方式,组数,组距,组中值练习题3旅游公司对其所属企业的生产计划完成百分比采用如下分组,请指出哪项是正确的?1)80-89%

90-99%

100-109%

110%以上2)80%以下

80.1-90%

90.1-100%

100.1-110%3)90%以下

90-100%

100-110%

110%以上4)85%以下

85-95%

95-105%

105-115%练习题4某旅游公司对其所属企业按职工人数分组,请问哪项正确?2)500人及以下

501-1000人

1001-2000人

2001-5000人

5001-10000人

10000人以上4)500人以下

499-1000人

999-2000人

1999-5000人

4999-10000人

9999人以上1)500人以下

502-1000人

1002-2000人

2002-5000人

5002-10000人

10002人以上3)500人以下

500-1000人

1000-2000人

2000-5000人

5000-10000人

选择题1、下列分组哪些是按品质标志分组()

A文化程度B固定资产按用途

C工龄D民族E生产计划完成程度2、下列分组哪些是按数量标志分组()

A学生按健康状况分组B工人按出勤率状况分组

C企业按固定资产原值分组D家庭按收入水平分组

E人口按地区分组3、下面哪些是连续型变量()

A住房面积B商店的商品销售额

C高校的大学生人数D人口的出生率

E工业增长速度4、下面哪些是离散型变量()

A进口的粮食数量B洗衣机台数

C每千人口医院床位数D人均粮食产量

E城乡集市个数第二节资料汇总的技术

汇总的技术有手工和计算机汇总两种.

一.计算机汇总的步骤编码,登录,录入和统计分析

编码手册如何对无回答和不知道的答案进行编码?

二、

数据清理

1.有效范围清理

变量的有效编码值有一定范围错误原因:

错误回答,编码员错写,录入人员错误输入.★在电脑上检查有效范围的编码值2.逻辑一致性的清理依据问卷中问题之间所存在的内在逻辑联系来检查前后数据之间的合理性.

《中国国内旅游抽样调查资料2006》

2005年全国城镇居民国内出游人均花费737·12元,长沙为3119·69元,

人均花费按文化程度分组,全国及各城市都是文化程度越高花费越多,长沙是中专及高中文化程度人均花费最高,达到4532·6元,高于其大专及以上文化程度组(1658·8元)2·73倍。按家庭月平均收入分组,全国及其他城市收入越高旅游花费越高,长沙的最高花费是家庭月平均收入介于1000元~1999元的家庭组,高达7005·2元。

3.数据质量抽查

根据样本中的个案数目的多少,以及每份问卷中变量数和总字符数的多少,研究者往往抽取2%-5%的个案进行质量抽查.比如:

一项调查样本规模为1,000个个案,问卷的字符数(数据的个数)为200个,研究者从中随机抽取3%的个案,即30份进行对照检查,结果发现有2个字符输入错误,这样

2÷(200×30)≈0.03%

可知,数据差错率在0.03%左右.这也就是说在总共20万个数据中,大约有60个左右的差错.第四节

分配数列一、分配数列的概念和种类1、概念所谓分配数列就是表现总体单位在各组分配状况的统计数列。构成要素:(1)按分组标志划分的各个组;(2)各组的总体单位数。各组单位数与总体单位总数的比率称为频率。

2、分配数列的种类(1)品质数列:是按品质标志分组编制的统计数列。例:某高校学生性别分布表(2)变量数列:是按数量标志分组编制的统计数列。

性别

人数(人)

频率(%)男

73257.14女54942.86

合计1281100.00二、变量数列及其编制

(一)变量数列的种类

(1)单项数列:以每个变量值为一组,按各组顺序简单排列编制而成。(2)组距数列:以表示一定范围的数值区间为一组,按各组顺序排列编制而成。某班学生按考试成绩分组按成绩分(分)

人数(人)

比率(%)

60以下78.8

60-702126.2

70-802531.2

80-901923.8

90以上810.0合计

80100.0某地区所属20个旅游企业营业收入计划完成程度分组资料如下:按计划完成程度分组(%)企业(个)比重(%)

90以下

90~100100~110110~120120以上13114151555205合计20100(三)变量数列的编制方法例如,某旅游商品生产企业50名工人日生产产品数如下:

117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121第一步,对上面的数据进行排序

107108108110112112113114115117117117118118118119120120121122122

122

122123123

123

123124124

124125125126126127127

127128128129130131133133134134135137139139第二步,确定组数和组距组数=4组距:(最大值-最小值)÷组数=8组距=10第三步,计算各组次数、频率及累计次数、累计频率产品数分组次数频率%累计次数累计频率%100-1103636110-12013261632120-13024484080130-140102050100合计50100--

用Excel整理数据例:某年级96名同学的旅游统计学成绩如下,对其按60分以下、60~70、70~80、80~90、90-100分为5个组,试编制分配数列。

频数分布函数(FREQUENCY)首先,将样本数据排成一列,本例中为H2:H97。然后,利用频数分布函数进行统计分组和计算频数具体操作:第一步:选定单元格区域,本例中选定的区域为J3:J7,单击“插入”菜单,选择“函数”选项,弹出“插入函数”对话框

在“选择类别”中选择“统计”,在“选择函数”中选择“FREQUENCY”

第二步:打开“FREQUENCY”对话框,输入待分组数据与分组标志

第三步:按“Ctrl+Shift+Enter”组合键,在最初选定单元格区域内得到频数分布结果,在本例中为J3:J7

思考题:1、有26名员工,看管餐桌台数分别为

54243434424343244223453243试编制单项式分配数列。2、某市26家饭店月接待旅客人数资料如下,试编制组距式分配数列。分4组。

6802280105013301460103011701610910950143098018101640181010001570153011102170170020301200115013801780

第四节统计资料的表现形式:统计图表一、统计表(一)统计表的构成

1、从形式上看:总标题、横行标题、纵栏标题、指标数值、有关说明

2、从内容上看:主词栏、宾词栏

(二)统计表的种类

按主词是否分组和分组的程度分:

1、简单表:总体未经任何分组的统计表。

2、分组表:总体按某一标志进行分组的统计表。

3、复合表:总体按两个或两个以上标志进行并重叠排列的统计表。

上半年下半年总人数

饭店数比重国有经济饭店

200万元以下

200-350万元

350-500万元集体经济饭店

200万元以下按作用不同分(1)调查表(2)整理或汇总表(3)分析计算表按统计数列的性质分(1)时间数列表(2)空间数列表(3)时空数列结合表月份123456人数月份123甲饭店乙饭店丙饭店丁旅行社(三)编制统计表应注意的事项:

1、统计表的各种标题应简明、确切地表达其内容。

2、主词各行和宾词各栏,一般按先局部后整体的原则排列。

3、如表中栏次较多,通常要加以编号。

4、数字应对准位数,填写整齐。

5、表中必须注明计量单位。

6、表式通常是左右开口。

7、必要时,应在表下方注明表中某些资料的来源或对某指标的计算方法做出说明。

(四)分配数列的“表”示方法1、单变量表示法各组的频率大于0各组的频率总和等于1成绩频数频率%较小制累积频率(向上累积)较大制累积频率(向下累积)60以下78.860-702126.270-802531.280-901923.890-100810.0合计801002、两个变量的相关表

洛杉矶300家餐馆的质量等级和价目(美元)价格等级10-1920-2930-3940-49合计好42402084很好3464466150优异214282266合计781187628300边际频数分布二、统计图

(一)统计图的概念

统计图是用点、线、面积等来说明统计资料对比关系的几何图或象形图。

统计图

1.直条图2.百分条图3.饼图(圆图)4.线图5.直方图6.散点图直条图(bar

chart)

1.概念:用等宽直条的长短来表示各个相互独立的资料大小的图形。2.适用资料:相互独立的资料(资料有明确分组,不连续)。百分条图(percentagebarchart)

概念:以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的比例适用资料:构成比资料。

饼图(圆图pie

chart)

概念:以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比例适用资料:构成比资料。

线图(linediagram)

概念:以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁的情况适用资料:连续性资料。

直方图(histogram)

1.概念:以各矩形的面积来代表各组频数的多少。2.适用资料:连续变量的频数分布。

散点图(scatterdiagram)

1.概念:以点的密集程度和趋势来表示两种现象的相关关系。2.适用资料:双变量资料。

茎叶图把每个观察数据划分为两个部分:主部和余部,然后把数据的主部按从小到大的顺序纵向排列,再在每个数据的主部后面列出余部,所得到的统计资料显示图优点:(1)整理资料时不要做什么准备工作,省时方便(2)茎叶图同时具有频数分布和直方图的功能(3)由茎叶图资料很容易求出反应数据特征的位置平均数指标,也可以得到对称性、离散度、奇异点等信息(4)基本保留了原始资料的信息,还原能力强123452545116679049茎:表示十位数字叶:表示个位数字例:某篮球运动员在某赛季各场比赛的得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,50茎叶图:直方图分析工具

与频数分布函数只能进行统计分组和频数计算相比,直方图分析工具可完成数据的分组、频数分布与累积频数的计算、绘制直方图与累积折线图等一系列操作。

第一步:工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论