《统计数据分析基础教程(第二版)》第1章 概述_第1页
《统计数据分析基础教程(第二版)》第1章 概述_第2页
《统计数据分析基础教程(第二版)》第1章 概述_第3页
《统计数据分析基础教程(第二版)》第1章 概述_第4页
《统计数据分析基础教程(第二版)》第1章 概述_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计数据分析基础教程(第二版)

―基于SPSS20和Excel2010的调查数据分析第1章概述本章内容1.1什么是统计1.2统计、计算机与统计软件1.3为何要使用Excel来学习统计1.4变量及其分类1.5数据的收集附录Excel“数据分析”工具1.1什么是统计你想过下面的问题吗?(1)当你买了一台电视,被告知三年内可以免费保修时,你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?(2)在同一年级中,同一门统计学的课程可能由一些不同的教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢?(3)大学排名是一个非常敏感的问题。不同的机构会得出不同的结果,各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?(4)如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某件事物(比如商品或政策)的态度的关系呢?(5)如何才能够客观地得知某个电视节目的收视率,以确定广告的价格是否合理呢?1.1什么是统计统计学应用领域:社会学、新闻调查精算、农业、动物学、人类学、考古学、审计学、人口统计学、牙医学、生态学、计量经济学、教育学、选举预测和策划、工程、流行病学、金融、水产渔业研究、遗传学、地理学、地质学、历史研究、人类遗传学、水文学、工业、法律、语言学、文学、劳动力计划、管理科学、市场营销学、医学诊断、气象学、军事科学、眼科学、制药学、物理学、政治学、心理学、心理物理学、质量控制、宗教研究、分类学、气象改善、博彩等。当然,大家用不着也不可能理解所有的统计应用,只要能够解决自己身边的统计问题就足够了。1.1什么是统计统计学(Statistics)是用以收集数据、分析数据并进而由数据得出结论的一组概念、原则和方法。因而有学者也将统计学称为统计方法(StatisticalMethod)。比如,要得到某电视节目的收视率,可能首先要在该节目播出时,利用电话对看电视的人进行采访,同时问他们在观看什么节目。在得到了被采访的看电视的总人数和其中观看该节目的人数之后,就有可能得到这部分观众中观看该节目的比例,即大致的收视率了。之后还要经过统计分析,评估这个收视率的可信度和代表性等。显然,这是一个收集数据,然后通过分析数据得到结论的简单例子。

1.2 统计、计算机与统计软件现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。计算机的使用,也从过去必须学会计算机语言发展到只需要“傻瓜式”地点击鼠标;结果也从单纯的数字输出发展到包括漂亮的表格和图形在内的各种形式。统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。应该特别留神,明白自己是在干什么,不要在得到一堆毫无意义的垃圾之后还沾沾自喜。1.2 统计、计算机与统计软件SPSS:这是一个很受欢迎的统计软件。它操作容易,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。对于非专业统计工作者,它是很好的选择。Excel:严格说来,Excel并不是统计软件,但作为数据表格软件,必然有一定的统计计算功能。而且凡是安装了MicrosoftOffice的计算机,基本上都装有Excel。但要注意,有时在安装Office时没有安装(加载)“数据分析”的功能,那就必须装(加载)了才行。当然,画图功能是已经具备了的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”了。SAS:这是一款功能非常齐全的软件。尽管价格相当不菲,但许多公司,特别是美国制药公司都在使用,这多半因为其功能众多和某些美国政府机构一些人的偏爱。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以使用。也可以用它编程计算,但对于基本统计课程则不那么方便。学习软件的最好方式是需要时在使用中学。1.3为何要使用Excel来学习统计由于微软的Office已相当普及,并且广泛地应用于工商企业及个人使用领域,要想在一台个人计算机上找到Excel,要比找到SPSS或SAS软件容易得多,而且Excel具有易学易懂的特性。虽然Excel并没有被归类为统计软件,并且其与统计有关的函数和“数据分析”功能是绝对无法与SPSS或SAS统计软件相提并论的,但对绝大多数人而言已经足够了。生活在“信息时代”中的人们比以前任何时候都更频繁地与数据打交道,Excel就是为现代人进行数据处理而定制的一个工具。无论是在科学研究、医疗教育、商业活动还是家庭生活中,Excel都能满足大多数人的数据处理需求。Excel拥有强大的计算、分析、传递和共享功能,可以帮助用户将繁杂的数据转化为有用的信息。伟人说“实践出真知”,在Excel中,不但实践出真知,而且实践出技巧。1.4 变量及其分类变量(Variable)是用来描述总体中成员的某一特性。在搜集数据的过程中,需要搜集各类的变量。例如,性别、年龄、职业、教育程度、收入等人口统计变量。又如,为了预测明年的销售量,所搜集到的数据如广告费、人事费、销售人员数等,也都是一种变量。在现实生活或自然界中的一些现象,通常都不是单一变量可以描述得很清楚的。例如,要描述某一个人,仅使用性别变量,说他(或她)是男性(或是女性),肯定是无法说明白的。但随着变量(例如年龄、肤色、头发、身高、体重、种族等)的增加,可以逐渐描述得更清楚一些。1.4 变量及其分类定性变量(QualitativeVariable)也称离散变量或分类变量。例如,使用的手机品牌、学生所在的学院、就读的班级、宗教信仰、参加的社团、喜好的运动、最常饮用的饮料类别、最喜欢的歌手、最喜欢的影星、民族、党派,均属定性变量(分类变量)。分类变量的观测结果称为分类数据。如性别:男[1]、女[2]。定序变量:如果类别具有一定的顺序,这样的变量也称为有序变量(RankVariable)或有序分类变量。相应的观测结果称为有序数据。例如,成绩:优[5]、良[4]、中[3]、及格[2]、不及格[1];文化程度:小学[1]、中学[2]、大学[3]、研究生[4];职称:教授[4]、副教授[3]、讲师[2]、助教[1];评价:非常重要[5]、重要[4]、一般[3]、不重要[2]、非常不重要[1];态度:赞成[3]、中立[2]、反对[1]。定量变量(QuantitativeVariable)也称数值型变量。例如,成绩、年龄、收入、国民生产总值、体重、身高、智力、温度等均属定量变量。定量变量的观测结果称为定量数据或数值型数据。在实际应用中,变量类型一般只分为定性变量(分类变量)和定量变量(数值型变量)两大类。1.5数据的收集(怎样得到数据)每天翻开报纸或打开电视,就可以看到各种数据,比如高速公路通车里程、股票行情、外汇牌价、房价、流行病的有关数据。当然还有国家统计局定期发布的各种国家经济数据、海关发布的进出口贸易数据等。从这些数据中,各有关方面可以提取对自己有用的信息。显然,这些间接得到的数据都是二手数据。获得第一手数据并不像得到二手数据那么轻松。某些企业每年至少要花三四千万元来收集和分析数据。他们调查其产品目前在市场中的状况和地位,并确定其竞争对手的态势。他们调查不同地区、不同阶层的民众对其产品的认知程度和购买意愿,以改进产品或推出新品种以争取新顾客。他们还收集各地方的经济、交通等信息,以决定如何保住现有市场和开发新市场。市场信息数据对企业是至关重要的,他们很舍得在这方面花钱。因为这是企业生存所必需的,绝不是可有可无的。1.5数据的收集(个体、总体和样本)要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要进行调查。调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去问所有的北京市民,而只能够问一部分,并且根据这一部分的观点来理解整个北京市民的总体观点。在这个例子中,单个北京市民称为调查的对象;而他们的观点称为(这个调查问题的)个体;而称所有北京市民对这个问题的观点为一个总体,总体是包含所有要研究的个体的集合;而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本,是总体中选出的一部分。当然,也有可能试图调查所有的人,那叫普查(Census),比如人口普查。有人喜欢把作为调查对象的北京市民称为个体,但每个市民还有其他诸如身高、体重、教育程度等无数特征,这些都不是我们调查的目的。因此,为了强调我们调查的目的,市民的观点才应称为个体。1.5数据的收集(个体、总体和样本)在抽取样本时,如果总体中的每一个个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(例子P42),而这样得到的样本则称为随机样本。随机抽样就像从一锅搅匀的八宝粥中舀出一勺,其中各种成分的比例应该和锅里的比例大致一样。大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数。其步骤为:(1)先把总体的所有个体编号;(2)然后产生n个1到N之间的随机数;(3)与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本。在广泛使用计算机的今天,为了方便,很多实际工作者应用计算机所产生的伪随机数来代替真正的随机数。在实践中,得到随机样本并不容易,很多搞调查的人就采取简单的办法:方便样本。具体实现方法:参见实验1.3、实验1.4和实验1.51.5数据的收集( 收集数据时的误差)假定在某一职业人群中女性占的比例为60%。如果在这个人群中抽取一些随机样本,这些随机样本中女性的比例并不一定刚好是60%,可能稍微多些或稍微少些。这是很正常的,因为样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差。在抽样调查中,一些人因为种种原因没有对调查做出反应(或回答),这种误差称为未响应误差。而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差。和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解,应该在设计调查方案时尽量避免。1.5数据的收集

(抽样调查以及一些常用的方法)抽样调查(SampleSurvey)的领域涉及如何用有效的方式得到样本数据。最常用的问卷调查方式,包括通过邮件报刊等手段调查、电话调查和面对面调查等。这些调查方式都利用了问卷(questionnaire),而问卷的设计则很有学问。它涉及如何用词、问题的次序以及问题的选择和组合等。这涉及心理学、社会学等知识。抽样调查设计的目的之一是确保样本对总体的代表性,以保证后续推断的可靠性。概率抽样方法:系统抽样(系统随机抽样的例子P42)、分层抽样、整群抽样、多级抽样。非概率抽样方法:目的抽样、方便抽样、判断抽样、定额抽样、雪球抽样、自我选择。附录Excel“数据分析”工具(P10)1.Excel数据分析工具(1)工作表函数与数据分析工具的区别(2)数据分析工具的内容“数据”选项卡-->“分析”组-->“数据分析”2.在Excel2010中激活“分析工具库”加载项第一步:单击【文件】选项卡,在弹出的列表中单击【选项】命令,这时将出现【Excel选项】对话框;第二步:在【Excel选项】对话框中,单击【加载项】命令,在右侧【管理】下拉列表中选定【Exce1加载项】,单击【转到】按钮,打开【加载宏】对话框;第三步:在【加载宏】对话框中,勾选【分析工具库】选项,单击【确定】按钮。实验指导实验1.1使用Excel的RAND随机数函数

产生随机数表实验1.2使用Excel的“随机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论