版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一 导论 (第一 统计及其应用领域 (第二 统计数据类型 (第三 统计学的常用基本概念 (第二 数据的搜集 (第一 数据的来源 (第二 调查数据 (第三节 数据的误差第三 数据的图表展第一 数据的预处
(((第二 品质数据的整理与展第三 数值型数据的整理与展
((第四节 合理使用图表第四 数据的概括性度第一节 集中趋势的度量第二 离散程度的度
((((第三 偏态与峰态的度 (第五 概率与概率分 (第一 随机事件及概 (第二 概率的性质与运算法第三 离散型随机变量及其分
((第四 连续型随机变量的概率分 (第六 统计量及其抽样分 (第一 统计 (第二 由正态分布导出的几个重要分 (第三 样本均值的分 (第四节 样本方差和样本比例的分布 第七 参数估 (第一 参数估计的基本原 (第二节 一个总体参数的区间估计第三 两个总体参数的区间估
((第四 样本量的确 (第八 假设检 (第一节假设检验的基本问题第二节一个总体参数的检验第三节两个总体参数的检
(((第九 列联分 (第一 分类数据与列联 (第二 χ2检 (第三 列联表中的相关测 (第十 方差分 (第一 方差分析引第二节 单因素方差分析第三 双因素方差分
(((第十章—元线性回归(第—节变量间关系的度量(第二节—元线性回归(第三节利用回归方程进行预测(第四节残差分析(第十章多元线性回归(第—节多元线性回归模型(第二节回归方程的拟合优度(第三节显著性检验(第四节多重共线性(第五节变量选择与逐步回归(第十章时间序列分析和预测(第—节时间序列及其分解(第二节时间序列的描述性分析(第三节时间序列预测的程序(第四节平稳序列的预测(第五节趋势型序列的预测(第六节复合型序列的分解预测(第十章指数(第—节基本问题(第二节总指数编制方法(第三节指数体系(第四节几种典型的指数(第五节综合评价指数(课程简统计学是一门关于大量数据如何进行搜集、整理和分析的方法论科学,它是统计学专业的一门专业基础课程,也是经济学类和工商管理类各专业的一门核心课程,众多学科必备的考研专业课程,主要介绍如何运用统计方法对社会经济现象的总体特征和发展规律进行描述、分析,包括:统计指标、数字特征、动态分析、指数分析和简单的趋势模型及抽样推断、相关和回归分析等。内容体系和章节分描述统计:前四推断统计:第五章至第十一统计应用:第十二章至第十四第第第135导数概论据率第第第246数数统据据计的的量搜概及集括性度其抽样分第7参数估计第8假设检验第9 列联分 第10 方差分第11—元性回第12多元线性回第13时间列分析预第14指数课程辅导的作凸现重点,分解难点,关联体系,把握核心。内容应有取舍,要求亦分三个层次:了解 —般的认识。知道出处、适用范围,反映的具体事情;理解 对概念、原理、公式的条件、结论及意义有准确的把握;掌握 理解基础上,能够正确运用。通过对重点内容的精细讲解,对难点内容的透彻分析,将整个课程体系串联起来,达到对课程大纲中核心考点和综合知识的系统掌握。课程辅导的目1.更加深刻地理解统计学主要概念及统计背景,了解在社会经济应用及分析中的重要作用,系统掌握统计描述和统计推断的基本内容与基本方法;2.在掌握统计学基础知识的基础上,能较容易理解其他课程中的一些数量分析方法,并能独立完成对有关资料的搜集、整理、分析。3.为深入研究社会经济问题和学习其它专业课程提供数量分析的方法4.为进一步学习专业统计和数量经济课程打好基础要求学生能在教师的指导下,掌握统计学的基本理论和方法,熟悉统计软件的基本操作,并能够结合经济学和工商管理理论加以应用。1第一 基本内统计学的含义、统计数据及其分类、统计学常用的基本概念重点内统计学常用的基本概念学习目1.理解统计学的含义,能区分描述统计与推断统2.了解统计学的应用领3.理解统计数据的含义、基本类型及特4.熟悉总体、样本、参数、统计量、变量等基本概念的含第一 统计及其应用领么是统计学统计学是处理数据的方法论,是关于收集、处理、分析、解释数据并从中获得结论的科学,研究对象是来自各领域的数据,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。1.数据收集:取得统计数据。例如,调查与试验2.数据处理:展示数据。例如,分组、制表、作图3.数据分析:选择统计方法研究数据。例如,回归分4.数据解释:结论的讨论与说明。例如,判别出变量相互独立图11统计研究的过2数据分析方法分类:描述统计方法和推断统计方法,描述是推断统计的前提,推断统计是描述统计的发展。描述统计是研究数据收集、处理、汇总、图表描述、概括与分析等的统计方法,通常采用集中量数、差异量数、地位量数、相关系数等概括性的度量工具;反映研究总体的直观特征、外在联系或横向比较结果等浅表性信息。推断统计是借助概率论的原理,研究如何利用样本信息来推断对总体特征的统计方法,主要包括参数估计、假设检验和方差分析;揭示研究总体内在统计规律与特征;对各种统计方法的性质和优良程度进行探讨。见图1计学的应用领域
图12统计方法的分统计学是适用于所有学科领域的通用数据分析方法,使广泛运用于包含定量数据的一切领域中有效的分析工具,并已发展成为由若干分支学科组成的学科体系。下面给出统计在工商管理中的一些主要应用。1.企业发展战利用统计方法提供可靠数据,了解经济发展状况、变化趋势,考察市场变化;利用统计方法的科学分析,挖掘企业优势,发现不足,进行合理的市场定位。2.产品质量管理统计在产品管理的主要应用方式是质量控制,借助质量控制图监测生产过程3.市场研通过市场调查,获取所需信息,利用统计分析,得到关于市场规律的科学结论4.财务分利用统计方法,对上市公司提供的财务资料与数据进行分析,为股民提供投资参考5.经济预利用统计方法,对获得的经济领域的一些指标数据和统计信息建立定量模型,作出特征判断和趋势预测。6.人力资源管利用统计方法,可以对企业员工的基本信息进行管理与分析,并作为企业制定工资计划、奖惩制度的依据。图1展示了统计学的一些应用领域统计,表13图13统计学的应用领第二 统计数据类统计数据是统计研究的基础信息和分析应用的依据,是对客观现象进行测量的结果,视研究问题的角度可有不同方式数据类型划分。1.按计量尺度划数值型数据(metricdata):按数字尺度测量的数据,结果表现为具体的数值,能对不同事物的特征及间距作出精确测度。例如:比例数1%、5%、10%、25%、50%、75%、90%等;顺序数据(rankdata):只能归于有序等级的非数字型数据,结果表现为等级标准,目的是对事物类别顺序进行测度,例如,学历分为小学、初中、高中、大专、本科、研究生等;分类数据(categoricaldata):只能用不同类别表述的非数字型数据,结果表现为文字类别,目的是对事物类别进行区分;例如,物体颜色、形状、物理状态等。2.按收集方法划观测数据(observationaldata):通过调查或观测而收集到的数据,属于自然环境下获得的。通常经济、社会、人口领域有关现象的数据大多来源于观测数据。试验数据(experimentaldata):在试验中控制试验对象而收集到的数据。各种物理、化学、生物、医学试验等大多数自然科学领域的数据主要出自试验数据。3.按时间状况划截面数据(crosssectionaldata):取自相同或相似的时间点上的数据,这类数据通常是在不同的空间上获得的,测度现象在某一时刻的状态特征。例如,某一年亚洲各国和地区的人文发展数据。时间序列数据(timeseriesdata):取自不同时间点上的数据,这类数据通常是在同一空间上获得的,描述现象随时间变化的规律。例如,2000年至2010年我国人口数据。第三 统计学的常用基本概1.总体和样总体(population):包含研究对象的全体组成的集合,组成总体的每一个元素称为个体,按照总体所含元素数目可分为有限总体和无限总体。有限总体的范围能够明确确定,且元素的数目是有限的;无限总体所包括的元素是无限的,元素的数目不可数的。区分有限总体和无限总体主要目的是为了4判断在抽样过程中独立性注意:在统计问题中通常将所研究总体限定于它的某个数量指标,视总体为一些实数构成的集合,利于统计分析方法应用。例如检验一批灯泡的质量,从中选择100只,观察其使用寿命,这里研究总体就不是这批灯泡,而是这批灯泡的使用寿命,为一组实数构成的集合。样本(sample):从总体中抽取的一部分元素组成的集合,也是总体的一个子集。构成样本的元素数目称为样本容量或样本量(samplesize)。上例中100只灯泡的使用寿命就构成一个样本。2.参数和统计参数(pareter:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征的数量表现。统计学中常用的参数主要有总体均值(μ、标准差(σ、总体比例(π)等,总体参数通常是一个未知的常数。统计量(statistic):用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的,集中了样本所带来的总体众多信息的样本函数。对应于总体主要参数的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等,样本统计量通常用小写英文字母来表示。注意:除了上述基本统计量外,统计学中还有一些为统计分析需要所构造的统计量,以后章节中将会陆续引入。3.变变量:反映现象某种特征和状态的指标,变量的具体取值称为变量值,即数据。如商品价格、受教育程度、时间、体重等都是变量。统计数据就是统计变量的一些取值。按照计量尺度划分数据类型的方式,相应地可将变量分成分类变量、顺序变量和数值型变量。数值型变量因刻画事物特征最为精确,亦为应用最广泛的类型,而且根据其取值是否连续,又可分为离散型变量和连续型变量。5第二 数据的搜基本内数据的来源、获得数据方法、数据的误差重点内简单随机抽样、抽样误差学习目1.了解数据来源的两种渠2.了解概率抽样与非概率抽样特点和差3.熟悉概率抽样几种常用方式的操作方法和优缺4.了解非概率抽样常用方式适用条件和差5.了解搜集数据的基本方法及其特6.理解数据的误差含义,以及抽样误差和非抽样误差的区别、产生的原因,了解误差控制的方第一 数据的来统计数据是实践的基本资源和统计分析的依据,展示了客观现象数量方面的特征,从本质上讲,所有统计数据最初都来源于调查或实验,但从使用者的角度看,主要出自直接和间接两条途径。1.数据的间接来间接来源:未经过自己的实践,而对别人已搜集数据直接加以利用而得到的。或将已存在信息重新加工、整理,变为我们所用数据的方式。搜集的范围包括系统外部和系统内部。系统外部:对外公布的常规信息,收集渠道很多;系统内部:不对外公布的精密资料,获取途径较少。优点:采集成本低,便于搜集,并且能很快利用作用广泛,包括分析所要研究的问题、提供研究问题的背景、帮助研究者更好地定义问题、检验和回答某些疑问和假设、寻找研究问题的思路和途径等。缺点:针对性差,相关性、准确性、时效性可能有不足2.数据的直接来直接来源:经过自己的调查或实验等直接的实践活动,取得的第一手数据包括通过调查方法获得的调查数据,主要针对社会经济现象且取自有限总体,比如统计学家收6人口数据分析某地区人口增长的规律;通过实验方法得到的实验数据,它大多用于自然现象,社会科学领域也有应用,比如医学家通过实验验证某种中成药的疗效。优缺点恰与间接来源相反第二 数1.概率抽样与非概率抽在数据采集阶段,我们面临的一个关键问题:如何选出一个好的样本?相对而言,好的样本包含两方面含义:①对所研究问题有较强的针对性②调查费用与估计精度间要保持较高的性价比运用抽样方式采集数据的具体方式有很多,但根据抽样原则划分只有概率抽样和非概率抽样两大类。图21抽样方式图1)概率抽样(probability它是遵循随机原则进行的抽样,又称随机抽样。主要特点抽取样本时按一定的概率以随机方式选择样本单位每个单位被抽中的概率是已知的,通常可以计算出来的当用样本对总体指标进行估计时,需考虑到每个样本单位被抽中的概率概率抽样是调查实践中最主要且应用最广泛的类型,主要优点是以随机性为原则选取样本,可以导出样本统计量的理论分布,进而依据调查结果,计算估计量误差,确保了统计推断的可靠性,因此是获得统计分析样本的基本抽样类型。概率抽样常用方式包括简单随机抽样(simplerandompng方法:从总体N个单位中随机地抽取n个单位作为样本,每个单位以相等的概率入选,为最基本的抽样方法,也是其它抽样方法的基础。优点:简单、直观,在抽样框完整时,可直接从中抽取样本;用样本统计量对目标量进行估计比较方便。注:抽样框指包含全部总体单位及标志特征的一个框架。局限性:当N很大时,构造抽样框较困难;抽出的单位交分散,增加了实施调查的难度;无利用7它辅助信息以提高估计的效率分层抽样(stratified方法:将总体单位按某种特征或规则先划分为不同的层,然后从不同的层中独立、随机地抽取一定数量的单位组成样本。优点:保证了样本的结构与总体的结构比较相近,从而提高估计的精度;一定条件下方便了调查的组织实施;可以同时对总体和各层的目标量,效率较高。该方法在实践中应用较为广泛。例如:某市税务部门欲对市区600名个体户的月零售额作抽样调查,可按申报资金分为大、中、3类,比例数为,假定选取120人作样本,则可取大户12人,中户48人,小户60人整群抽样(cluster方法:先将总体中若干个单位合并为组(群),然后以群为单位直接抽取样本,再对入选群中的所有单位实施调查。优点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节约费用,方便实施;缺点:但由于同一群内单位相对接近,对总体估计的误差较大。系统抽样(systematic方法:先将总体中的所有单位按一定顺序排列,并随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它单位组成样本。典型方式先从数字1到k之间随机抽取一个数字r作为初始单位,然后依次选取rk,rk,…,等单位组成样本。优点:操作简便,一定条件下还可提高估计的精度;缺点:对估计量方差的比较困难多阶段抽样(multi-stage方法:先抽取群,但并不是调查群内的所有单位,然后从入选的群中在抽取出若干个单位组成样本进行调查。因接受调查的单位需经两个步骤产生而命名二阶段抽样,将该方法推广,使抽样的段数增多,就成为多阶段抽样。例如第一阶段抽取初级单位群,第二阶段抽取二级单位,第三阶段抽取接受调查的最终抽样单位就是三阶段抽样。优点:具有整群抽样的优点,保证样本相对集中,节约调查费用缺点:需要包含所有低阶段抽样单位的抽样框;由于实行了再抽样,使调查单位分布于较为广泛的范围内展开;经常被用于规模较大的抽样调查。2)非概率抽样(nonprobability根据研究目的对数据的要求,采用非随机方式从总体中抽出部分单位进行调查的抽样方法。由于所得为非随机样本,样本统计量的分布是不确定的,因而无法使用样本的结果推断总体,非概率抽样适合于探索性的研究。主要方式有以下几种方便抽方法:调查过程中由调查员依据方便的原则,自行确定入选样本的单位。例如:调查员在各种公共场所进行的拦截调查。8判断抽方法:研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本自愿抽方法:被调查者自愿参加,向调查人员提供有关信息构成样本例如,参与报上和互联网上登的调查问卷活动,或向某类节目拨打热线电话等滚血球抽方法:先选择一组调查单位,对其实施调查之后,再通过他们找到另外一些调查单位,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。适合于对稀少群体和特定群体研究。配额抽方法:先将总体的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位。保证了总体中各类别的单位都能出现在样本中。非概率抽样的几种方式具有相似的优缺点。优点:易与实施且成本低。缺点:样本单位的确定较为主观随意,对总体代表性差,调查结果不能用于推断总体说明:鉴于本课程中抽样技术不是主要内容,下面讨论中均假定样本是采用简单随机抽样方式选出的,以便更好地把握统计推断的原理。2.搜集数据的基本方样本单位确定后,从样本单位得到所需的数据有以下常用方法,如图2所示自填式问卷调
图22数据搜集方法图标显方法:在无调查员协助的情况下由被调查者自己完成调查问卷。比如调查员分发、邮寄、网络、媒体等递送方法的问卷。一般要求调查问卷结构严谨,有清楚的说明。优点:实施方便且成本低缺点:问卷的返收率较低,不适合结构复杂的问卷,调查周期较长,发现的问题无法及时调改面访式问卷调方法:调查员与被调查者面对面提问、被调查者回答的调查方式。优点:可提高调查的回答率、数据的质量,调节花费的时间。缺点:成本较高且难控制调查质量电话式问卷调方法:通过各种电讯工具向被调查者实施调查9优点:速度快、时效性强,尤其适合样本单位较为分散的情形。缺点:受到多种条件的限制。观察式调方法:调查员通过直接观察方式获取信息。如交通流量的调查选择数据收集方法的依主要考察抽样框中的有关信息、目标总体的特征、调查问题的内容、有形辅助物的使用、实施调查的资源、管理与控制和质量要求。表2给出了几种收集数据方法的特点比较。表21常用数据收集方法的特自填面访电话调查时慢中快调查费低高低问卷难要求容可以复要求容有形辅助物的使中等利充分利无法利调查过程控简复容调查员作用的发无法发充分发—般发回答最较—小结:没有哪一种方法在各方面都是最好的,应根据实际问题的多方面因素综合要求而定3.实验数它是搜集数据的另一类方法,指在实验中控制实验对象而得到的变量数据。由于这类方法专业性较强,多用于理工科对应的领域,本课程中少有应用,故这里不再详述。第三 数据的误泛指通过调查得到的数据与研究对象真实结果之间的差异。主要包括抽样误差和非抽样误差两类,如图2所示。1.抽样误差(sampling
图23数据误差的图标分定义:由于抽样的随机性所引起的样本结果与总体真值之间的差异描述的不是个体偏差,而是所有样本可能的结果与总体真值之间的平均性差异抽样调查所特有的,仅存在于概率抽样中的随机误差,可以计量或测度,并通过抽样设计加以控制影响抽样误差的大小的主要因素:样本量的大小(反比)和总体的变异性(正比)2.非抽样误差(nonsampling泛指除抽样误差之外的,由于其他原因造成的样本结果与总体真值之间的差异。存在于所有类型的调查之中,包括概率抽样,非概率抽样,全面性调查。主要类型有以下几抽样框误 由于抽样框的不完善所致,如抽样框中遗漏部分总体单位回答误差 被调查者在接受调查时的回答与真实情况不符所致,原因包括理解误差、记忆误差、有意识误差;无回答误差 被调查者拒绝接受调查,导致结果出现偏差,尤其是系统性的;调查员误差 由于调查员自身的原因所致;测量误 由于调查的方式、测量工具的不完善所致3.误差的控概率抽样下抽样误差是不可避免的,但可计量,并能在统计理论指导下采取措施,控制其大小非抽样误差的控制的主要方面是调查过程的质量控制,可在调查员的挑选、培训、督导及抽样调查的管理制度上采取措施。第三 数据的图表展示(一基本内数据的预处理、频数分布表的编制、两类数据的整理与图标展示重点内数据预处理的方法、识别图表中统计结论与特征学习目1.熟悉数据预处理的各种方2.了解两类数据的整理与展示的方法、特点和差3.了解各种常用图表的制作方法和应用条4.能够识别各种常用图表的统计结论与特第一 数据的预处数据的预处理是在对数据分类或分组之前所做的必要处理,确保数据的可靠性和应用的便利性。主要内容包括数据的审核、筛选、排序等。1.数据审含义:检查数据中有无错误对调查取得的原始数据,主要审核完整性和准确性两个方面完整性审核 应调查单位有无遗漏,各调查项目或变量是否填写齐全;准确性审核 数据是否真实可靠,是否有错误或异常,计算的正确性等。对间接获取的二手数据,还需追加审核适用性、时效性适用性审核 通过对数据的来源、数据的口径以及有关的背景材料的分析,判断对自己的研究有无应用价值;时效性审 考察时间滞后性对数据的影响2.数据筛选(data含义:根据需要找出符合某种特定条件的数据数据筛选的原因 数据中的错误不能纠正,或某些数据不符合调查要求且又无法弥补。数据筛选的内容 剔除不符合要求或错误的数据,筛选出符合特定条件的数据。数据筛选可以由Excel【数据】菜单下【筛选】或【高级筛选】命令完成注意:各种图标的制作需要借助于Excel、SPSS统计软件实现,非本课程基本内容,辅导课均不作介绍,有兴趣同学可以通过教材自学。3.数据排序(data含义:按一定顺序将数据进行排列整理,包括升序和降序两种。排序之后的数值型数据也被称为顺序统计量(orderstatistics)。作用:便于发现一些明显的数据特征或趋势,找到解决问题的线索;有助于对数据检查纠错,以及为重新归类或分组等提供依据;排序本身也是分析的内容与目的之一。各种类型数据的排序都可以由Excel【数据】菜单下【自动筛选】命令实现4.数据透视表(pivot方法:按使用者的习惯或分析要求对数据表的重要信息进行汇总和作图,形成一个符合需要的交叉表(列联表),建表条件是数据源表首行必须设置列标题。作用:通过对数据源表的整理,能够从复杂的数据中提取更为综合、系统的有用信息。数据透视表可以由Excel【数据透视表】工具生成。第二 品质数据的整理与展数据经过预处理后,可根据需要进一步作分类或分组,即数据整理。作用是便于更直观清晰地显示数据特征。图表是数据整理中基本的展示方式,合理使用图表描述统计结果是应用统计的基本技能之一。数据的整理与显示的基本问题:需弄清所面对的数据类型,以便采取针对性的处理方式。对品质数据(分类数据和顺序数据)主要是作分类整理,对数值型数据则主要是作分组整理。1.分类数据的整理与展基本过程:列出所分类别,计算各类别的频数、频率或比例,制出频数分布表,通过图表展示数据的直观特征。1)频数与频数分频数( 落在各类别中的数据个数频数分布 将各个类别及落在其中的相应频数全部列出的统计表格分类数据的频数分布表既可以由Excel【数据透视表】或【数据分析】工具中的【直方图】命令生成,还可以运用SPSS相应功能键实现,包括制作多个变量交叉分类的列联表。频数分布表实例见【例3.1】和【例3.2】【例3.1 对学生购买饮料品牌的调查资料建立频数分布表表31学生购买饮料品牌的频数分布代饮料品牌频数(人)频率(%1可口可2百事可3蒙94娃哈65伊9合【例3.2 对某百货公司日商品销售额建立频数分布表表32某百货公司日商品销售额的频数分布按销售额分组x(万元频数f(天频率(%25~410.30~615.35~37.40~922.45~615.合其它描述分类数据的统计量比例(proportion):研究对象的某一类别数据占全部数据的比值百分比(percentage):将对比的基数作为100的比值比率(ratio):研究对象中不同类别数据的比注意:比率不是部分与整体之间的对比关系,因而比值可能大于1。2)分类数据的图示统计图是统计数据最形象、直观的表现形式,有许多种图形能刻画频数、比例分布的特征条形图(barchart)用宽度相同的条形的高度或长短来表示各类别数据多少的图形,主要用于反映分类数据的频数分布,实例参见图3。帕雷托图(Paretochart)按各类别数据出现的频数多少排序后绘制的柱形图,特点易于比较各类数据频数多少,实例参见图。【例3.3】为研究不同类型软饮料的市场销售情况,一家市场调查公司对随机抽取的一家超市进行了调查。调查员随机观察的50名顾客购买饮料的类型及购买者性别的记录。生成频数条形图和帕雷托图,观察饮料类型的分布状况,并进行描述性分析。图31饮料类型销售量的条形对比条形图(side-by-sidebarchart)将分类变量在不同时间或不同空间上的多个取值合成起来的条形图,用于对比分类变量的取值在不同时间或不同空间上的差异或变化趋势。饮料类型销售量的帕雷托图参见图3。图32饮料类型销售量的帕雷托【例3.4】根据某商场一季度和二季度不同品牌电脑销售情况数据,试建立电脑销售量的季度对比条形图。电电脑品—季二季联康戴图33电脑销售量的对比条形饼图(piechart)用圆形及圆内扇形的角度来表示数值大小的图形,主要用于数据结构性研究,表示样本或总体中各组成部分所占的比例。只能显示一个总体各部分所占的比例。饮料类型销售量的饼图参见图3。图34饮料类型销售量的饼环形图(doughnutchart)饼图挖去中间部分,形成的一个多层环状图形,可以同时描述多个样本或总体的数据比例,每一个样本或总体的数据系列为一个环,结构比较研究上优于饼图。2.顺序数据的整理与图分类数据的整理与展示的各种方法均适用于顺序数据,本段介绍适用于顺序数据的整理与图示方法累积频数(cumulativefrequencies)各顺序类别频数的逐级累加的和数。应用中有向上累积和向下累积两种算法。作用是可直观看出某一类别以上(下)频数之和。累积频率(cumulative 各顺序类别频率的逐级累加的比例数依据累积频数或累积频率可绘制出累积图,展示数据的累积效果。借助于Excel的计算及制图功能即可实现。【例3.5】在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。试依据调查数据建立甲乙两个城市的累积频数表,绘制出环形图。表33甲城市家庭对住房状况评价的频数分回答类甲城户(户百分(%向上累向下累户(户百分(%户(户百分(%非常不满88.100.不满44.—75.满90.非常满100.合100.————表34乙城市家庭对住房状况评价的频数分回答类乙城户(户百分(%向上累向下累户(户百分(%户(户百分(%非常不满7.7.100.不满33.40.93.—26.66.60.满21.87.34.非常满12.100.12.合100.————图35甲乙两城市家庭对住房状况的评价形第三 数据的图形展示(二第三 数值型数据的整理与展品质数据的整理与展示的各种方法均适用于数值型数据,但是还有一些不适用于品质数据,而为数值型数据所特定的整理与图示方法。本段主要介绍这些方法。1.数据分按照数据统计研究的需要,将原始数据按照某种标准化分成不同的组别的方法即为数据分组。数据分组后很容易算出各组频数,形成频数分布表,因此便于观察数据的分布特征。数据分组常用方法有单变量值分组和组距分组两种单变量值分 将每一个变量值作为一组,适合于离散变量或变量值较少的情况组距分组 将全部变量值依次划分为若干个区间,以变量值的一个区间作为一组,适合于连续变量或变量值较多的情况,可采用等距分组,也可采用不等距分组。相关概念上限(upperlimit)和下限(lowlimit):一个组的最大值和最小值;组距(classwidth):上限与下限之差;组中值(classpot:下限与上限之间的中点值,代表各组数据的一般水平值。分组绘制频数分布表主要步骤:1)确定组 应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般取为K52)确定组 可根据全部数据的最大值和最小值及所分的组数来确定,通组距=(最大 -最小值)÷组3)数据分组整理制成频数分布组距分组应遵循“不重不漏”的原则以及“上组限不在内”的规定借助于Excel中的【直方图】工具或频数函数均可创建频数分布表,参见例3.6【例3.6】表3中列出的是某电脑公司2005年前四个月各天的销售量数据(单位:台)。试对数据进行分组,并整理成频数分布表。表3ABCDEFGHIJ1某电脑公司2002年前四个月各天的销售量数据(单位:台23456789频数分布表的编制(步骤)①确定组数,本例数据较多,分为10组②确定各组的组 组距=(237-141)÷10=9.60;③根据分组整理成频数分布表实际应用时有三种分组方式,上下组限重叠型、上下组限重叠型、开口组。上下组限重叠型多用于连续数据;上下组限重叠型多用于离散数据;开口组多用于全部数据中的最大值和最小值与其它数据相差悬殊情形表36上下组限重叠的等距分组频数分布ABC1按销售量分组(台频数(天频率(%2140~43.3150~97.4160~13.5170~22.6180~16.7190~14.8200~8.9210~86.220~43.230~54.合表37上下组限重叠的等距分组频数分布ABC1按销售量分组(台频数(天频率(%2140~43.3150~97.4160~13.5170~22.6180~16.7190~14.8200~8.9210~86.220~43.230~54.合表38使用开口组的等距分组频数分布ABC1按销售量分组(台频数(天频率(%2150以43.3150~97.4160~13.5170~22.6180~16.7190~14.8200~8.9210~86.220~43.230以54.合2.数值型数据的图本段介绍数值型数据一些特有的图示方法分组数据直方图(hgm:用矩形的宽度和高度来表示频数分布,以展示分组数据分布的一种图形。它以面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,而各矩形通常是连续排列的。适用于大批量数据。(区别条形图)注意
图36某电脑公司销售量分布的直方xe的【直方图】工具的缺陷是频数分布及直方图没有与数据链接,当改变任何一个数据时,频数分布表和直方图不会跟着改变;②使用统计函数【FREQUENCY】创建频数分布表和直方图可解决这一问题。具体步骤:选择与接受区域相临近的单元格区域,作为频数分布表输出的区域;选择统计函数中的【FREQUENCY】函数在对话框【Date-array】后输入数据区域,在【Bins-array】后输入接受区域;同时按下“Ctrlhiftnter”组合键,即得到频数分布。未分组数据茎叶图(stem-and-leafdisplay):由“茎”和“叶”两部分构成,由数字组成的用于显示未分组原始数据分布状况的图形。适用于小批量数据。通过软件绘制。未分组数据箱线图(boxplot):由一组数据的(最大、最小、中位数、两个四分位数)5个特征值绘制而成,它由一个箱子和两条线段组成,用于显示未分组的原始数据的分布及多组数据的分布特征比较的一种图形。对多组数据,可将各组数据的箱线图并列起来,作分布特征的比较。通过SPSS软件绘制完成,参见图3。绘制方法:首先找出一组数据的5个特征值,其次连接两个四分位数画出箱子,再将两个极值点与箱子相连接。该箱线图也称为Mediauart.ange箱线图。图37某电脑公司销售量数据的edauart.ange箱线图38分布的形状与箱线图关系示意【例3.7】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表3。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征。表3911名学生各科的考试成绩数课程名学生编123456789英经济数西方经济市场营销财务管基础会计统计计算机应用基图398门课程考试成绩的并列箱线从图3-9可以看出,英语和西方经济学平均成绩较高,统计学较低(看中位数)英语、西方经济学、财务管理、计算机应用基础的考试成绩比较集中(箱子较短);另外,英语和市场营销学的成绩分布大体为对称分布(中位数在箱子的中间)。时间序列数据线图(lineplot):时间绘在横轴,数据绘在纵轴,表示现象的时间序列数据趋势的图形。—般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。多变量数据的图示:显示多个变量相互关系的图示方法【例3.8 我国1991~2003年城乡居民家庭的人均收入数据如表3-10,试绘制线图表3101991~2003年城乡居民家庭人均收年年城镇居农村居1700.708.2026.784.2577.921.3496.1221.4283.1577.4838.1926.5160.2091.5425.2162.5854.2210.6280.2253.6859.2366.7702.2475.8472.2622.图310城乡居民家庭的人均收入线从图可看出,城乡居民家庭的人均收入逐年提高,但差距呈现扩大趋势两个变量间的关 二维散点图(2DScatterplots):用横轴代表变量x,纵轴代表变量y,每组数(xiyi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图,作用是描述两个变量之间的关系。参见例3.9对应的图3。【例3.9】小麦的单位面积产量与降雨量和温度有一定的关系。为了解它们的关系形态收集到表3所示的数据。试绘制小麦产量与降雨量的散点图,并分析它们之间的关系。表311小麦产量与降雨量和温度的数温度/降雨量/产量/(kghm68图311小麦产量与降雨量的散点从图3可看出,小麦产量与降雨量之间具有明显的同向的线性关系三个变量间的关系 气泡图:用横轴、纵轴和气泡大小分别表示3个变量的散点图,用于展示三个变量之间的关系。如例3.9数据对应的图3-12。从图3可看出,随着降雨量和气温的增加,小麦产量也提高(气泡变大)多变量数据 雷达图(radarchart):在显示或对比各变量的数值总和时十分有用的,展示多个变量关系的图示方法。可用于研究多个样本之间的相似程度。第四 合理使用图1.鉴别图形优劣的准—张好的图表应当精心设计、有助于洞察问题的实质;使复杂的观点得到简明、确切、高效的阐述;给读者提供的信息真实、丰富、高效且多维。2.统计表的设
图312小麦产量与降雨量和温度的气泡统计表是用于展示数据的另一个基本工具,在数据的收集、整理、描述和分析过程中发挥着重要作用。统计表的组成:表头、行标题、列标题和数字资料。表 位于表的上方,说明统计表的主要内容行标题和列标题 安排于统计表的第一行和第一列,表明所研究问题的类别名称和变量名称,或均为时间序列数据的时间。数字资 表的其余部分必要时在统计表的下方可以附加数据来源、变量注释和相关说明等信息统计表的设计要求 合理安排统计表的结构;总标题内容应满足3W要求;表中的上下两条横线一般用粗线,其他线用细线;左右两边不封口;无数字的表格单元用“”表示。数据类型及图示的小第四 数据的概括性度量(一基本内集中趋势的度量、离散程度的度量、偏态与峰态的度量重点内各种集中趋势的度量、离散程度的度量的统计含义与计算方法学习目1.熟悉几种数据分布特性度量的统计含2.掌握各种集中趋势的度量、离散程度的度量的适用条件和计算方3.了解各种集中趋势的度量、离散程度的度量的优缺4.了解偏态与峰态的度量意义和测度方通过本章的学习,理解平均指标的概念及作用,了解平均指标的分类,掌握数值平均数包括算术平均数、调和平均数、几何平均数的计算方法,掌握位置平均数包括众数、中位数、分位数的计算原理;理解变异指标的概念及作用,掌握变异指标包括极差、分位差、平均差、标准差及离散系数的计算方法。利用图表展示数据,只是对数据分布的形状和特征给出一个粗略的了解,如要全面把握数据分布的特征,还需要找到反映数据分布特征的各个代表值。数据分布特征的测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年初级会计职称考试多选题模拟题练习题及答案
- 《关爱成长法治护航》读后感
- 2026年高考北京卷政治历年真题及答案
- 2026年保密教育线上培训考试真题试卷+解析及答案
- 2026年安徽省黄山市重点学校初一入学数学分班考试试题及答案
- 第二单元 理解权利义务 大单元教学设计-2025-2026学年统编版道德与法治八年级下册
- 第六单元名著导读《钢铁是怎样炼成的》教学设计-2023-2024学年统编版语文八年级下册
- 初中科学浙教版八年级下册第2章 微粒的模型与符号第4节 组成物质的元素教案设计
- 精液品质检查教学设计中职专业课-畜禽繁殖与改良-畜牧类-农林牧渔大类
- 第21课《古代诗歌五首》教学设计-2025-2026学年统编版语文七年级下册
- 2026年中国超高丁腈氢化丁腈橡胶市场数据研究及竞争策略分析报告
- 2026河南豫能控股股份有限公司及所管企业招聘31人备考题库及参考答案详解(精练)
- 内镜黏膜下剥离术(ESD)诊疗与护理规范
- 2026四川宜宾传媒集团有限公司及下属子公司第一批员工招聘13人笔试备考题库及答案解析
- 2026北京事业编考试题库
- 2025年陕西国防工业职业技术学院单招职业技能考试试题及答案解析
- GB 15322.1-2026可燃气体探测器第1部分:工业及商业用途点型可燃气体探测器
- 2025年扬州市职业大学单招职业技能考试题库附答案解析
- 2026年光储充一体化充电站项目可行性研究报告
- 新版部编人教版七年级下册道德与法治全册教案(完整版)教学设计含教学反思
- 中药饮片GSP培训课件
评论
0/150
提交评论