描述性统计分析PPT教学课件.ppt_第1页
描述性统计分析PPT教学课件.ppt_第2页
描述性统计分析PPT教学课件.ppt_第3页
描述性统计分析PPT教学课件.ppt_第4页
描述性统计分析PPT教学课件.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第五章描述性统计分析,描述统计是一套用以整理、描述、解释数据的系统方法和统计技术。由样本所计算推导出来的统计数据称为统计量,是描述原始数据特性的最佳指标:(1)描述中心位置的度量;(2)描述波动情况的度量;(3)描述数据集中一个观测值相对位置的度量。描述性统计的另一个重要的功能是在进一步分析之前侦测隐藏在数据中的异常值,异常值或者由于观测、录入数据时的错误,或者来源于一个稀有事件的发生,建立在描述性统计基础上的异常值侦测方法可以迅速锁定可疑观测值。,5.1描述性统计的原理,5.1.1定性变量定义5.1对给定的类,类(或组)频数是指落入这个类中的观测值的个数。定义5.2对给定的类,类(或组)相对频率是指落入这个类中的观测值的个数相对于观测值总数的比例。因此,频率和频数是描述定性变量的两个重要指标。5.1.2.定量变量集中趋势的度量:均值、中位数、众数。变异程度的度量:极差、方差、标准差相对位置的度量:标准得分偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分布比正态分布更尖或者更平。,中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。众数(Mode)统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。理性理解:简单的说,就是一组数据中占比例最多的那个数。,极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。,标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。,切比雪夫法则:19世纪俄国数学家切比雪夫研究统计规律中,论证并用标准差表达了一个不等式,这个不等式具有普遍的意义,被称作切比雪夫定理chebyshevstheorem其大意是:所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内,偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。正态分布的偏度为0,两侧尾部长度对称。若以bs表示偏度。bs0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数中位数众数,左偏时相反,即众数中位数平均数。正态分布三者相等,峰度(kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差。正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。正态分布的峰度(系数)为常数3,均匀分布的峰度(系数)为常数1.8。在统计实践中,我们经常把这两个典型的分布曲线作为评价样本数据序列分布性态的参照。样本的峰度是和正态分布相比较而言统计量,如果峰度大于零,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。,5.2描述性统计量的Stata实现,在stata命令操作中,table和tabulate命令可以实现对定性变量的频数和频率的统计,tabstat和summarize可以实现连续变量的描述性统计。本节详细介绍后两个命令。1.数据的概要以数据集wage.dta为例,首先用use命令导入数据文件wage.dta,然后使用describe和codebook命令了解数据的情况。usewage.dta,cleardescribe输出结果略。Describe命令输出的结果中包含每个变量的名称、存储方式(byte,float,double和int)、显示格式、变量标签和变量值标签,这些在前面均已介绍过。这个数据中,诸如female,married,nonwhite均为虚拟变量,lwage是对wage取对数后的数值。根据变量标签说明,在结果中可以清晰地得到这些内容。,5.2描述性统计量的Stata实现,接着使用codebook命令详细地观察wage这个变量的相关情况,codebookwage输出结果略。codebook输出的结果表明:wage采用的是浮点格式存储(float),取值范围为0.53,24.98,没有缺失值(0/526说明526个观测值中有0个缺失),均值是5.8961,方差是3.6931,最后一行是5种常用的百分位数。,5.2描述性统计量的Stata实现,2.使用summarize命令计算和导出描述性统计量summarizevarlistifinweight,optionssummarize命令的选项及其含义detail产生更加详细的统计变量,包括偏度、峰度、最小和最大的四个值以及各种百分位数。meanonly仅计算和显示平均数,本选项在编程中比较有用。format使用变量的显示格式。separator(#)每#个变量画一条分界线,默认为separator(5),separator(0)禁止使用分界线。,【例5-1】现在我们利用小时工资数据集举例说明summarize的使用。要求使用summarize命令对wage.dta执行如下操作:(1)对wage、educ、exper、tenure、nonwhite、female、married做基本的统计分析,summarizewageeducexpertenurenonwhitefemalemarried,separator(3)(2)Summarize命令加上detail选项容许我们对某些重要的变量做更加详尽的分析,summarizewagelwage,detail,(3)在summarize后使用in或者if来限制条件,可以获得对某个子样本的描述性统计。如果想查看女性的wage,可以使用Summarizewageiffemale=1或者使用by前缀,对男女的工资进行对比分析Bysortfemale:summarizewage如果想分别查看工资在前两百位和两百位之后统计特征,可以先使用sort命令对wage从低到高进行排序:Sortwage然后使用in对观测值的范围进行设定:Summarizewagein1/200Summarizewagein201/1,(4)使用outreg2命令导出描述性统计量。Outreg是导出回归(Outregression)的意思,这个命令也可以导出描述性统计指标。Outreg2是outreg的升级版。安装程序Finditoutreg2然后在打开的窗口中寻找outreg2,单击并选择clickheretoinstall,Stata会自动安装,安装好后可以输入:Helpoutreg2在这里介绍如何使用它将summarize所产生的结果导入到word中去。首先我们仅在文件中保存我们需要统计的4个变量:Keepwagelwageeducexper,下面这个命令将不加details选项的summarize所产生的结果保存在myfile1.doc中,并且去掉观测值数目和平均数两个指标:Outreg2usingmyfile1.doc,wordsum(log)replaceeqdrop(Nmean)see,使用tabstat命令计算描述性统计量,.tabstatvarlistifinweight,options选项含义mean平均数count/n观测值数目sum加总max/min最大值、最小值range极差sd标准差var方差cv变异系数(sd/mean)semean平均标准误(sd/sqrt(n)skewness偏度kurtosis峰度median中位数p#%百分位数iqr四分位数间距(p75-p25)q等价于写p25p50p75,【例5-2】这里使用的是wage1.dta数据集,我们说明使用tabstat计算变量wage和log(wage)的相关统计量。(1)首先使用stat()要求定制输出地统计指标:观测值的个数、平均数、中位数、标准差、偏度、峰度,Tabstatwagelwage,stat(countmeanp50sdskewkurt)(2)如果在命令中加入选项col(stat)通过让统计量以列的方式呈现,可以使结果更便于分析和对比,Tabstatwagelwage,stat(countmeanp50sdskewkurt)col(stat)(3)下面我们加入by(female)选项和long选项,要求Stata根据性别分别统计wage和lwage两个变量,并且标注变量名称:Tabstatwagelwage,by(female)stat(countmeanp50sdskewkurt)col(stat)long,5.3探测异常值箱线图,下面的第一个命令绘制纵向图,第二个命令绘制横向图。graphboxyvarsifinweight,optionsgraphhboxyvarsifinweight,optionsgraphbox命令的选项:over(varname,over_subopts):设定分组变量,变量可以是数值型或者字符型变量,可以设置多达三个的分组变量。,over_subopts可以指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组变量排序。默认排序方式为从小到大,在,over_subopts加入descending则指定为按照中位数从大到小降序排列。by():另一种设置分组的方法,当分组变量过多时,利用该选项可以是图形更加美观明了。,【例5-3】我们仍以wage数据集为例,说明箱线图绘制命令的使用。(1)首先在不加入任何选项的情况下绘制箱线图:Graphboxwage,图中有10多个超出了上侧内篱笆的点,它们很可能是异常值。重要的是找出这些点,可以使用以下命令:即首先对wage从小到大排序,然后列出最大的5个可疑点。这里假定认为最大的5个点比较可疑。SortwageListwagein522/l,(2)利用箱型图还可以比较不同性别的工资分布情况Graphhboxwage,over(female,sort(1),5.4数据的正态性检验和数据转换,1.分位正态图分位正态图的绘制的命令格式如下,qnormvarnameifin,options2.正态性统计检验这里我们介绍进行偏度峰度检验(sktest)、DAgostino检验、ShapiroWilkW检验和ShapiroFranciaW检验的Stata命令。各种正态性统计检验的命令格式和选项如下:偏度峰度检验sktestvarlistifinweight,noadjustnoadjust选项用未经调整过的检验结果代替Royston(1991)对整体卡方检验和显著性水平做调整后的结果,可能会降低检验的显著性水平,使拒绝原假设的可能下降。,ShapiroWilkW检验swilkvarlistifin,options该命令的选项及其含义是:generate(newvar):产生包含W检验系数的新变量;lnnormal:对ln(X-k)做正态性检验,其中k使得ln(X)偏度为0。我们使用lnskew0来确定k的取值。ShapiroFranciaW检验sfranciavarlistifinDAgostino检验sktestdcvarlist=expifexpinrange,noadjust,【例5-4】下面我们依次举例说明这四个命令的使用,这里用到的数据仍然是小时工资数据集wage1.dta。首先我们对wage变量进行偏度峰度检验,(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-WilkWtestfornormality)和W检验Sfrancia(Shapiro-FranciaWtestfornormality),(3)最后演示DAgostino检验,使用的命令是sktestdc,这里我们使用未经调整过的卡方检验,即添加noadjust选项:,5.4.3改变数据的分布,Stata提供了一个非常强大的工具“幂阶梯”(ladderofpowers)可以尝试表5-11所列的九种转换的可能,然后依次进行偏度峰度检验。,幂阶梯共有三个相关的命令,第一个命令ladder尝试表5.8所涉及到的九种转换,然后分别进行正态性检验,这是幂阶梯最基本的命令:laddervarnameifin接下来两个命令可以对这九种转换分别作直方图和分位正态图,以便直观地判断各种转换的可行性,它们的格式是:gladdervarnameifinqladdervarnameifin,【例5-5】下面我们具体说明这三个命令的使用,这里仍然使用wage.dta数据集。(1)对wage尝试表5.11中的各种转换(2)尝试命令gladder以及分位正态图的幂阶梯版本qladder,通过这两个命令可以非常轻松地比较每种转换的直方图和正态分布曲线。,5.5相关系数,一般来说,变量之间的关系可以分为两类:一类是确定性的关系,即通常的函数关系,另一类是非确定性的关系,即相关关系,例如身高和体重的关系,身高不同的人体重有差异,但是身高相同的人,体重又不一样,这说明身高和体重并不存在确定的函数关系。相关分析的主要目的是研究变量之间关系的密切程度。回归方程的斜率系数在一定程度上也是反映两个变量之间关系的密切程度,斜率系数的平方根就是相关系数,所以在进行回归分析之前,进行相关分析有一定的意义。,5.5相关系数,常用的相关系数共有如下四种:Pearson相关系数、.Kendall相关系数、Spearman秩相关系数以及偏相关系数。1.皮尔森相关系数(Pearsoncorrelationcoefficient)也称皮尔森积矩相关系数(Pearsonproduct-momentcorrelationcoefficient),是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。,值域等级解释相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:相关系数0.8-1.0极强相关0.6-0.8强相关0.4-0.6中等程度相关0.2-0.4弱相关0.0-0.2极弱相关或无相关,侧,Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差矩阵,更为有用的是它还提供了对缺失值的不同处理方法。Pearson相关系数correlatevarlistifinweight,correlate_optionspwcorrvarlistifinweight,pwcorr_optionsCorrelate命令计算变量之间的Pearson相关系数或者协方差矩阵,如果不指定变量,则默认对数据集中的所有变量计算相应的矩阵。Pwcorr命令的好处是尽可能使用两两变量中所有没有缺失的数据;而不像correlate只采用没有任何缺失数据的完整的观测值。,【例5-6】使用数据集wage.dta,完成如下任务:(1)得到的wage、educ、exper、tenure之间的相关系数矩阵,Correlatewageeducexpertenure(2)得到的wage、educ、exper、tenure之间的协方差矩阵,Correlatewageeducexpertenure,covariance(3)sig选项给每一个相关系数做显著性检验,这个检验的原假设是总体相关系数是0,在每一个相关系数下方标明了检验的p值。star(.05)是为显著性超过0.05的相关系数打上星号,print(.05)则是仅显示这些显著的相关系数,在下面的命令中我们添加这三个选项Pwcorrwageeducexpertenure,sigstar(.05)print(.05)(4)相关系数数字背后的图形直觉可以用graphmatrix来方便的实现Graphmatrixwageeducexpertenure,2.spearman(斯伯曼/斯皮尔曼)相关系数在统计学中,斯皮尔曼等级相关系数以CharlesSpearman命名,并经常用希腊字母(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数时(即两个变量的变化趋势相同),两个变量之间的可以达到+1或-1。假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1=i=N)个值分别用Xi、Yi表示。对X、Y进行排序(同时为升序或降序),得到两个元素排行集合x、y,其中元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。将集合x、y中的元素对应相减得到一个排行差分集合d,其中di=xi-yi,1Xj且Yij,情况4:Xij且YiYj),这两个元素被认为是不一致的。当出现情况5或6时(情况5:Xi=Xj,情况6:Yi=Yj),这两个元素既不是一致的也不是不一致的。,使用wage.dta数据集计算wage、educ、exper、tenure之间的ktau相关系数的命令:Ktauwageeducexpertenure,star(.05),4.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论