stata统计分析与应用笔记_第1页
stata统计分析与应用笔记_第2页
stata统计分析与应用笔记_第3页
stata统计分析与应用笔记_第4页
stata统计分析与应用笔记_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。还可使用help|contents 来分类查找第二章:数据管理:2.1变量和变量的取值:1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名2.变量的取值类型:(1)字符型:字符变量存储格式是str,str表示格式表示该变量的存储最多可容纳的字符数(2)数值型数据:存储格式:.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。(3)缺失数据:一般仅用“.”表示3变量的显示:(1)数值变量的显示格式:a

2、.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345)b固定格式有%w.df, %w.dfc(f表示固定)c.科学指数法格式:%w.de, (e表示科学计数)(2)字符变量的显示格式:仅有一种%s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。(3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签(1)添加数据集的标签使用: la

3、bel data “lable”(2)添加变量的标签使用:label variable varname “lable”(3)label为变量数值添加标签的语法有两部分,先定义数值标签:label define lblname#“lable” #“lable”(lblname是标签名称)然后将定义好的数值标签添加到变量上:label values varlist lblnamel.2.2创建一个新的数据集1.关于数据集操作的基本命令(1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器Edit varlist if inbrowse varlist

4、 if in(if和in 用于选择需要的子集)(2)rename:rename old_varname new_varname(3)save命令:save filename ,save_options(,save_options可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程(4)describe:用于产生一个对数据集的简明总结格式:describe varlist ,memory_options(命令选项:simple,short,detail,fullnames)(5)list:用于显示变量的数值,其后可以跟需要显示的变量名称语法:list

5、 varlist if in ,options(命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel)(6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。语法:codebook varlist if in ,options(命令选项有header,notes,mv,problems,compact)2.举例应用:输入原始数据定义变量名添加标签使用describe和codebook命令查看数据全貌保存数据到硬盘的工作目录2.3导入已创建的数据集1.一般原则:(1)打开数据集前要用clear命令清除内存中的数据集 (2)

6、可用 set memory 50m,permanently来设定空间 (3)读入数据方法:可用use, edit, insheet,infile,infix,等 (4)在数据文件不是太大的情形下,使用Excel文件粘贴复制就可以完成数据读入2.读取格式为.dta的数据一般:use filename ,clear nolabel( clear nolabel是两个选项)此时filename为当前工作目录下的文件3.利用Excel复制数据进入Stata系统中2.4 Stata中的表达式1.算术符号:+ 、-、*、/、(乘方)、-(负号)2.关系符号(六种):=(等于),!=(不等于),>,&

7、lt;,>=,<=3.逻辑符号:!(或),&(且),“|”(非)2.5 Stata中的常用函数2.6使用in、if和by语句定义数据子集许多命令都可以限制为对数据的个子集执行,这就需要在命令中加上in或者if选择条件1.in 的语法:command in range (command 是命令,range可以是数字#,也可以是从某数字到另一个观测值“#/#”或者从某个数字到最后“#/1”,以及从开始到最后“f/#”2.if 的语法:command if exp (exp是需要满足的表达式)3by 语句的使用:大多数Stata命令都允许使用by前置语句,用来对某些变量具有相同赋

8、值的样本子集重复执行命令,by的语法:by varlist:Stata_cmd bysort varlist:Stata_cmd (Stata_cmd表示要执行的命令,bysort和by本质相同,只不过前者先对varlist排序再分组,一般用bysort2.7 变量的相关操作1.建立新的变量generate generate语法:generate type newva=expif in(type是可选项用于指定创建的变量的类型,newva是新变量名称,exp是赋值表达式注意:(1)一定要区分“=”和“=”(2)生成新变量中往往会产生缺失值2.更改已有的变量replaceReplace的语法:r

9、eplace oldvar =expif in ,nopromote选项nopromote阻止Stata改变变量的类型来适应新的赋值,较少使用3.egen命令egen表示对generate命令的扩展,它有自己一系列用于完成generate命令无法轻易完成的函数 egen语法:egen type newvar =fcn(arguments) if in ,options(fcn是egen命令中特有的函数,arguments表示表达式、变量名或者数字列表,它们依函数而定,选项也依函数而定2.8数值和字符串的转换1.encode和decode命令encode命令可为已经存在的字符串变量添加一个去了标

10、签的数值型变量decode 命令可以根据一个数值型变量和它的标签生成一个字符型变量,字符型到数值型变量语法:encode varname if in,generate(newvar) label (name)Varname表示要进行转换的变量,newvar表示要生成的新变量,label (name)是指定新变量的标签名,没有的话,默认与原变量相同数值型到字符型变量语法: decode varname if in,generate(newvar) maxlength (#)maxlength (#)用来指定新生变量的长度2.real函数real()用于从合适的字符串表达式中得到数值,如real(

11、“5.2”)+1=6.2如果字符串中不含数字则返回“.”2.9 生成分类变量和虚拟变量1.生成虚假变量虚拟变量的取值非此即彼,如female=1表示男性,female=0表示女性(1) 使用generate和replace生成虚拟变量, 如:use wage ,replace gen college=0replace college=1 if educ>=12list educ college in 1/10(2) 使用generate newvar=(varname>#)生成虚拟变量generate newvar=(varname>#)是一个生成虚拟变量的快捷方式,在这个命

12、令中,第一个等号表示定义:满足其后小括号中的观测案例将会在新的变量中定义为1,其余的情况则定义为0上(1)有程序generate college=(educ>=12)2.生成分类变量(1)generate加replace命令生成分类变量 如将edu6教育水平划分为6个等级,和虚拟变量不同之处在于这是6组(3) recode命令recode类似replace也可对已有变量重新赋值,语法如下:recode varlist (rule)(rule),generate(newvar)(varlist 是需要进行转换赋值的变量名,rule是事先确定的转换规则,选项,generate(newvar)

13、用于将转换后的变量保存为一个新的变量recode的常见赋值规则有#=#,#=#,#/#=#,nonmissing=#,minssing=#如:recode x1(1=2)(2=1),gen(nx1)3.使用autocode()、recode()和group()3个函数生成分类变量语法:gen varlist =autocode(x,n,xmin,xmax) gen varlist =group(x)gen varlist =autocode(x,x1,x2,xn)2.10数据的整理(将存放在不同的数据文件里的数据文件合并)1.数据的横向合并:指将两个数据文件的变量加总在一起。合并后数据的样本不

14、变,但变量的数目增加了,也就是使得数据文件变宽了。用merge命令语法:merge varlist using filename filename ,optionsvarlist指的是合并序号变量,filename用于合并两个以上的数据,易出错。Options选项可以有:merge(newvar),update,replace,nokeep,nosummary2.数据的纵向合并:指的是把两个数据的样本加总在一起,合并后的数据变量数目不变,但样本数目增加了,也就是使得数据变长了。用append命令语法:append using filename ,options (选项有keep,nolabel

15、,nonotes)3.数据的交叉合并:指的是把一个数据的个案和另外一个数据的个案交叉搭配生成新的数据。(1)用jobby进行组内交叉 语法:joinby varlist using filename ,options(2)用cross进行一一交叉 语法:cross using filename4.数据的抽取:对于大型数据,需抽取再分析sample 命令:sample # if in ,count by(groupvars)#是样本容量(或样本百分比),如果指定count,那么#就是样本内观测值个数;如果没有指定count,那么#就是抽取样本的百分比。by(groupvars)可进行组内抽取,还

16、可以用set seed 5来保证每次抽取的样本相同第三章 图形绘制基础3.1 Stata绘图简介用户可用Graphics菜单制图,但不推荐。1. 主要的图形类型:直方图、扇形图、条形图、散点图、直线图以及数据拟合图(一维或二维图),还可绘如盒形图,长钉图,圆点图、面积图以及其他常见图。2. 图形的组成部分与制图命令的结构3. 寻求帮助:help graph3.2 绘制散点图1. 绘制散点图的命令和最基本的使用:语法如下twoway scatter varlist if in weight ,options 以下三种也可识别scatter语句graph twoway scatter twoway

17、 scatter scatter 如果命令后紧跟两个变量名,则Stata会默认第一个为y轴变量,第二个为x轴变量;如果命令后有两个以上的变量,那么Stata会将除最后一个以外的变量作为y轴变量,而将最后一个变量当成x轴变量。scatter 命令是graph twoway(二维绘图命令)中最基本的一个,其它的都是在散点图的基础上进行的。Scatter 绘图还可以与其他类型二维制图命令放在一起,绘制重叠的复合图形比如:twoway (scatter)(line)(lfit)scatter |line|lfit.|2. 散点显示选项的设定:包括形状、颜色、大小3. 散点标签选项:散点标签一般是指位于

18、每个散点旁的用于说明散点所代表个体的文字。4. 连线选项的设定:用来设定如何用线将散点图上各点连接起来,这样可以更加清楚地看变动的趋势5. 振荡选项的设定:有时候,由于数据点太密集,甚至产生了重叠,使得在观察数据中的趋势受到影响,需要将这些数据点轻微的挪动位置,使得重合的数据点相互分开。使用jitter(#)选项3.3 二维绘图选项3.2 主要讲解了散点图所特有的选项,这节讲所有二维绘图所共有的选项:标题选项、坐标选项、图例选项、增加线选项,by选项、scheme选项、轴线选择选项、图形保存选项以及图形输出选项。1.坐标轴尺度选项组的设定坐标轴尺度选项:yscale(axis_suboptio

19、ns),设定y轴的外观 xscale(axis_suboptions),设定x轴的外观tscale(axis_suboptions),设定t轴的外观还有子选项的设定,即设定坐标轴尺度选项中可以填充的内容2.坐标轴刻度选项组的设定:用于控制坐标轴的刻度和刻度的标识3.坐标轴选项组的设定:用于设定坐标轴的标题4.标题选项组的设定:用于设定绘图的标题以解释图像的内容5.图例选项的设定:当图形中包含多个组别的相似内容时,Stata将生成图例。图例表示图形当中不同符号对应着的内容,它使得读者能够轻松读懂图中不同符号的含义。6.by选项的设定:一旦设定选项by(),Stata会根据括号中变量的不同取值重复

20、作图,因此by的依据往往是分类变量,比如性别、民族、国内国外等。语法:by(varlist,byopts7.scheme选项的设定:控制图形显示格式8.轴线选择选项的设定9.增加线选项的设定:用于在二维图形上添加增加线10scale选项的设定:调整整个图像包括文本、标记和线段的大小11.图形保存选项:Stata将本身生成的图形存储分为两种形式:一种是内存的激活状态,另一种是存入硬盘的状态graph save my file ,replace,可将文件存储到硬盘中,保存成myfile文件,replace表示覆盖相同的名称的文件12.图形的输出选项:(1)图形打印(2)存储为其他格式第4章 其他图

21、形绘制4.1绘制曲线标绘图和连线标绘图1.绘制曲线标绘图:所谓曲线标绘画,就是其中点用线段连接起来的散点图,不过新的选项可以控制曲线本身的特征曲线标绘图的命令语法:twoway line varlist if in ,options2.绘制连线标绘图:连线标绘图是将每个散点连接起来,但不隐藏点。命令:twoway connected varlist if in weight ,scatter_options4.2绘制拟合图形1.绘制一次拟合图形:实际分两步,首先使用Stata使用yvar为因变量,xvar为自变量进行一元线性回归,然后得到yvar的拟合值比如说是hat,然后用hat对xva做曲

22、线标绘图,同是复合原始数据的散点图。命令:twoway lfit yvar xvwr if in weight ,options如:sysuse auto Scatter mpg weight | lfit mpg weight 2.绘制二次拟合图形:命令 twoway qfit yvar xvar if in weight ,options如sysuse auto scatter mpg weight | qfit mpg weight 4. 绘制lowess拟合图形:由于具有对拟合过程进行控制的选项,lowess命令总的来说更为专业也更为强大。命令:twoway lowess yvar x

23、vwr if in weight ,options如:sysuse auto twoway scatter mpg weight | lfit mpg weight|lowess mpg weight4.3绘制条形图命令:graph bar yvars if in weight ,options(绘制纵向条形图) graph bar hyvars if in weight ,options (绘制横向条形图)1. 关于分类变量的讲解2. 关于外形图外观的讲解第5章 描述性统计分析描述性统计的统计量大致可分为三类:一是描述中心位置的度量;二是描述波动情况的度量;三是描述数据集中一个观测值相对位置

24、的度量。另一个重要功能是分析异常值5.1描述性统计的原理1. 定性变量:频率和频数2. 定量变量:(1)集中趋势的度量:算术平均、中位数和众数 (2)变异程度的度量:极差(最大和最小观测值之差)、方差、和标准差(注意切比雪夫法则) (3)相对位置的度量:百分数和z得分(100p百分位数是数据集的相对频率分布中有100p%的面积位于它的左边,有100(1-p)%的面积位于它的右边,z=xi-xs (4)偏度和峰度:偏度系数SK=n(xi-x)4-3xi-x22(n-1)(n-1)(n-2)(n-3)S45.2 描述性统计量的Stata实现1使用summarize命令计算和导出描述性统计量语法:s

25、ummarize varlist if in weight ,options2.使用tabstat命令计算描述性统计量语法:tabstat varlist if in weight ,optionsTabstat与summarize的不一样之处在于其by()选项允许对by()中变量不同的取值分别做描述性统计5.3探测异常值1.计算z得分命令:quietly summarize wage gen z=(wage-r(mean)/r(sd) list wage z if z>33. 箱线图(不太理解)命令:graph box yvars if in weight ,options graph

26、 hbox yvars if in weight ,options5.4 数据的正态性检验和数据转换正态性的检验包括:图形检验、卡方检验和其他统计检验1. 分位正态图的绘制的命令格式:qnorm varname if in,options2. 偏度-峰度检验:sktest varlist if in weight ,noadjust3. Shapiro-Wilk W检验 swilk varlist if in ,options4. Shapiro-Francia W检验 sfrancia varlist if in5. DAgostino检验 sktestdc varlist=esp if e

27、xp in range ,noadjust5.5 相关系数 常用的相关系数共有如下4类:pearson相关系数、Kendall相关系数、Spearman秩相关系数以及偏相关系数1. pearson相关系数:correlatevarlist if in weight , correlate_options pwcorrvarlist if in weight , pwcorr_options2. spearman 和Kendall相关系数:ktau wage educ exper tenure,star(.05)3. 偏相关系数:pcorr varnamel varlist if in weig

28、ht第6章 列联表分析6.1列联表分析列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法1. 独立性检验统计量:常用到皮尔逊卡方统计量和似然比统计量2. 列联表中的相关测量统计量:度量两变量的关联强度,可以考察各种相关测量统计量,对于名义变量而言,这些统计量有Phi系数、列联系数、CramersV系数;对于定序变量而言,可以使用统计量、Kendallb统计量、Stuartc统计量,它们的数值越大就表明行变量和列变量之间的关联越强6.2 Stata 的列联表分析table和tabulate 命令 其中table命令可以很方便地生成列联表,而tabulate可以进行独立性检验1

29、.table 命令格式:table rowvar colvar supercolvar if in weight ,optionsrowvar代表行变量,colvar代表列变量,supercolvar代表更高阶的列变量,weight表示权重2tabulate命令进行列联表分析(1)一维tabulate命令,主要用于生成含有频数的一维表格tabulate varname if in weight ,tabulate1_options(2)二维tabulate命令二维tabulate命令在生成二维表格的同时,可以计算多种独立性检验统计量和相关测量统计量命令格式:tabulate varname1

30、varname2 if in weight ,options6.3 利用Stata生成包含描述性统计量的列表1.tabstat可以在一个表格中显示多个变量的多种描述性统计量Tabstat varlist if in weight ,options3. tabulate ,summarize()用于生成一维或者二维的包含均值和标准差的表格,事实上,table比tabulate,summarize()更加灵活,而tabulate,summarize()的特点在于运行更快tabulate,summarize()命令格式:tabulate varname1 varname2 if in weight

31、,options第7章 方差分析7.1 t检验(样本小于30)1.t检验的Stata基本命令(1)单样本t检验的Stata操作命令1:ttest varname =#if in,level(#)(通过样本进行t检验)命令2:ttesti #obs #mean #sd #val ,level(#)(通过样本的统计指标进行t检验)其中,#obs为样本容量,#mean为样本均值,#sd为标准差,#val为待检验数值,level为置信度水平2.两样本的t检验的Stata操作命令格式1(通过样本进行双变量t检验):ttest varname1=varname2 if in,option命令格式2(通过样

32、本进行分组t检验):ttest varname if in,by(groupvar) options命令格式3(通过样本的统计指标进行t检验):ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 ,options7.2 单因素方差分析1.单因素方差分析Stata实现 oneway命令:oneway response_var factor_var if in weight ,optionslongway命令:longway response_var group_var if in weight ,options7.3双因素和多因素方差分析基本命令:anova r

33、esponse_var if in weight ,options7.4 协方差分析命令:anova response_var if in weight ,options第8章 经典假设下的横截面数据单方程线性回归模型的Stata实现8.1 Stata的回归分析1.Stata的回归分析-regress、predict、test命令regress、predict、test是一组命令,它们完成各种简单和多元的普通最小二乘法回归。regress命令用于完成因变量对自变量的回归,其后续命令predict可以计算预测值、残差,另一后续命令test检验用户指定的假设。regress 命令的格式:regre

34、ss depvar indepvars 【if】 【in】【weight】【options】常用选项:noconstant(不加常数项做线性回归) hascons(由用户指定常数项的值) level(#)设定置信水平(默认值为95%) beta(报告标准化的beta系数) noheader(不报告输出表名)2使用predict命令-计算拟合值和残差predict命令:predict type newvar if in , single_optionspredict 命令是reg命令的后续命令,它可以用来保存最近一次回归的预测值、残差值。Type用来指定你要用来存放拟合值或残差的格式,newva

35、r为用户为拟合值 或残差2取的变量名,if、in选项与第2章介绍的相同,, single_options用来指定你是要拟合值还是残差值, single_options可以是resid 表示我们需要计算残差(默认报告是拟合值)3使用test命令-进行读者指定的检验test命令的格式:test var1 var2 var3k test var=C test var1=var2 test var1=(var2+var3)/C在这里,要完成的任务是:(1) 检验单个变量的显著性(2) 检验多个变量的联合显著性(3) 检验不同变量系数的关系如test educ 0.5/来检验教育的系数是否为0.5 Te

36、st educ exper /这一命令是检验教育、经验回报是否同时为零的联合显著性检验4. sw regress基本命令及其选项-逐步回归sw regress 命令语法:sw regress depvar indepvars ,optionsoptions常用选项:Lockterm(保证某些变量不被剔除) ()(用于将括号内的变量看成一个整体 hier(让Stata从最后一个变量开始剔除,而不是从最不显著的变量开始剔除)第9章 非经典假设、线性方程组、面板数据估计的Stata实现9.1 非经典假设下的回归分析的Stata实现1.多重共线性的检验和处理(1)多重共线性的检验:用命令 vif/该命

37、令用来得到自变量的方差膨胀因子。 一般而言,判断多重共线性的标准是:a. 最大的vif大于10b. 平均的vif大于1(2)多重多线性的处理方法一:不加处理(往往是因为加二次项引起的,而这是有原因的)方法二:减少自变量,将一些解释变量并入误差项方法三:先采用在后面的将介绍的主成分分析和聚类分析,先将变量分类,然后再做回归分析2.内生性的检验和处理(外生性即:E(u|x)=0)外生性的假设是所有假设中最重要的假设,违反它将合得估计值不一致。内生性检验的命令是ovtest,它必须在regress命令之后。结果上,我们需要拒绝原假设(p<0.05),即认为数据确实有内生性问题 Stata中是用

38、ivreg命令实现工具变量回归的,ivreg命令的语法是 ivregress estimator depvar varlist1 (varlist2=varlist_iv)如:reg wage educ age kidslt6 kidsge6 exper expersq/没使用工具变量 reg wage age kidslt6 kidsge6 exper expersq(educ=motheduc)/使用工具变量3、异方差的检验与处理(1)异方差的检验:用hettest/检验异方差,看p值,小于0.05,不能排除异方差可能(2)异方差的处理:只要在reg命令的options选项中选择robus

39、t选项即可。然后再用test命令做检验如:reg wage educ age kidslt6 kidsge6 exper expersq ,robust9.2 线性方程组的回归分析-Stata实现线性方程组包括两类:似不相关模型以及联立方程组模型1. 似不相关模型的Stata实现sureg (depvar1 varlist1) (depvar2 varlist2)(depvarN varlistN)ifinweight2. 联立方程组模型的Stata实现reg3 (depvar1 varlist1) (depvar2 varlist2)(depvarN varlistN)ifinweight9

40、.3 面板数据的Stata处理 Stata并不会自动识别面板数据,必须告诉它哪个变量是时间维度,哪个变量是横截面维度。在Stata中,要设置面板数据维度,可以使用xtset命令。其语法是:xtset panelvar timervar ,tsoptions (panelvar 是用来表示横截面维度的变量,timevar是用来表示时间维度的变量 )1. 固定效应的面板数据Stata实现Xtreg用来做固定效应的语法是:Fixed-effects (FE) model Xtreg depvar indepvars ifinweight,fe FE_options(depvar表示因变量,varsl

41、ist表示自变量,fe表示fixed effect固定效应)Xtreg 常用选项(1)fe使用固定效应回归 (2)robust 稳健回归 (3)level(#)设置置信水平,默认为95%2.随机效应的面板数据Stata实现随机效应的方式处理面板数据的思想是将个人特质看做与自变量不相关,然后用传统方法处理。也是使用xtreg命令,只不过选项由fe变为re,其语法为:xtreg depvar indepvarsifin,re RE_options(选项仅多一个theta:报告)第10章 非线性回归分析及回归诊断基础101 非线性回归分析第7章的有部分非线性模型可以转为线性模型,这里介绍的是没有办法转化为线性回归的回归模型。1.非线性回归的Stata实现-nl命令 nl命令是用来实现单个自变量的非线性回归模型的Stata命令。语法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论