stata统计分析与应用笔记_第1页
stata统计分析与应用笔记_第2页
stata统计分析与应用笔记_第3页
stata统计分析与应用笔记_第4页
stata统计分析与应用笔记_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。还可使用help|contents 来分类查找 第二章:数据管理: 2.1变量和变量的取值: 1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名 2.变量的取值类型: (1)字符型:字符变量存储格式是str,str表示格式表示该变量的存储最多可容纳的字符数 (2)数值型数据:存储格式:.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。 (3)缺失数据:一般仅用“.”表示 3变量的显示: (1)数值变量的显示格式: a.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345) b固定格式有%w.df, %w.dfc(f表示固定) c.科学指数法格式:%w.de, (e表示科学计数) (2)字符变量的显示格式:仅有一种%s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。 (3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签 (1)添加数据集的标签使用: label data “lable” (2)添加变量的标签使用:label variable varname “lable” (3)label为变量数值添加标签的语法有两部分, 先定义数值标签:label define lblname#“lable” #“lable”(lblname是标签名称) 然后将定义好的数值标签添加到变量上:label values varlist lblnamel. 2.2创建一个新的数据集 1.关于数据集操作的基本命令 (1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器 Edit varlist if in browse varlist if in(if和in 用于选择需要的子集) (2)rename:rename old_varname new_varname (3)save命令:save filename ,save_options(,save_options可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程 (4)describe:用于产生一个对数据集的简明总结 格式:describe varlist ,memory_options(命令选项:simple,short,detail,fullnames) (5)list:用于显示变量的数值,其后可以跟需要显示的变量名称 语法:list varlist if in ,options (命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel) (6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。 语法:codebook varlist if in ,options (命令选项有header,notes,mv,problems,compact) 2.举例应用:输入原始数据定义变量名添加标签使用describe和codebook命令查看数据全貌保存数据到硬盘的工作目录 2.3导入已创建的数据集 1.一般原则:(1)打开数据集前要用clear命令清除内存中的数据集 (2)可用 set memory 50m,permanently来设定空间 (3)读入数据方法:可用use, edit, insheet,infile,infix,等 (4)在数据文件不是太大的情形下,使用Excel文件粘贴复制就可以完成数据读入 2.读取格式为.dta的数据 一般:use filename ,clear nolabel( clear nolabel是两个选项)此时filename为当前工作目录下的文件 3.利用Excel复制数据进入Stata系统中 2.4 Stata中的表达式 1.算术符号:+ 、-、*、/、(乘方)、-(负号) 2.关系符号(六种):=(等于),!=(不等于),=,=12 list educ college in 1/10 (2) 使用generate newvar=(varname#)生成虚拟变量 generate newvar=(varname#)是一个生成虚拟变量的快捷方式,在这个命令中,第一个等号表示定义:满足其后小括号中的观测案例将会在新的变量中定义为1,其余的情况则定义为0 上(1)有程序generate college=(educ=12) 2.生成分类变量 (1)generate加replace命令生成分类变量 如将edu6教育水平划分为6个等级,和虚拟变量不同之处在于这是6组 (3) recode命令 recode类似replace也可对已有变量重新赋值,语法如下: recode varlist (rule)(rule),generate(newvar) (varlist 是需要进行转换赋值的变量名,rule是事先确定的转换规则,选项,generate(newvar)用于将转换后的变量保存为一个新的变量 recode的常见赋值规则有#=#,#=#,#/#=#,nonmissing=#,minssing=# 如:recode x1(1=2)(2=1),gen(nx1) 3.使用autocode()、recode()和group()3个函数生成分类变量 语法:gen varlist =autocode(x,n,xmin,xmax) gen varlist =group(x) gen varlist =autocode(x,x1,x2,xn) 2.10数据的整理(将存放在不同的数据文件里的数据文件合并) 1.数据的横向合并:指将两个数据文件的变量加总在一起。合并后数据的样本不变,但变量的数目增加了,也就是使得数据文件变宽了。用merge命令语法: merge varlist using filename filename ,options varlist指的是合并序号变量,filename用于合并两个以上的数据,易出错。 Options选项可以有:merge(newvar),update,replace,nokeep,nosummary 2.数据的纵向合并:指的是把两个数据的样本加总在一起,合并后的数据变量数目不变,但样本数目增加了,也就是使得数据变长了。用append命令语法: append using filename ,options (选项有keep,nolabel,nonotes) 3.数据的交叉合并:指的是把一个数据的个案和另外一个数据的个案交叉搭配生成新的数据。 (1)用jobby进行组内交叉 语法:joinby varlist using filename ,options (2)用cross进行一一交叉 语法:cross using filename 4.数据的抽取:对于大型数据,需抽取再分析 sample 命令:sample # if in ,count by(groupvars) #是样本容量(或样本百分比),如果指定count,那么#就是样本内观测值个数;如果没有指定count,那么#就是抽取样本的百分比。by(groupvars)可进行组内抽取,还可以用set seed 5来保证每次抽取的样本相同 第三章 图形绘制基础 3.1 Stata绘图简介 用户可用Graphics菜单制图,但不推荐。 1. 主要的图形类型:直方图、扇形图、条形图、散点图、直线图以及数据拟合图(一维或二维图),还可绘如盒形图,长钉图,圆点图、面积图以及其他常见图。 2. 图形的组成部分与制图命令的结构 3. 寻求帮助:help graph 3.2 绘制散点图 1. 绘制散点图的命令和最基本的使用:语法如下 twoway scatter varlist if in weight ,options 以下三种也可识别scatter语句 graph twoway scatter twoway scatter scatter 如果命令后紧跟两个变量名,则Stata会默认第一个为y轴变量,第二个为x轴变量; 如果命令后有两个以上的变量,那么Stata会将除最后一个以外的变量作为y轴变量,而将最后一个变量当成x轴变量。scatter 命令是graph twoway(二维绘图命令)中最基本的一个,其它的都是在散点图的基础上进行的。 Scatter 绘图还可以与其他类型二维制图命令放在一起,绘制重叠的复合图形比如: twoway (scatter)(line)(lfit)scatter |line|lfit.| 2. 散点显示选项的设定:包括形状、颜色、大小 3. 散点标签选项:散点标签一般是指位于每个散点旁的用于说明散点所代表个体的文字。 4. 连线选项的设定:用来设定如何用线将散点图上各点连接起来,这样可以更加清楚地看变动的趋势 5. 振荡选项的设定:有时候,由于数据点太密集,甚至产生了重叠,使得在观察数据中的趋势受到影响,需要将这些数据点轻微的挪动位置,使得重合的数据点相互分开。使用jitter(#)选项 3.3 二维绘图选项 3.2 主要讲解了散点图所特有的选项,这节讲所有二维绘图所共有的选项:标题选项、坐标选项、图例选项、增加线选项,by选项、scheme选项、轴线选择选项、图形保存选项以及图形输出选项。 1.坐标轴尺度选项组的设定 坐标轴尺度选项:yscale(axis_suboptions),设定y轴的外观 xscale(axis_suboptions),设定x轴的外观 tscale(axis_suboptions),设定t轴的外观 还有子选项的设定,即设定坐标轴尺度选项中可以填充的内容 2.坐标轴刻度选项组的设定:用于控制坐标轴的刻度和刻度的标识 3.坐标轴选项组的设定:用于设定坐标轴的标题 4.标题选项组的设定:用于设定绘图的标题以解释图像的内容 5.图例选项的设定:当图形中包含多个组别的相似内容时,Stata将生成图例。图例表示图形当中不同符号对应着的内容,它使得读者能够轻松读懂图中不同符号的含义。 6.by选项的设定:一旦设定选项by(),Stata会根据括号中变量的不同取值重复作图,因此by的依据往往是分类变量,比如性别、民族、国内国外等。 语法:by(varlist,byopts 7.scheme选项的设定:控制图形显示格式 8.轴线选择选项的设定 9.增加线选项的设定:用于在二维图形上添加增加线 10scale选项的设定:调整整个图像包括文本、标记和线段的大小 11.图形保存选项:Stata将本身生成的图形存储分为两种形式:一种是内存的激活状态,另一种是存入硬盘的状态 graph save my file ,replace,可将文件存储到硬盘中,保存成myfile文件,replace表示覆盖相同的名称的文件 12.图形的输出选项:(1)图形打印(2)存储为其他格式 第4章 其他图形绘制 4.1绘制曲线标绘图和连线标绘图 1.绘制曲线标绘图:所谓曲线标绘画,就是其中点用线段连接起来的散点图,不过新的选项可以控制曲线本身的特征 曲线标绘图的命令语法:twoway line varlist if in ,options 2.绘制连线标绘图:连线标绘图是将每个散点连接起来,但不隐藏点。 命令:twoway connected varlist if in weight ,scatter_options 4.2绘制拟合图形 1.绘制一次拟合图形:实际分两步,首先使用Stata使用yvar为因变量,xvar为自变量进行一元线性回归,然后得到yvar的拟合值比如说是hat,然后用hat对xva做曲线标绘图,同是复合原始数据的散点图。 命令:twoway lfit yvar xvwr if in weight ,options 如:sysuse auto Scatter mpg weight | lfit mpg weight 2.绘制二次拟合图形:命令 twoway qfit yvar xvar if in weight ,options 如sysuse auto scatter mpg weight | qfit mpg weight 4. 绘制lowess拟合图形:由于具有对拟合过程进行控制的选项,lowess命令总的来说更为专业也更为强大。 命令:twoway lowess yvar xvwr if in weight ,options 如:sysuse auto twoway scatter mpg weight | lfit mpg weight|lowess mpg weight 4.3绘制条形图 命令:graph bar yvars if in weight ,options(绘制纵向条形图) graph bar hyvars if in weight ,options (绘制横向条形图) 1. 关于分类变量的讲解 2. 关于外形图外观的讲解 第5章 描述性统计分析 描述性统计的统计量大致可分为三类:一是描述中心位置的度量;二是描述波动情况的度量;三是描述数据集中一个观测值相对位置的度量。另一个重要功能是分析异常值 5.1描述性统计的原理 1. 定性变量:频率和频数 2. 定量变量:(1)集中趋势的度量:算术平均、中位数和众数 (2)变异程度的度量:极差(最大和最小观测值之差)、方差、和标准差 (注意切比雪夫法则) (3)相对位置的度量:百分数和z得分(100p百分位数是数据集的相对频率分布中有100p%的面积位于它的左边,有100(1-p)%的面积位于它的右边,z=xi-xs (4)偏度和峰度:偏度系数SK=n(xi-x)4-3xi-x22(n-1)(n-1)(n-2)(n-3)S4 5.2 描述性统计量的Stata实现 1使用summarize命令计算和导出描述性统计量 语法:summarize varlist if in weight ,options 2.使用tabstat命令计算描述性统计量 语法:tabstat varlist if in weight ,options Tabstat与summarize的不一样之处在于其by()选项允许对by()中变量不同的取值分别做描述性统计 5.3探测异常值 1.计算z得分 命令:quietly summarize wage gen z=(wage-r(mean)/r(sd) list wage z if z3 3. 箱线图(不太理解) 命令:graph box yvars if in weight ,options graph hbox yvars if in weight ,options 5.4 数据的正态性检验和数据转换 正态性的检验包括:图形检验、卡方检验和其他统计检验 1. 分位正态图的绘制的命令格式:qnorm varname if in,options 2. 偏度-峰度检验:sktest varlist if in weight ,noadjust 3. Shapiro-Wilk W检验 swilk varlist if in ,options 4. Shapiro-Francia W检验 sfrancia varlist if in 5. DAgostino检验 sktestdc varlist=esp if exp in range ,noadjust 5.5 相关系数 常用的相关系数共有如下4类:pearson相关系数、Kendall相关系数、Spearman秩相关系数以及偏相关系数 1. pearson相关系数:correlatevarlist if in weight , correlate_options pwcorrvarlist if in weight , pwcorr_options 2. spearman 和Kendall相关系数:ktau wage educ exper tenure,star(.05) 3. 偏相关系数:pcorr varnamel varlist if in weight 第6章 列联表分析 6.1列联表分析 列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法 1. 独立性检验统计量:常用到皮尔逊卡方统计量和似然比统计量 2. 列联表中的相关测量统计量:度量两变量的关联强度,可以考察各种相关测量统计量,对于名义变量而言,这些统计量有Phi系数、列联系数、CramersV系数;对于定序变量而言,可以使用统计量、Kendallb统计量、Stuartc统计量,它们的数值越大就表明行变量和列变量之间的关联越强 6.2 Stata 的列联表分析table和tabulate 命令 其中table命令可以很方便地生成列联表,而tabulate可以进行独立性检验 1.table 命令格式: table rowvar colvar supercolvar if in weight ,options rowvar代表行变量,colvar代表列变量,supercolvar代表更高阶的列变量,weight表示权重 2tabulate命令进行列联表分析 (1)一维tabulate命令,主要用于生成含有频数的一维表格 tabulate varname if in weight ,tabulate1_options (2)二维tabulate命令 二维tabulate命令在生成二维表格的同时,可以计算多种独立性检验统计量和相关测量统计量 命令格式:tabulate varname1 varname2 if in weight ,options 6.3 利用Stata生成包含描述性统计量的列表 1.tabstat可以在一个表格中显示多个变量的多种描述性统计量 Tabstat varlist if in weight ,options 3. tabulate ,summarize()用于生成一维或者二维的包含均值和标准差的表格,事实上,table比tabulate,summarize()更加灵活,而tabulate,summarize()的特点在于运行更快 tabulate,summarize()命令格式: tabulate varname1 varname2 if in weight ,options 第7章 方差分析 7.1 t检验(样本小于30) 1.t检验的Stata基本命令 (1)单样本t检验的Stata操作 命令1:ttest varname =#if in,level(#)(通过样本进行t检验) 命令2:ttesti #obs #mean #sd #val ,level(#)(通过样本的统计指标进行t检验) 其中,#obs为样本容量,#mean为样本均值,#sd为标准差,#val为待检验数值,level为置信度水平 2.两样本的t检验的Stata操作 命令格式1(通过样本进行双变量t检验):ttest varname1=varname2 if in,option 命令格式2(通过样本进行分组t检验): ttest varname if in,by(groupvar) options 命令格式3(通过样本的统计指标进行t检验): ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 ,options 7.2 单因素方差分析 1.单因素方差分析Stata实现 oneway命令:oneway response_var factor_var if in weight ,options longway命令:longway response_var group_var if in weight ,options 7.3双因素和多因素方差分析 基本命令:anova response_var if in weight ,options 7.4 协方差分析 命令:anova response_var if in weight ,options 第8章 经典假设下的横截面数据单方程线性回归模型的Stata实现 8.1 Stata的回归分析 1.Stata的回归分析-regress、predict、test命令 regress、predict、test是一组命令,它们完成各种简单和多元的普通最小二乘法回归。regress命令用于完成因变量对自变量的回归,其后续命令predict可以计算预测值、残差,另一后续命令test检验用户指定的假设。 regress 命令的格式:regress depvar indepvars 【if】 【in】【weight】【options】 常用选项:noconstant(不加常数项做线性回归) hascons(由用户指定常数项的值) level(#)设定置信水平(默认值为95%) beta(报告标准化的beta系数) noheader(不报告输出表名) 2使用predict命令-计算拟合值和残差 predict命令:predict type newvar if in , single_options predict 命令是reg命令的后续命令,它可以用来保存最近一次回归的预测值、残差值。Type用来指定你要用来存放拟合值或残差的格式,newvar为用户为拟合值 或残差2取的变量名,if、in选项与第2章介绍的相同,, single_options用来指定你是要拟合值还是残差值 , single_options可以是 resid 表示我们需要计算残差(默认报告是拟合值) 3使用test命令-进行读者指定的检验 test命令的格式:test var1 var2 var3k test var=C test var1=var2 test var1=(var2+var3)/C 在这里,要完成的任务是: (1) 检验单个变量的显著性 (2) 检验多个变量的联合显著性 (3) 检验不同变量系数的关系 如test educ 0.5/来检验教育的系数是否为0.5 Test educ exper /这一命令是检验教育、经验回报是否同时为零的联合显著性检验 4. sw regress基本命令及其选项-逐步回归 sw regress 命令语法:sw regress depvar indepvars ,options options常用选项:Lockterm(保证某些变量不被剔除) ()(用于将括号内的变量看成一个整体 hier(让Stata从最后一个变量开始剔除,而不是从最不显著的变量开始剔除) 第9章 非经典假设、线性方程组、面板数据估计的Stata实现 9.1 非经典假设下的回归分析的Stata实现 1.多重共线性的检验和处理 (1)多重共线性的检验:用命令 vif/该命令用来得到自变量的方差膨胀因子。 一般而言,判断多重共线性的标准是: a. 最大的vif大于10 b. 平均的vif大于1 (2)多重多线性的处理 方法一:不加处理(往往是因为加二次项引起的,而这是有原因的) 方法二:减少自变量,将一些解释变量并入误差项 方法三:先采用在后面的将介绍的主成分分析和聚类分析,先将变量分类,然后再做回归分析 2.内生性的检验和处理(外生性即:E(u|x)=0) 外生性的假设是所有假设中最重要的假设,违反它将合得估计值不一致。内生性检验的命令是ovtest,它必须在regress命令之后。结果上,我们需要拒绝原假设(p0.05),即认为数据确实有内生性问题 Stata中是用ivreg命令实现工具变量回归的,ivreg命令的语法是 ivregress estimator depvar varlist1 (varlist2=varlist_iv) 如:reg wage educ age kidslt6 kidsge6 exper expersq/没使用工具变量 reg wage age kidslt6 kidsge6 exper expersq(educ=motheduc)/使用工具变量 3、异方差的检验与处理 (1)异方差的检验:用hettest/检验异方差,看p值,小于0.05,不能排除异方差可能 (2)异方差的处理:只要在reg命令的options选项中选择robust选项即可。然后再用test命令做检验 如:reg wage educ age kidslt6 kidsge6 exper expersq ,robust 9.2 线性方程组的回归分析-Stata实现 线性方程组包括两类:似不相关模型以及联立方程组模型 1. 似不相关模型的Stata实现 sureg (depvar1 varlist1) (depvar2 varlist2)(depvarN varlistN)ifinweight 2. 联立方程组模型的Stata实现 reg3 (depvar1 varlist1) (depvar2 varlist2)(depvarN varlistN)ifinweight 9.3 面板数据的Stata处理 Stata并不会自动识别面板数据,必须告诉它哪个变量是时间维度,哪个变量是横截面维度。在Stata中,要设置面板数据维度,可以使用xtset命令。其语法是: xtset panelvar timervar ,tsoptions (panelvar 是用来表示横截面维度的变量,timevar是用来表示时间维度的变量 ) 1. 固定效应的面板数据Stata实现 Xtreg用来做固定效应的语法是: Fixed-effects (FE) model Xtreg depvar indepvars ifinweight,fe FE_options (depvar表示因变量,varslist表示自变量,fe表示fixed effect固定效应) Xtreg 常用选项(1)fe使用固定效应回归 (2)robust 稳健回归 (3)level(#)设置置信水平,默认为95% 2.随机效应的面板数据Stata实现 随机效应的方式处理面板数据的思想是将个人特质看做与自变量不相关,然后用传统方法处理。也是使用xtreg命令,只不过选项由fe变为re,其语法为: xtreg depvar indepvarsifin,re RE_options(选项仅多一个theta:报告) 第10章 非线性回归分析及回归诊断基础 101 非线性回归分析 第7章的有部分非线性模型可以转为线性模型,这里介绍的是没有办法转化为线性回归的回归模型。 1.非线性回归的Stata实现-nl命令 nl命令是用来实现单个自变量的非线性回归模型的Stata命令。语法: Interactive version nl (depvar=) ifinweight,options depvar表示因变量,sexp用以表达非线性的形式 如:nl exp2 wage educ/非线性回归估计方法,用于估计12x形式的非线性模型参数 10.2 二值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论