stata基础教程和基本操作编程及解释_第1页
stata基础教程和基本操作编程及解释_第2页
stata基础教程和基本操作编程及解释_第3页
stata基础教程和基本操作编程及解释_第4页
stata基础教程和基本操作编程及解释_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Sa 编程及解释调整变量格式:format x1 %10.3f 将x1 的列宽固定为 10,小数点后取三位 format x1 %10.3g 将x1 的列宽固定为 10,有效数字取三位 format x1 %10.3e 将x1 的列宽固定为 10,采用科学format x1 %10.3fc 将x1 的列宽固定为 10,小数点后取三位,加入千分位分隔符format x1 %10.3gc 将x1 的列宽固定为 10,有效数字取三位,加入千分位分隔符format x1 %-10.3gc 将x1 的列宽固定为 10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐合并数据:use C:merge

2、 using C:s and Settingsxks桌面2006.dta, clears and Settingsxks桌面1999.dta将 1999 和 2006 的数据按照样本(observation)排列的自然顺序合并起来use C:s and Settingsxks桌面2006.dta, clearmerge id using C:s and Settingsxks桌面1999.dta ,unique sort将 1999 和 2006 的数据按照唯一的(unique)变量 id 来合并,在合并时对 id进行排序(sort)建议采用第法。对样本进行随机筛选:sle 50在观测案例中随

3、机选取 50%的样本,其余删除sle 50,count在观测案例中随机选取 50 个样本,其余删除查看与编辑数据:browse x1 x2 if x33 (按所列变量与条件打开数据查看器) edit x1 x2 if x33 (按所列变量与条件打开数据编辑器) 数据合并(merge)与扩展(append)merge 表示样本量不变,但增加了一些新变量;append 表示样本总量增加了,但变量数目不变。one-to-one merge:数据源自sa tutorial 中的 exw1 和exw2第一步:将 exw1 按v001v003 这三个编码排序,并建立临时数据库 tempw1 clearus

4、e t:satutexw1.dtasu summarize 的简写sort v001 v002 v003 save tempw1第二步:对 exw2 做同样的处理clearuse t:satutex susort v001 v002 v003w2.dtasave tempw2第三步:使用tempw1 数据库,将其与tempw2 合并:clearuse tempw1merge v001 v002 v003 using tempw2第四步:查看合并后的数据状况: ta _merge tabulate _merge 的简写 su第五步:临时数据库,并删除_merge,以免日后合并新变量时出错eras

5、e tempw1.dta erase tempw2.dta drop _merge数据扩展append:数据源自sa tutorial 中的fac19 和newfac clearuse t:satutfac19.dta ta regionappend using t:satutnewfac ta region合并后样本量增加,但变量数不变茎:stem x1,line(2) (做x1 的茎,每一个十分位的树茎都被拆分成两段来显示,前半段为 04,后半段为 59)stem x1,width(2)(做x1 的茎每个小树茎的组距为 2)stem x1,round(100) (将x1 除以 100 后再

6、做x1 的茎直方图采用auto 数据库histogram mpg, discrete frequency normal xlabel(1(1)5),每一个十分位的树茎都被拆分成五段来显示,)(discrete 表示变量不连续,frequency 表示显示频数,normal 加入正太分布曲线,xlabel 设定 x 轴,1 和 5 为值,(1)为)histogrrice, fraction norm(fraction 表示 y 轴显示小数,除了 frequency 和 fraction 这两个选择之外,该命令可替换为“percent”百分比,和“density”密度;未加上 discrete 就

7、表示将price 当作连续变量来绘图)histogrrice, percent by(foreign)(按照变量“foreign”的分类,将不同类样本的“price”绘制出来,两个图分左右排布)histogram mpg, discrete by(foreign, col(1)(按照变量“foreign”的分类,将不同类样本的“mpg”绘制出来,两个图分上下排布)histogram mpg, discrete percent by(foreign, total) norm(按照变量“foreign”的分类,将不同类样本的“mpg”绘制出来,同时绘出样本整体的“总”直方图)二变量图:graph

8、twoway lfit price weight | scattrice weight(作出 price 和 weight 的回归线图“lfit”,然后与 price 和 weight 的散点图相叠加)twoway scattrice weight,mlabel(make)(做price 和weight 的散点图,并在每个点上标注“make”,即厂商的取值)twoway scattrice weight | lfit price weight,by(foreign)(按照变量foreign 的分类,分别对不同类样本的 price 和weight 做散点图和回归线图的叠加,两图呈左右分布)two

9、way scattrice weight | lfit price weight,by(foreign,col(1)(按照变量foreign 的分类,分别对不同类样本的 price 和weight 做散点图和回归线图的叠加,两图呈上下分布)twoway scattrice weight fweight= displacement,msymbol(oh)(画出 price 和 weight 的散点图,“msybol(oh)”表示每个点均为中空的圆圈, fweight= displacement表示每个点的大小与displacement 的取值大小成比例) twoway connected y1

10、time,yaxis(1) | y2 time,yaxis(2)(画出 y1 和 y2 这两个变量的时间点线图,并将它们叠加在一个图中,左边“yaxis(1)”为y1 的度量,右边“yaxis(2)”为y2 的)twoway line y1 time,yaxis(1) | y2 time,yaxis(2)(与上图基本相同,就是没有点,只显示曲线)graph twoway scatter var1 var4 | scatter var2 var4 | scatter var3 var4(做三个点图的叠加)graph twoway line var1 var4 | line var2 var4 |

11、 line var3 var4(做三个线图的叠加)graph twoway connected var1 var4 | connected var2 var4 | connected var3 var4(叠加三个点线相连图)变量:graph matrix a b c y(画出一个散点图矩阵,显示各变量之间所有可能的两两相互散点图)graph matrix a b c d,half(生成散点图矩阵,只显示下半部分的三角形区域)用auto 数据集:graph matrix price mpg weight length,half by( foreign,total col(1) )(根据forei

12、gn 变量的不同类型绘制price 等四个变量的散点图矩阵,要求绘出总图,并上下排列】=具)其他图形:graph box y,over(x) yline(.22)(对应x 的每一个取值构建 y 的箱型图,并在 y 轴的 0.22 处划一条水平线)graph bar (mean) y,over(x)对应 x 的每一个取值,显示 y 的平均数的条形图。括号中的“mean”也可换成median、sum、sd、p25、p75 等graph bar a1 a2,over(b) stack(对应在 b 的每一个取值,显示 a1 和 a2 的条形图,a1 和 a2 是叠放成一根条形柱。若不写入“stack”

13、,则 a1 和 a2 显示为两个并排的条形柱)graph dot (median)y,over(x)(画点图,沿着水平刻度,在x 的每一个取值水平所对应的y 的中位数上打点)qnorm x(画出一幅分位-正态标绘图)rchart a1 a2 a2(画出质量控制R 图,显示 a1 到a3 的取值范围)简单统计量的计算:ameans x(计算变量x 的算术平均值、几何平均值和简单调和平均值,均显示样本量和置信区间)mean var1 pweight = var2(求取分组数据的平均值和标准误,var1 为各组的赋值,var2 为每组的频数)summarize y x1 x2,detail(可以获得

14、各个变量的百分比数、最大最小值、样本量、平均数、标准差、方差、峰度、偏度)*注意*sa 中summarize 所计算出来的峰度skewness 和偏度kurtosis 有问题,与 ECELL和SPSS 有较大差异,建议不采用s summarize var1 aweight = var2, detaila 的结果。(求取分组数据的统计量,var1 为各组的赋值,var2 为每组的频数)tabsX1,ss(mean n q max min sd var cv)(计算变量 X1 的算术平均值、样本量、四分位线、最大最小值、标准差、方差和变异系数)概率分布的计算:(1)webuse quickbite

15、st quick=0.3,detail(假设每次得到成功案例1的概率等于 0.3,计算在变量 quick 所显示的二项分布情况下,各种累计概率和单个概率是多少)bitesti 10,3,0.5,detail(计算当每次成功的概率为 0.5 时,十次抽样中抽到三次成功案例的概率:低于或高于三次成功的累计概率和恰好三次成功概率)(2)泊松分布概率:display poisson(7,6).44971106(计算均值为 7,成功案例小于等于 6 个的泊松概率)display poissonp(7,6).14900278(计算均值为 7,成功案例恰好等于 6 个的泊松概率)display poisso

16、ntail(7,6).69929172(计算均值为 7,成功案例大于等于 6 个的泊松概率)概率分布测试:(3)超几何分布概率:display hypergeometricp(10,3,4,2).3(计算在样本总量为 10,成功案例为 3 的样本总体中,不重其中恰好有 2 个为成功案例的概率)display hypergeometric(10,3,4,2).96666667(计算在样本总量为 10,成功案例为 3 的样本总体中,不重其中有小于或等于 2 个为成功案例的概率)抽取 4 个样本,抽取 4 个样本,检验值的步骤:常见命令:tabulate、stem、codebook、summariz

17、e、list、histogram、graph box、 gragh matrixstep1.用codebook、summarize、histogram、graph boxs、graph matrix、stem 看检验数据的总体情况:codebook y x1 x2 summarize y x1 x2,detailhistogram x1,norm(正态直方图)graph box x1(箱图)graph matrix y x1 x2,half(画出各个变量的两两x-y 图)stem x1(做x1 的茎)可以看出数据分布状况,尤其是最大、最小值step2.用tabulaist 细致寻找值tabul

18、ate code if x1=值(作出x1 等于值时code 的频数分布表,code 表示地区、年份等序列变量,这样便可找出那些地区的数值出现了错误)list code if x1=值(直接列出 x1 等于值时code 的值,当 x1 的错误过多时,不建议使用该命令)list in -20/l(l 表示last one,-20 表示倒数第 20 个样本,该命令列出了从倒数第20 个到倒数第一个样本的各变量值)step3.用replace 命令替换值replace x1=? if x1=去除值:值kef y1000对数据排序: sort xgsort +x(对数据按x 进行升序排列)gsort

19、-x(对数据按x 进行降序排列)gsort -x, generate(id) m(对数据按x 进行降序排列,缺失值排最前,生成反映位次的变量id)对变量进行排序:order y x3 x1 x2(将变量按照y、x3、x1、x2 的顺序排列)生成新变量:gen logx1=log(x1)(得出x1 的对数)gen x1=exp(logx1)(将logx1数化)=61&r在 61 与 100 之间,则新变量r61_100 的取值为 1,其他为缺失值)replace r61_100 if r61_100!=1(“!=”表示不等于,若 r61_100 取值不为 1,则将 r61_100 替换为 0,就

20、是将上式中的缺失值替换为 0)gen abs(x)(取x 的绝对值)gen ceil(x)(取大于或等于x 的最小整数)gen trunc(x)(取x 的整数部分)gen round(x)(对x 进行四舍五入)gen round(x,y)(以y 为,对x 进行四舍五入)gen sqrt(x)(取x 的平方根)gen mod(x,y)(取x/y 的余数)gen reldif(x,y)(取x 与y 的相对差异,即|x-y|/(|y|+1))gen logit(x)(取lnx/(1-x))gen x=autocode(x,n,xmin,xmax)(将x 的值域,即xmax-xmin,分为等距的 n

21、份) gen x=cond(x1x2,x1,x2)(若x1x2 成立,则取x1,若x1x2 不成立,则取x2) sort xgen gx=group(n)(将经过排序的变量x 分为尽量等规模的n 个组)egen zx1=std(x1)(得出x1 的标准值,就是用(x1-avgx1)/sdx1)egen zx1=std(x1),m(0) s(1() 得出x1 的标准分,标准分的平均值为 0,标准差为 1) egen sdx1=sd(x1)(得出x1 的标准差)egen meanx1=mean(x1)(得出x1 的平均值)egen maxx1=max(x1)(最大值) egen minx1=min

22、(x1)(最小值) egen medx1=med(x1)(中数) egen modex1=mode(x1)(众数)egen totalx1=total(x1)(得出x1 的总数)egen rowsd=sd(x1 x2 x3)(得出x1、x2 和x3 联合的标准差)egen rowmean=mean(x1 x2 x3)(得出x1、x2 和x3 联合的平均值)egen rowmax=max(x1 x2 x3)(联合最大值)egen rowmin(x1 x2 x3)(联合最小值)egen rowmed=med(x1 x2 x3)(联合中数) egen rowmode=mode(x1 x2 x3) (

23、联合众数) egen rowtotal=total(x1 x2 x3)(联合总数)egen xr序的xr=r)(x)(在不改变变量 x 各个值排序的情况下,获得反映 x 值大小排数据计算器display 命令:display x12(显示x 的第十二个观察值)display chi2(n,x)(度为n 的累计卡方分布)display chi2tail(n,x)(度为n 的反向累计卡方分布,chi2tail(n,x)=1-chi2(n,x))display invchi2(n,p)(卡方分布的逆运算,若chi2(n,x)=p,那么invchi2(n,p)=x) display invchi2ta

24、il(n,p)(chi2tail 的逆运算)display F(n1,n2,f)(分子、分母度分别为 n1 和n2 的累计F 分布)display Ftail(n1,n2,f)(分子、分母度分别为n1 和n2 的反向累计 F 分布)display invF(n1,n2,P)(F 分布的逆运算,若F(n1,n2,f)=p,那么invF(n1,n2,p)=f) display invFtail(n1,n2,p)(Ftail 的逆运算)display tden(n,t)( display ttail(n,t)(度为n 的t 分布)度为n 的反向累计t 分布)display invttail(n,p)

25、(ttail 的逆运算)给数据库和变量做标记:label data (对现用的数据库做标记,就是标记,可自行填写) label variable x (对变量 x 做标记)label values x label1(赋予变量x 一组 label define label1 1 a1 2 a2(定义当x=2 时,标记为 a2)频数表:tabulate x1,sort:label1)的具体内容:当x=1 时,标记为 a1,tab1 x1-x7,sort(做x1 到x7 的频数表,并按照频数以降序显示行)table c1,c(n x1 mean x1 sd x1)(在分类变量 c1 的不同水平上列出

26、x1 的样本量和平均值)二维交互表:auto 数据库:table rep78 foreign, c(n mpg mean mpg sd mpg median mpg) center row col(rep78,foreign 均为分类变量,rep78 为行变量,foreign 为列变量,center 表示结果显示在单元格中间,row 表示计算行变量整体的统计量,col 表示计算列变量整体的统计量)tabulate x1 x2,all(做x1 和x2 的二维交互表,要求显示独立性检验 chi2、似然比卡方独立性检验 lrchi2、对定序变量适用的等级相关系数gamma 和taub、以及对名义变量

27、适用的 V)tabulate x1 x2,column chi2(做 x1 和x2 的二维交互表,要求显示列百分比和行变量和列变量的独立性检验零假设为变量之间独立无统计关系)tab2 x1-x7,all nofreq(对 x1 到x7 这七个变量两两地做二维交互表,不显示频数:nofreq)三维交互表:by x3,sort:tabulate x1 x2,nofreq col chi2(同时进行x3 的每一个取值内的x1 和x2的二维交互表,不显示频数、显示列百分比和独立性检验)交互表:table x1 x2 x3,c(ferq mean x1 mean x2 mean x3) by(x4)ta

28、bs tabsX1 X2,by(X3) ss(mean n q max min sd var cv) col(ss)X1 X2,by(X3) ss(mean range q sd var cv p5 p95 median),aw=X4(以 X4为权重求 X1、X2 的均值,标准差、方差等)ttest X1=1 count if X1=0count if X1=0gen X2=1 if X1=0corr x1 x2 x3(做x1、x2、x3 的相关系数表)swilk x1 x2 x3(用Shapiro-Wilk W test 对x1、x2、x3 进行正太性分析) sktest x1 x2 x3(

29、对x1、x2、x3 进行正太性分析,可以求出峰度和偏度) ttest x1=x2(对x1、x2 的均值是否相等进行T 检验)ttest x1,by(x2) unequal(按x2 的分组方式对x1 进行T 检验,假设方差不齐性)sdtest x1=x2(方差齐性检验)sdtest x1,by(x2)(按x2 的分组方式对x1 进行方差齐性检验)聚类分析:cluster kmeans y x1 x2 x3, k(3)依据y、x1、x2、x3,将样本分为n 类,聚类的核为随机选取cluster kmeans y x1 x2 x3, k(3) measure(L1) start(everykth)

30、start用于确定聚类的核,everykth表示将通过构造三组样本获得聚类核:构造方法为将样本id 为 1、1+3、1+32、 1+33分为一组、将样本 id 为 2、 2+3、2+32、2+33分为第二组,以此类推,将这三组的均值作为聚类的核; measure用 于计算相似性和相异性的方法,L1表示采用欧式距离的绝对值,也直接可采用欧式距离(L2)和欧式距离的平方(L2squared)。PS:这个方法 所得的结果与SPSS 所得结果相同。sort c1 c2(对 c1 和c2 两个分类变量排序)by c1 c2:reg y x1 x2 x3(在 c1、c2 的各个水平上分别进行回归)byso

31、rt c1 c2:reg y x1 x2 x3 if c3=1(逗号前面相当于将上面两步骤合一,既排序又回归,逗号后面的“if c3=1”表示只有在 c3=1 的情况下才进行回归)stepwise, pr(.2): reg y x1 x2 x3(使用Backward selection,去除 P 值大于 0.2 时变量) stepwise, pe(.2): reg y x1 x2 x3(使用forward selection,去除P 值小于 0.2 时变量) stepwise, pr(.2) pe(.01):reg y x1 x2 x3(使用backward-stepwise selectio

32、n,取P 值在 0.01 和 0.2 之间的变量)stepwise, pe(.2) forward: reg y x1 x2 x3(使用forward-stepwise selection) reg y x1 x2 x3predict Yhat,xb predict u,residpredict ustd,stdr(获得残差的标准误)predict std,stdp(获得y 估计值的标准误)predict stdf,stdf(获得y值的标准误)predict e,e(1,12)(获得y 在 1 到 12 之间的估计值) predict p,pr(1,12)(获得y 在 1 到 12 之间的概率

33、) predict rstu,rstudent(获得student 的t 值)predict lerg,leverage(获得杠杆值) predict ckd,cooksd(获得cooksd) reg y x1 x2 x3 c1 c2adjust x1 x2 x3,se(使得变量 x1、x2 和x3 等于其均值,求 y 的值和标准误)adjust x1 x2 x3,stdf ci(使得变量x1、x2 和x3 等于其均值,求y 的值,预测标准误和置信区间)adjust x1 x2,by(c1) se ci(控制变量x1、x2,亦即取它们的均值,在分类变量 c1的不同水平上求y值,标准误和置信区间

34、)adjust x1 x2 x3,by(c1) stdf ci(控制变量x1、x2、x3,亦即取它们的均值,在分类变量 c1 的不同水平上求y值,标准误和置信区间)adjust x1 x2,by(c1 c2) se ci(控制变量x1、x2,在分类变量 c1、c2 的不同水平上求y 的值,标准误和置信区间)adjust x1 x2 x3,by(c1 c2) stdf ci(控制变量x1、x2、x3,在分类变量 c1、c2 的不同水平上求y 的值,标准误和置信区间)adjust x1=a x2=b x3=c,se ci(当 x1=a、x2=b、x3=c 时,求 y 的和置信区间)值、标准误adj

35、ust x1=a x2=b x3=c,by(c1) se ci(当 x1=a、x2=b、x3=c 时,在分类变量 c1 的不同水平上,求y 的值、标准误和置信区间)adjust x1=a x2=b c1=1,by(c1) se c(i 当x1=a、x2=b,并假设所有的样本均为 c1=1,求在分类变量 c1 的不同水平上,因为变量 x3 的均值不同,而导致的 y 的不同的值)mvreg Y1 Y2 : X1 X2 X3(多元回归)mvreg y1 y2 y3: x1 x3 x3(多元回归分析,y1 y2 y3 为因变量,x1 x3 x3 为自变量)以下命令只有在进行了mvreg 之后才能进行t

36、est y1(测试对y1 的回归系数联合为 0)test y1: x1 x2(测试对y1 的回归中x1、x2 的系数为 0)test x1 x2 x3(测试在所有的回归中,x1、x2、x3 的系数均为 0) test y1=y2(对y1 的回归和对y2 的回归系数相等)test y1=y2: x1 x2 x3, mtest(对 y1 和y2 的回归中,分别测试 x1、x2、x3 的系数是否相等,若没有mtest 这个命令,则测试他们的联和统计)test y1=y2=y3(三个回归的系数是否相等,可加mtest 以分别测试)test y1=y2=y3: x1 x2 (测试三个回归中的x1、x2

37、是否相等,可加mtest) est 命令的用法:(1)回归结果:reg y x1 x2 x3(不限于reg,也可 est store A重现回归结果:est replay A对回归结果进行进一步分析ivreg、mvreg、reg3)est for A:sum(对 A 回归结果中的各个变量运行 sum 命令)异方差问题:获得稳健性标准误reg y x1 x2 x3 if c1=1(当分类变量 c1=1 时,进行y 和诸 x 的回归)reg y x1 x2 x3,robust(回归后显示各个自变量的异方差-稳健性标准误)es esvif(回归之后获得 VIF) hettest,mtest(异方差检

38、验)异方差检验的套路:(1)Breusch-pagan 法:reg y x1 x2 x3predict u,resid gen usq=u2reg usq x1 x2 x3求F 值display R/(1-R)*n2/n1(n1 表示分子除数,n2 表示分母除数)display Ftail()求LM 值display R*n(n 表示总样本量)display chi2tail()white 法: reg y x1 x2 x3 predict u,resid gen usq=u2 predict ygen ysq=y2 reg usq y ysq求F 值display R/(1-R)*n2/n1

39、(n1 表示分子除数,n2 表示分母除数)display Ftail()求LM 值display R*n(n 表示总样本量)display chi2tail()必要补充F 值和LM 值转换为P 值令:display Ftail(n1,n2,a)(利用F 值求p 值,n1 表示分子除数,n2 表示分母除数,a为F 值)display chi2tail(n3,b() 利用 LM 值求p 值,n3 表示b 为 LM 值)度的损失量,一般等于 n1,异方差的纠正WLS(weighted least square estimator)基本思路:reg y x1 x2 x3 aw=x1(将 x1 作为异方

40、差的来源,对方程进行修正)上式相当于:reg y/(x10.5) 1/(x10.5) x1/(x10.5) x2/(x10.5) x3/(x10.5),noconstant纠正异方差的常用套路(构造h 值)reg y x1 x2 x3 predict u,resid gen usq=u2gen logusq=log(usq) reg logusq x1 x2 x3 predict ggen h=exp(g)reg y x1 x2 x3 aw=1/h异方差hausman 检验: reg y x1 x2 x3est store A(将上述回归结果 reg y x1 x2 x3 aw=1/hest

41、store B hausman A B到A 中)当因变量为对数形式时(log(y))如何reg logy x1 x2 x3 predict kgen m=exp(k)reg y m,noconstant m 的系数为iyy 的值=iexp(k)方差分析: 一元方差分析anova y g1 / g1|g2 /(g*表示不同分类变量,计算g1 和交互项/ g1|g2 /这两种分类的y 值是否存在组内差异)anova y d1 d2 d1*d2(d*表示虚拟变量,计算d1、d2 和d1*d2 的这三种分类的y值是否有组内差异)anova y d1 d2 x1 d2*x1, continuous(x1

42、)(x*表示连续的控制变量)多元方差分析webuse jawmanova y1 y2 y3 = gender fracture gender*fracture(按互项对y1、y2 和y3 进行方差分析)manova y1 = gender fracture gender*fracture(相当于一元方差分析,以y1 为因变量)webuse nobetn gen mycons = 1manova test1 test2 test3 = mycons, noconstant mat c = (1,0,-1 0,1,-1)manovatest mycons, ytransform(c)进行多元回归的

43、方法:多元回归分析:(与 mvreg 相同)foreach vname in y1 y2 y3 (确定y 变量组vname)reg vname x1 x2 x3 (将y 变量组中的各个变量与诸x 变量进行回归分析,注意vname 的标点符号)上式等价于:mvreg y1 y2 y3 = x1 x2 x3、是否骨折及二者的交reg3 命令:(1)简单用法:reg3 (y1 = x1 x2 x3) (y2 = x1 x3 x4) (y3 = x1 x2 x5)测试y1 coefs = 0test y1测试不同回归中相同变量的系数:test y1=y2=y3, commontest (y1=y2)

44、(y1=y3), common constant(constant 表示包含截距项)(2)用reg3 进行 2SLSreg3 (y1 = y2 x1 x2) (y2 = y1 x4),2sls(2)用reg3 进行OLSreg3 (y1 = y2 x1 x2) (y2 = y1 x4),ols 对两个回归结果进行hausman 检验: reg3 (y1=x1 x2 x3)(y2=y1 x4),2slsest store twoslsreg3 (y1=x1 x2 x3)(y2=y1 x4),ols est store olshausman twosls ols,equations(1:1)(对两

45、次回归中的方程 1,即“y1=x1 x2 x3”进行hausman 检验)hausman twosls ols,equations(2:2)(对两次回归中的方程 hausman 检验)hausman twosls ols,alleqs(对所有方程一起进行检验)检验忽略变量(模型的RESET):reg y x1 x2 x32,即“y2=y1x4”进行esovtest滞后变量的对变量y 滞后一期:gen y_l1=y_n-1滞后两期:gen y_l2=y_n-2以此类推。样本序号:gen id=_n获得样本总量:gen id=_N时间序列回归:回归元严格外生时 AR(1)序列相关的检验 reg y

46、 x1 x2predict u,resid gen u_1=u_n-1reg u u_1,noconstant回归之后,u_1 的序数如果不异于零,则该序列不相关用 Durbin-Watson Sistics 检验序列相关:tsset year (对时间序列回归中代表时间的变量进行定义) reg y x1 x2dws(求出时间序列回归的 DW 值)durbina (对该回归是否具有序列相关进行检验,H0 为无序列相关,可根据 chi2值求出P 值)durbina,small (small 可以根据F 值求出P 值,以代替chi2 值) durbina,force (让检验能在robust、ne

47、way 之后进行)durbina,small lag(1/10) (lag 可以求出更高阶滞后的序列相关,如本例中可求出1 到 10 阶的序列相关)durbina,robust lag(1/10) (robust 可进行异方差稳健性回归,避免未知形式的异方差)bgodfrey (利用Breusch-Godfrey test 求出高阶序列相关) bgodfrey,small lag(1/10)数据:survey data源数据:dataset 文件夹中的svydata步骤:1、定义survey datasvyset psuid pweight=finalwgt, strata(stratid)定

48、义primary sling unit 为psuid。可能是测试的,1or2定义pweight 为finalwgt定义stratum identifer 为stratid。可能是测试中被试的 2、生成malegen male= (sex=1) if !missing(sex)当 sex 不缺失且等于 1 时,male=sex3、生成行变量为highbp,列变量为sizplace 的表格,1to31svy, subpop(male): tabulate highbp sizplace, col obs pearson lr null waldsubpop 规定了以male 为数据的范围tabul

49、ate highbp sizplace 表示绘制行变量为 highbp,列变量为sizplace 的表格col 表示每一列的加总为 100%,row 表示每一行的加总为 100%,cell 表示横纵所有单元格的加总为 100%obs 表示列出每个单元格的样本量,se 表示列出每个单元格的标准误,ci 表示列出每个单元格的置信区间pearson 表示求取pearsons chi-squired,lr 表示求取likelihood rationull 表示求取null-based s isticswald 表示求取 adjusted wald,llwald noadjust 表示求取unadjus

50、ted Wald s istics 4、svy:mean x1 x2 x3对x1、x2、x3 求取mean、se 和 ci的卡方检定表示求取 adjusted log-linear Wald,5、简单的tabulate twoway(不用 svyset 就可执行)tab2 y x,col chi2 exact lrcol、cell、row 等均可换用,chi2 指的是Pearsons chi-squared、exact 指的是fisher exact test、lr 指的是likelihood-ratio chi-squared 6、svy 的其他用法:svy:reg y x建立人工数据集:创

51、建一个包含从独立标准正态分布中抽取的2000 个观察案例和三个随机Z1、Z2、Z3,并分别定义他们的平均值和标准差。matrix m=(0,2,3) 定义三个变量的平均值 matrix sd=(1,.5,2) 定义三个变量的标准差drawnorm z1 z2 z3,n(2000) means(m) sds(sd) 创建样本量为 2000,均值和标准差符合上面定义的数据集补充:除了定义均值和标准差之外,还可定义相关矩阵和协方差矩阵等。logit 回归logit y x1 x2 x3y 必须为二分变量glogitedata populationdata x1 x2 x3edata 为 目标样 本总

52、 量, populationdata 为观 测样 本总量, edata/populationdata 的值便是一个概率,相当于logit 命令中的y面板数据(Panel Data) 1、基本套路:xtreg y x1 x2,re est store re xtreg y x1 x2,fe est store fe hausman re fe如果hausman 检验的结果为显著,则采用固定效应(fe)模型,不显著,则选取随机效应(re)模型2、随机效应的检验: xtreg y x1 x2,rexttest0 xttest1xttest1 是 xttest0 的扩展,若这 xttest0 的结果为

53、显著,则采用随机效应(re)模型xttest1 的假设是没有随机效应和/或没有序列相关,它的七个结果分别表示:1) LM Test for random effects, aming no serial correlation(假设没有序列相关情况下对随机效应进行LM 检验)2) Adjusted LM test for random effects, which works even under serial correlation(假设有序列相关的情况下对随机LM 检验)3) One sided verof the LM test for random effects(假设没有序列相关的情

54、况下对随机效应进行单边检验)4) One sided verof the adjusted LM test for random effects(假设有序列相关的情况下对随机效应进行单边检验)5) LM test for-order serial correlation, aming no random effects(假设没有随机效应的情况下对一阶序列相关进行检验)6) Adjusted test for random effects-order serial correlation, which works even under(假设有随机效应的情况下对一阶序列相关进行检验)7) LM J

55、otest for random effects and serial correlation(随机效应和序列相关的联合检验)3、固定效应模型,可采用广义最小二乘法(gls)进行估算,也可采用固定效应方程(fe): xtserial y x1 x2 xtgls y x1 x2 xttest2xttest3xtserial 用于检验固定效应模型中的一阶序列自相关,可通用于 xtgls 和fe 之前xttest2 用于检验不同厂商的相似性,若显著则各厂家的截面相似,可通用于xtgls 和fe 之后xttest3 用于检验固定效应模型中的异方差问题,若显著则有异方差,可通用于xtgls 和fe 之后

56、Sa: 输出regrestable 到 word 和 excel1. 安装estout。最简单的方式是在s ssc install estout, replacea 的指令输入:EST 安装的指导跑你的regres写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD 文是:档)。只要再小幅修改,就可以直接用了。这个会存在mysa 下。如果你用打开的是一个sa do file,结果会保存到do 文件所在文件夹中。如果要得到 excel 文件,就把后缀改为.xls 或者.csv 就可以了4.跑多个其实也不难,只要每跑完一个 regres,你把它取个名字存起

57、来:eststore m1。m1 是你要改的,第一个m est store m2,依次类推。所以我叫m1,第二个的话指令就变成5.运行指令:esttab m1 m2 . using test.rtf 就行了。异方差的检验:Breusch-Pagan test in SA:其基本命令是:eshettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。是你自己设定的一个滞后项数量。同样,如果输出的P-Value 显著小于 0.05,则原假设,即不存在异方差性。White 检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, w

58、hite如果输出的P-Value 显著小于 0.05,则原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS 是 GLS(一般最小二乘法)的一种,也可以说在异方差情形下的 GLS 就是 WLS。在 WLS 下,设定扰动项的条件方差是某个解释变量子集的函数。之所以被称为最小二乘法,是因为这个估计最小化的是残差的平方和,而上述函数的倒数恰为其权重。在sa 中实现WLS 的方法如下:reg (被解释变量) (解释变量 1) (解释变量 2) aweight=变量名其中,aweight 后面的变量就是权重,是设定的函数。一种经常的设定是假设扰动项的条件方差是所有解释变量的某个线性组合的

59、指数函数。在sa 中也可以方便地实现:首先做标准的OLS 回归,并得到残差项;reg (被解释变量) (解释变量 1) (解释变量 2) predict r, resid生成新变量logusq,并用它对所有解释变量做回归,得到这个回归的拟合值,再对这个拟合值求指数函数;gen logusq=ln(r2)reg logusq (解释变量 1) (解释变量 2) predict g, xbgen h=exp(g)最后以h 作为权重做 WLS 回归;reg (被解释变量) (解释变量 1) (解释变量 2) aweight=h确切地知道扰动项的协方差矩阵的形式,那么 GLS 估计是最小方差线如果性无

60、偏估计,是所有线性估计中最好的。显然它比 OLS 更有效率。虽然GLS 有很多好处,但有一个致命弱点:就是一般而言不知道扰动项的协方差矩阵,因而无法保证结果的有效性。方法二:HC SEThere are 3 kinds of HC SE(1)Huber-White Robust Standard Errors HC1, 其基本命令是:reg var1 var2 var3, robustWhite(1980)证明了这种方法得到的标准误是渐进可用(asymptotically valid)的。这种方法的优点是简单,而且需要的信息少,在各种情况下都通用。缺点是损失了一些效率。这种方法在日常的中是最经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论