




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京科技大学STATA应用学习摘录第一章 STATA的基本操作 一、设置内存容 set mem 500m, perm一、 显示输入内容Display 1Display “clive”二、 显示数据集结构describeDescribe /d三、 编辑 editEdit四、 重命名变量Rename var1 var2五、 显示数据集内容list/browseList in 1List in 2/10六、 数据导入:数据文件是文本类型(.csv)1、 insheet: . insheet using “C:Documents and SettingsAdministrator桌面ST9007datasetFees1.csv”, clear2、 内存为空时才可以导入数据集,否则会出现(you must start with an empty dataset)(1) 清空内存中的所有变量:.drop _all(2) 导入语句后加入“clear”命令。七、 保存文件1、 save “C:Documents and SettingsAdministrator桌面ST9007datasetFees1.dta”2、 save “C:Documents and SettingsAdministrator桌面ST9007datasetFees1.dta”, replace八、 打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、 记录命令和输出结果(log)1、 开始建立记录文件:log using J:phdoutput.log, replace2、 暂停记录文件:log off3、 重新打开记录文件:log on4、 关闭记录文件:log close十一、创建和保存程序文件:(doedit, do)1、 打开程序编辑窗口:doedit2、 写入命令3、 保存文件,.do.4、 运行命令:.do 程序文件路径及文件名十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并appendinsheet using J:phdFees1.csv, clearsave J:phdFees1.dta, replaceinsheet using J:phdFees2.csv, clearappend using J:phdFees1.dtasave J:phdFees1.dta, replace十三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using J:phdFees1.csv, clearsort companyid yearend save J:phdFees1.dta, replacedescribeinsheet using J:phdFees6.csv, clearsort companyid yearend merge companyid yearend using J:phdFees1.dtasave J:phdFees1.dta, replacedescribe 2、_merge=1 obs. From master data _merge=2 obs. From using data _merge=3 obs. From both master and using data十四、帮助文件:help 1、. Help describe十五、描述性统计量 1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有 2、更详细的统计量 summarize incorporationyear, detail 3、centilecentile auditfees, centile(0(10)100) centile auditfees, centile(0(5)100) 4、tabulate不同类型变量的频数和比例tabulate companytype tabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype=3, row col 同时按行列和条件计算百分比 5、 计算满足条件观测的个数 count if big6=1count if big6=0 | big6=1 6、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytype By companytype:summarize auditees 十六、转换变量1、按公司类型将公开发行股票公司赋值为1,其他为0gen listed=0 replace listed=1 if companytype=2 replace listed=1 if companytype=3 replace listed=1 if companytype=5replace listed=. if companytype=.十七、产生新变量gen Generate newvar=表达式十八、数据类型1、数值型Storage typeBytesMinMaxbyte1-127+100int2-32,767+32,740long4-2,147,483,6472,147,483,620float4-1.70141173319*1038 1.70141173319*1036 double8-8.9884656743*103078.9884656743*103082、字符型Storage typeBytesMax length (characters)str111str222str8080803、新建变量的过程中定义数据类型l gen str3 gender= malel list gender in 1/104、变量所占字节过长l drop genderl gen str30 gender= malel browsel describe genderl compress gender5、日期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。(1)date( 日期变量 )l gen fye=date(yearend, MDY) MDY应根据前面日期的排列顺序而定,结果显示的是距离1960年1月1日的天数l list yearend fye in 1/10(2)日期格式化%d(显示fye变量为日期形式,但数值并未真正变动):l format fye %d l list yearend fye in 1/10l sum fye(3)利用日期天数求对应的年、月、日l gen year=year(fye)l gen month=month(fye)l gen day=day(fye)l list yearend fye year month day in 1/10(4)将三个分别表示年、月、日的变量合并为一个日期变量l drop fyel gen fye=mdy(month, day, year)l format fye %dl list yearend fye in 1/10(5) 将一个数值型的时间数据(20080131)转变为ST可识别的时间数据l gen year=int(date/10000)l gen month=int(date-year*10000)/100)l gen day=date-year*10000-month*100l list date year month day in 1/10l gen edate=mdy(month, day, year)l format edate %dl list edate date in 1/10十九、存贮统计量的内部变量R( )l sum auditfeesl gen meanadjaf= auditfees-r(mean) l list meanadjaf in 1/10SUM命令后常见的几种R()值r(N)Number of casesr(sd)Standard deviationr(sum_w)Sum of weightsr(min)Minimumr(mean)Arithmetic meanr(max)Maximumr(var)Variancer(sum)Sum of variable显示这些变量值的命令l sum auditfees, detaill return list二十、recode命令(PPT61)1、产生有多个值的变量的哑变量recoderecode year (min/1999 = 0) (2000/max = 1), gen (yeardum)min/1999表示小于等于1999的值全部赋值为02000/max表示大于等于2000的值全部赋为1。2、对一个连续变量按一定值分为不同间隔的组recodegen assets_categ=recode(totalassets, 100, 500, 1000, 5000, 20000, 100000, 1000000)。分组的值为每组的上限,包含该值。sort assets_categby assets_categ: sum totalassets assets_categ 3、 对一个连续变量按一定值分为相同间隔的组autocodeautocode(variable name, # of intervals, min value, max value)for example: gen assets_categ=autocode(totalassets, 10, 0, 10000)4、对一个连续变量按每组样本数相同进行分组:xtilextile assets_categ=totalassets, nquantiles(10)每组样本不一定完全相同二十一、一次性计算同一变量不同组别的均值:egen命令按公司类型先排序,再计算每一类型公司审计费用的均值并赋值给新变量:by companytype, sort: egen meanaf2=mean(auditfees)l count()l mean()l median()l sum()二十二、_n和_N命令1、 显示每个观测的序号并显示总观测数sort companyid fyecapture drop xgen x=_ncapture drop ygen y=_Nlist companyid fye x y in 1/302、分组显示每个组中变量的序号和每组总的样本数l capture drop x yl sort companyid fyel by companyid: gen x=_nl by companyid: gen y=_Nl list companyid fye x y in 1/303、创建新变量等于每个分组中变量的第一个值或最后一个值l sort companyid fyel by companyid: gen auditfees_first=auditfees1l by companyid: gen auditfees_last=auditfees_N l list companyid fye auditfees auditfees_first auditfees_last in 1/304、创建新变量等于滞后一期或滞后两期的值l sort companyid fye l by companyid: gen auditfees_lag1= auditfees_n-1l by companyid: gen auditfees_lag2= auditfees_n-2l list companyid fye auditfees auditfees_lag1 auditfees_lag2 in 1/30 二十三、转变数据集结构:reshape 不同数据库的数据集结构不同:长型是指同一公司不同年度数据在不同的行。宽型数据是指同一数据不同年度数据在现一行。二者间的转换可通过reshape命令来实现。需要注意的是,在转换过程中对数据集是有要求的,一个公司只能有一个年度数据,否则会出错。 1、长型转换为宽型:reshape wide yearend incorporationyear companytype sales auditfees nonauditfees currentassets currentliabilities totalassets big6 fye, i(companyid) j(year) 2、宽型转换为长型:reshape long yearend incorporationyear companytype sales auditfees nonauditfees currentassets currentliabilities totalassets big6 fye, i(companyid) j(year) 3、第二次转换时命令可简化:l reshape widel reshape long二十四、计算CAR的例子:已知股票日回报率,市场回报率,事件日,计算窗口期为三天的CAR。 1、定义三天的窗口期:l sort ticker edatel gen window=0 if eventdate.(事件日为0)l replace window=-1 if window_n+1=0 & ticker=ticker_n+1l replace window=1 if window_n-1=0 & ticker=ticker_n-1 2、计算AR和CARl gen ar=ret-vwretdl gen car=ar+ar_n-1+ar_n+1 if window=0 & ticker=ticker_n+1 & ticker=ticker_n-1 3、检验l list ticker edate ret vwretd ar car window if window.二十五、means 的T检验: 1、检验总体上big6的审计收费有无显著不同l use J:phdFees.dta, clearl gen lnaf=ln(auditfees)l by big6, sort: sum lnafl test lnaf, by (big6)2、分年度比较big6的审计收费有无显著不同,加入by year命令。l gen fye=date(yearend, MDY)l format fye %dl gen year=year(fye)l sort yearl by year: ttest lnaf, by(big6) 3、均值等于特定值得的T检验:l sum lnafl ttest lnaf=2.1二十六、meadian的显著性检验:1、获取中位数的命令:by big6, sort: sum lnaf, detailby big6, sort: centile lnaf 2、中位数检验:l median lnaf, by(big6)l ranksum lnaf, by(big6) 二十七、列联表检验: 1、创建列联表的命令:l tabulate companytype big6, row第一个变量是表的最左侧一列的项目,第二个变量是表的第一行的项目。 2、两变量之间的相关性检验:chi2tabulate companytype big6, chi2 row 3、相关矩阵:pwcorr lnaf big6 year listed 4、列出相关矩阵并进行符号检验 pwcorr lnaf big6 year listed, sig 5、在矩阵中列出观测数l pwcorr lnaf big6 listed if year=2000, sig obs二十八、创建一个不包含缺失值的数据集 1、无缺失值的变量值为1,至少有一个的为0gen samp=1 if lnaf. & big6. & year. & listed=0 & lnaf=0 & lnaf=0 & lnaf=5, width(0.25) normal2、散点图(scatter)l scatter lnaf lnta第一个变量是纵轴,第二个变量是横轴。l twoway (scatter lnaf lnta, msize(tiny) (lfit lnaf lnta)在散点图上加入最适合的一条直线。三十、缩尾处理winsor . winsor rev, gen(wrev) p(0.01)0.01代表去掉的百分数。 Winsor rev, gen(wrev) h(5),5代表去掉的个数第二章 线性回归内容简介: 2.1 The basic idea underlying linear regression 2.2 Single variable OLS 2.3 Correctly interpreting the coefficients 2.4 Examining the residuals 2.5 Multiple regression 2.6 Heteroskedasticity 2.7 Correlated errors 2.8 Multicollinearity 2.9 Outlying observations 2.10 Median regression 2.11 “Looping”2.1 The basic idea underlying linear regression 1残差 F为真实值,为预测值,为残差。OLS回归就是使残差最小。2. 基本一元回归regress y x3回归结果的保存回归结果的系数保存在_bvarname内存变量中,常数项的系数保存在 (_cons)内存变量中。4、预测值及残差l predict yhatl predict yres, residyres即为真实值得与预测值之差。5、残差与X的散点图twoway (scatter y_res x) (lfit y_res x)6、衡量估计系数准确程度:标准误差。用样本的标准偏差与系数之间的关系来衡量即T值(用系数除以标准差),同时P值是根据T值的分布计算出来的,表示系数落入标准对应上下限的可能性。前提是残差符合以下假设:同方差:Homoscedasticity (i.e., the residuals have a constant variance)独立不相关:Non-correlation (i.e., the residuals are not correlated with each other)正态分布:Normality (i.e., the residuals are normally distributed) 7、回归结果包含的一些内容的意思l 各变差的自由度: For the ESS, df = k-1 where k = number of regression coefficients (df = 2 1) For the RSS, df = n k where n = number of observations (= 11 - 2) For the TSS, df = n-1 ( = 11 1)l MS:变差除以自由度:The last column (MS) reports the ESS, RSS and TSS divided by their respective degrees of freedoml R平方:The R-squared = ESS / TSS l 调整的R平方:Adj R-squared = 1-(1-R2)(n-1)/(n-k) ,消除了加入相关度不高解释变量后R平方增加的不足。l Root MSE = square root of RSS/n-k:模型的平均解释能力l The F-statistic = (ESS/k-1)/(RSS/n-k):模型的总解释能力2.3 Correctly interpreting the coefficients1、假如想检验big6的审计费用在公开发行和非公开发行公司之间的区别时,可用交互变量。Big6*listed.2、变量回归系数的解释(1)对连续变量系数的解释:估计系数的经济意义是指X对Y的影响,可以有不同的方法来衡量:一种是用X从25%变动到75%时Y的变动量。或X变动一个标准差时Y的变动。l reg auditfees totalassets l sum totalassets if auditfeesmax & cook.4、 去掉异常值后重新回归l reg lnaf lnta big6 if cook=max 5、用winsorize方法消除异常值:其缺点是A disadvantage with “winsorizing” is that the researcher is assuming that outliers lie only at the extremes of the variables distribution。l winsor lnaf, gen(wlnaf) p(0.01)l winsor lnta, gen(wlnta) p(0.01)l sum lnaf wlnaf lnta wlnta, detaill reg wlnaf wlnta big62.10 Median regression1、中位数回归是当存在异常值问题时使用。2、原理:OLS估计是尽量使残差平方和最小:中位数回归是尽量使the sum of the absolute residuals最小。 3、 回归方法:STATA将中位数回归看作是quantile regressions 的一个特例。qreg lnaf lnta big6 2.11 “Looping”1、当多次用到一个命令集时,我们可以建立一个程序集,以program开头,以forvalues引导的内容,以end结束。使用时只须输入程序名“ten”即可执行程序中的一引起命令集。Example:program tenforvalues i = 1(1)10 display iend2、修改命令集:须首先删除内存中的命令集:capture program drop ten然后重新编写。4、 例子:利用JONES模型计算操控性应计。l use J:phdaccruals.dta, clearl gen one_sic=int(sic/1000)l gen ncca= current_assets- cashl gen ndcl= current_liabilities- debt_in_current_liabilitiesl sort cik yearl gen ch_ncca=ncca-ncca_n-1 if cik=cik_n-1l gen ch_ndcl=ndcl-ndcl_n-1 if cik=cik_n-1l gen accruals=(ch_ncca-ch_ndcl)/assets_n-1 if cik=cik_n-1l gen lag_assets=assets_n-1 if cik=cik_n-1l gen ppe_scaled=ppe/assets_n-1 if cik=cik_n-1l gen chsales_scaled=(sales-sales_n-1)/assets_n-1 if cik=cik_n-1l gen ab_acc=.l capture program drop ab_accl program ab_accl forvalues i = 0(1)9 l capture reg accruals lag_assets ppe_scaled chsales_scaled if one_sic=il capture predict ab_acci if one_sic=i, residl replace ab_acc= ab_acci if one_sic=il capture drop ab_accil l endl ab_acc第三章 因变量为非连续性变量时的回归分析内容简介: 3.1 Why not OLS? 3.2 The basic idea underlying logit models 3.3 Estimating logit models 3.4 Multinomial models 3.5 Ordinal dependent variables 3.6 Count data models 3.7 Tobit models and interval regression 3.8 Duration models 3.1 Why not OLS? 1、 two statistical problems if we use OLS when the dependent variable is categorical: The predicted values can be negative or greater than one The standard errors are biased because the residuals are heteroscedastic.2、 Instead of OLS, we can use a logit model 3.2 The basic idea underlying logit models1、We need to create a variable that: 将离散型的因变量转变为符合OLS的形式。l has an infinite range,l reflects the likelihood of choosing a big6 auditor versus a non-big6 auditor. 2、“odds ration”可实现上面的两项要求:log(odds ration)3、 具体例子:第一列为big6的可能性,第二列和第三列为优势比率,第四列为取自然对数后的值。4、L和P之间的转换关系。5、似然函数:使用最大似然法估计(maximum likelihood” estimation)6、回归命令 logit和logisticl logit reports the values of the estimated coefficientsl logistic reports the odds ratios一般报告系数估计所以使用logit。7、模型的解释能力参数:pseudo-R2和Chi2 pseudo-R2 = (ln(L0) - ln(LN) / ln(L0) = (-175224+146215) / -175224ln(L0)是第一个回归值,ln(LN)是最后一个回归值。l Chi2 = -2(ln(L0) - ln(LN) = -2*(-175224+146215) = 58018 3.3 Estimating logit models 1、回归模型l logit big6 lnta age, robust cluster(companyid)加入robust命令是为了纠正异方差,加入cluster()是为了纠正相关性错误。2、预测因变量的可能性l logit big6 lnta age, robust cluster(companyid)l drop big6hatl predict big6hatl sum big6hat, detail 用此命令产生的预测值为以下公式:另一种产生预测因变量可能性的方法:l gen big6hat2=exp(big6hat1)/(1+exp(big6hat1)l sum big6hat big6hat1 big6hat23、产生预测因变量的值:l gen big6hat1 = _b_cons+_blnta*lnta + _bage*agel sum big6hat1, detail 另一种方法是predict big6hat1, xb 4、 计算自变量变动对因变量可能性的影响:l logit big6 lnta age, robust cluster(companyid)l gen big10 = exp(_b_cons+_blnta*lnta + _bage*10) / (1+(exp(_b_cons+_blnta*lnta + _bage*10)l gen big20 = exp(_b_cons+_blnta*lnta + _bage*20) / (1+(exp(_b_cons+_blnta*lnta + _bage*20)l sum big10 big20 5、检验因变量与自变量之间单调性的方法:l xtile lnta_categ=lnta, nquantiles(10)l tabulate lnta_categ, gen (lnta_)l logit big6 lnta_2- lnta_10 age, robust cluster(companyid) 6、另一种估计方法probit Logit把P(Y=1)转换成0-1之间的数据,数据服从对数分布 Probit把P(Y=1)转换成0-1之间的数据,数据服从正态分布。似然函数为 The coefficients tend to be larger in probit models but
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年OLED检测系统项目建议书
- 2025年汽车内外饰件合作协议书
- 抢修安全培训课件
- 2025年用户自行开发的专用集成电路(ASIC)项目建议书
- 抗菌药物的正确使用
- 抗美援朝胜利原因
- 2025年环境污染防治专用设备项目发展计划
- 2025年江苏省苏州市工业园区景城学校中考数学二模试卷(含简略答案)
- 2025-2026学年河北省承德市双滦实验中学高二(上)开学数学试卷(含答案)
- 教师考试压轴题及答案
- (2025秋新版)苏教版三年级数学上册全册教案
- 2025秋部编版(2024)八年级上册语文上课课件 2.中国人首次进入自己的空间站
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 八大联考练习试卷附答案
- 河道清淤施工方案(定稿)
- 五年级上册数学课件-《练习一》北师大版 (共10张PPT)
- 苏教版 六年级数学上册全套下载(全册)合集(含整理与复习)课件
- 《安徒生童话》读书分享名著导读ppt
- 部编版五年级上册语文 第10课 牛郎织女(一) 课后习题重点练习课件
- 生命科学上游产业专题研究:下一个10年的高景气大赛道
- 第1章制图基础-金大鹰
评论
0/150
提交评论