




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Lecture 1cd D:stata13statistics*SCI-IF的例子insheet using SCI-IF.csv,clear*注意:变量名命名规则rename v1 journalnamerename v2 countrysave SCI-IF,dta,replaceuse SCI-IF,dta,clear*按照v6变量因子2000逆序排列gsort -v6*列出因子2000排在前十的顶尖级杂志的期刊名list journalname in 1/10*MANAGE SCIlist journalname v6 if journalname=MANAGE SCI /表示逻辑关系,用=*中国前五名list journalname v6 in 1/5 if country=中国help graph twoway /二维图*广告统计表画bar图和pie图insheet using 广告统计表.csv,clearrename v1 typerename v2 frequencyrename v3 percentgraph bar frequency, over(type) /柱形图graph bar frequency, over(type) horizontal /条形图*更加丰富的选项graph bar frequency, over(type) ytitle(频数) ylabel(0(20)120)*复式图graph bar frequency percent, over(type) ylabel(0(20)120) legend(label(1 频数) label(2 频率)line frequency percent,sort*pie图graph pie frequency, over(type)*画折线图clear*复制粘贴的方式导入数据:1991-1998年城乡居民家庭人均收入rename var1 yearrename var2 urbanincomerename var3 ruralincomelabel var urbanincome 城镇居民收入label var ruralincome 农村居民收入save income.dta,replacetwoway (connected urbanincome year,lpattern(dash) msymbol(T) (connected ruralincome year,msymbol(D), ytitle(收入) xlabel(1991(1)1998) title(1991-1998城乡居民收入)*图片的保存,jpg形式的*类型变量的频数分布表tabulateinsheet using 住房状况评价的累积频数.csv,cleartabulate v2/对变量自动分组*累积分布函数图*采用折线图的思路gen type=0replace type=1 if v1=非常不满意replace type=2 if v1=不满意replace type=3 if v1=一般replace type=4 if v1=满意replace type=5 if v1=非常满意label define v8 1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意label values type v8line v4 type,mlabel(v4) xtitle() xlabel(1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意)twoway connected v6 type,mlabel(v6) xtitle() xlabel(1 非常不满意 2 不满意 3 一般 4 满意 5 非常满意)*使用50名工人日加工的零件数文件worker.dtause worker.dta,cleartabulate var1*可以根据一些标准生成新的变量,代表组别*直方图histogram var1 /基本命令,自动分组histogram var1,frequency*平滑密度函数图kdensity var1,normal*累计频数分布折线图cumul var1,gen(cumulvar1)line cumulvar1 var1,sorttwoway connected cumulvar1 var1,sort*茎叶图stem var1*线箱图graph box var1graph hbox var1*多批数据,选项over(类别变量)Lecture 2cd C:UsershedgewangDesktopStata期末复习statistics2*基本统计量*summarize命令sysuse auto,clearsummarize pricesummarize price,detail /还会给一些诸如四分位数之类的值return list /出现的都是scalars单值,系统自动保存的单值,可以直接调用用于计算。/ 算一下整个样本价格的总和:display r(mean)*r(N)*按不同组别by foreign: summarize pricesummarize price*统计表格tabstatsysuse auto,clearhelp tabstattabstat pricetabstat price,stats(mean variance sd p50 min max iqr cv)tabstat price,stats(mean variance sd p50 min max iqr cv) col(s)return listdisplay r(sd)/r(mean) /计算离散系数/ stats后跟需要知道的具体的值,variance是方差,sd是标准差,p50指中位数/ iqr是指四分位差,也就是四分位距,或者内距。为上四分位数和下四分位数之差/ cv是指离散系数,也称变异系数,等于方差除以平均值tabulate foreign*关于偏度和峰度计算公式的区分*(1)对现有变量进行修正和转换*(2)产生新的变量*数学表达式*三类:关系运算;逻辑运算;算数运算*关系运算符 =;=;=,!=;=sysuse auto,clearby foreign: summarize pricelist price if foreign=0 /foreign的值不为foreign,也就是说foreign值为domesticsummarize price if foreign!=1 /同上summarize price if foreign=1*逻辑运算符:*逻辑运算符:或|;与&sysuse auto,clearsum price weight if (foreign=1 & rep782 & rep7810000)summarize price headroom if (foreign=1 & rep78=3)/sum是summarize的简写*算数运算符: + - * / display 52dis 1-3*2+4/5-93dis 2*_pi/注意pi的值系统就有,要输入_pidisplay _pi*创造新变量*-基本方法sysuse auto,cleargenerate price2=price2 /可以简写为gengen price2f=price2 if foreign=1gen wlratio=weight/lengthsysuse auto.dta,clearsave auto.dta*-数学函数转换help math functionssysuse nlsw88.dta, clearsave nlsw88.dta gen ln_wage=ln(wage) / 取对数label var ln_wage 对wage变量取对数 /label别忘了在变量前加一个vargen sqrt_hours=sqrt(hours) / 开根号label var sqrt_hours 对hours变量开方 gen int_wage=int(wage) / 取整label var int_wage 对wage变量取整*使用egen命令产生函数值egen meanwage=mean(wage)egen maxwage=max(wage)egen modewage=mode(wage) /众数egen iqrwage=iqr(wage) /四分位距egen stdwage=std(wage) /数据的标准化egen可以生成gen不能生成的变量help egen /使用help egen来帮助自己生成一些gen不能生成的变量*均值的命令means wage/ 可以多个变量means wage hours /变量与变量之间不需要加逗号,用空格隔开即可*生成range,全距sort wagegen wagerange=wage_N-wage1 /什么意思?*还可以把STATA当成计算器,做计算,结果可以存在单值scalar里面。*eg:cv的计算,wage的cvsum wagereturn list /必须先sum某个值才能return listscalar cv_wage=r(sd)/r(mean)display cv_wage /cv,coefficient of variation*累积函数的计算举例:help density functions*X服从N(0,1),计算概率P(X1.96)display normal(1.96)*若X服从N(100,62),计算概率P(X2.2)display ttail(10,2.2)*t服从自由度为10的t分布,计算概率P(t3.84)display 1-chi2(1,3.84)*ordisplay chi2tail(1,3.84)*设F服从F(3,27),计算P(F1)display Ftail(3,27,1)display F(3,27,1) /F是指F1display 1-F(3,27,1)*概率分布的临界值计算display invnorm(0.975) /display invttail(28,0.025) /计算自由度为28的右侧累积概率为0.025的临界值,即0.975的临界值display invt(28,0.975)/相同的,invttail是指右侧面积,invt是指左侧面积display invchi2(1,0.95) /计算自由度为1的卡方右侧累积概率为0.05的临界值,即0.95的临界值*ordisplay invchi2tail(1,0.05)/相同的,invchi2是指左侧面积,invchi2tail是指右侧面积 display invF(3,27,0.95) /计算分子自由度为3,分母自由度为27的右侧累积概率为0.05的临界值*ordisplay invFtail(3,27,0.05) /相同的,invF是指左侧面积,invFtail是指右侧面积*假设检验*单个正态总体的假设检验,Z检验(方差已知)*输入ppt里面的数据,lecure2.dtause lecture2.dta,clearsave lecture2.dtasummarize return list /查看返回值/汽车配件要求为12cm,高于或低于都不满足,说明是双侧检验/Z=(mean-0(正态总体均值))/(sigma(正态总体标准差)/根号n)/因为知道总体的均值和标准差,所以选择z检验scalar z=(r(mean)-12)/(0.5/sqrt(r(N) /or sqrt(r(N)display zscalar crit=invnorm(0.975)display zdisplay crit/发现z的绝对值落入了接受域中,所以不能拒绝原假设,也就是说该样本符合要求*方差未知,t检验*仍然使用lecture2的数据,现在假设不知道sigma。H0:mil0=12ttest length=12 /已经知道了数据就可以直接使用ttest这个代码use lecture2.dta,clearsummarize return list scalar t=(r(mean)-12)/(r(sd)/sqrt(r(N)display t /自己手算得到的t值和ttest length=12得到的结果一致*例5ttesti 12 9410 80 9350 /样本量,样本均值,样本标准差,总体均值/ 应该看最右边的p值,也就是Pr(Tt)=0.01240.05,所以拒绝原假设display (9410-9350)/(80/sqrt(12) /显示的结果为2.5981display invttail(11,0.05) /显示的结果为1.7959/如果是双侧检验display invttail(11,0.025) /显示的结果为2.20/ 还是拒绝原假设/可见t值要大于临近值,所以拒绝原假设*总体N(mil,sigma2)的方差检验,卡方统计量*例6,手动计算scalar k2=(26-1)*962)/5000 /知道的是总体的方差,样本容量和样本的标准差/ 计算公式为(n-1)S2/sigma2scalar crit_upper=invchi2(25,0.975) /面积小于0.975的临界值scalar crit_lower=invchi2(25,0.025) /面积小于0.025的临界值display k2 /显示为46.08display crit_upper /显示为40.65display crit_lower /显示为13.12/发现k2的值大于crit_upper,所以拒绝原假设*例6,用命令sdtestidisplay sqrt(5000)sdtesti 26 . 96 70.710678 /观察值26个,均值为空,总体标准差是96,方差是*区间估计举例,手动计算,假设总体方差未知,正态总体均值的区间估计scalar t_c = invttail(9, 0.025) /先求临界值sum lengthscalar CI95_low=r(mean)-t_c*r(sd)/sqrt(10) scalar CI95_high =r(mean)+t_c*r(sd)/sqrt(10) display CI95_lowdisplay CI95_highttest length=12 /与前面手动算的总体均值的区间估计相同Lecture 3cd D:Stata13statistics3*ex1insheet using ex1.csv,clearsave ex1.dta,replace oneway sales course*练习:display invF(2,12,0.9)display invFtail(2,12,0.1)*ex2insheet using ex2.csv,clearsave ex2.dta,replace oneway sales areaoneway sales area,b*多重比较,举例东北和东南的比较scalar s=5scalar n=26 /n-s=21,后面n-s直接代入21quietly summarize sales if area=东北return listscalar db=r(mean)scalar db_n=r(N)quietly summarize sales if area=中部scalar zb=r(mean)scalar zb_n=r(N)quietly summarize sales if area=西北scalar xb=r(mean)scalar xb_n=r(N)quietly summarize sales if area=华北scalar hb=r(mean)scalar hb_n=r(N)quietly summarize sales if area=东南scalar dn=r(mean)scalar dn_n=r(N)oneway sales areareturn listscalar sse=r(rss)scalar crit=invttail(21,0.05)*比较东北和东南scalar crita=crit*sqrt(sse/21*(1/db_n+1/dn_n)display abs(db-dn)display crita*不能拒绝原假设*其他的请自己做练习*ex3insheet using ex3.csv,cleargen packagenum=1 if package=高雅replace packagenum=2 if package=激情replace packagenum=3 if package=流行save ex3.dta,replace anova sales advertising packagenum advertising#packagenum*ex4insheet using ex4.csv,clearsave ex4.dta,replaceanova ratio a bLecture 4cd D:Stata13statistics4*列联表*例5:第一种方法*生成原始数据clearset obs 420gen id=_ngen x=1 /1-100replace x=2 if (100id) & (id=220) /101-220replace x=3 if (220id) & (id=310) /221-310replace x=4 if (310id) & (id=420) /311-420gen y=2replace y=1 if (0id) & (id=68) /1-68replace y=1 if (100id) & (id=175) /101-175replace y=1 if (220id) & (id=277) /221-277replace y=1 if (310id) & (id=389) /311-389tab2 y x,chi2help tab2tab2 y x,chi2 cell exp*第二种方法,做作业请用此方法help tabitabi 68 75 57 79 32 45 33 31,cell row columntabi 68 75 57 79 32 45 33 31,chi2 exp *例9cleartabi 52 64 24 60 59 52 50 65 74,chi2 Vreturn list*计算phi系数display phi= sqrt(r(chi2)/r(N)*计算C系数display C= sqrt(r(chi2)/(r(chi2)+r(N)*V系数,已经计算display V= r(CramersV)*相关关系*sysuse auto,clear*散点图twoway scatter price weight*散点图+拟合图twoway (scatter price weight) (lfit price weight)*ex5use ex5.dta,clearlabel var x 人均国民收入label var y 人均消费额twoway (scatter y x) (lfit y x)correla
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年自考专业(计算机网络)考试黑钻押题附参考答案详解【A卷】
- 农发行黑河市嫩江市2025秋招笔试专业知识题专练及答案
- 2025年金属非金属矿山安全作业试卷及答案详解(易错题)
- 驾驶人员考试题及答案
- 嘉晋学校考试题及答案
- 2025年海南省妇女儿童医学中心招聘84人笔试高频难、易错点备考题库及答案详解一套
- 大学学习方法对比研究
- 码头场地租赁权转租及配套服务合同
- 离婚后共同财产分割、子女抚养及生活费用分配协议
- 离婚后子女共同抚养及生活费用分担协议
- JJF 1334-2012混凝土裂缝宽度及深度测量仪校准规范
- GB/T 2831-1981光学零件的面形偏差检验方法(光圈识别)
- GB/T 19077-2016粒度分布激光衍射法
- GB/T 1220-1992不锈钢棒
- GB/T 1094.1-2013电力变压器第1部分:总则
- 水工监测工竞赛试试题库
- 2023年安仁县林业系统事业单位招聘笔试题库及答案解析
- 精选急腹症影像学表现资料课件
- 角膜 角膜炎课件
- 《卫生政策学》第三章 政策问题确认
- 水利水库工程项目划分表及说明书
评论
0/150
提交评论