




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
定量研究方法讲义(研究生)下 篇 数据分析1. Stata: 数据录入与整理2. SPSS内容复习:比较平均数、一元回归、多元回归、虚拟变量、因子分析3. STATA:界面和命令Stata的界面主要是由四个窗口构成,分述如下: 1结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。 3命令回顾窗口:即review窗口,位于界面左上方,所有执行过的命令会依次在该窗口中列出,单击后命令即被自动拷贝到命令窗口中;如果需要重复执行,用鼠标双击相应的命令即可。 4变量名窗口:位于界面左下方,列出当前数据及中的所有变量名称,。 除以上四个默认打开的窗口外,在Stata中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log窗口等,如果需要使用,可以用Window或Help菜单将其打开。 数据录入:参看STATA教程第3-8页。4. STATA:数据转换和整理常用命令:generate (gen) 新变量名=表达式例如(导报):gen income=a27/ a30summarize (su) 变量名例如: su a28g a28hbysort 变量名:命令 变量名例如:bysort sex: su ageThe by-qualifier tells Stata to execute the subsequent command repeatedly along thedifferent values of varlist1 (not all commands support this feature, though). ThisTobias Pfaff, Institute for Economic Education, University of Mnster 11/28requires the data to be sorted by varlist1. Using bysort instead of by makes previoussorting redundant. An example would be to summarize happiness scores by gender:If 例如(导报):su a5 if a1=1 & a2=30 (大于30岁的男性的婚姻状况)recode例如用导报数据将文化程度重新赋值:recode a3 (1 2 3=1) (4=2) (5=3) (6=4) (7 8=5), gen (edu)describe 描述codebook tabulate 交互分类导报数据 性别与宗教信任的交互分类 tab a1 a4, row expected虚拟变量可以用tab命令例如导报数据,将教育程度变为虚拟变量:quietly tab ra3, gen (edu)(把ra3这个定类变量虚拟成edu )2. Stata:一元回归数据:GSS1991散点图. scatter prestg80 educ 3. Stata:多元回归穆勒的数据5. Stata:多元回归中的虚拟变量数据:GSS2000先将reg16重新赋值变成虚拟变量:加入教育程度作为自变量后:又例:海峡导报数据 性别(a1)与社团参与因子一(v311)加入年龄之后 如何在文章中展示回归模型分析结果:例1:胡荣妇女在村级选举中的政治参与表3 影响男性在村级选举中参与的诸因素的回归分析预测变量模型I模型II性别4.667(0.153)*4.246(0.139)*选举是否符合规范0.818(0.145)*0.859(0.152)*选举竞争程度选举拉票因子3.058(0.204)*2.617(0.175)*选举承诺因子-1.384(-0.092)*-1.150(-0.076)*村庄离县城距离-0.179(-0.152)*-0.217(-0.183)*是否党员6.040(0.141)*是否当过村组干部6.759(0.161)*是否参军2.264(0.038)年龄0.343(0.314)年龄的平方-4.279E-03(-0.371)*上学年限5.014E-02(0.012)常数4.944*-2.622N710694Adjusted R Square11.9%18.3%F20.09815.090例2: 胡荣城市居民信任的构成及影响因素表4 回归分析模型(括号内为标准回归系数)模型I:普遍信任模型II:一般信任模型III:特殊信任性别a8.502(0.245)*0.626(0.023)-1.307(-0.109)年龄-1.020(-0.743)*0.165(0.151)*-1.87E-02(-0.040)年龄平方1.093E-02(0.693)*文化程度0.479(0.030)-0.317(-0.025)0.677(0.123)个人月收入4.030E-04(0.121)*-7.24E-05(-0.027)1.718E-04(0.150)*社交团体参与因子4.029(0.216)*1.367(0.092)-0.178(-0.028)社区团体参与因子3.777(0.226)*0.941(0.132)*-0.240(-0.042)常数55.75154.58528.849N206206206Adjusted R Square15.9%1.6%2.7%F6.5421.5711.947说明:*P0.1, * P0.05, * P0.01, * P0.001a 参考类别为“女”例3: 胡荣:经济发展与竞争性的村委会选举表5:影响选举竞争程度及选举规范性的回归分析(括号内为标准回归系数)解释变量模型1:村民参与程度模型2:选举竞争程度模型3:选举规范程度人均集体收入-1.24E-04(-0.041)2.963E-04(0.23)*4.660E-04(0.105)*村民相对生活水平0.292(0.146)*6.275E-02(0.074)!0.55(0.186)*人均家庭收入-1.52E-05(-0.42)-2.98E-07(-0.002)3.666E-05(0.069)!受教育年限3.794E-02(0.084)*2.905E-04(0.002)-5.23E-02(-0.079)*离县城距离-1.81E-02(-0.143)*-2.09E-03(-0.039)-9.10E-03(-0.049)外出村民比例1.876(0.105)*2.523(0.328)*0.776(0.029)村民参与程度3.046E-02(0.071)!0.181(0.123)*选举竞争程度1.097(0.32)*N564564564Constant0.787*2.76*-2.061*Adjusted R24.8%13.9%21.3%说明:!P0.1 *P0.05, *P0.01, *P0.001 * P0.0005例4:胡荣社会资本与村民在村级选举中的地域性自主参与表 6 影响村民在村级选举中参与程度的因素(回归分析)预测变量回归系数标准回归系显著性水平性别a3.3740.1280.001年龄0.3640.3880.055年龄的平方-0.004-0.4240.031上学年限0.0330.0100.829是否党员b3.5800.0970.011是否当过村组干部c4.0610.1130.002村庄离县城距离-0.130-0.1280.000选举规范实施程度1.4190.1540.000社会资本:信任因子-0.636-0.0480.173社会交往因子0.2300.0170.627社区安全因子0.2610.0200.578亲属联系因子-0.362-0.0270.446社区归属感因子1.2740.0970.007社团因子1.5130.1170.001竞选激烈程度:竞选承诺因子1.9540.1510.000关系拉票因子-0.573-0.0440.230常数-7.194 0.148N698Adjusted R Square17.2%F检定值10.0720.000 a 参考类别为“女性”; b 参考类别为“非党员”; c 参考类别为“未当过村组干部”例5:农民上访与政治任任的流失表6影响农民政治信任因素的多元回归分析模型I:基层政府信任因子模型II:高层政府信任因子BBetaSig.BBetaSig.性别a-3.180-.074.0782.603.090.059年龄2.879E-02.017.7035.685E-02.050.323上学年限-.368-.056.173-.270-.061.191是否党员b-2.505-.049.275-2.434-.071.164是否当过村干部或小组长c2.189.042.3581.908.054.293家庭经济情况与五年前比的变化1.810.085.033.183.013.776历次政治运动中是否受过不公待遇e-3.173-.050.1951.167.027.532政治效能感3.137.147.000.765.053.214是否上访过d到乡镇上访过-8.526-.061.1062.434.026.545到县里上访过-17.282-.191.000-5.090E-02-.001.985到市里上访过-22.414-.244.000-1.776-.029.520到省里上访过-22.996-.230.000-9.113-.136.002到中央上访过-28.866-.215.000-7.459-.082.058Constant54.877.00076.842.000N563563Adjusted R square23.5%2%F14.3120.0001.9030.027a参考变量为“女性”b参考变量为“非党员”c参考变量为“未当过村干部或小组长”d参考变量为“未上访过”e参考变量为“未受过不公待遇”6. Stata:多项式回归(polynominal regression)这是25个国家的GNP(单位为$1000)与妇女预期寿命(年)的散点图:妇女预期寿命随着GNP的增长而增长:GNP增长一个单位($1000),相应地妇女的平均寿命增加0.63年。调整后的R平方也高达59.62%,说明这是一个很不错的模型。但是,进一步对散点图的观察表明,这个模型并不是十分理想:在GNP值较低的区段,大部分个案的殘差是负的;在中段,残差是正的;在GNP值较高的区段,残差大部分又是负的。这表示自变量与因变量的关系不是一条直线。迄今为止,我们学的是直线回归模型。如何处理这种非直线的情形呢?通常解决这种问题的方法是引进多项式回归。多项式回归是“维尔斯特拉斯定理”的运用:多项式方程的曲线更接近数据的分布趋势。如果我们在方程中加入一个解释变量的二次项(X2),我们就不再用一条直线拟合数据,而是抛物线中的一段。之所以是抛物线中的“一段”,是因为我们观察到的数据X通常只是抛物线的一部分。抛物线可能是倒U型的:上图抛物线中的“一段”(两条垂直红线之间的部分)看来可以很好拟合GNP-预期寿命数据。在这一段中,Y随着X的增加而增加,但增加的幅度是减少的,最后变平并开始下降。在靠近左边垂直线的左端,增幅较大;在靠近右垂直线的右端,Y开始随着X的增长而下降,并且其下降速度随着X的增加而加大。抛物线也可以是开口向上的:在左边,Y随着X的增加而减少,减幅渐渐减缓,最后拉平;在右端,Y随着X的增加而增大,而增幅逐渐加大。用抛物线拟合现有的数据,我们建立一个新的“二次方项”:“二次方项”并不一个新的变量,它只是一个允许我们能更好描述现有的自变量与因变量之间关系的一个设置。(注意,如果X变化了,X2“被控制”或保持不变)这是新的回归模型:对模型的解释:新的回归方程为:象前面一样,截距(A)是当X为0时所预测的Y值。在这里,就是64.9岁的预期寿命。那么,如何解释回归系数呢?可以将此一回归模型与前面的简单直线回归模型进行比较:当加入二次方项后,GNP自身的回归系数增加了一倍。但是,这里的情形有点复杂。我们不能把这里的回归系数与其他多元回归系数等同看待,因为我们不能在保持GNP2不变的情况下()增加一个单位的GNP。就像我们用多个项目表示一个分类的预测变量(虚拟变量)的情况一样,最好是同时解释多项式的回归系数。在典型多元回归中,一个净回归系数BK可以理解为与一个XK相对应的Y的变化:当Y是X的二次函数时,与X相对应的Y的变化是:也就是说,Y的变化幅度会因为X的不同而不同。因此,在本例中,当GNP为0时,随着GNP增加一个单位($1000),预期寿命增加1.67年/$1000。B2的符号是负的,这表明GNP的进一步增长因变量的增加幅度“减弱”。当GNP=10($10,000)的时候,预期寿命的增加幅度是:1.671569+2(-0.0432525)*10, 或为0.81年/$1000,这只是当GNP为0时的增速的一半。我们把当X为不同的值时Y的增速计算如下:B2被解释为“加速”参数,因为它表明随着X的变化Y是更大(B0)或更小(B1或P0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为: eb0+b1X1+b2X2+bkXkP = 1+ eb0+b1X1+b2X2+bkXk示例1:GSS1993数据,因变量:visitart(参观博物馆);自变量:educ(教育)、sex(性别)。先用直线回归模型进行分析:示例2:GSS1993数据,因变量:dosports;自变量:educ(教育年限)、sex1(性别)、age(年龄)Xi命令的作用:(直接把自己要虚拟的变量在前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设备员岗位管理办法
- 2025年新闻采辑项目发展计划
- 礼服馆档期管理办法
- 中山科技资金管理办法
- 西兰花后期管理办法
- 中建商务人员管理办法
- 终端开发与管理办法
- 考勤管理办法工伤假
- 装备指标采购管理办法
- 上海度假营地管理办法
- 坝顶拆除方案(3篇)
- 110kV变电站初步设计与规划方案指南
- 企业技术津贴管理办法
- 养老护理员全套培训课件
- JJF 2250-2025 数字化交流电能表型式评价大纲
- 2025年-北京语言大学社会和应届生事业编制人员公招聘考试笔试试卷附答案
- 做账实操-无人机关联行业的账务处理分录
- 空间数据不确定性分析-第2篇-洞察及研究
- 文化设计符号解析-洞察及研究
- 2025年湖北省中考英语试卷真题(含答案解析)
- 中医适宜技术的临床应用讲课件
评论
0/150
提交评论