




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北大老鸟三年数据分析深刻总结 致学弟学妹们 关于软件 于我个人而言,所用的数据分析软件包括 EXCEL、SPSS、STATA、EVIEWS。在分析前期 可以使用 EXCEL 进行数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算); 在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是, EXCEL 毕竟只是办公软件,它的作用大多局限在对数据本身进行的操作,而非复杂的 统计和计量分析,而且,当样本量达到“万”以上级别时,EXCEL 的运行速度有时会 让人抓狂。 SPSS 是擅长于处理截面数据的傻瓜统计软件。首先,它是专业的统计软件,对“万” 甚至“十万”样本量级别的数据集都能应付自如;其次,它是统计软件而非专业的计 量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、 正态性、信效度等检验)、多元统计分析(因子、聚类、判别、偏相关等)和一些常 用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现),对于复杂的、 前沿的计量分析无能为力;第三,SPSS 主要用于分析截面数据,在时序和面板数据处 理方面功能了了;最后,SPSS 兼容菜单化和编程化操作,是名副其实的傻瓜软件。 STATA 与 EVIEWS 都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编 程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS 差了许多;STATA 与 EVIEWS 都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA 的扩 展性较好,我们可以上网找自己需要的命令文件(.ado 文件),不断扩展其应用,但 EVIEWS 就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS 较强。 综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法。 EXCEL 适用于处理小样本数据,SPSS、STATA、EVIEWS 可以处理较大的样本; EXCEL、SPSS 适合做数据清洗、新变量计算等分析前准备性工作,而 STATA、EVIEWS 在这方面较差;制图制表用 EXCEL;对截面数据进行统计分析用 SPSS,简单的计量分 析 SPSS、STATA、EVIEWS 可以实现,高级的计量分析用 STATA、EVIEWS,时序分析用 EVIEWS。 关于因果性 做统计或计量,我认为最难也最头疼的就是进行因果性判断。假如你有 A、B 两个变 量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)? 早期,人们通过观察原因和结果之间的表面联系进行因果推论,比如恒常会合、时间 顺序。但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关系,也可能是 由共同的原因或其他因素造成的。从归纳法的角度来说,如果在有 A 的情形下出现 B,没有 A 的情形下就没有 B,那么 A 很可能是 B 的原因,但也可能是其他未能预料到 的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断 的可靠性。 有两种解决因果问题的方案:统计的解决方案和科学的解决方案。统计的解决方案主 要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与未接受干预 样本在效果指标(因变量)上的差异。需要强调的是,利用截面数据进行统计分析, 不论是进行均值比较、频数分析,还是方差分析、相关分析,其结果只是干预与影响 效果之间因果关系成立的必要条件而非充分条件。类似的,利用截面数据进行计量回 归,所能得到的最多也只是变量间的数量关系;计量模型中哪个变量为因变量哪个变 量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。 总之,回归并不意味着因果关系的成立,因果关系的判定或推断必须依据经过实践检 验的相关理论。虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间 序列数据,因果判断仍有可为,其中最经典的方法就是进行“格兰杰因果关系检验”。 但格兰杰因果关系检验的结论也只是统计意义上的因果性,而不一定是真正的因果关 系,况且格兰杰因果关系检验对数据的要求较高(多期时序数据),因此该方法对截 面数据无能为力。综上所述,统计、计量分析的结果可以作为真正的因果关系的一种 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站 国内最具权威的市场调研门户网站之一 支持,但不能作为肯定或否定因果关系的最终根据。 科学的解决方案主要指实验法,包括随机分组实验和准实验。以实验的方法对干预的 效果进行评估,可以对除干预外的其他影响因素加以控制,从而将干预实施后的效果 归因为干预本身,这就解决了因果性的确认问题。 关于实验 在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接 受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差异。随机分 组使得两组样本“同质”,即“分组”、“干预”与样本的所有自身属性相互独立, 从而可以通过干预结束时两个群体在效果指标上的差异来考察实验处理的净效应。随 机实验设计方法能够在最大程度上保证干预组与对照组的相似性,得出的研究结论更 具可靠性,更具说服力。但是这种方法也是备受争议的,一是因为它实施难度较大、 成本较高;二是因为在干预的影响评估中,接受干预与否通常并不是随机发生的;第 三,在社会科学研究领域,完全随机分配实验对象的做法会涉及到研究伦理和道德问 题。鉴于上述原因,利用非随机数据进行的准实验设计是一个可供选择的替代方法。 准实验与随机实验区分的标准是前者没有随机分配样本。 通过准实验对干预的影响效果进行评估,由于样本接受干预与否并不是随机发生的, 而是人为选择的,因此对于非随机数据,不能简单的认为效果指标的差异来源于干预。 在剔除干预因素后,干预组和对照组的本身还可能存在着一些影响效果指标的因素, 这些因素对效果指标的作用有可能同干预对效果指标的作用相混淆。为了解决这个问 题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或 运用匹配的方法调整样本属性的不平衡性在对照组中寻找一个除了干预因素不同 之外,其他因素与干预组样本相同的对照样本与之配对这可以保证这些影响因素 和分组安排独立。 随机实验需要至少两期的面板数据,并且要求样本在干预组和对照组随机分布,分析 方法就是 DID(倍差法,或曰双重差分法);准实验分析用截面数据就能做,不要求 样本在干预组和对照组随机分布,分析方法包括 DID(需两期的面板数据)、PSM(倾 向性得分匹配法,需一期的截面数据)和 PSM-DID(需两期的面板数据)。从准确度 角度来说,随机实验的准确度高于准实验和非实验分析。 关于分析的工具 如果根据理论或逻辑已经预设了变量间的因果关系,那么就无需使用实验方法。我对 非实验数据分析工具的选择原则如下: 因变量为连续变量,自变量至少有一个连续变量,进行多元线性回归; 因变量为连续变量,自变量全部为分类变量,进行方差分析; 因变量为分类变量,自变量至少有一个连续变量,使用 Logit 模型或 Probit 模型; 因变量为分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验; 因变量在某个闭区间内分布,并且有较多样本落在闭区间的边界上,使用 Tobit 模型; 因变量不唯一,如多产出问题,进行数据包络分析(DEA); 因变量为整数、数值小、取零个数较多,使用计数(Count)模型; 数据具有层次结构(嵌套结构),使用多层线性模型(HLM)。 随着统计和计量经济学的发展,各种前沿分析工具层出不穷,但我认为最靠谱的分析 工具不外乎以下四种:DID(针对随机实验),多元线性回归,固定效应变截距模型 (FE,针对面板数据),Logit 模型或 Probit 模型(针对分类因变量数据)。其他方 法或适用条件苛刻,或分析过程折腾,或方法本身不可靠(尤其是聚类分析、判别分 析,超级不靠谱),因此能用以上四种方法分析问题时,不必为“炫方法”而瞎折腾。 关于拟合优度、变量选择原则及估计值绝对大小的意义 学数据分析、找行业报告、招 调查人才可移步一起调研网 一个属于调研行业的 B2B 网站 国内最具权威的市场调研门户网站之一 在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么 选择自变量和因变量,可以使 R 方达到 80%以上?” 很显然,问这个问题的同学要么没学好计量,要么就是犯了功利主义的错误,或者二 者皆有。拟合优度的大小很大程度上取决于数据本身的性质。如果数据是时序数据, 只要拿有点相关关系的变量进行回归就能使拟合优度达到 80%以上,但这样的高 R 方 根本说明不了什么,很可能使分析者陷入伪回归的陷阱,严谨的做法当然是做平稳性 检验和协整检验;如果是截面数据,根本没必要追求 R 方到 80%的程度,一般来说, 有个 20%、30%就非常大了。 如果一定要增大 R 方,那么最应该做的的确是对纳入模型的变量进行选择。选择纳入 模型的原则我认为有三条。第一,从理论和逻辑出发,将可能影响因变量的变量作为 自变量纳入模型,即理论上或逻辑上能影响因变量的自变量必须纳入模型,即使该自 变量的回归系数不显著。第二,奥姆剃刀原则如无必要,勿增实体,即理论上或 逻辑上不能影响因变量的自变量不能纳入模型,即使该自变量的回归系数显著。第三, 防止纳入具有多重共线性的自变量。 前面说了,对截面数据进行计量分析,R 方能达到 20%、30%是非常了不起的事情。但 是,如果拟合优度(或类似拟合优度的指标)在 20%、30%或更低时,回归系数只具有 定性或定序上的意义,强调其绝对数值的大小没什么意义。譬如 lnY=alnA+blnB+zlnZ+c 回归的 R 方为 20%,a 为 0.375,b 为 0.224,且二者的 T 检验显著,那么我们可以说,A、B 对 Y 有影响,也可以说一百分点的 A 变化对 Y 的影 响大于一百分点的 B 变化对 Y 的影响(控制其他因素的情况下),但说一百分点的 A 变化对 Y 的影响较一百分点的 B 变化对 Y 的影响大 0.151%,就没什么意义了。 其他一些建议或忠告 用心思考变量间的因果关系:是 A 影响了 B 还是 B 影响了 A?A、B 之间是否真的有因 果关系?是否存在 C,使 C 既影响 A 又影响 B,而 A、B 本身无直接关系? 仔细选择自变量,不要遗漏重要变量,否则会造成内生性问题。如果遇上了内生性问 题,先不要忙着寻找工具变量或使用 2SLS,寻找被遗漏的变量才是最重要的事情。如 果被遗漏的变量即使找到却囿于各种困难无法纳入分析,而你又忽然想到了一个绝佳 的工具变量,那么恭喜你,你可以在核心期刊发文章了! 一定要控制其他可能对因变量产生影响的因素,并认识到对回归系数和偏相关分析结 果的解释都是建立在“其他条件不变”的情况之下。 看到 R 方很大时不要忙着高兴,如果 F 检验显著而 T 检验不显著,很可能存在多重共 线性。看到 t 值很大时,也不要忙着高兴,因为这很可能是伪回归的产物;如果此时 DW 值很小(小于 0.5),那么伪回归的可能性进一步变大。 均值比较虽然简单却考验分析者的严谨性。两个看似不同的平均数、中位数或比率是 否意味着高下有别?样本取自独立总体还是相关总体?方差“齐”或“不齐”?比较 的是平均数、中位数还是比率差异? 样本量限制了所能做的分析,小样本时请珍惜自由度;不要用小于 30 个样本的数据 进行计量分析(尤其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版新型城镇化项目施工合作框架协议
- 2025版高速公路隧道施工合同书
- 二零二五年度房产经纪人房产项目营销策划聘用合同
- 泸州市精神病医院招聘笔试真题2024
- 二零二五年度全球高端时尚品牌进口代理买卖合同示范文本
- 2025瓷砖装饰工程监理合同范本
- 2025版汽车融资租赁直租合同模板-绿色出行方案
- 二零二五年电热锅线上线下联营合同样本
- 二零二五年度物流保险货物运输代理服务协议
- 二零二五年度富士康电子信息产品售后服务合同
- 字画装裱合同协议
- 热连轧知识培训课件
- 保险合规培训课件
- 某房地产开发公司工程质量管理制度
- 2025年消控证考试题及答案
- 2023年全国电赛高职高专组综合测评题目时分闪光灯电路
- 校园反霸凌教育课件
- 全国卫生健康系统职业技能竞赛(传染病防治监督)参考试题库(含答案)
- 烟草专卖知识培训课件
- 北师大版四年级数学下册第六单元 2栽蒜苗(一) 同步练习(含答案)
- 采伐作业安全课件
评论
0/150
提交评论