如何学习统计研究方法最终版_第1页
如何学习统计研究方法最终版_第2页
如何学习统计研究方法最终版_第3页
如何学习统计研究方法最终版_第4页
如何学习统计研究方法最终版_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、如何学习统计研究方法,和传媒大学同学的一次交流,祝迎春,2006, 5,引言,?,个人的介绍,?,主题:,I.,分享学习统计的一些心得(理论方法的知识,地图),II.,回归应用的问题(个案学习),统计是一门致力于研究:收集数据(抽样理论),分析数据(统,计算法),解释数据(背景知识与理论)的学科。,-,我个人的心得,.,外加计算机操作,?,研究什么?,-,经过数据计算后产生出有意义的信息,?,事物之间的相关关系(包括因果关系),?,事物之间的差异(先找出它们的差异然后再找出它们的共性),?,事物的结构(层次水平),统计是以帮助描述,验证思想的工具性学科,统计是什么?,统计的两个应用领域,思维过

2、程领域,研究方法领域,生活,学术,数字背后的心理活动,过程,普通人做统计,问题时的思维过程,-,处理随机事件的能力,数字背后的心理活动,过程,研究者做学术,研究时,逻辑的推理,过程,关于随机性规律,观察数据,调查数据,抽样数据,试验数据,统计中的形象思维:使看不见的随机性被看见,的意义,赋值和建立、描述相关关系,基本知识回顾,总体的描述(随机变量的数字特征:,X,,)与样本的描述(样本分布的数,字特征:,,s,)之间连接点是:随机变量的分布。,.,估计量的性质:,1.,无偏性,(Unbiasedness),:,样本均值在真值附近摆动而没有系统误差。,2.,有效性,(Efficiency),:在

3、所有的不同估计量中的方差最小。,3.,一致性,(Consistency),:当,n,,估计量在真值附近的概率接近,1,。,4.,最小离差平方,(Mean,Square,Error),:离差最小,or,方差最小?如果,估计量是无偏时此标准等价于有效性。,.对估计量的检验:假设检验,?,单个总体(估计方差?估计均值?方差已知否?),?,两个总体(相关系数),点估计,(Point Estimation),?,矩法,?,似然法,?,最小二乘法,.,估计方法:,区间估计,(Interval Estimation),统计学习分三个部分,统计基本原理,统计是应用性很强的学科,在使用某一种方法之前,一定要对所

4、用方法的,目的,对象,和,条件,有所了解。,?,目的:,描述(集中或离散)?相关关系?差异?,H,0,?,对象:,变量类型和个数;抽样方式;数据排列(,eg.MDS,),?,条件:,参数或非参?模型假设(,Assumption,),统计软件操作,?,选择:,经济原则,学习最恰原则,兼容性,获得性,,模块数量,创建新变量,前沿性,?,格式:,数据录入格式;数据排列(,eg.,多重应答),?,规范性:,命令或鼠标操作正确;,探索与重复;,选择软件体现了统计应用的专业性。,Spss,?,Stata,?,SAS,?,R,?,STATISTICA,?,Minitab,统计结果解读,?,在理解算法原理即统

5、计意义后的软件操作解读。(操作步骤,中先看什么后看什么,对应的统计过程是什么?),?,每步统计结果中对数字的解读。(,eg.,),统计技术水平,?,检验背后代表的是什么?备择假设!说明了什么现实意义(,可证,伪吗?,)。,?,试验设计或者验证过程的逻辑严密性。,?,研究经验(,eg.,每个群的常模,回归的决定系数大小),?,高手的处理技巧(体现在操作化过程)。,研究功底水平,学习归纳统计方法的一个案例,2.,相关,独立,样本,1.,差异,非独,立样,本,组类相关系数,Intraclass correlation coefficient,Pearson,相关系数,独立样本,t,检验,配对样本,t

6、,检验,在同一对象上两个重复测量值之间的相关系数。,Pearson,相关系数研究的是不同变量之间产生的。,研究中要注意的一些问题,假定(,Assumption,):在研究中被人为控制(设定,定义)的变,量或者常量。针对的是一个变量(常量是特殊的一种变量,)。,假设(,Hypothesis,):可验证性的;陈述两个或多个数个变量间的,可能关系,为一种假设性陈述。,变,量,产,生,操作化(,operational definition,):,用变量代替概念。,?,理论是观察陈述的前提,?,概念术语使用的必要性,陈述,日常用语,科学陈述,大众共识,学术共识,观,察,与,描,述,验,证,过,程,数据管

7、理,数据分析,数据呈现,数据收集,?,数据格式的转换,?,储存位置,?,抽样设计,?,研究设计,?,问卷设计,?,执行管理,?,变量选择,?,加权,?,统计模型的选择,?,统计量的含义,?,检验标准,(,显著性水平,),?,报表,?,表格,?,符号,(,公式,文字,),?,图形,客观的世界,主观的世界,观察,解释,理论和现象的关系,?物理活动(声,光,机械),?化学变化(无机物变化),?生物活动(新陈代谢),?心理活动(意识与认知),?社会变化(文化,人际,阶,层,传播),?不具有运算功能的符号:,绘画,音乐,.,?具有运算功能的符号:,逻辑,文字,,数字,随机变量的分布,随机性,估计,变量分

8、布的特征,我们在做什么,科学本质:试验性(包含了证伪性的命题),在错误中不断求真(广泛的解,释性和高度一致的预测性),理论是怎样产生的呢,?,波普尔认为,科学只能从问,题开始,理论是为解决问题而做出的尝试,是对问题的猜测,波普尔说,:“,一种科,学理论,一种解释性理论,只不过是解决一个科学问题的一种尝试”。因此,,理论是大胆的猜测,即使是那些己经充分确认的科学理论也终究还是一种猜测,,一种假说。正因为理论是猜测,它们就具有不确定性和暂时性,最终会被推,翻,被新理论所替代。,我们是一群问题提出者和企图解答者。,波普尔认为,衡量一个理论真的程度的标准即看该理论是否具有高解释力和,高预测力,而这又是

9、由理论所包含的信息量来决定的。一般说来,理论所包容,的信息量越多,其可解释的范围越广,其预测的力度便越强。但与此同时,科,学理论所包容的信息愈多,它接受的范围愈广,其可错性或被证伪的概率便越,高。也就是说:科学理论真的概率增大的过程,也是科学理论被证伪的可能性,增大的过程,换言之,它是科学理论中可错成分逐渐增多的过程。,理想的理论,回答现象为什么机制,可验证性,及可以证伪和重复的,与相关之既有知识或理论一致,不宜抵触,不是孤立理论,简约,若为统计模型,参数要尽量少,对应研究之问题,量化形式,不仅是文字建模也是可以数字建模和图形建模,具相当广度(有助推论),具有普适性,一个好的社会学理论(实证性

10、):,?,解释控制变量的产生原因,?,明确指出解释现象的产生原因和结果,以及因果关系的方,向性,(,没有大小,why,?,),连续性(条件变化后结果的变,化,即预测功能),Staw and Sutton (1995):,“,What theory is,not?”,1.,参考文献不是理论,.,不要被文献驾驭,2.,数据不是理论,3.,变量的列表或建造不是理论,4.,图表不是理论,-,不要用,AMOS,5.,假设,(,或预言,),不是理论,周雪光的见解:,什麼是“有力的理論”?,理論應該回答“為什麼”的問題:泛泛描述性的研究沒有深度,理論關心的是現象之間的關係,即我們觀察到的行為、事件、結構或思

11、想,為什麼產生的因果關係。,“在我們看來,理論的任務是深入地探討解釋導致某一事件或行為發生的,內在過程,從而幫助我們理解這一現象產生的系統的原因”(,378,頁)。,實證研究的設計應該為這個基本目的服務。,集中在“因果關係”上,研究的深入性、系統性,统计学习的路径:基础统计,社会统计,多元统计,不懂统计原理,胡乱调用些,proc,,得出的,P,值不是“屁“才怪呢!,不教(写)原理只教技术,“菜谱式,”,学习只能是制造数据垃圾和伪实证的理论。,clxia:,计算机和软件只是辅助思维的工具,不是思维本身。,在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的对象和条件有,所了解,一

12、些有用的统计观点,统计学家发展了许多测量变量关联强度大小的方法;一定条件下,某种方法的,选择依赖于所含变量的多少,所使用的量表及关联的本质等等,但大多都遵守一,条基本原则:都试图通过与这些特定变量间最大可能关联比较来估计实际关联强,度的大小。,从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算,所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说,就是将,变量中共同部分比成如果变量完全相关时应潜在相同的部分。,注意研究中的随机性现象的影响。,计量经济学家在无偏性和一致性的取舍上一般要求一致性。,一些有用的统计观点,SPSS14,STATA9,统计学习的“老师”,向谁学,学什

13、么:统计软件,统计专著,论文,交流。,?,方差齐性,?,线性关系,?,效应累加,?,变量无测量误差,?,变量服从多元正态分布,?,观察独立,?,模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量),?,误差项独立且服从(,0,1,)正态分布。,第二部分:回归技术的学习,为什么要学习,:,回归模型是实证分析中最广泛使用的工具。,作业答案:回归的,8,个假设:,最小二乘法的本质:点估计,统计意义:回归技术就是估计回归系数及其标准误的点估计。,回忆一下,回归的一些基础知识复习,“回归”一词的由来,-,父亲和儿子的身高关系(起源),1889,年,F.Gallton,和他的朋友,K.Pearso

14、n,收集了上千个家庭的身高、臂,长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表,现形式。后来发展为从误差平方和最小(平方乃二乘也)出发,改称为,最小二乘法。,0,?,i,i,i,i,i,i,y,y,y,x,?,?,?,?,?,?,?,?,y,x,纵,向,距,离,横向距离,?,?,A,y,x,i,i,A,为实际点,,B,为拟合,直线上与之对应的点,?,?,A,y,x,i,i,2,2,2,?,(,),?,(,),(1,),(,),(,1),i,i,i,i,ij,y,y,Var,R,x,x,n,k,?,?,?,?,?,?,?,?,?,?,共线性,0,ij,i,X,X,?,?,?,无法

15、估计,最小二乘法的性质,?,1,拟合残差之和等于零,?,2,Y,的真实值和拟合值的均值相等,?,3,拟合残差与自(解释)变量不相关,?,4,残差与拟合值不相关,?,?,?,0,i,i,Cov,x,?,?,?,?,(,),0,i,i,j,E,Cov,?,?,?,?,?,?,(,),(,),i,E,y,y,?,?,?,?,?,0,i,i,Cov,y,?,?,不存在自相关,高斯,马尔可夫定理,?,最好,?,线性,?,无偏,?,(,),i,MinVar,?,?,i,i,i,C,y,?,?,?,?,(,),i,i,E,?,?,?,?,?,(,),i,j,i,j,Cov,E,?,?,?,?,?,?,高斯,

16、马尔可夫定理,(Gauss-Markov,theorem),在给定经典线性回归的假定下,最小二乘,估计量是具有,最小方差,的,线性无偏,估计量。,当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体参,数的真值,或者说需考察参数估计量的统计性质。,一个用于考察总体的统计量,可从三个方面考察其优劣性:,(,1,)线性性,(linear),:,即是否是另一随机变量的线性函数;,(,2,)无偏性,(unbiased),:,即它的均值或期望值是否等于总体的真实值;,(,3,)有效性,(efficient),:,即它是否在所有线性无偏估计量中具有最小方差。,关于经典回归模型的假定,1,标量符号,

17、1,、解释变量,k,X,X,X,2,1,?,是非随机的或固定的;而且各,X,之,间互不相关(,无多重共线性,(no multicollinearity),),矩阵符号,1,、,),1,(,?,?,k,n,矩阵,X,是非随机的;且,X,的秩,1,),(,?,?,k,X,?,,此时,X,X,T,也是满秩的,关于经典回归模型的假定,2,标量符号,2,、随机误差项具有零均值、同方差及不序列相关,0,),(,?,i,E,?,n,i,2,1,?,?,2,2,),(,),(,?,?,?,?,?,i,i,E,Var,n,i,2,1,?,?,0,),(,),(,?,?,j,i,j,i,E,Cov,?,?,?,?

18、,j,i,?,矩阵符号,2,、,I,NN,E,N,E,T,2,),(,0,),(,?,?,?,0,),(,),(,),(,1,1,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,n,n,E,E,E,N,E,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,n,n,T,E,NN,E,?,?,?,?,?,?,1,1,),(,?,?,?,?,?,?,?,?,?,?,?,2,1,1,2,1,n,n,n,E,?,?,?,?,?,?,?,?,?,?,?,I,2,2,2,0,0,?,?,?,?,?,

19、?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,关于经典回归模型的假定,3,标量符号,3,、解释变量与随机项不相关,0,),(,?,i,ji,X,Cov,?,n,i,2,1,?,?,矩阵符号,3,、,0,),(,?,N,X,E,T,,即,0,),(,),(,),(,1,1,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,i,Ki,i,i,i,i,Ki,i,i,i,E,X,E,X,E,X,X,E,?,?,?,?,?,?,?,?,关于经典回归模型的假定,4,标量符号,4,、,(为了假设检验)

20、,,随机扰动项服从正态分布,),0,(,2,?,?,N,i,n,i,2,1,?,?,矩阵符号,4,、向量,N,为一多维正态分布,即,),0,(,2,I,N,N,?,随机扰动项,垂直波动,(Vertical Error Jumps),i,?,关于随机扰动项的古典假设,X,i,Y,X1,X3,X2,X4,X6,X5,其数据生成过程叫变量误差模型,残差分布均值为零,(Zero Mean Error Displacement),关于随机扰动项的古典假设,?,?,0,i,E,?,?,?,?,1,2,3.,i,n,?,?,?,0,?,i,E,?,?,使用最小二乘法一定会保证这个假设满足,随机扰动项的方差为

21、同方差,(Homoskedasticity),关于随机扰动项的古典假设,异方差,(Heteroskedasticity),同方差假定的意义是指每个,?,i,围绕其零平均值的变差,并不,随解释变量,X,的变化而变化,不论解释变量观测值是大还是,小,每个,?,i,的方差保持相同,即,?,?,0,?,i,E,?,?,异方差,关于随机扰动项的古典假设,.,x,x,1,x,2,f(,y|x,),x,3,.,.,E(,y,|,x,) =,?,0,+,?,1,x,.,.,x,1,x,2,E(,y,|,x,) =,?,0,+,?,1,x,y,f(,y|x,),Homoskedastic,Heteroskeda

22、stic,后果,出现异方差之后,最小二乘法的最优性就失效。,在社会科学中是必然的。,识别,?,Goldfeld-Guandt,检验:这种检验的思想时,如果整个总体或经济过程在研究,期间都是同方差的,这意味着报研究期间划分为两个时期来考虑和研究总体或,经济过程所得到的误差项方差的差异不应该是显著的。,?,Breuch-Pagan,检验:如果异方差的形式不与某个解释变量的观测值,或观测,次数有关,而是与一组解释变量有关,此时无法使用,Goldfeld-Guandt,检验。,?,White,检验,处理,?,交互回归,?,加权回归,?,稳健回归(似然法),异方差,共线性,?,当两个或两个以上解释变量之

23、间高度(但非完全相关)时,乘模型中出现多,重共线性。,?,多重共线性的后果:使参数估计值的标准误差增大,导致参数估计值的,t,统计,量减少,从而使参数估计值无法通过,t,检验。,?,整体拟合很好,但个体估计很差。其含意是:整体的拟合有度,R2,很大,但个,体参数估计值的,t,统计量却很小,并且无法通过检验。此时我们称模型中出现多,重共线性。,?,相关矩阵,?,自变量之间回归,?,按照实际理论意义删除自变量(看模型设定问题),?,忽略,?,增加样本(未必减少标准误反而增加变量相关),?,主成分回归(社会科学中不可取),偏最小二乘法,岭回归,后果,识别,处理,自相关,后果,?,相关会导致用最小二乘

24、法求出的参数估计值不是线性估计中方差最小的估计,值。,识别,?,Durbin-Watson,检验,处理,?,通过广义差分变换消除异方差(计算),模型设置,?,自变量存在随机误差,?,非线性和不可相加性,?,遗漏变量或者添加不相关的变量(自变量的选择问题),过度设定对我们的参数估计没有影响,,OLS,仍然是无偏的。但它对,OLS,估计,量的方差有不利影响。,遗漏变量将违反“零条件均值”,E,(,u,|,x,p,)=,0.,OLS,估计是有偏的,遗漏,X,2,偏误方向,(,二元特例,),谨慎使用:逐步回归,信息准则,(eg.,AIC,),Corr(,x,1, x,2,) 0,Corr(,x,1,

25、x,2,) 0,?,2, 0,Positive bias,偏误为正,Negative bias,偏误为负,?,2, 0,Negative bias,偏误为负,Positive bias,偏误为正,问题完了吗,?,你确定你会回归了?,回顾以上其实我们只是讨论了模型设定除了问题的情况,模型的元,素不仅是模型的模型的形式,还包括了样本本身:如果样本并不完,备又如何?,样本不完备包括(,1,)存在测量误差(,2,)存在分组情况(,3,)样本,存在缺失值,存在测量误差(变量误差,&,方程误差模型),0,1,1,0,(,),i,i,p,pi,i,i,i,p,pi,pi,i,Y,b,b,X,b,X,Y,b,b,X,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,L,模型变了,,更加广义了!,处理,对误差的设定:彼此独立,为均值为,0,的正态分布;且不存在自相关;也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论