北京大学统计学经典课件第四章-变量间的关系.ppt_第1页
北京大学统计学经典课件第四章-变量间的关系.ppt_第2页
北京大学统计学经典课件第四章-变量间的关系.ppt_第3页
北京大学统计学经典课件第四章-变量间的关系.ppt_第4页
北京大学统计学经典课件第四章-变量间的关系.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变量间的关系,直到现在我们所涉及的仅仅是对一些互相没有关系的变量的描述。但是现实世界的问题都是相互联系的。不讨论变量之间的关系,就无从谈起任何有深度的应用;而没有应用,前面讲过的那些基本概念就仅仅是摆设而已。,变量间的关系,人们每时每刻都在关心事物之间的关系。比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。这些都是二元的关系。还有更加复杂的诸多变量之间的相互关系,比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。,例1广告投入和销售之间的关系(数据ads.sav),这是什么关系?,这两个变量是否有关系?显然,它们有关系;这从散点图就很容易看出。基本上销售额是随着广告投入的递增而递增。如果有关系,它们的关系是否显著?这也可以从散点图得到。当广告投入在6万元以下,销售额增长很快;但大于这个投入时,销售额增长就不明显了。因此,这两个变量的关系是由强变弱。这些关系是什么关系,是否可以用数学模型来描述?本例看上去是可以拟合一个回归模型(后面会介绍),但绝不是线性的(用一条直线可以描述的)。具体细节需要进一步的分析,这是什么关系?,这个关系是否带有普遍性?也就是说,仅仅这一个样本有这样的关系,还是对于其他企业也有类似的规律。这里的数据还不足以回答这个问题。可能需要考虑更多的变量和收集更多的数据。一般来说,人们希望能够从一些特殊的样本,得到普遍的结论,以利于预测。这个关系是不是因果关系?在本问题中,看来有因果关系。这类似于一种试验;而试验时是容易找到因果关系的。但是,一般来说,变量之间有关系但绝不意味着存在因果关系。,定性变量间的关系(关于某项政策调查所得结果:table7.sav),大致可以看出女性赞成的多,低收入赞成的多,定性和定量变量间的混和关系,假想关于高等学校的数据的一些指标包括:在校生人数(S),研究生比例(G),教师人数(F),职工人数(ST),SCI和SSCI文章数目(P),SCI和SSCI文章引用数目(Q),科研项目数(PR),科研经费(B),总经费及招生范围(N)等,从这个数据很难马上看到任何关系。但是从这个数据可以得到许多有用的关系和结论。比如,可以得到任何一个变量和其余变量之间的定量关系或者多个变量之间的定量关系(因而可以建立模型,进行预测和各种推断);也可以利用其中一些变量把各个高等学校分类;还可以把众多的变量用少数几个变量代替以利于分析和理解;此外这个数据可以作为高校排名的根据之一。所有这些都是未来章节的内容。,相关和回归分析,相关和回归分析,顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素以及这些因素是如何起作用的。一般来说,统计可以根据目前所拥有的信息(数据)建立人们所关心的变量和其他有关变量的关系(称为模型)。假如用Y表示感兴趣的变量,用X表示其他可能有关的变量(可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量,而X称为自变量或解释变量或协变量。建立这种关系的过程就叫做回归。,相关和回归分析,一旦建立了回归模型可以对各种变量的关系有了进一步的定量理解还可以利用该模型(函数)通过自变量对因变量做预测。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后的概念。,例1有50个从初中升到高中的学生.为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据:highschool.sav),从这张图可以看出什么呢?,问题是,怎么判断这两个变量是否相关?如何相关?相关的度量是什么?进一步的问题是能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。,还有定性变量,该数据中,除了初三和高一的成绩之外,还有一个定性变量它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。,还有定性变量,下面是对三种收入对高一成绩和高一与初三成绩差的盒形图,例2这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav).年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而(定性)变量“观点”则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量。,从这两张图又可以看出什么呢?,两个定量变量的相关,如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能确定两个变量有没有关系呢?最简单的办法就是画出它们的散点图。,四组数据(每个有两个变量的样本)的散点图,几种相关的度量,Pearson相关系数,又叫相关系数或线性相关系数。它一般用字母r表示.Kendallt相关系数(Kendallst)这里的度量原理是把所有的样本点配对,看每一对中的x和y是否都增加来判断总体模式.Spearman秩相关系数,它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩.它们各自都有以不相关为零假设的检验,即p-值小则相关.但各自的相关含义不尽相同.现在再来看例1的数据(highschool.sav).关于初三和高一成绩的相关系数的结果是Pearson相关系数,Kendallt和Spearman秩相关系数分别为0.795,0.595和0.758。,定量变量的线性回归分析,对例1中的两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点。,检验问题等,对于系数b1=0的检验对于拟合的F检验R2(决定系数)及修正的R2.,多个自变量的回归,如何解释拟合直线?,什么是逐步回归方法?,自变量中有定性变量的回归,例1的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummyvariable)的方式出现;这里收入的“低”,“中”,“高”,用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了.以例1数据为例,可以用下面的模型来描述:,自变量中有定性变量的回归,现在只要估计b0,b1,和a1,a2,a3即可。哑元的各个参数a1,a2,a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于例1,对b0,b1,a1,a2,a3的估计分别为28.708,0.688,-11.066,-4.679,0。这时的拟合直线有三条,对三种家庭收入各有一条:,SPSSS实现(hischool.sav),AnalizeGenerallinearmodelUnivariate,在Options中选择ParameterEstimates,再在主对话框中把因变量(s1)选入DependentVariable,把定量自变量(j3)选入Covariate,把定量因变量(income)选入Factor中。然后再点击Model,在SpecifyModel中选Custom,再把两个有关的自变量选入右边,再在下面BuildingTerm中选Maineffect。Continue-OK,就得到结果了。输出的结果有回归系数和一些检验结果。,SPSSSyntax:UNIANOVAs1BYincomeWITHj3/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/CRITERIA=ALPHA(.05)/DESIGN=incomej3.,注意,这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。但是,任何模型都是某种近似;线性回归当然也不另外。它被长期广泛深入地研究主要是因为数学上相对简单。它已经成为其他回归的一个基础。总应该用批判的眼光看这些模型。,Logistic回归,例2是关于200个不同年龄,性别的人对某项服务产品的观点(二元定性变量)的数据(logi.sav).这里观点是因变量,只有两个值;所以可以把它看作成功概率为p的Bernoulli试验的结果.但是和单纯的Bernoulli试验不同,这里的概率p为年龄和性别的函数.可以假定下面的(logistic回归)模型,Logistic回归,为了循序渐近,先拟合没有性别作为自变量(只有年龄x)的模型,Logistic模型拟合结果,依靠计算机,很容易得到b0和b1的估计分别为0.520和-0.069。拟合的模型为,Logistic模型拟合结果,再加上性别变量进行拟合,得到的b0,b1和a0,a1的估计(同样事先确定为a1=0)分别为1.722,-0.072,1.778,0.可以看出年龄影响对男女混和时(0.069)差不多,而女性相对于男性认可的可能性大(a0-a1=1.778)。,拟合的年龄-概率图,SPSSS实现(logi.sav),AnalizeRegressionBinaryLogistic,再把因变量(opinion)选入DependentVariable,把自变量(age和sex)选入Covaria

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论