从数据到结论人民大学吴喜之教授变.ppt_第1页
从数据到结论人民大学吴喜之教授变.ppt_第2页
从数据到结论人民大学吴喜之教授变.ppt_第3页
从数据到结论人民大学吴喜之教授变.ppt_第4页
从数据到结论人民大学吴喜之教授变.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变量间的关系 直到现在我们所涉及的仅仅是对一些互相没 有关系的变量的描述。但是现实世界的问题 都是相互联系的。不讨论变量之间的关系, 就无从谈起任何有深度的应用;而没有应用 ,前面讲过的那些基本概念就仅仅是摆设而 已。 变量间的关系 人们每时每刻都在关心事物之间的关系。 比如,职业种类和收入之间的关系、政府投入和 经济增长之间的关系、广告投入和经济效益之间 的关系、治疗手段和治愈率之间的关系等等。 这些都是二元的关系。 还有更加复杂的诸多变量之间的相互关系, 比如企业的固定资产、流动资产、预算分配、管 理模式、生产率、债务和利润等诸因素的关系是 不能用简单的一些二元关系所描述的。 例1广告投入和销售之间的关系(数据ads.sav) 这是什么关系? 这两个变量是否有关系?显然,它们有关系 ;这从散点图就很容易看出。基本上销售额 是随着广告投入的递增而递增。 如果有关系,它们的关系是否显著?这也可 以从散点图得到。当广告投入在6万元以下, 销售额增长很快;但大于这个投入时,销售 额增长就不明显了。因此,这两个变量的关 系是由强变弱。 这些关系是什么关系,是否可以用数学模型 来描述?本例看上去是可以拟合一个回归模 型(后面会介绍),但绝不是线性的(用一 条直线可以描述的)。具体细节需要进一步 的分析 这是什么关系? 这个关系是否带有普遍性?也就是说,仅仅 这一个样本有这样的关系,还是对于其他企 业也有类似的规律。这里的数据还不足以回 答这个问题。可能需要考虑更多的变量和收 集更多的数据。一般来说,人们希望能够从 一些特殊的样本,得到普遍的结论,以利于 预测。 这个关系是不是因果关系?在本问题中,看 来有因果关系。这类似于一种试验;而试验 时是容易找到因果关系的。但是,一般来说 ,变量之间有关系但绝不意味着存在因果关 系。 定性变量间的关系 (关于某项政策调查所得结果:table7.sav) 观点:赞成观点:不赞成 低收 入 中等收 入 高收 入 低收 入 中等收 入 高收 入 男 201055810 女 25157279 大致可以看出女性赞成的多 ,低收入赞成的多 定性和定量变量间的混和关系 假想关于高等学校的数据的一些指标包括:在校生人数(S), 研究生比例(G), 教师人数(F), 职工人数(ST),SCI和SSCI文 章数目(P), SCI和SSCI文章引用数目(Q), 科研项目数(PR), 科研经费(B),总经费及招生范围(N)等 从这个数据很难马上看到任何关系。但是从这个数 据可以得到许多有用的关系和结论。比如,可以得 到任何一个变量和其余变量之间的定量关系或者多 个变量之间的定量关系(因而可以建立模型,进行 预测和各种推断);也可以利用其中一些变量把各 个高等学校分类;还可以把众多的变量用少数几个 变量代替以利于分析和理解;此外这个数据可以作 为高校排名的根据之一。所有这些都是未来章节的 内容。 相关和回归分析 相关和回归分析 顾客对商品和服务的反映对于商家是至关重 要的,但是仅仅有满意顾客的比例是不够的, 商家希望了解什么是影响顾客观点的因素以 及这些因素是如何起作用的。 一般来说,统计可以根据目前所拥有的信息 (数据)建立人们所关心的变量和其他有关 变量的关系(称为模型)。 假如用Y表示感兴趣的变量,用X表示其他可 能有关的变量(可能是若干变量组成的向量 )。则所需要的是建立一个函数关系Y=f(X) 。这里Y称为因变量或响应变量,而X称为自 变量或解释变量或协变量。 建立这种关系的过程就叫做回归。 相关和回归分析 一旦建立了回归模型 可以对各种变量的关系有了进一步的 定量理解 还可以利用该模型(函数)通过自变 量对因变量做预测。 这里所说的预测,是用已知的自变量 的值通过模型对未知的因变量值进行 估计;它并不一定涉及时间先后的概 念。 例1 有50个从初中升到高中的学生.为了比较初三的成绩是 否和高中的成绩相关,得到了他们在初三和高一的各科平 均成绩(数据:highschool.sav) 从这张图可以看出什么呢? 问题是 怎么判断这两个变量是否相关? 如何相关? 相关的度量是什么? 进一步的问题是能否以初三成绩为 自变量,高一成绩为因变量来建立 一个回归模型以描述这样的关系, 或用于预测。 还有定性变量 该数据中,除了初三和高一的成绩 之外,还有一个定性变量 它是学生在高一时的家庭收入状况 ;它有三个水平:低、中、高,分 别在数据中用1、2、3表示。 还有定性变量 下面是对三种收入对高一成绩和高一与初 三成绩差的盒形图 例2 这是200个不同年龄和性别的人对某项服务产品的认 可的数据(logi.sav). 年龄是连续变量,性别是有男和女( 分别用1和0表示)两个水平的定性变量,而(定性)变量“观 点”则为包含认可(用1表示)和不认可(用0表示)两个水平 的定性变量。 从这两张图又可以看出什么呢? 两个定量变量的相关 如果两个定量变量没有关 系,就谈不上建立模型或 进行回归。 但怎样才能确定两个变量 有没有关系呢? 最简单的办法就是画出它 们的散点图。 四组数据(每个有两个变量的样本)的散点图 几种相关的度量 Pearson相关系数,又叫相关系数或线性相关系数 。它一般用字母r表示. Kendall t 相关系数(Kendalls t)这里的度量原理 是把所有的样本点配对,看每一对中的x和y是否 都增加来判断总体模式. Spearman 秩相关系数,它和Pearson相关系数定 义有些类似,只不过在定义中把点的坐标换成各 自样本的秩. 它们各自都有以不相关为零假设的检验,即p-值 小则相关.但各自的相关含义不尽相同. 现在再来看例1的数据(highschool.sav).关于初三 和高一成绩的相关系数的结果是Pearson相关系 数,Kendall t 和Spearman 秩相关系数分别为 0.795, 0.595和0.758。 定量变量的线性回归分析 对例1中的两个变量的数据进行线性回归,就是 要找到一条直线来最好地代表散点图中的那些点 。 检验问题等 对于系数b1=0的检验 对于拟合的F检验 R2(决定系数)及修正的R2. 多个自变量的回归 如何解释拟合直线? 什么是逐步回归方法? 自变量中有定性变量的回归 例1的数据中,还有一个自变量是定性变量“ 收入”,以虚拟变量或哑元(dummy variable) 的方式出现;这里收入的“低”,“中”,“高”,用 1,2,3来代表.所以,如果要用这种哑元进行前 面回归就没有道理了. 以例1数据为例,可以用下面的模型来描述: 自变量中有定性变量的回归 现在只要估计b0, b1,和a1, a2, a3即可。 哑元的各个参数a1, a2, a3本身只有相对意义,无法三个 都估计,只能够在有约束条件下才能够得到估计。 约束条件可以有很多选择,一种默认的条件是把一个参 数设为0,比如a3=0,这样和它有相对意义的a1和a2就 可以估计出来了。 对于例1,对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条,对三种家庭 收入各有一条: SPSS实现(hischool.sav) AnalizeGeneral linear modelUnivariate , 在Options中选择Parameter Estimates, 再在主对话框中把因变量(s1)选入 Dependent Variable,把定量自变量(j3)选 入Covariate,把定量因变量(income)选 入Factor中。 然后再点击Model,在Specify Model中选 Custom, 再把两个有关的自变量选入右边,再在下 面Building Term中选Main effect。 Continue-OK,就得到结果了。输出的结果 有回归系数和一些检验结果。 SPSS Syntax: UNIANOVA s1 BY income WITH j3 /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = income j3 . 注意 这里进行的线性回归,仅仅是回归 的一种,也是历史最悠久的一种。 但是,任何模型都是某种近似; 线性回归当然也不另外。 它被长期广泛深入地研究主要是因 为数学上相对简单。 它已经成为其他回归的一个基础。 总应该用批判的眼光看这些模型。 Logistic 回归 例2是关于200个不同年龄,性别的人对某项 服务产品的观点(二元定性变量)的数据 (logi.sav). 这里观点是因变量, 只有两个值;所以可以把 它看作成功概率为p的Bernoulli试验的结果. 但是和单纯的Bernoulli试验不同,这里的概 率p为年龄和性别的函数. 可以假定下面的(logistic回归)模型 Logistic 回归 为了循序渐近,先拟合没有性别作为 自变量(只有年龄x)的模型 Logistic模型拟合结果 依靠计算机,很容易得到b0和b1的估计 分别为2.380和-0.069。拟合的模型为 Logistic模型拟合结果 再加上性别变量进行拟合,得到的b0, b1和a0, a1的 估计(同样事先确定为a1=0)分别为1.722, -0.072, 1.778, 0.可以看出年龄影响对男女混和时(0.069) 差不多,而女性相对于男性认可的可能性大(a0- a1=1.778)。 拟合的年龄-概率图 SPSS实现(logi.sav) AnalizeRegressionBinary Logistic, 再把因变量(opinion)选入Dependent Variable,把自变量(age和sex)选入 Covariates, Categorical,再把定性变量sex选入 Categorical Covariate, 回到主对话框,点击OK即可得到结果。 注:SPSS的syntax: LOGISTIC REGRESSION VAR=opinion /METHOD=ENTER age sex /CONTRAST (sex)=Indicator /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) . SPSS的数据输入 数据的键入(T01.sav) 数据从其他文本读入:File-Open-Data-文件 类型(Sav,Excel,SAS,dBase,TXT等等) (T02.txt);散点图 定性变量的加权(每一行的权数等于该行被 观测到的次数)(T03.sav)和不加权(T04.sav); 条形图,饼图 数据的变换(T01.sav)(多重散点图,图的编辑 ) SPSS的相关分析 相关分析(hischool.sav) 利用SPSS选项:AnalizeCorrelate Bivariate 再把两个有关的变量(这里为j3和s1)选入, 选择Pearson,Spearman和Kendall就可以 得出这三个相关系数和有关的检验结果了( 零假设均为不相关)。 SPSS的回归分析 自变量和因变量都是定量变量时的线性回 归分析(hischool.sav) 利用SPSS选项:AnalizeRegression Linear 再把有关的自变量选入Independent,把因 变量选入Dependent,然后OK即可。如果 自变量有多个(多元回归模型),只要都 选入就行。 SPSS的回归分析 自变量中有定性变量(哑元)和定量变量而因变 量为定量变量时的线性回归分析 (hischool.sav) 利用SPSS选项:AnalizeGeneral linear model Univariate, 在Options中选择Parameter Estimates, 再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把 定性因变量(income)选入Factor中。 点击Model,在Specify Model中选Custom,再把 两个有关的自变量选入右边,再在下面Building Term中选Main effect。然后就Continue-OK。 SPSS的Logistic回归(logi.sav) 自变量为定量变量时:利用SPSS选项:Analize RegressionBi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论