《管理定量分析:方法与技术(第三版)》课件 第10-12章 其他多变量技术、统计分析软件SPSS初步、回归分析_第1页
《管理定量分析:方法与技术(第三版)》课件 第10-12章 其他多变量技术、统计分析软件SPSS初步、回归分析_第2页
《管理定量分析:方法与技术(第三版)》课件 第10-12章 其他多变量技术、统计分析软件SPSS初步、回归分析_第3页
《管理定量分析:方法与技术(第三版)》课件 第10-12章 其他多变量技术、统计分析软件SPSS初步、回归分析_第4页
《管理定量分析:方法与技术(第三版)》课件 第10-12章 其他多变量技术、统计分析软件SPSS初步、回归分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章其他多变量技术有些时候我们遇到中介变量的问题,即自变量对因变量的影响不是直接的,而是通过中介变量对因变量形成影响。例如

,货币政策主要有三个层次的变量:工具变量、中介变量、目标变量。在货币政策的传导过程中,中央银行通过直接控制工具变量来操纵中介变量,达到间接影响目标变量的目的。这类问题需要进行因果分析。当因变量的取值只有2-3个类别时,例如考试通过或没通过,对某个意见同意或不同意,随意迟到现象减少或没减少等等,需要用到probit分析技术。logistic回归在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。研究“事件发生的方式和相关因素”,也就是研究个人特征变量、环境变量或制度性变量在变化的时空中是如何影响一些事件的发生概率的。事件史分析是研究事件及其起因的最理想的方法。10.1因果模型案例设被解释变量为城乡居民储蓄存款年末余额(亿元),影响城乡居民储蓄存款年末余额的主要因素包括:农村居民家庭人均纯收入(元)、农村居民家庭平均每人消费支出(元)、城镇居民家庭人均可支配收入(元)、城镇居民家庭平均每人消费支出(元)和居民消费价格指数,居民消费价格指数以1978年为基期。根据1986-2005年的统计数据(如表10-3所示)进行路径分析。分析农村居民家庭人均纯收入(A)和城镇居民家庭人均可支配收入(C)这两个变量不但对城乡居民储蓄存款年末余额(Y)有直接作用,而且还分别通过农村居民家庭人均消费支出(B)和城镇居民家庭人均消费支出(D)对城乡居民储蓄存款年末余额(Y)有间接作用。农村居民家庭人均消费支出(B)和城镇居民家庭人均消费支出(D)对城乡居民储蓄存款年末余额(Y)不仅有直接作用,而且这两个变量通过居民消费价格指数(E)有间接作用。10.2probit分析Probit是处理因变量是分类较少的定序变量情况下的一种分析技术,主要是为了处理小样本情况下的二分因变量而开发的。它也可以被用于处理因变量是三个或更多定序分类的情况。但如果因变量有五个或更多的定序类别,就应采用普通的回归技术了。多元回归使用二分因变量的问题1.有些预测是无意义的。例如,大于x1的x值预测因变量的值会比1大。这是不可能的,因为y只能取0~1间的值。与此类似,小于xo的x值预测因变量的值会比0小,这也是不可能的。因此,这个回归模型对因变量的预测是无意义的。2.预测中的误差都与x的值相关。超过x1的值在预测中的所有的误差都是负的。这意味着x变量的预测结果高于实际发生的情况。低于x0的值在预测中的误差都是正的。因此当实际值等于0时,x变量预测的值都小于0。x的值与误差的相关性违背了回归假设:误差是随机分布在自变量每个取值周围的。3.在已获得雇佣的成功案例中加入一些x值更高的案例,却导致直线变得更为平缓,这意味着本应该更强的相关性减弱了。probit的计算与分析probity分析是用最大似然估计(maximumlikelihoodestimates,MLE)求出系数,它看起来有些像回归系数。用标准误差除以MLE得到的t值,可以利用t分数表检验系数的显著性水平。对于MLE没有类似回归系数那样简单的解释。在一个回归方程y=0.4+0.05x中,我们可以看到x每增加一个单位,y的值就增加0.05;但probit方程内同样的系数却有不同的解释。probit的解释为每变化一个单位的x,y的Z值就会有0.05的变化。如果要知道Z值所对应的概率,需要查Z分数表。一个案例:假设我们想要研究受教育年限、上次工作时间长度以及是否完成职业培训对再就业的影响。这个问题的因变量是再次找到工作的概率,自变量是受教育年限、上次工作时间长度以及是否完成职业培训。职业培训到底有什么确切的影响呢?1.将每个自变量的样本均值与它的MLE相乘后求和,再加上常数。在这个例子中,结果是l.02[(12.0×0.40)+(8.0×0.20)+(0.4×0.30)-5.5=4.8+1.6+0.12—5.5=1.02]。这是所有自变量都取均值时,因变量的Z值。2.除去职业培训这个自变量,将每一个自变量样本的均值与它的MLE相乘后求和。为了计算职业培训这一项,我们把职业培训完成时的变量值l乘以它的MLE(0.30×1=0.30),加上其他自变量的和,再加上常数,这个结果是l.2(4.8+1.6+0.3-5.5)。3.重复第二步,但用没有完成职业培训时的变量值0来替换职业培训项与MLE相乘(0.30X0=0)。这时结果是0.90(4.8+1.6+0-5.5)。注意完成职业培训(1.2)和没完成职业培训(0.9)之间的Z值差等于0.30,即职业培训变量的MLE值。4.翻到正态曲线表。查找未完成职业培训的值(0.9)与0之间的区域。查到的值是0.3159。查找完成职业培训的值(1.2)与0之间的区域。查到的值是0.3850。结论对于样本中那些受教育年限和前工作史达到平均值的人,完成职业培训使他们被雇佣的机会大概由81.59%上升到88.50%。10.3logistic回归logistic回归的主要用途:一是探寻某些现象的原因,例如寻找某一疾病的致病因素。二是预测,如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,研究对象发生某种事件的概率有多大。三是判别,根据logistic模型,判断某人属于某种情况的概率有多大,也就是分析这个人有多大的可能性会发生某种事件。在线性回归方程中,y=a+4x,其中b=4,在这里自变量每发生l单位的变化,因变量就发生4单位的变化。在logistic回归中,上述模型中,自变量变化1个单位,因变量的对数几率比就会发生4单位的变化。logistic回归系数也可以通过优比(oddsratio)来表示。优比要比logistic回归系数更容易解释,与普通最小平方中可以相互比较的偏标准系数一样,优比也可以相互比较。而且优比可以被转换成为概率。在一个自变量或一组自变量给定取值的情况下,可以估计某件事情发生的可能性。一个案例例如,研究某人投资房地产的原因。因变量是一个人是否做房地产投资,如果做地产投资就编码为1,不投资则编码为0,自变量是他们的朋友是否做房地产投资,投资就编码为1,不投资则编码为0。假设搜集的数据如下:为了理解优比,首先需要理解几率比。几率比是事件发生(通常编码为1)的次数与未发生(通常编码为0)的次数的比。例如:在朋友做房地产投资的情况下,个人进行房地产投资的几率比为72/157或0.46;同样在朋友不做房地产投资的情况下,个人进行房地产投资的几率比为48/185或0.26。优比就是这两个几率比的比。因此,朋友投资房地产的人自己投资房地产的可能性,是朋友不投资房地产的人的0.46/0.26=1.76倍。相反,后者做房产投资的可能性是前者做房产投资可能性的0.26/0.46=0.56倍。优比小于1表明随着自变量取值的增加,因变量发生的几率比下降。优比大于1,则说明随着自变量取值的增加,因变量发生的几率比增加。logistic回归可以用优比来表示:其中a是常数,这个常数是指那些朋友不投资房产的人自己却投资房产的几率比。1.76是优比,朋友是否投资房产是优比的幂,用来对某人是否投资房产的概率作一估计。在上面的例子中,朋友投资房产而某人也投资房产的几率比是

0.26×1.76(1)=0.46朋友不投资房产而某人投资房产的几率比是0.26×1.76(0)=0.26朋友投资房产而某人投资房产的概率就是0.46/(1+0.46)=0.3210.4事件史分析事件史分析是研究社会现象动态过程的一类统计模式,主要关注社会现象变迁的过程例如,研究一个人在劳动力市场上的就业过程(就业、换工作、再就业)的影响因素,一个人的职位何时提升?为什么得到提升?一个人出生、死亡、结婚、离婚等事件发生的时间和原因?一个组织类型的产生、扩展、衰落等的时间和原因?成人重新就学、入党、培训机会等的时间和原因?假设我们感兴趣的是失业人员经过多长时间再次找到工作。我们可以使用标准的回归分析。对于每一个失业者,可以测量他重新找到工作的时间。作为自变量可以收集有关信息:他在失业前工作了多长时间,所从事的职业类型,他的受教育程度和职业技能等等。于是得到一般的回归方程:y=a+bXi+e,其中y是重新找到工作前前经过的时间,Xi是自变量,e是误差项。在这个例子中,标准回归分析的一个问题是对因变量的删截(censoring)。假设有3名失业者,郭靖在失业后后第1个月找到工作,欧阳峰在在失业后第3个月找到工作,洪七公在失业后10个月也没找到工作,即我们所研究的这个时间中没有再就业。因此,对郭靖和欧阳峰而言,很容易给他们的t分别编码为1和3,但该怎样给洪七公编码呢?应该给他编码为10吗?如果这样就意味着他在第10个月重新就业,但事实并非如此。换句话说,因变量被删截,因为一些个案并没有落在我们研究的时间段内。另一个问题是一些自变量会随时间变化。也许郭靖失业后去参加了短期职业培训,获得了职业资格证书。也许欧阳峰在失业后的第二个月中了头彩。所以教育程度和收入在这段时间内都在增加。除非我们采用的是这些年内郭靖教育状况和欧阳峰收入状况的平均值,否则标准回归分析是不允许自变量发生变化的。事件史分析中的核心概念风险集(riskset):是指那些在特定的时间点面临事件发生(再就业,入党,提干)“风险”的案例(case)的集合。那些曾经发生过事件——再就业或入党——的案例就不再具有风险了。风险率(hazardrate):是指在特定时间某一特定的人发生某一事件的概率,前提是这个人属于风险集。在三个人的例子中,三个人中的一个在第一月再就业,所以风险率是1/3即0.33。在第2月内没有人再就业,所以风险率为0。剩下的两人中的一个在第三个月再就业,所以风险率是l/2即0.5。注意虽然在第一个月和第三个月再就业的人数相同(1),但是与第一年0.33的风险率相比,第三年的风险率增加了。其原因就在于风险集在第一年较大(是3而非2)。在表10—15中,我们需要创建测量时间的10个新变量。第l个变量将年份l编码为1,其他年份编码为0。第2个变量将年份2编码为1,其他年份编码为0,依次类推。如前所述,在方程中我们只需列出9个虚拟变量,因为第10个完全可以由其他9个变量预测出来。每一个虚拟变量的系数告诉我们该月的风险率。这些系数使得我们能了解风险随时间的变化。关键术语因果分析内生变量外生变量probitlogistic优比概率比事件史分析风险集风险率

本章到此结束!

谢谢各位!管理定量分析长安大学:刘兰剑第11章统计分析软件SPSS简介

11.1认识SPSSSPSS是基于Windows操作系统下,一个统计功能极强,内容及其庞大的统计软件。SPSS原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”。它是目前世界上最流行的三大统计分析软件(SPSS、SAS、BMDP)之一。除了适用于社会科学之外,还适用于自然科学各领域的统计分析。近几年来,SPSS为我国经济、工业、管理、医疗卫生、体育、心理、教育等领域的科研工作者广泛使用。

经过近40年的发展,SPSS不断推出功能日益完善的新版本。IBM公司于2009年收购SPSS后,SPSS更名为IBMSPSS,如今已出至版本26.0。SPSS公司推行本土化策略,目前已推出多个语种版本。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。11.2SPSS的安装、启动与退出(通过软件学习)11.3SPSS的基本特点

(1)操作界面极为友好,易于学习、易于使用;(2)绝大部分由“对话框”的操作完成因此,用户无须花大量时间记忆大量的命令,也无须编写程序;(3)只要粗通统计分析原理,无须通晓统计分析的各种算法,即可得到统计分析结果;(4)根据自己分析工作的需要,灵活方便地根据计算机设备的实际情况选择、装配模块;(5)与其他软件有数据转换接口,其他软件生成的数据文件,例如关系数据库生成的DBF文件,或Excel生成的电子表格等均可方便地转换成可供分析的SPSS数据文件;(6)分析方法丰富,提供了从简单描述统计分析到多因素分析的统计分析方法。有很强的图表生成、编辑功能,以及精心设计的图形操作界面和美观的结果输出;(7)SPSS软件具有强大的辅助教学功能。11.4SPSS基本操作11.5SPSS数据文件管理(通过软件学习)

关键术语变量名变量类型变量长度变量标签

本章到此结束!

谢谢各位!管理定量分析长安大学:刘兰剑第12章回归分析中国从1971年开始全面实行计划生育政策,使中国总和生育率很快从1970年的5.8降到1980年的2.24,接近世代更替水平。此后,人口自然增长率(人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,猜测中国未来的增长趋势,需要建立计量经济学模型。因变量:人口增长率自变量:选择“国名总收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表

12.1回归分析的基本概念回归分析(regression)是用确定性的方法来研究既具有非确定性相关关系,又具有因果关系的现象的最重要的统计分析方法之一。非确定性关系是指变量在变化过程中表现出来的数量上具有一定的依存性,但并非像函数关系那样一一对应的关系。如果把其中的一个或几个变量作为自变量,把另一个随着自变量的变化而变化的变量作为因变量,通过建立线性或非线性关系的数学模型来研究它们之间的非确定性的关系的方法就是回归分析的方法。由于回归分析中表现的是自变量和因变量之间的关系,所以这种方法也多用于研究因果关系的数量表现。

回归分析研究的主要内容是通过试验和观测数据,寻找出这些相关关系变量之间的规律性,再从一个或n个变量所取得的值,去有效地预测与它们相关的另一个变量所取得的值。总体来说,回归分析主要解决以下几个方面的问题:首先,从一组试测数据出发,确定这些变量之间的定量关系式,即回归方程;其次,对所求回归方程的可信程度进行统计检验;再次,从影响着某一个变量的诸多变量中判断哪些变量影响是显著的,哪些是不显著的(一元线性分析不存在这个问题);最后,利用通过统计检验的回归方程,对某一过程、现象进行预测或估计。回归分析研究模型分为线性回归模型和非线性回归模型(也称多项式回归模型)。线性回归模型分为:一元线性回归模型、多元线性回归模型回归分析分为:线性回归分析、非线性回归分析回归分析方法(本章主要介绍以下三种)

1.多元线性回归

2.曲线回归

3.逻辑回归12.1.1多元线性回归分析一般的表现式:Y=α+β1X1+β2X2+…+βkXk+e,其中α为常数项,β1,β2,…,βk为回归系数,β1为X2,X3,…,Xk固定时,X1每增加一个单位对Y的效应,即X1对Y的偏回归系数,等等。多元线性回归模型假设:1)Xi可以是任意确定的变量,也可以是有意选定的变量,它作为自变量来解释因变量Y变动的原因,因此也称为解释变量。尽管在实际观测中也可能产生观测误差,但其假设可忽略不计;2)对于每一个i,e都是正态独立分布,其均值0,方差为σ2;3)每个因变量之间是相互独立的;4)因变量和自变量之间的关系是线性的。12.1.2曲线回归分析直线关系是两变量间最简单的一种关系。这种关系往往在变量一定的取值范围内成立,取值范围一扩大,散点图就明显偏离直线,此时两个变量间的关系不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论