




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
离散选择模型 1 离散选择回归模型一、离散的变量如果我们用0,1,2,3,4,说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。二、离散的因变量在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。如果x作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。三、线性概率模型现在约定备择对象的0和1两项选择模型中,下标i表示各不同的经济主体,取值0或l的因变量表示经济主体的具体选择结果,而影响经济主体进行选择的自变量。如果选择响应YES的概率为,则经济主体选择响应NO的概率为,则。根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型 描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于0,1。如果通过回归模型式得到的因变量拟合值完全偏离0或l两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型式进行必要的修正。由于要对其进行修正,那么其模型就会改变,模型改变会导致似然函数改变,这就是我们下面要讨论的。现在我们讨论的模型与判别分析的目的是一样的,但有区别。1、理论基础不同。判别分析是根据来自k个总体的样品进行分析,其理论基础是马氏距离,根据马氏距离的长短作为归类的依据;离散选择模型是根据回归分析的思想,估计模型的参数,对模型进行检验和利用模型对可能的类别进行预测。2、分析方法不同判别分析根据距离的长短或后验概率的大小来看个案被归到何类;离散选择模型根据极大似然估计估计出回归方程,预测事件出现的概率。3、假设条件不同;判别分析不限制自变量之间是否有共线关系,也没有所谓的随机干扰项的问题;离散选择模型要求自变量之间无共线关系,随机干扰项服从某种特定的分布,或标准正态分布,或LOGISTIC函数等。 2 二元离散选择模型的建立一、效用函数为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。用表示第个人选择买房的效用,表示第个人选择不买房的效用。其效用均为随机变量,于是有 (1)将(1)-(2),得记:则有 ,格林称该模型为潜回归。这是二元选择模型的切入点。称为过渡变量(潜在的),这个变量是不可观测的。当效用差大于零,则应该选“1”,即购房;当效用差小于零,则应该选“0”,即不购房。故 此处已经通过,将自变量与事件发生的概率联系起来了。为概率提供了一个潜在的结构模型。现在的问题是服从何种分布?既然是分布函数,则必须满足分布函数的条件.二、两类常用的模型根据以上的分析,我们的问题已经转化为作为有什么形状,即密度函数具有什么样的函数形式。采用累积标准正态概率分布函数的模型称作Probit模型,或概率单位模型,用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求,采用logistic函数的模型称作logit模型,或对数单位模型。注:分布在此时是以y轴为对称。(一)Logit模型因为如果我们取F(.)为逻辑函数(LOGIT),即(满足分布函数的条件),有为了更简化模型 ,我们令, ,则 有 (非线性) (广义非线性) (2)称(2)式为逻辑斯蒂回归模型。(二)PROBIT模型更为一般的情形,如果选择F(.)是标准正态分布,则产生PROBIT回归模型。 (3)称(3)式为PROBIT回归模型。注 Probit曲线和logit曲线很相似。 标准正态概率分布曲线 logistic分布曲线使用哪个分布是一个很自然的问题,logit曲线除了在尾部比正态分布厚得多以外,两条曲线都是在pi = 0.5处有拐点,logit曲线更接近一个自由度为7的t分布(格林书认为自由度是4的t分布)。所以,对于的中间值(比如-1.2到1.2之间)来说,两种分布会给出类似的概率,但是当非常小时,逻辑斯蒂回归模型比PROBIT回归模型倾向于给出()较大的概率值,而在非常大时,倾向于给出()较小的概率值。利用函数式可以得到的概率值见表一。表一 Probit模型和logit模型概率值yi正态分布函数pi = 逻辑概率分布pi =-3.00.00130.0474-2.00.02280.1192-1.50.06680.1824-1.00.15870.2689-0.50.30850.37750.00.50000.50000.50.69150.62251.00.84130.73111.50.93320.81762.00.97720.88083.00.99870.9526特点尾薄尾厚 3 二元离散选择模型最大似然估计 下面我们来构造二元离散选择模型的似然函数。这是二元离散选择模型最关键的问题。因为 我们假设有以Y轴为对称的概率密度函数f(.),则 于是模型的似然函数为两边同时取自然对数,则 对数似然函数最大化的条件是 (4)一、对数单位模型的似然函数将和代入(4),则似然方程为。若包含常数项,则一阶条件意味着预测概率的平均值一定等于样本中“1”的比率。对数单位模型对数似然函数的二阶导数为二、概率单位模型的似然函数如果是正态分布,则对数似然函数为概率单位模型的对数似然函数的二阶导数为:。例一 在一次住房展销会上,与房地产商签订初步购房意向书的共有325名顾客,在随后的3个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为“1”,没有购买的人记为“0”。以顾客的年家庭收入为自变量X,根据表二资料,分析收入9.5万元的家庭买房的可能性。程序如下。data a;input x n r;cards;1.5025.008.002.5032.0013.003.5058.0026.004.5052.0022.005.5043.0020.006.5039.0022.007.5028.0016.008.5021.0021.009.5015.0010.00;proc logistic data=a;output out=ll p=phat ;model r/n=x /link=normit;proc print data=ll;run;表二 例一的分组数据资料年家庭收入(万元)签订意向书人数(人)实际购房人数(人)1.52582.532133.558264.552225.543206.539227.528168.521219.51510分别用LOGIT和PROBIT模型讨论这个问题。表三 LOGIT模型名称参数估计值标准差Wald统计量自由度显著性水平Exp(B)常数项-1.19920.302415.72061.0001X0.24300.056018.84431.0001 1.275表四 probit模型 名称 参数估计值标准差Wald统计量自由度显著性水平常数项-0.74450.184816.22421.0001X 0.15100.0340 19.7145 1 ChiSq Intercept 1 1 -0.9191 1.2131 0.5740 0.4487 Intercept 2 1 0.3772 1.1590 0.1059 0.7448 Intercept 3 1 3.2613 1.6390 3.9593 0.0466 Intercept 4 1 5.6860 2.1662 6.8899 0.0087 x1 1 -0.00252 0.000823 9.3549 0.0022 x2 1 0.00356 0.00120 8.7797 0.0030注:为什么这是4条平行线,不是5条,也不是一条?这是因为有序离散选择模型都是预测的累计概率,最后的一类可以推算。该模型的形状为Obsx1 x2type_LEVEL_phat13000 1500310.0418323000 1500320.1376333000 1500330.7405843000 1500340.969935850 425310.175686850 425320.437927850 425330.933058850 425340.9936991000 3000110.99929101000 3000120.99981111000 3000130.99999121000 3000141.00000139000 2250510.00000149000 2250520.00000159000 2250530.00001169000 2250540.000135 模型的其它问题一、模型的假定条件1、数据来于随机样本2、因变量被假定为k个自变量的函数3、自变量无多重共线性4、因变量和自变量之间的关系是非线性的5、方差不变性问题对于存在异方差时,可以作如下处理。以PROBIT模型的异方差问题为例。1)似然函数其中。如果是外生变量的函数,假设有如下的情形是影响随机干扰项方差的外生变量构成的向量,是斜率系数向量。特别如果是零向量,则模型是等方差。设1,表示第个个体选择了第个水平; 0,表示第个个体没有选择第个水平;;则模型的似然函数为: 模型的对数似然函数为 对分别求,的偏导数,并令其为零,则和。解出和,可得估计模型。参看格林计量经济分析第五版中文版第736页。如果的t检验不显著,则可以认为没有该种类型的异方差存在。2)异方差的检验:模型是等方差的(),:模型有异方差的(),对数似然比检验步骤:1、建立无约束条件的模型,得模型的似然函数2、建立约束条件的模型,即的模型,得模型的似然函数3、检验的统计量:是两个模型的自由度之差。当原假设成立时,给定显著性水平,得临界值,如果,接受原假设,无异方差;,拒绝原假设,有异方差;6、不需要假定自变量是服从正态的。二、最大似然估计的性质1、渐近一致性2、渐近有效性3、渐近正态性三、模型估计的样本规模 样本容量足够大时,统计量有好性质。 6 回归模型评价一、拟合优度(Goodness of fit)1、皮尔逊统计量(Pearson)在回归分析中我们常常引入自变量,在这里称为协变量(covariate)。在固定的样本规模n下,协变量类型越多,则每个协变量分组越多,则每组中的个案则越少。皮尔逊统计量检验协变量分组中,预测的次数与观测的次数之间是否拟合得很好。协变量类型中的实际观测值的与预测值没有差异协变量类型中的实际观测值的与预测值有显著差异统计量为 (7)当样本容量足够大是该统计量服从自由度为J-k-1的分布。其中J是种类数,k是自变量个数。这个统计量是如何计算的呢?例三、续例二。原始类预测到某类的概率()实际观测到的频率第一类30.041830500.0017497910.04365668130.175691400.0308674680.21313789510.999289815.04384E-070.00071070550.000000204E-142E-0740.000592203.50701E-070.00059255110.303972910.4844537242.2897669530.101088400.0102188650.11245644220.553592200.3064643241.24010422810.406360110.3524083311.46087152710.479002110.2714388121.0876735250.000109301.19465E-080.00010931250.007300205.32929E-050.00735388550.008819807.77889E-050.00889828120.687203700.4722489252.19696876240.004637802.15092E-050.00465940910.817504210.0333047170.22323530640.000997509.95006E-070.000998496第二类30.095802500.0091781190.10595306930.262253400.0687768460.35547896810.000515902.66153E-070.00051616650.000000502.5E-135E-0740.001569302.4627E-060.00157176710.310903900.0966612350.45117640330.190252500.0361960140.23495287120.265691810.5392085332.76375936310.308126600.0949420020.44535112910.291697900.0850876650.41182695950.000290008.41E-080.00029008450.018880100.0003564580.01924341850.022685500.0005146320.02321207820.202074310.6366854233.94867481940.012110600.0001466670.01225906510.124946300.0156115780002639406.96643E-060.002646385第三类30.603004810.1576051890.65836159230.495127510.2548962411.01968179910.000183503.36723E-080.00018353450.000010701.1449E-101.07001E-0540.035149400.001235480.03642988910.351301200.1234125330.54154747930.588982510.1689353850.69784331520.168538100.0284050910.2027009310.263667400.0695204980.35808193210.212943600.0453449770.27055697750.006697004.48498E-050.00674215250.298610700.089168350.42574173950.336400300.1131651620.50693256820.103811400.0107768070.11583655540.216835200.0470175040.27687046210.054148300.0029320380.05724819240.057668500.0033256560.061197678第四类30.229294600.0525760140.29751264230.060618200.0036745660.06452988610.000009909.801E-119.9001E-0650.000116301.35257E-080.00011631440.267190310.5370100562.74265083710.030732800.0009445050.03170725330.107785400.0116176920.12080658620.011087800.0001229390.01121211810.019872800.0003949280.02027573610.014886600.0002216110.0151115650.067608200.0045708690.07251050550.519781600.2701729121.08238584850.500081800.2500818071.00032725420.006295003.9627E-050.00633487840.541336910.2103718390.84727846910.003099209.60504E-060.00310883540.363242410.4054602411.752982581合计31.12该题的统计量为与我们用SAS计算出的结果一致。2、偏差观测值与预测值的拟合优度,还可以用对数似然函数表示。以为设定模型的极大似然函数,它概括了样本数据由这个模型所拟合的程度,想象有一个完美的模型,为极大似然函数。 (8):设定模型与最完美的模型没有显著性差异;:最完美的模型比设定模型好。这个最完美的模型只可想象,是存在的,但不可及。当值相对较小时,则较大,支持设定模型与饱和模型有显著的差异,设定模型不佳。如果当值相对几乎相等,则较小,设定模型拟合情况好,D与线性回归模型的残差方差十分类似。实际上该检验的在SAS中的统计量就是对数似然函数的2倍除以(协变量类型个数减估计参数),即。注:局限性是不宜用在连续协变量情形。当模型中的协变量为连续性变量时,和皮尔逊统计量则不适合,因为协变量过多的拟合值,导致了过多的协变量类型。如客户信用度的评价问题,其拟合优度检验的结果如下: Deviance and Pearson Goodness-of-Fit Statistics Criterion DF Value Value/DF Pr ChiSq Deviance 62 29.2053 0.4711 0.9999 Pearson 62 31.5822 0.5094 0.9995 Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 61.189 41.205 SC 64.521 46.205 -2 Log L 53.189 29.205 3、Hosmer-Lemeshow拟合指标Hosmer-Lemeshow拟合指标仅仅针对二值响应的模型。当连续性变量作为协变量进入模型,协变量类型(组)太多,会导致一些协变量类型中不存在任何样本点。在样本容量n一定的条件下,每个协变量组中的个案数太少。 Hosmer-Lemeshow拟合指标的思想是:将预测概率值数据分为大致相等规模的10个组,将观测值按其预测概率升序排列。第一组包括估计概率最小的组,最后一组包括估计概率最大的组。 (9)其中()代表分类组数,为第组中的案例数;为第组事件的观测数量;为事件的预测数。用SAS的LOGISTIC模块的LACKFIT可以计算出Hosmer-Lemeshow统计量,但是仅仅对二值响应模型。例四续例一。例一的资料是分组资料,如果我们资料是未分组资料,估计一个年收入在8万元客户不买房的概率。程序如下data a;input x class;cards;1.502.503.504.505.506.507.508.519.501.502.503.504.505.506.507.508.519.501.502.503.504.505.506.507.508.519.501.502.503.504.505.506.507.508.519.501.502.503.504.505.506.507.508.519.501.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.508.519.511.502.503.504.505.506.507.518.519.511.502.503.504.505.506.507.518.519.511.502.503.504.505.506.507.518.519.511.502.503.504.505.506.507.518.511.502.503.504.505.506.507.518.51 1.512.503.504.505.506.517.518.51 1.512.503.504.505.506.517.518.51 1.512.513.504.505.506.517.518.51 1.512.513.504.505.506.517.518.51 1.512.513.504.505.506.517.511.512.513.504.505.506.517.511.512.513.504.505.516.517.511.512.513.504.505.516.517.512.513.504.505.516.517.512.513.504.505.516.517.512.513.504.505.516.517.512.513.504.505.516.512.513.504.505.516.512.513.504.515.516.512.513.504.515.516.513.514.515.516.51 3.514.515.516.51 3.514.515.516.513.514.515.516.51 3.514.515.516.513.514.515.516.51 3.514.515.516.513.514.515.513.514.515.51 3.514.515.513.514.515.513.514.513.514.513.514.513.514.513.514.513.514.51 3.514.51 3.514.51 3.514.51 3.51 3.51 3.51 3.51 3.51 3.51 8.0 .proc print;run;proc logistic data=a outest=test;output out=lll p=phat;model class=x/ rsq scale=none aggregate covb lackfit;proc print data=lll;run; Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSq Intercept 1 1.1992 0.3024 15.7206 .0001 x 1 -0.2430 0.0560 18.8443 ChiSq 6.3401 6 0.38624、信息测量指标另一些评价模型好坏的指标是信息测量指标。它们是AIC,BIC和SC准则函数。若干个模型相比,一般来说AIC、BIC和SC准则函数越小越好。(二)回归模型预测准确性1、类指数Cox和Snell(1989),Maddala(1983)以及Magee(1990)建议,用表示模型预测情况的优劣。 Nagelkerke在1991年提出调整了的。,。其中:是零模型的对数似然函数值,相当于线性回归分析中的总离差平方和;是设定模型的对数似然函数值,相当于线性回归分析中的残差平方和;是样本容量。与线性模型的类似,模型的拟合情况越好,越靠近1。Model Fit Statistics CriterionInterceptOnlyInterceptandCovariatesAIC61.18941.205SC64.52146.205-2 Log L53.18929.205L4.55213E-072.81939E-12 类确定系数有许多重要性质:1.与经典的的定义一致;2.对于模型参数的最大似然估计可以保证 取得最大值;3. 有渐近独立于样本容量的性质;4.它可以理解为变异中被解释的比例。 (三) 预测概率与观测值之间的关联模型的拟合情况好坏的第二种测量方法是建立在观测的反应变量和模型预测的条件概率之间关联的基础上的,这种测量的指标为秩相关指标。例如两水平的情况。1、 例子首先通过一个例子来讨论这个问题。样本序号12345观测值01010预测到第一类的概率50.50.3本例中,反映变量“0”有3个,“1”的有2个,样本点的配对可以有2*36个,为(1,2)(2,3)(3,4)(4,5)(2,5)(1,4)。(1,2)(2,3)(4,5)(2,5)(1,4)是和谐的 nc=5;(3,4)不和谐 nd=1。定义:在一个观测数据对中,如果观测到应变量的值为的时,预测到的概率大,则称其为和谐的。2、指标种类Gamma= (10) 【(51)6=0.6667】 (11)【(51)6 =0.6667 】 (12) 【(51)(0.554) =0.4】 (13)其中n为样本观测案例总数,t为拥有不同反映值的观测数据对总数。nc为和谐对数量,nd为不和谐对的数量。如果某个模型在统计量上有比较高的值,说明模型的预测能力较好。Association of Predicted Probabilities and Observed Responses指标数值指标数值 Percent Concordant85.8Somers D0.752 Percent Discordant10.6Gamma0.780 Percent Tied3.5Tau-a0.625 Pairs113c0.876 这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中小学美术教师基本功比赛试题及答案
- 药用植物学考试练习题及答案3
- 九年级道德与法治下册 第一单元 我们共同的世界 第二课 构建人类命运共同体说课稿设计(pdf) 新人教版
- 公务员面试题库及答案
- 高速测速设备采购合同模板(3篇)
- 高粮收割合同模板(3篇)
- 高空装修合同模板(3篇)
- 电力线宽带接入项目进度管理与监督合同
- 2025恒丰银行笔试题及答案
- 娱乐产业公司股份收购与内容制作协议
- GB/T 20716.2-2025道路车辆牵引车和挂车之间的电连接器(7芯)第2部分:12 V标称电压车辆的制动系统和行走系的连接
- (新教材)2025年秋期人教版一年级上册数学全册核心素养教案(教学反思无内容+二次备课版)
- 2025广西公需科目真题续集(附答案)
- DL∕T 5776-2018 水平定向钻敷设电力管线技术规定
- 质量风险和机会识别、评价及控制措施表
- 幼儿园大班科学教案《神奇的小麦》【幼儿教案】
- 2022年医疗卫生系统事业编制(护理学专业)考试题库及答案
- FZ/T 62033-2016超细纤维毛巾
- 设计思维教案
- 储罐施工方案(电动葫芦)
- 《概率论与数理统计》-教学教案
评论
0/150
提交评论