Probit回归概率单位回归实用教案_第1页
Probit回归概率单位回归实用教案_第2页
Probit回归概率单位回归实用教案_第3页
Probit回归概率单位回归实用教案_第4页
Probit回归概率单位回归实用教案_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Logistic回归(hugu)因变量二项Logistic回归(hugu)多项Logistic回归(hugu)有序回归Probit回归第1页/共29页第一页,共30页。第15章 Probit回归(hugu)(概率单位回归(hugu)) 15.1 Probit回归(hugu)的基本原理 15.2 Probit回归(hugu)的案例分析第2页/共29页第二页,共30页。15.1 Probit回归(hugu)的基本原理 Probit回归即概率单位回归,主要用来测试分析刺激强度与反应比例之间关系的关系。例如,对于指定数量的病人,分析他们的给药剂量与治愈比例之间的关系。此方法应用的典型(dinxng)

2、例子是分析杀虫剂浓度和杀死害虫数量之间的关系,并据此判断什么样的剂量浓度是最佳的。 Probit回归适用于对反应变量(因变量)为分类变量的资料进行统计分析,也存在反应变量为二分类、有序多分类、无序多分类三种情况,但目前最常用的是二分类的情形, SPSS 也仅能处理反应变量为二分类的资料。第3页/共29页第三页,共30页。15.1 Probit回归(hugu)的基本原理 Probit回归与Logistic回归相似,也是拟合(n h)0-1型因变量回归的方法,即把取值分布在实数范围内的变量通过累积概率函数转换成取值分布在(0,1)区间的概率值。所得概率分布的表达式为: Probit回归常用的累积概

3、率函数有两个: (1)logit概率函数: 通过变换可以得到另一种等价形式:)()(iiifxfPiiiixxxiiieeeexFFP11111)()()(iiixPP)1ln(第4页/共29页第四页,共30页。 (2)标准(biozhn)正态累计概率函数:单一解释单一解释(jish)变量:变量:多变量多变量(binling):dtZXPiXii10)()(10dtZXXXPkikiiXXXkikiii212110)()(212110)(),(ZZ分别为标准正态分布的分布函数与密度函数。分别为标准正态分布的分布函数与密度函数。15.1 Probit回归的基本原理据此建立的据此建立的Probit

4、回归模型:回归模型:kikiiiXXXp2121101)()(212110kikiiiXXXP或或第5页/共29页第五页,共30页。22121)(ZeZfdZdpjjdZdxlProbit 模型的边际分析模型的边际分析l自变量的变化对响应自变量的变化对响应(xingyng)概率(概率(p)的影响:)的影响:2121( )2ZjjjjpdpZf ZexdZx(1|) ()jjP YXXX 一般情况下对连续变量,一般情况下对连续变量,X取样本均值,指的是取样本均值,指的是X在平均意义在平均意义(yy)上每增加一个单位会导致上每增加一个单位会导致事件发生的概率将会变化多少个单位。事件发生的概率将会变

5、化多少个单位。第6页/共29页第六页,共30页。15.1 Probit回归(hugu)的基本原理lProbit回归的数据要求l因变量(响应变量)应该是计数信息,记录在指定的自变量条件下,有响应的观测个数。l自变量(因子变量)必须是分类变量且须用整数编码。l观测量应该是独立的。如果自变量值的数量与观察值的数量相比过多,否则卡方检验和拟合优度检验是不适宜的l对Probit过程的参数估计同样采用极大似然估计法,构建Probit过程时要求样本采取随机抽取方式抽取,即要求样本分布与总体分布具有同一性。l概率回归时,最有用的是半数发生量。如收入到多少时,有一半家庭(jitng)会购买。毒素浓度达到多少时,

6、有一半的小白鼠会死亡。第7页/共29页第七页,共30页。15.1 Probit回归(hugu)的基本原理lProbit回归与logistic回归的关系l当Probit 回归过程选择了Logit变换时,进行的统计分析过程就是Logistic 回归。lLogistic模型强调因变量的最终结果是发生还是不发生,其取值有明显的01分化。而概率回归研究的是在因变量具有两种相反属性时,随着自变量的变化,因变量取某属性的比例变化情况。如家庭购买电脑的比例与家庭人均收入之间的关系,研究的不是在某各收入水平下是否会购买,而是在不同的收入水平下购买的比例。l一般情况下:Probit 回归更适用于从有计划的试验中获

7、得的数据,而Logistic回归更适用于直接的观测数据。lProbit 回归输出对各种响应(xingyng)比例有效值的估计,Logistic 回归输出对自变量发生比(OR)的估计。第8页/共29页第八页,共30页。 Probit曲线(qxin)和logit曲线(qxin)很相似。两条曲线(qxin)都是在pi = 0.5处有拐点,但logit曲线(qxin)在两个尾部要比Probit曲线(qxin)厚。-4-202400.20.40.60.81累积正态概率分布曲线累积正态概率分布曲线 05101520253000.20.40.60.81Logistic分布函数分布函数第9页/共29页第九页,

8、共30页。 实际应用中,对于同一资料用Probit 回归与Logistic 回归分析的结果非常接近。但Logistic回归的应用比Probit 回归更广泛。这是因为: Logistic 回归中的偏回归系数可以计算其exp (b) , 即OR 值,可以得到很好的直观解释与应用。Probit 回归模型中偏回归系数的含义为其他自变量取值保持不变时自变量每改变一个单位,出现某结果的概率密度函数值的改变量。显然解释起来比较麻烦,远不如Logistic 模型中,这也导致了研究者更喜欢使用Logistic 模型。 目前有很多针对Logistic 回归模型的诊断及补救措施,而对于Probit 回归而言而有信方

9、面相对缺乏。当然,这类似先有鸡还是(hi shi)先有蛋的问题,很难说是因为模型诊断措施较多而导致了Logistic 回归的更多应用,还是(hi shi)说因为Logistic 回归更多的应用促进了其模型诊断措施的发展。第10页/共29页第十页,共30页。15.2 Probit回归的案例(n l)分析 例1: 某医师希望研究病人的年龄(岁)、性别(xngbi)co 为女性, 1 为男性)、心电图检验是否异常(ST 段压低, 0 为正常、1 为轻度异常、2 为重度异常)与患冠心病是否有关,数据文件为“冠心病影响. sav” 拟合Logistic 回归模型 因变量:ca;协变量:sex , ecg

10、 、age exp (B) :自变量增加一个单位, 总体研究对象患病率与未患病率的比值/倍数(优势比的变化率) 。第11页/共29页第十一页,共30页。15.2 Probit回归的案例(n l)分析l拟合probit回归模型lSPSS 默认变量取值= 1 表示出现阳性结果(患病) l由于SPSS 默认的是对频数表资料进行Probit 回归分析,而本例资料并非各自变量不同取值水平组合的频数表资料,每一条记录表示一个观察对象,此处需指定一个频数变量count = 1。其方法有如下几种(j zhn):l直接定义频数变量count,并录入数据1l转换计算变量: count = 1l语法: COMPUT

11、E count = 1. EXECUTE. 第12页/共29页第十二页,共30页。15.2 Probit回归的案例(n l)分析l 拟合probit回归(hugu)模型l SPSS 操作:分析回归(hugu)probit前者前者(qin zh)为用标准正为用标准正态累计概率函数的反函数态累计概率函数的反函数来转换响应比例,后者为来转换响应比例,后者为logit变换变换代表在自变量的指定水平代表在自变量的指定水平下,对有响应的观测的计下,对有响应的观测的计数信息,取值非负数信息,取值非负代表在自变量的指定水平下,总代表在自变量的指定水平下,总的观测计数,取值不能小于相应的观测计数,取值不能小于相

12、应的响应频数变量值的响应频数变量值须为整数编码的分类变量,须为整数编码的分类变量,须指定最大和最小值须指定最大和最小值代表不同的实验刺激条件代表不同的实验刺激条件设置变量转换函数,当协变量与概率之间不存在现行关设置变量转换函数,当协变量与概率之间不存在现行关系时,需要选择对协变量的转换方式系时,需要选择对协变量的转换方式默认为默认为无,自无,自动给出动给出控制组控制组第13页/共29页第十三页,共30页。输出输出(shch)观测频数、预测频数、观测值的残差等。观测频数、预测频数、观测值的残差等。输出因素变量水平输出因素变量水平(shupng)间的半数效应及其致信区间间的半数效应及其致信区间对所

13、有因子水平具有对所有因子水平具有(jyu)共同的斜率这一假设的共同的斜率这一假设的检验,若没有因子变量,则相关中位数力不可用检验,若没有因子变量,则相关中位数力不可用输出指定响应比例的刺激剂量输出指定响应比例的刺激剂量的置信区间的置信区间当选入多个些变量,当选入多个些变量,相关中位数力和信仰相关中位数力和信仰置信区间不可用,只置信区间不可用,只有选入一个因素变量,有选入一个因素变量,两者才可以用两者才可以用指定在没有刺激的条件下(即剂量为指定在没有刺激的条件下(即剂量为0),),是否有一个自然响应率是否有一个自然响应率无:没有自然响应率无:没有自然响应率从样本数据估计其自然响应率从样本数据估计

14、其自然响应率值:输入指定的自然响应率,取值必值:输入指定的自然响应率,取值必须小于须小于1。 例如,如果当激励为例如,如果当激励为0 时响应时响应在在10% 的时间里发生,则输入的时间里发生,则输入0.10。第14页/共29页第十四页,共30页。 共有78 条非频数(pn sh)表资料记录纳入分析,其中66 条记录出现阴性结果(Control Group)回归系数回归系数/ /标准误,即标准误,即Z Z检验检验(jinyn)(jinyn)统计量统计量p= (-3. 364 +0.804 sex +0. 520 ecg +0. 056 age)或者或者(huzh)写成:写成:probit(p)=

15、 -3. 364 +0.804 sex +0. 520 ecg +0. 0564 age)显著!显著!第15页/共29页第十五页,共30页。 参数估计值得协方差和相关性 卡方检验:原假设是模型能很好地拟合数据,根据Pa接受原假设,故模型拟合较好 平行(pngxng)检验:Pa,可以认为因素变量个分组的回归方程具有相同的斜率。第16页/共29页第十六页,共30页。 Probit 回归系数的解释(jish)问题:以年龄age 为例,其偏回归系数为0.056 ,表示当性别、心电图保持不变时,年龄每增加一岁,患冠心病的概率密度函数值增加 0.056 。 进一步举例如下:设对于性别为男性、心电图检验结果

16、为轻度异常、年龄30 岁的人患冠心病的概率为0.40 ,则相应的概率密度函数值为-0.253 ,则相同性别、相同心电图检验结果,年龄为31 岁者患冠心病的概率密度函数值为-0.253 +0.056 = -0.197 ,相应的概率为0.422 。则30 岁、31 岁时患病与未患病的比值比分别为0.4/ (1 -0.4) =0.667 、0.422/(1 -0.422) =0.729 ,此时的OR 值为0. 729 /0. 667 = 1. 094 ,与Logistic 回归分析结果中的exp () = 1. 097 一致。p= (-3. 364 +0.804 sex +0. 520 ecg +0

17、. 0564 age)或者或者(huzh)写成:写成:probit(p)= -3. 364 +0.804 sex +0. 520 ecg +0. 0564 age)第17页/共29页第十七页,共30页。15.2 Probit回归(hugu)的案例分析 例2:某公司在不同营业所(网上、货架、店铺)采用了不同的促销(c xio)价格,请使用probit回归对不同促销(c xio)价格和对促销(c xio)有反馈的顾客数量之间的关系进行分析,并拟合响应模型。数据文件为:“促销(c xio)效果评价数据.sav”第18页/共29页第十八页,共30页。 协变量和三个截距项对方程的作用都有显著(xinzh

18、)意义显著显著(xinzh)!由此可得对三种由此可得对三种(sn zhn)营业场所的营业场所的probit回归方程:回归方程:网上:网上:probit(p)=-7.219+1.88*ln(促销价格促销价格)货架:货架:probit(p)=-7.613+1.88*ln(促销价格促销价格)店铺:店铺:probit(p)=-7.982+1.88*ln(促销价格促销价格)第19页/共29页第十九页,共30页。 自然响应率估计值:在没有促销活动的情况下,总顾客(gk)中仍会有4.1%的人购买产品。模型拟合非常好,模型拟合非常好,因素变量各分组的因素变量各分组的回归方程具有相同回归方程具有相同(xin t

19、n)的斜率,的斜率,满足平行性假设条满足平行性假设条件件第20页/共29页第二十页,共30页。置信区间表:显示的是制定销售地点的相应概率。响应概率probit=0.5时,促销价格半数响应估计值:网上为46.518,货架(hu ji)为57.905,店铺69.8,可见网上促销最有效刺激刺激(cj)强度强度反应反应(fnyng)比例比例第21页/共29页第二十一页,共30页。 相对中位数强度估计值,即相对半数效应表。以第一行为例说明:第一行为网上促销(地点取值为1)对货架促销(地点取值为2 )的相对半数效应,网上与货架半数效应比值的估计值为0.803,且其95%的直线区间不包含(bohn)1,说明

20、两者是有明显区别的,也就是说网上促销更有效,因为它能以较小的促销价格促使50%的顾客购买产品(即达到50%的响应率。)第22页/共29页第二十二页,共30页。响应概率与对数促销价格呈明显的现响应概率与对数促销价格呈明显的现行趋势,说明对促销价格选择自然对行趋势,说明对促销价格选择自然对数转换是比较合适的。如果数转换是比较合适的。如果(rgu)不呈现明显线性趋势,可以尝试其他不呈现明显线性趋势,可以尝试其他转换方法分析。转换方法分析。网上促销的网上促销的probit普遍大于其他普遍大于其他(qt)两种方式两种方式第23页/共29页第二十三页,共30页。)*0.18206.04171.405070

21、88. 0708.23()1(INCOMESEXINCOMEAGESEXXYP第24页/共29页第二十四页,共30页。序号序号性别性别年龄年龄(岁)(岁)月收入月收入(千元)(千元)序号序号性别性别年龄年龄(岁)(岁)月收入月收入(千元)(千元)1 10 018183.853.850 015151 120204.004.000 02 20 021214.204.200 016161 125254.204.200 03 30 023233.853.851 117171 127274.304.300 04 40 023233.953.951 118181 128284.504.500 05 50

22、028284.204.201 119191 130303.953.951 16 60 031313.853.850 020201 132324.004.000 07 70 036364.504.501 121211 133334.804.800 08 80 042424.004.001 122221 133334.004.000 09 90 046463.953.951 123231 138384.204.200 010100 048484.204.200 024241 141414.504.500 011110 055554.804.801 125251 145454.804.801 112120 056565.105.101 126261 148484.004.000 013130 058584.804.801 127271 152524.504.501 114141 118183.853.850 028281

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论