信息分析与决策Chapert4-5 回归分析3-3.ppt_第1页
信息分析与决策Chapert4-5 回归分析3-3.ppt_第2页
信息分析与决策Chapert4-5 回归分析3-3.ppt_第3页
信息分析与决策Chapert4-5 回归分析3-3.ppt_第4页
信息分析与决策Chapert4-5 回归分析3-3.ppt_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章样本数据的统计分析,回归分析3/3,非线性回归分析法,信息分析研究中,很多情况下,研究对象与影响因素之间并不存在线性关系,而呈现出其他的曲线趋势。例如,人口增长与当前人口数的关系,婴儿的体重与年龄的关系等。,非线性回归分析法,对于非线性关系无法直接建立线性回归模型解决。但对某些非线性关系可以通过适当的变换将非线性的回归问题转换为线性回归问题,从而可以利用线性回归方法来分析研究问题。,非线性回归分析法,例如:y=b0+b1x+b2x2令x1=x2,则上式转换为y=b0+b1x+b2x1即可采用线性回归来分析。在回归分析中仍利用最小二乘法来计算线性化后的线性回归方程;同时得到回归方程的系数和相应的显著性分析结果。,非线性回归分析法,非线性回归分析法,非线性回归分析法,非线性回归分析法,SPSS的曲线参数估计基本方法SPSS的曲线参数估计过程中提供了11种可选择的回归方程模型,所以在分析之前,可以利用散点图等图形工具对数据点的趋势进行观察,然后决定利用何种形式的回归函数进行更拟合。,非线性回归分析法,Command:AnalyzeRegressionCurveEstimation,Variable:普通变量作为因变量,系统默认Time:时间序列变量,曲线估计模型,非线性回归分析法,Models:Linear线性模型方程y=b0+b1tt为自变量或时间变量,系统默认项2)Inverse倒数曲线模型y=b0+b1/t3)Quadratic二次曲线模型y=b0+b1t+b2t2,非线性回归分析法,4)Cubic三次曲线模型y=b0+b1t+b2t2+b3t35)Power幂函数模型y=b0tb16)Compound复合曲线模型y=b0(b1)t7)Growth增长曲线模型y=eb0+b1t8)Exponential指数曲线模型y=b0eb1t9),非线性回归分析法,显示方差分析表,方程包含常数项,绘制曲线拟合图,非线性回归分析法,非线性回归分析案例Ex1.金属强度测试的回归分析问题:在不同温度下,对金属的强度进行了8次测试,数据如下:,利用曲线参数估计法分析X和Y的关系,非线性回归分析法,Data:curve_estimation.savStep-1:制作数据的散点图GraphsScatter/Dot选择“SimpleScatterplot”,非线性回归分析法,显示了温度X与强度Y之间的散点图。观察X和Y之间大致呈现出指数函数的图形。若对变量之间的关系不是很明确,我们可以尝试种函数模型,我们选择“Linear”“Cubic”“Exponential”,非线性回归分析法,Step-2:AnalyzeRegressionCurveEstimation,Models选择“Linear”“Exponential”“Cubic”,非线性回归分析法,Step-3:结果分析1)ModelDescription模型描述,给出模型的一些基本信息,非线性回归分析法,2)线性(Linear)模型的主要结果,判定系数0.674,F统计值12.391,对应p=0.0130.05表明在5%的显著性水平上,整体模型的拟合效果可接受。,非线性回归分析法,2)线性(Linear)模型的主要结果,系数的t检验值分别为-3.520(温度)和4.982(常数项),对应p=0.013,0.0020.05,表明在5%的显著性水平上,对应系数与0有显著性差异,线性模型为Y=0.7190.002X。,非线性回归分析法,2)三次曲线模型(Cubic)模型的主要结果,判定系数0.993,F统计值186.302,对应p=0.000.05表明在5%的显著性水平上,整体模型的拟合效果很理想。,非线性回归分析法,2)三次曲线模型(Cubic)模型的主要结果,系数的t检验值对应p=0.000,0.002,0.0000.05,表明在5%的显著性水平上,对应系数与0有显著性差异,三次曲线模型为Y=1.4850.012X+3.41*10-5X2-3.1*10-8X3。,非线性回归分析法,2)指数曲线模型(Exponential)模型,判定系数0.991,F统计值760.861,对应p=0.000.05表明在5%的显著性水平上,整体模型的拟合效果很理想。,非线性回归分析法,2)指数曲线模型(Exponential)模型,系数的t检验值对应p=0.000,0.0000.05,表明在5%的显著性水平上,对应系数与0有显著性差异,指数曲线模型为Y=1.324*e-0.009X。,非线性回归分析法,3)三类模型的指标比较,表中比较可以看出,Cubic和Exponenial模型有较好的表现,指数模型的解释量(F值)高达760.861。线性模型的拟合的表现不佳。,非线性回归分析法,3)拟合曲线图,虽然三次曲线方程和指数曲线方程都有较好的拟合效果。但最终选择依然要依据实际规律。本例中,从专业常识中知道,强度随温度的增加而递减,三次曲线模型有悖于这一规律。因此指数模型是最佳的选择。,二项Logistic回归,概述一般形式的多元回归要求因变量为连续的定距型变量。但实际应用中,有很多情况下无法满足上述要求。例如,对小汽车消费群体特点的分析和预测研究中,回归模型的被解释变量为购买与否的决策,即“是否购买”(1-购买,0-不购买),这是一个存粹的二值品质型变量。,二项Logistic回归,当被解释变量为0/1二值型变量时,建立一般的多元线性回归模型会出现以下问题:残差不满足E()=0且Var()=常数的假设条件残差不再服从正态分布被解释变量的取值区间受限(0/1取值,一般回归方程的取值区间为-,二项Logistic回归,当解释变量为0/1品质变量时,无法直接采用一般的多元线性回归模型建模,通常应采用Logistic回归模型。Logistic回归示多元线性回归方法不断发展的成果。,二项Logistic回归,二项Logistic回归模型Step-1:利用一般线性多元回归模型,对被解释变量取值为1的概率p进行建模,p的取值为0,1,即py=1=b0+bixi,二项Logistic回归,二项Logistic回归模型Step-2:将p转化为=p/(1-p).称为发生比或相对风险,是事件发生的概率与不发生的概率之比。发生比与p增长一致,且取值范围在(0,+)之间。,二项Logistic回归,二项Logistic回归,二项Logstic回归方程的检验回归方程的显著性检验目的-检验解释变量全体与LogitP的线性关系是否显著,是否可用线性模型拟合。检验-H0:各回归系数系数同时为0,解释变量全体与LogitP的线性关系不显著。统计量-似然比卡方值,二项Logistic回归,回归系数,回归系数的标准误差,二项Logistic回归,回归系数的显著性检验观察解释变量的Waldi观测值及对应的概率值p若p,则认解释变量的回归系数与0有显著差异,该解释变量与LogitP之间的线性关系显著。否则,该解释变量与LogitP之间的线性关系不显著,不应保留在方程中。,二项Logistic回归,回归方程的拟合优度检验Logistic回归分析中,拟合优度从两方面考察。1)回归方程能够解释被解释变量的程度。同一般意义下的回归方程的拟合优度检验。2)由回归方程计算出的预测值与实际值之间吻合的程度,即方程的总体错判率是低还是高。错判率低,拟合度高,反之拟合度低。,二项Logistic回归,拟合优度常用的统计量指标Cox&SnellR2统计量,类似于R2,是方程对被解释变量变差解释程度的反映。NagelkerkeR2统计量,0-1之间。越接近于1,说明方程的拟合优度越高。-2Loglikelihood,-2倍的对数似然函数值,该值越小,模型的拟合优度越高。,二项Logistic回归,拟合优度常用的统计量指标错判矩阵。通过矩阵表格的形式展现预测值与实际观测值的吻合程度。正确率越高意味着模型越好。,二项Logistic回归,拟合优度常用的统计量指标Hosmer-Lemeshow统计量当解释变量较多且多为定距变量时,常使用的统计量。该统计量的思想是,通过Logistic回归模型计算出解释变量取一定值时被解释变量为1的概率。实际为1的样本有较高的预测概率值,实际为0的概率有较低的预测概率值。,二项Logistic回归,SPSS根据预测概率值的大小将样本分组(通常为10组或近似10组),对应分组列出被解释变量的实际观测频数,并计算该列联表的卡方统计量,即Hosmer-Lemeshow统计量,服从n-2个自由度的卡方分布。当统计量的概率值小于显著性水平时,拒绝H0假设(实际观测频数的分布与期望频数的分布各自独立),各组的划分与被解释变量的实际取值相关,意味着模型的拟合优度高。反之,拟合优度低。,二项Logistic回归,二项Logistic回归中的虚拟变量品质型变量的取值是非定距的,通常不能象定距变量那样直接作为解释变量进入回归模型,一般需要将其转换为虚拟变量(DummyVariable)后再参与回归分析。Ex:性别(男/女),可设定变量x(1-男,0-女),即对于一个具有两分类的品质变量,设置一个虚拟变量就可完全识别样本的取值。,二项Logistic回归,Ex:为研究和预测商品消费特点和趋势,收集了一组消费数据。采用Logistic回归方法分析消费购买决策的主要因素。Data:相关回归分析(消费行为logistic回归)Command:AnalyzeRegressionBinaryLogistic,二项Logistic回归,被解释变量:是否购买purchase解释变量:AgeIncomeGender回归策略:Enter,二项Logistic回归,对品质型变量生成虚拟变量Command:CategoricalCovariates,Indicator表示以某个特定的类为参照类。,二项Logistic回归,设定输出的统计项,二项Logistic回归,Income生成了两个虚拟变量Income(1)和Income(2),分别表示是否中收入(01)和是否高收入(00),低收入(10)。对性别生成了一个虚拟变量Gender(1),取值为1时,表示男。,二项Logistic回归,显示了Logistic分析初始阶段方程中只有常数项时的错判矩阵。269人实际没购买且模型预测正确,正确率100%;162人购买了但模型预测错误,正确率0%。模型总预测正确率62.4%。,二项Logistic回归,显示了方程中只有常数项时回归系数方面的指标。分别是回归系数,回归系数标准差,Wald检验统计量,自由度,统计量对应的概率值及发生比。该模型中不含任何解释变量,因此无意义。,二项Logistic回归,显示了待进入方程的各个变量的情况。检验统计量的观察值为Score,若其对应的概率值大于显著水平a,则该变量不能进入方程。Age和Income(1),Income(2)都不能进入模型。但因为是Enter策略,因此这些变量强行进入。,二项Logistic回归,Logistic分析第一步时,回归方程显著性检验的总体情况。分别对应似然比卡方的观测值,自由度及对应概率值.本步所有的变量都进入了方程(Enter策略),与前一步(只有常数项)相比,似然比卡方的检验的观测值为18.441,概率为0.0010.05.不能拒绝H0,即认为组的划分与被解释变量的取值不相关。模型的拟合优度低。与前面的指标的结论一致。,二项Logistic回归,逐步分析过程中各模型的错判矩阵,Step1模型的总体正确率62.4%,对不购买人群的预测的准确率为100%,但对购买人群的预测准确率极低。Step2模型,对不购买人群的预测准确率降低了83.6%,但购买人群的准确率提高到22.2%,总体准确率为60.6%。从应用的角度看Step2模型应用性略强,但整体预测效果并不理想。,二项Logistic回归,解释变量的筛选过程和各解释变量的回归系数检验结果。,最终模型中包含了性别Gender和收入变量Income。Wald统计量及对应概率值均小于0.05,所有变量通过检验,即它们与LogitP的线性关系显著,应保留在模型中。,二项Logistic回归,虽然模型可行,模型的预测效果并不十分理想。也就是说仅通过Gender和Income来预测是否购买该商品是不全面的,应该还需考虑到其他因素.尽管如此,该模型仍可以用来分析是否购买的决策与性别和收入之间的关系。,二项Logistic回归,列出以下Logistic回归方程:LogitP=0.152-0.504gender(1)LogitP=0.152-0.504gender(1)-0.761income(1)LogitP=0.152-0.504gender(1)0.664income(2),二项Logistic回归,LogitP=0.152-0.504gender(1),公式1反映了女性与男性在购买上的差异。男性较女性使LogitP平均降低0.504个单位,结合发生比看出,男性购买发生比是女性的0.604倍,反过来女性购买发生比是男性的1/0.604=1.66倍,因此女性更倾向购买该商品。,二项Logistic回归,LogitP=0.152-0.504gender(1)-0.761income(1),公式2可看出收入情况对该商品购买决策的影响。低收入者(10)较之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论