




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2019/4/4,1,第七章 回归分析,2019/4/4,2,7.1 线性回归分析 一、一元线性回归 1、一元线性回归模型 一元线性回归模型是两个变量之间的关系可通过有关的参数直接用直线关系来表达,其模型是 yi=a+bxi+i yi:y在总体中的某一个具体的观测值 xi :在研究总体中相应的另一个变量的x的具体观测值 a与b:分别称为回归常数和回归系数 i:是一个随机变量,其均值o,方差为2。,2019/4/4,3,2、一元线性回归模型假设 1)xi为自变量,是预先确定的,因而是一个非随机变量。它没有误差 尽管在实际观测中也可能产生观测误差,但其假设可忽略不计。 2) 当确定某一个xi值时,相应的y就有许多yi与之对应。 yi是一个随机变量,这些yi构成了一个在x取值为xi条件下的条件分布,并假设其服从正态分布。 3)所有的i与j之间是相互独立的。 3、一元线性回归模型的检验 1)残差图的评价 2)技术指标的检查 对样本回归系数a、b的检验 方差分析 r2确定系数,i,2019/4/4,4,二、 多元线性回归 1、多元线性回归模型 多元线性回归模型是两个以上变量的回归问题。其模型是 yi=a+b1x1j+ b2 x2j+ i 2、多元线性回归模型假设 1)xi可以是任意确定的变量,也可以是有意选定的变量。它作为自变量来解释因变量y变动的原因,因此也称为解释变量。 尽管在实际观测中也可能产生观测误差,但其假设可忽略不计。 2)对于每一个i,i都是正态独立分布,其均值0,方差为方差为2。 3)每个因变量之间是相互独立的。 4)因变量和正变量之间的关系是线性的。,2019/4/4,5,3、多元线性回归模型的评价 1)残差图的评价 2)技术指标的检查 对样本回归系数的检验 方差分析 偏回归系数的显著性检验 残差的正态型检验 三、 建立回归方程 1、输入数据后,依次单击analyseregressionlinear打开linear regression对话框。如图7-1,2019/4/4,6,图7-1 linear regression对话框,选入数值型变量作为因变量,选入一个或多个数值型变量作为自变量,采用不同的自变量、因变量可建立不同的回归模型,可将使用的自变量、因变量和回归方法储存在以序号排列的模板中,按previous 和next按钮,随时调用。,为默认选项,所有所选自变量都进入回归模型 如果f统计量充分小,在每一步考虑所有不在回归方程中的自变量,将使方程具有最小的f统计量值的变量加入这个方程。 如果f统计量变的比较大,则将回归方程中刚加入的变量删除。按此法操作,直到回归模型中无变量可被删除且无再加变量止, 在建回归模型前设定一定条件,建之时,根据条件删除自变量。 为一种变量选择方法。先让所有的自变量进入回归方程中,再逐一删除。 也为变量选择方法。与上一种相反,逐一的让自变量进入方程。,见图7- 2,选择观测量标签,选择权重的变量进入,见图7- 6,见图7- 3,见图7- 5,见图7- 4,2019/4/4,7,如图7-2 set rule 对话框,在对话框中设定运算式和观测值,共有6个选项:equal to等于、 not equal to不等于、less than 小于、less than or equal to小于或等于、greater than 大于、greater than or equal to大于或等于。 单击,在主对话框源变量框中选择观测量标签,输出复相关系数r等,输出anova表。 从模型中添加或删除自变量时复相关系数r的平方的变动大小。 显示变量的均值、标准差和单侧检验水平显著性矩阵 输出零阶相关系数、部分相关系数、偏相关系数。 输出每个变量的容限及诊断共线性统计。,输出相关残差的durbin-watson统计量、残差和预测值的统计量 输出满足选择条件的观测量诊断表 设置奇异值的判断条件 输出所有有关测量的残差值,选择回归系数: 输出有关回归系数及其相关测量 输出回归系数的95%的置信区间 输出协方差和相关矩阵。,图7-3 statistics 对话框,2019/4/4,8,图7-4 plots 对话框,x轴和y轴中有一个是源变量 标准化的预测值 标准化的残差 删除的残差 修正后的预测值。 用户的残差 用户的删除的残差,输出带有正态曲线的标准化残差的直方图。 输出标准化残差的正态概率图。 对每一个自变量,会产生一个自变量与因变量残差的散点图。,2019/4/4,9,图7-5 saxe 对话框,保存模型对因变量的预测值 保存标准化的预测值。 当一个观测值未进入回归模型时,保存对这个观测值的预测值 保存预测值的标准差。,当mahalanobis距离对一个或某些自变量有极值时,就保存这个观测值。 当从回归模型中排除一个观测时,对所有进入模型的观测的残差变动的测度。 杠杆值测量一个点对于回归直线的影响。,保存对平均response的预测区间的上下界。 保存一个观测量的预测区间的上下界。 当选择了上述任一项后,选定置信区间,默认为95%。,保存模型的观测值和预测值之间的差别。 保存标准化的残差。 保存用户的残差。 保存被排除进入相关系数计算的观测量的残差。 保存用户化的被删除的残差。,由于消除一个观测值而引起的相关系数的变化值。 相关系数的变化值的标准化。 由于消除一个观测值而引起的预测值的变化。 预测值的变化的标准化。 消除一个观测值后的协方差矩阵的模与未消除之前的协方差矩阵的模之比。 后的而引起的相关系数的变化值。,如选中coefficients statistics,可将回归系数的结果保存到文件中。,2019/4/4,10,图7-6 options 对话框,如一个变量的f统计量的p值是小于entry值的,这个变量就进入模型。如一个变量的f统计量的p值是大于removal值的,这个变量就从模型中删除。 entry值必须小于removal值且都为正。如想模型中有更多的变量就提高entry值;如想模型中减少变量就减少removal值。 同上,选择此项不显示回归方程中常数项。,在任何分析项中都排除那些有缺省值的观测量。 变量配对计算某些统计量时,排除那些有缺省值的观测量。 用变量均值替换缺省值。,2019/4/4,11,三、实例 1、模型背景说明 模型考虑某种水泥在凝固时放出的热量(卡/克)y与水泥中的下列四种化学成分所占的百分比有关: x1:3caoal2o3 x2:3caosio2 x3:4caoal2o3 fe2o3 x4:2cao sio2 测试的数据如表7 在此表的基础上试图建立起最优的经验回归函数。 数据文件:水泥(回归).sav,2019/4/4,12,表71 测得的数据,2019/4/4,13,2、观察自变量和因变量之间是否有线性关系 推广做出散点图,可以观察自变量和因变量之间是否有线性关系,其步骤: 1)建立数据文件 2)按graphs scatter 出现scatterplot对话框,选择 simple,打开simple scatterplot对话框。,图7-6 simple scatterplot 对话框,2019/4/4,14,从散点图可看出,水泥凝固时的散热量与第一种化学成分有明显的正线性相关。当化学成分x1的含量增加时,水泥凝固时的散热量增加;减少时,散热量也相应减少。 通过检验,发现x1、 x2与水泥凝固时的散热量为正相关,而x3、 x4与水泥凝固时的散热量为负相关。,图7-6 回归散点图,2019/4/4,15,3、建立回归模型,1)按analyze regression linear,打开linear regression 对话框。 2)将y选入 dependent框中,将选入 x1、x2、x3、x4 independent(s)框中。 在method 对话框中选择stepwise作为回归方式。 在save对话框中选择mahalanobis、cooks、leverage values复选项。 在plot 对话框中选择变量zpred 和zresid来做散点图,以判断模型是否服从线性相关的假设。 3)单击ok,4、回归结果分析,2019/4/4,16,variables entered/removed,a.dependent variable: y,列出回归方程模型的编号,显示那些变量在哪一步进入了回归方程,显示变量进入模型和从模型中被删除采用了何种方法,显示那些变量在哪一步从模型中删除了,表的纵轴则表示表示每一步的状态,即变量被加入还是被删除。,表中第二列:最后进入回归方程的变量为x4、x1,而变量x2、x3均没有进入方程。变量进入的标准为y的f统计量的p值小于或等于0.05,大于或等于0.05则被删除。,表72 变量的删除与进入表,2019/4/4,17,表723 回归模型的一般性统计量表,表中第一列:列出了回归方程模型的编号;第二列表示回归方程的复相关系数;第三列为回归方程的复相关系数的平方;第四列表示调整了的复相关系数的平方。第五列为预测值的标准差。 从表中可看出,随着自变量个数的增加,复相关系数及其平方相应增加,这表明回归效果是越来越好。还可看出,预测值的标准差越来越来小,这也正表明回归方程越来越符合观测情况。,a.predictors(constant),x4 b.predictors(constant),x4,x1 c.dependent variable:y,2019/4/4,18,表中第一列为回归方程模型的编号;第二列列出了回归的平方和;第三列为回归的自由度;第四列为均值平方;第五列为f值;第六列为统计量大于f值的概率。 从表中可看出,当只有变量x4进入回归方程时,自变量与因变量之间完全无线性关系的概率为0.001 ;当x1也进入方程之后,自变量与因变量之间完全无线性关系的概率为0.000,这表明拒绝假设;所有的回归因子的系数为0。,表74 方差分析表,a.predictors(constant),x4 b.predictors(constant),x4,x1 c.dependent variable:y,2019/4/4,19,a.dependent variable:y,表75回归方程的回归系数分,表中b为b偏回归系数; std.error 为偏回归系数的标准差。 beta为标准化的偏回归系数;t 为假设偏回归系数为0的t统计量;sig为假设偏回归系数为0的假设检验的显著性水平值。 第一列为y=117.513-0.735x4,表示水泥凝固时的散热量与第四种化学成分是负线性关系,即当第四种化学成分的含量越高,则水泥的散热量越小.这个回归方程的常数项为0的假设检验的显著性水平值为0.000,而x4也为0.001,都不显著。,2019/4/4,20,第二列为y=102.846+1.402x1-0.594x4,表示水泥凝固时的散热量多少与第一种化学成分是正线性相关的,而与第四种化学成分是负线性相关的。此时的回归方程的常数项为0的假设检验的显著性水平值为0.000,而x4也为0.000,都不显著。 从分析中可看出,当进入回归模型的自变量增加时,导致因变量变动的因子增加时,来源于某一个因子的作用将会变小。这表明因变量变动的原因归到更多的因子,这更符合实际现象。偏回归系数的标准差也随着进入模型的自变量的增加而变小。这也表明了回归模型越来越接近真实情况。,2019/4/4,21,a.predictors in the model:(constant),x4 b.predictors in the model:(constant),x4,x1 c.dependent variable:y,表76 排除在回归模型之外的变量表,从表中可看出,被回归模型排除的变量x2时因为存在共线性问题,它的共线性容忍度的值为6.918e-02,故而排除了此变量。而相对于变量变量x3而言,因为回归系数为0的假设检验的显著性水平值为0.039,故而排除了此变量。从表中还可看出,变量x2与y呈负线性相关,变量x3与呈正线性相关。,2019/4/4,22,表76 残差统计量表,从残差统计量中描绘了残差一些基本统计量的情况,在此表中还存在mahalanobis距离、cooks距离和leverage values,从这些值中可以判断观察数据中是否有影响点。,2019/4/4,23,从散点图中可看到,预测值分布在-2与1.5之间,预测值与学生化残差值不存在明显的关系,所以我们可以断定回归方程满足线性与方差齐次的假设。,图7-7 回归散点图,2019/4/4,24,7.2 曲线回归,一、曲线回归简介 1、spss系统提供下列的回归曲线方程: linear形式 y=b0+b1x quadratic形式,拟合二次方程:y=b0+b1x+b2x2 compound形式,拟合复合曲线模型: growth形式,拟合等比级数曲线模型: logarithmic形式,拟合对数方程: y=b0+b1ln(x) cubic形式,拟合三次方程:y=b0+b1x+b2x2 +b3x3 s形式,拟合s形曲线: exponential形式,拟合指数方程: y=b0 eb1x inverse形式: y=b0+b1/x power形式,拟合乘幂曲线模型: y=b0 xb1 logistic形式,拟合logistic曲线模型:,2019/4/4,25,二、实例分析 1、模型背景说明(数据文件:金田白菜(曲线回归).sav) 表7-7中的数据“金田”种白菜每隔一星期子叶增加的高度,表7-7 “金田”种白菜每隔一星期子叶增加的高度,2019/4/4,26,2、观察自变量和因变量之间有何曲线关系 通过做出散点图,观察自变量和因变量之间有何曲线关系,再选用合适的曲线方程来拟合。此时因变量为首次观测后的星期数,而自变量为子叶增加的高度,做散点图的步骤:,1)将数据输入spss系统中。 2)按graphsscattersimple,打开simple scatterplot 对话框。 2)将y选入y axis框中,将x选入 x axis 框中。单击ok。 散点图如图78,2019/4/4,27,图7-6 回归散点图,从散点图可看出,因变量与自变量之间大致可用对数曲线来描述,选定要采用的曲线类型后,即可开始对曲线进行分析。,2019/4/4,28,3、建立回归模型,1)按analyze regression curve estimation,打开对话框。如图7-7。,对每一选定的模型给出方差分析表,在回归方程中将计算常数项。,对输出每一个选定的自变量和模型及因变量的散点图。,见图78,图7-7 curve estimation对话框,2019/4/4,29,图78 save 对话框,保存因变量的预测值。 保存残差值。 保存预测区间的上下界。 在下拉框中选择预测区间的置信区间。,依据估计周期的观测,对每一个观测值都给出预测值。 如选次项,则需输入自己所希望通过它们来预测值的观测数。此能用于时间序列中来预测值。只能以时间为自变量才可选此选项。,估计周期,2)将y选入 dependent框中,将选入 independent(s)框中。,2019/4/4,30,3)在method 对话框中选择logarithmic、quadratic、 cubic选项。 4)选中“display anova table”、“ include constant in equation”、 “plot models”复选项 5)打开save对话框,选择“predicted value”、”residuals”、和 “prediction intervals” 复选项。 6)单击ok,开始分析。,4、回归结果分析,2019/4/4,31,7-8 logarithmic回归分析结果,1、dependent variable y method logarith listwise deletion of missing data 2、multiple r .95773 r square .91724 adjusted r square .89655 standard error 1.37747 3、 analysis of variance: df sum of squares mean square regression 1 84.118693 84.118693 residuals 4 7.589640 1.897410 f = 44.33343 signif f = .0026 4、- variables in the equation - variable b se b beta t sig t x 8.811500 1.323379 .957727 6.658 .0026 (constant) -.936576 1.962626 -.477 .6581,表7-8: 在1中,回归模型的因变量为y,采用模型为logarithmic。2中列出了常用的复相关系数、复相关系数的平方、修正了的复相关系数的平方和标准差等统计量值。3中列出了方差分析的结果、其f统计量值为44.33343,f值的显著水平为0.0026,故而回归方程有统计意义。4中列出了所得到的回归方程,回归方程为y=-0.94+1.96ln(x),2019/4/4,32,7-9 quadratic 回归分析结果,1、dependent variable y method quadrati listwise deletion of missing data 2、multiple r .99695 r square .99391 adjusted r square .98984 standard error .43164 3 analysis of variance: df sum of squares mean square regression 2 91.149405 45.574702 residuals 3 .558929 .186310 f = 244.61821 signif f = .0005 4、- variables in the equation - variable b se b beta t sig t x .905357 .644105 .395489 1.406 .2545 x*2 .151786 .070643 .604551 2.149 .1209 (constant) 3.992857 1.321358 3.022 .0567,表7-9的1中,回归模型的因变量为y,采用模型为quadratic 。2中列出了常用的复相关系数、复相关系数的平方、修正了的复相关系数的平方和标准差等统计量值。3中列出了方差分析的结果、其f统计量值为244.61821,f值的显著水平为0.0005,故而回归方程有统计意义。4中列出了所得到的回归方程, 回归方程为y=3.99+0.91x+0.15x2,2019/4/4,33,7-10 cubic 回归分析结果,1、dependent variable y method cubic listwise deletion of missing data 2、multiple r .99787 r square .99574 adjusted r square .98934 standard error .44208 3、 analysis of variance: df sum of squares mean square regression 3 91.317460 30.439153 residuals 2 .390873 .195437 f = 155.74958 signif f = .0064 4、- variables in the equation - variable b se b beta t sig t x -1.931217 3.129264 -.843618 -.617 .6000 x*2 .839286 .744916 3.342813 1.127 .3769 x*3 -.050926 .054918 -1.528703 -.927 .4517 (constant) 7.476190 3.992748 1.872 .2020,表7-10的1中,回归模型的因变量为y,采用模型为cubic 。2中列出了常用的复相关系数、复相关系数的平方、修正了的复相关系数的平方和标准差等统计量值。3中列出了方差分析的结果、其f统计量值为155.74958,f值的显著水平为0.0064,故而回归方程有统计意义。在4中列出了所得到的回归方程,回归方程为y=7.47-1.93x+0.84x2-0.05x3,2019/4/4,34,图79 各种模型的拟合比较图,在各种模型的拟合比较图中对比了不同的回归方法回归的效果。从图中可看出,logarithimc 回归与quadratic和 cubic回归的拟合效果有一些差别, 且较接近实际观测。,2019/4/4,35,7.3 二维logistic 回归,一、简介 当知道了一系列预测变量的值,想预测某一特性是否存在,及预测某一结果是否发生,就需要使用logisyic 回归。它类似于线性回归模型,但更适合于因变量的值是二值变量的情况。 logisyic 回归系数能够用于预测模型中的自变量之间的比值。 二、分析步骤 1、单击analyzeregression binary logistic ,打开logistic regression 对话框,如图710,2019/4/4,36,图710 logistic regression对话框,选择二值变量为因变量进入。,至少选择一个变量作为协变量进入,可选择多个协变量。,enter:除检查容忍度外,无其他进入标准,所选变量全进入回归方程。 forward:conditional,让变量以步进的方式进入回归方程。其进入的标准是分值统计量的显著水平,从回归方程中删除变量的标准是条件参数估计的拟然比统计量。 forward:lr,让变量以步进的方式进入回归方程。其进入的标准是分值统计量的显著水平,从回归方程中删除变量的标准是极大偏拟然估计的拟然比统计量概率。 forward wald,让变量以步进的方式进入回归方程。其进入的标准是分值统计量的显著水平,从回归方程中删除变量的标准是是wald统计量的概率。 backward: conditional,先让所有的变量都进入回归方程,然后再删除,删除的标准是条件参数估计的拟然比统计量概率。 backward:lr,先让所有的变量都进入回归方程,然后再删除,删除的标准是极大偏拟然估计的拟然比统计量概率。 backward: ward先让所有的变量都进入回归方程,然后再删除,删除的标准是wald统计量的概率。,见图711,见图713,见图712,见图714,2019/4/4,37,选择变量进入主对话框的selection variable框中后,然后单击rule按钮即可打开此对话框。,在框中设定参与回归分析的观测量所要满足的条件。,图711 set rule 对话框,图712 define categorical variables 对话框,选择数值型分类变量进入此框。,比较是否具有同类效应。 将预测变量的每一类都与参照类进行比较。 将预测变量的每一类都与其前面各类的平均效应进行比较。 将预测变量的每一类都与其后面各类的平均效应进行比较。 将预测变量的每一类都与其前面的一类进行比较。 将各类变量的正交多项式进行比较。 将预测变量的每一类都与整个观测相比较。,2019/4/4,38,对每一个观测保存事件发生的预测概率。 保存根据观测值所指定的预测概率所确定的群体。,保存cooks统计量的值。 保存杠杆值。 保存bata系数。,保存非标准化残差。 保存用logit度量的残差。 保存用户化的残差。 保存标准化的残差。 保存偏差值。,图713 save new variables 对话框,2019/4/4,39,图714 options 对话框,得到因变量的实际值与预测值的直方图。 得到hosmer-lemeshow拟合指数。 列出非标准化残差值、预测概率和观察群及预测群。 得到模型中的参数估计的相关系数距阵。 在每一步参数估计过程中都会得到相关系数和log拟然率。 给出指数的变动范围。,在分析的每一步都显示统计量和统计表格。 只显示最后的统计结果。,输入入口概率。如果一个变量的分值统计量概率小于入口值,则进入这个模型。 输入出口概率。如果一个变量的分值统计量概率大于入口值,则进入这个模型。,对预测概率设定一个分界点以产生分类表。,在回归模型中将会包含一个常数项。,设定最大拟然相关系数估计的迭代次数的最大值。如未到达极限点就达到最大迭代次数,就会终止迭代。,2019/4/4,40,二、实例分析(数据文件:手续(logistic回归).sav) 1、例:研究手术期输血对先天性巨结肠术后感染的关系,每一病例采集的数据为手术持续时间(分钟)、手术的失血总量、手术中的输血量和病人是否感染。数据如表表7-11,表7-11手术期输血对先天性巨结肠术后感染的关系,2019/4/4,41,2019/4/4,42,2、回归分析步骤 1)输入数据,打开logistic regression对话框。在对话框中将变量“是否感染”选入dependent(因变量)框中,将“手术时间”、“失血量”和“输血量”选入“covariates”框中。 2)在method框中选用enter方法。 3)单击按钮,打开save对话框,选中probabilities、group membership、cooks、leverage、dfbeta(s)复选项。 4)单击ok,进行分析。 3、输出结果及分析,表7-12 观测量的基本统计量表,表712给出了观测量的一些基本的统计量信息。,2019/4/4,43,表7-13 回归方程中的变量统计表,表713列出了进入模型的变量的各种统计值。因为所采用的统计方法为“enter”,故所有的变量都进入了回归方程。 从表中可看出,最后得到的病人是否感染的概率值p为:,2019/4/4,44,7.4 多维logistic 回归,一、简介 使用多维logistic 回归方法,可基于一系列预测变量的值来将项目分类。它类似于logistic 回归,但更具一般性,因变量不再限于二值变量,可为多值变量。它适合于全因素模型和一些特殊模型。参数估计是通过迭代极大似然拟合来完成的。 二、分析步骤 1、单击analyzeregression multinomial logistic ,打开multinomial logistic regression 对话框,如图715,2019/4/4,45,图715 multinomial logistic regression 对话框,选择多值非连续变量进入此栏作因变量。,选择字符型或有限个值,用于定义观测群的变量进入此栏。,选入连续变量进入。,见图716,见图717,见图718,见图719,2019/4/4,46,图716 model对话框,选择要采用的模型: 使用协方差和主因素的影响来说明模型。 使用包含了所有因素的主影响和因素之间的相互作用的模型。 自己定义因素和协变量的相互作用或和因素之间存在相互作用的集合。,选择custom时,此栏才有效,选择变量进入model.,现择变量进入模型的方法。,在回归模型中包含截距项。,设置描述散点值所采用的方法。,2019/4/4,47,图717 statistics 对话框,选择为chi-square统计量的拟合性定义哪一种子总体。 使用因素和协变量来定义一个子总体。 使用下面(选择此项后会激活)列表中的变量来定义一个子总体。,输出cox 和snell、 nagelkerke和 mcfadden复相关系数的平方统计量。,测试模型效应的相关系数是否显著不为0。,输出参数影响的预测值。选择此项后,还要输入置信区间。,以参数的假设分布为基础输出估计的参数的相关距阵。,以参数的假设分布为基础输出估计的参数的协方差距阵。,输出一个包含有使用相关类型和反映类别分类的观测频率和期望频率的表。,输出观测的反映和预测的反映。,输出pearson统计量和拟然率chi-square统计量,2019/4/4,48,图717 statistics 对话框,设置迭代的各种参数: 输入进行迭代的最大次数。 输入进行步进平分的最大次数。 选择确定对数拟然会聚的阀门值。 选择估计的参数会聚的阀门值。 输出每一步迭代的结果。,设置使回归稳定并预防预测偏差的阀门值。,设置检查奇异值的容忍度。,2019/4/4,49,718 save对话框,选择将模型信息输入到哪个xml文件存储。,二、实例分析 1、例:1992年,对美国三个总统侯选人(bush、perot和clinton)进行民意调查,以得知选民选择一个总统是由哪些因素所决定的。所考虑的因素有:选民的年龄、选民的年龄所在类别、选民受教育的时间长度、选民的最高学历和选民的性别。因变量为选民们选择哪一位候选人为总统。,2019/4/4,50,2、回归分析步骤 1)输入数据,打开数据文件:voter(多维回归).sav。打开multinomial logistic regression对话框。在对话框中将变量pres92选入dependent框中,将“age、educ选入“covariates”框中,其余所有变量选入factor(s)框值和。 2)打开model对话框选择系统默认状态。 3)单击statistics按钮,选中summary statistics、likelihood ratio test、 parameter estimates、asymptotic correlation of parameter estimates、 cell probabilities复选项。 4)单击criteria按钮,在criteria对话框中选择默认状态。 5)单击ok。进行分析。 3、输出结果及分析,2019/4/4,51,表715 观察量的基本统计量表,从上表可看出,有661人投票bush,有277人投票perot有907人投票clinton。在年龄的统计中,有437个投票人的年龄小于35岁,有443个投票人的年龄大于35岁而小于44岁的,有617个投票人的年龄大于44岁而小于64岁,有348个投票人的年龄大于64岁。男性选民共有804人,女性选民共有1041人。还有学历统计。,2019/4/4,52,表716 拟然测试表,在此表中给出了相关系数是否为0的拟然率检验。,2019/4/4,53,表717 参数估计表,此表中给出了各种参数估计的各种统计指标,其意义与二维logistic相同。,2019/4/4,54,7.4 ordinal 回归,一、简介 使用logistic 回归方法,可建立多维序数变量与一些因子之间的模型,这些因子可以是因素(间断变量)也可以是协变量(连续变量)。使用logistic 回归可得到频率和累积频率、对频率和累积频率的pearson残差、观测和期望概率、因变量的观测和期望累积概率、估计参数的相关距阵和协方差距阵等统计量。 二、分析步骤 1、单击analyzeregression ordinal ,打开ordinal regression 对话框,如图719,2019/4/4,55,图719 ordinal regression 对话框,选择多值非连续变量进入,选择字符型变量或者有限个用于定义观测群的间断型变量进入,选择连续型变量进入,见图7-21,见图7-20,见图7-22,见图7-23,2019/4/4,56,图720 options对话框,设置迭代的各种参数: 输入进行迭代的最大次数。 输入进行步进平分的最大次数。 选择确定对似然率会聚的阀门值 选择估计的参数会聚的阀门值。,设置置信区间。,设置使回归稳定及预防预测偏差的阀门值。,设置检查奇异值的容忍度的值。,为ordinal回归模型选择一个用于转换累积概率的连接函数。,2019/4/4,57,图721 output 对话框,输出输出每一步迭代的结果。在框中可设置每多少步输出一次迭代结果。 输出pearson统计量和似然率chi-square统计量。 输出cox和snell、nagelkerke和mcfadden复相关系数的平方统计量。 输出参数影响的预测值。 输出以参数的假设分布为基础的估计参数的相关矩阵。 输出以参数的假设分布为基础的估计参数的协方差矩阵。 输出一个包含有使用相关类型和反映类别分类的观测频率和期望频率的表。 进行所有类别的自变量的斜率是否相等的测试。,生成一些新变量。每一个新变量都对应一个输出类别,每一个新变量都包含此类别估计的响应概率。 保存预测群体的每一个成员。 保存每一个观测在预测群体之中的概率。 保存每一个观测在实际观测群体之中的估计概率。,输出包含多维常量的log似然率值。给出实际的log似然率值。 输出不包含多维常量的log似然率值。不是实际的log似然率值,而是其核。,2019/4/4,58,图722 location 对话框,使用协方差和主因素的效应来说明模型。 自己定义因素和协变量的相互作用或因素之间存在相互作用的集合。,选择了custom,激活此栏: 将变量选入 选择变量进入模型的方法。,2019/4/4,59,图723 scale 对话框,列出了分类变量和连续变量,将需要的协变量和因素输入。,二、实例分析 1、例:新药comlete实验:病人服药后表现为:没有任何影响、轻度不适、重度不适、发生药物中毒等几种症状。产生这些症状的原因为两种:药物用量的多少和用药者的性别。现以病人的症状为因变量,使用药物量和病人性别为自变量进行分析。数据如表7-18,2019/4/4,60,表7-18 ordinal 回归分析实例数据表,2019/4/4,61,2、回归分析步骤 1)输入数据(数据文件:药物反映(ordinal回归).sav),打开ordinal regression对话框。在对话框中将变量“症状”选入dependent框中,将“用药量”选入“covariates”框中,将“性别”选入factor(s)框值。 2)打开output对话框,选择cell information 和covariate lines复选项。其他采用系统默认状态。 3)单击ok。进行分析。 3、输出结果及分析,表7-19观测的基本统计量表,2019/4/4,62,表7-20 参数估计表,表7-19给出了症状和性别的基本统计量,如观测数、缺失值的数量、总观测数等。,表7-20症状的估计值、标准差、wald统计量值和显著性,还给出了95%的置信区间。,2019/4/4,63,7.5 概率单位回归分析,一、简介 概率单位回归分析可以度量刺激的强度和反应的比例之间的关系。可以让用户估计为达到某一比例的反应所需的刺激强度。 此法所得到的统计量有相关系数、标准差、pearson chi-square吻合度、置信区间等。 二、分析步骤 1、单击analyzeregression probit,打开probit对话框,如图724。,2019/4/4,64,图724 probit analysis 对话框,选择响应变量进入,选择总的观测变量进入,选择因素变量进入, 激活“define range”按钮,设置分组的最大值和最小值。,选择协变量进入。设置转换模式。,不进行转 以10为底的对数进行转换。,2019/4/4,65,图725 options 对话框,对每一个观测计算实际的和期望的频率、实际的和期望的残差。 对每一分组水平计算相对中位数,对每一相对中位数计算置信区间。 进行各分组是否有相同斜率的假设检验。 计算置信区间。 设置一个阀值。,无刺激时不计算自然响应率。 使用样本数据计算自然响应率。 设置自然响应率(值不小于1)。,设置进行迭代的最大步数。 设置参数向量许可的最大变化值。 设置损失函数的近似精度。,2019/4/4,66,二、实例分析 1、例:使用不同浓度的新药能杀死不同比例的蟑螂。如何能尽可能少的使用杀蟑螂药而达到一定的杀死蟑螂的比例。数据如表7-21,表7-21 概率单位回归分析数据表,2019/4/4,67,2、回归分析步骤 1)输入数据(数据文件:蟑螂(概率单位).sav),打开probi analysis 对话框。在对话框中将变量“杀死数目”选入response frequency 栏中。将变量“蟑螂数”选入total observed 栏中。将变量“剂量”选入covariate(s)栏中。选择log base 10选项。 2)单击options按钮,选中calculate from data选项,其他设置为默认。 3)单击ok。进行分析。 3、输出结果及分析,2019/4/4,68,* * * * * * p r o b i t a n a l y s i s * * * * * * * data information 7 unweighted cases accepted. 0 cases rejected because of missing data. 0 cases are in the control group. 0 cases rejected because log-transform cant be done. model information only normal sigmoid is requested. natural response rate to be estimated control group is not provided.,表7-22 回归基本信息表,表7-22 为回归基本信息表,模型对7个观测进行了统计分析。,2019/4/4,69,* * * * * * * * * * p r o b i t a n a l y s i s * * * * * * 1、 parameter estimates converged after 14 iterations. optimal solution found. 2、parameter estimates (probit model: (probit(p) = intercept + bx): 3、 regression coeff. standard error coeff./s.e. 剂量 5.95215 2.39832 2.48180 intercept standard error intercept/s.e. -4.66313 2.19942 -2.12017 4、 estimate of natural response rate = .000000 with s.e. = .26448 pearson goodness-of-fit chi square = .833 df = 4 p = .934 since goodness-of-fit chi square is not significant, no heterogeneity factor is used in the calculation of confidence limits.,表7-23 回归模型的基本情况表,在表7-23中:1指出在进行了14步回归之后,得到了最优解。2指出了参数回归模型为: probit probit(p) = intercept + bx。3中给出了回归系数、标准差、回归系数和标准差之比,还给出了估计参数。4中给出了自然回归率的显著性为0.000000,还给出了pearson拟合优度卡方检验的显著性水平为0.833。因为拟合优度卡方检验不显著,故不使用相异性因子来计算置信区间。,2019/4/4,70,* .,表7-24 概率单位回归结果表,2019/4/4,71,表7-24前2行给出了药物剂量与死亡率的对应列表,当药物浓度为6.07 时,大约有50%的蟑螂被杀死。当药物浓度为11.48 时,大约有95%的蟑螂被杀死。 后面的2行给出了95%置信区间的上下界。,2019/4/4,72,7.6 非线性回归分析,一、简介 非线性回归分析是发现因变量和自变量之间的非线性关系的一种方法。非线性回归能够在因变量和自变量之间构造任意的模型。这个过程是通过迭代估测运算来完成的。 常用的非线性回归模型,2019/4/4,73,7-25 常用的非线性回归模型,2019/4/4,74,二、分析步骤 1、单击analyzeregression nonlinear,打开nonlinear regression 对话框,如图726,图726 nonlinear regression 对话框,选择因变量进入。,为因变量设置一个模型方程,利用计算面板和参数栏内参数设置。,见图7-27,见图7-27,见图7-27,见图7-27,2019/4/4,75,图727 loss function 对话框,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年人的居家护理
- 神经纤维瘤病病例汇报
- 公司法课件小结
- 辐射监测系统规程解读
- 科研调研工作汇报
- 2025重型设备购买协议书
- 广东省阳江市江城区2022-2023学年高三下学期高考第三次模拟考试语文试卷及答案
- 《琵琶行并序》课件
- 房屋租赁合同印花税5篇
- 知识题库-驾校岗位知识竞赛试题及答案
- 2025年电梯检验员资格考试历年真题及答案试题试卷(含解析)
- 眼整形课件教学课件
- 公司法务知识培训会课件
- 2025年药企QA人员岗位职责培训考核试题及答案
- 浙教版2025-2026学年八年级上科学第1章 对环境的察觉 单元测试卷
- 纤维素基包装生物力学性能-洞察及研究
- 工程施工队课件
- 桥梁施工技术创新路径与工程应用研究综述
- 肺结核患者护理课件
- 食管恶性肿瘤护理查房
- 2025年江苏高考地理真题(原卷版)
评论
0/150
提交评论