spss回归分析大全ppt.ppt

上传人：优*** IP属地：广东上传时间：2020-03-10 格式：PPT 页数：227 大小：9.28MB 积分：88 举报 版权申诉

已阅读5页，还剩222页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

SPSS回归分析小组成员李标祝斌宋金泽周益丰贾汪洋 2 本章内容 7 1回归分析概述7 2线性回归分析7 3曲线估计回归分析7 4罗辑回归分析7 5序数概率回归分析7 6非线性权重估计两阶最小二乘最佳尺度回归分析 3 回归分析 regressionanalysis 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型线性回归分析非线性回归分析回归分析 4 回归分析一般步骤确定回归方程中的解释变量自变量和被解释变量因变量确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测回归分析线性回归分析一元线性回归方程反应一个因变量与一个自变量之间的线性关系当直线方程Y a bx的a和b确定时即为一元回归线性方程经过相关分析后在直角坐标系中将大量数据绘制成散点图这些点不在一条直线上但可以从中找到一条合适的直线使各散点到这条直线的纵向距离之和最小这条直线就是回归直线这条直线的方程叫作直线回归方程注意一元线性回归方程与函数的直线方程有区别一元线性回归方程中的自变量X对应的是因变量Y的一个取值范围 1 一元线性回归分析的基本理论把解释变量和被解释变量的多个对应样本值组队成坐标数据对 xi yi 通过观察数据对 xi yi 的散点图如果发现y与xi之间呈现出显著的线性关系则应考虑建立y和xi的一元线性回归模型其中 y a bx y为被解释变量 a为模型的截距项 b为待估计参数 x为解释变量为随机误差项线性回归分析对于一元线性模型一般采用最小二乘估计法来估计相关的参数如和的无偏估计值和从而得到样本回归直线这样把得到的样本回归直线作为总体回归的近似是一种预测过程那要确定得到的样本回归直线是否能作为总体回归的近似就必须对回归方程的线性关系进行各种统计检验包括拟合优度检验回归方程显著性检验回归系数的显著性检验 t检验残差分析等线性回归分析回归方程的拟合优度检验相关系数检验一元线性回归的拟合优度检验采用R2统计量称为判定系数或决定系数数学定义为其中称为回归平方和 SSA 称为总离差平方和 SST R2取值在0 1之间 R2越接近于1 说明回归方程对样本数据点的拟合优度越高线性回归分析 9 多元线性回归的拟合优度检验采用统计量称为调整的判定系数或调整的决定系数数学定义为式中n p 1 n 1分别是SSE和SST的自由度其取值范围和意义与一元回归方程中的R2是相同的回归方程的拟合优度检验相关系数检验线性回归分析回归方程的显著性检验 F检验即平均的SSA 平均的SSE F统计量服从 1 n 2 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为线性关系显著一元线性回归方程显著性检验的零假设是 1 0 检验采用F统计量其数学定义为线性回归分析 11 回归方程的显著性检验 F检验多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零检验采用F统计量其数学定义为即平均的SSA 平均的SSE F统计量服从 p n p 1 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为y与x的全体的线性关系显著线性回归分析回归系数的显著性检验 t检验一元线性回归方程的回归系数显著性检验的零假设是 1 0 检验采用t统计量其数学定义为 t统计量服从n 2个自由度的t分布 SPSS将会自动计算t统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为x对y有显著贡献线性关系显著线性回归分析 13 回归系数的显著性检验 t检验多元线性回归方程的回归系数显著性检验的零假设是 i 0 检验采用t统计量其数学定义为 ti统计量服从n p 1个自由度的t分布 SPSS将会自动计算ti统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为xi对y有显著贡献应保留在线性方程中 i 1 2 p 线性回归分析残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距即它是回归模型中的估计值如果回归方程能较好地反映被解释变量的特征和变化规律那么残差序列中应不包含明显的规律性和趋势性线性回归分析残差分析均值为0的正态性分析残差均值为0的正态性分析可以通过绘制残差图进行分析如果残差均值为0 残差图中的点应在纵坐标为0的横线上下随机散落着正态性可以通过绘制标准化或学生化残差的累计概率图来分析线性回归分析 16 回归方程的统计检验残差分析独立性分析绘制残差序列的序列图以样本期或时间为横坐标残差为纵坐标如果残差随时间的推移呈规律性变化则存在一定的正或负相关性计算残差的自相关系数取值在 1到 1之间接近于 1表明序列存在正自相关性 DW Durbin Watson 检验DW取值在0至4之间直观判断标准是DW 4 残差序列完全负自相关 DW 2 完全无自相关 DW 0 完全正自相关线性回归分析 17 回归方程的统计检验残差分析异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加或减少的趋势说明出现了异方差现象线性回归分析 18 回归方程的统计检验残差分析探测样本中的异常值和强影响点对于y值标准化残差ZRE由于残差是服从均值为0的正态分布因此可以根据3 准则进行判断首先对残差进行标准化绝对值大于3对应的观察值为异常值学生化残差SRE剔除残差DRE 或剔除学生化残差SDRE 上述SRE SDRE的直观判断标准同标准化残差ZRE 19 线性回归分析 20 多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程首先选择与被解释变量具有最高线性相关系数的变量进入方程并进行各种检验其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程向后筛选策略变量不断剔除出回归方程的过程首先所有变量全部引入回归方程并检验然后在回归系数显著性检验不显著的一个或多个变量中剔除t检验值最小的变量逐步筛选策略向前筛选与向后筛选策略的综合线性回归分析 21 多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1 表示多重共线性越弱 SPSS变量多重共线性的要求不很严格只是在容忍度值太小时给出相应警告信息方差膨胀因子VIF膨胀因子是容忍度的倒数越接近于1 表示解释变量间的多重共线性越弱通常如果VIFi大于等于10 说明解释变量xi与其余解释变量之间有严重的多重共线性特征根和方差比这里的特征根是指相关系数矩阵的特征根如果最大特征根远远大于其他特征根的值则说明这些解释变量之间具有相当多的重叠信息条件指数ki10 ki 100时认为多重共线性较强 ki 100时认为多重共线性很严重线性回归分析 22 回归方程的统计检验残差分析异方差分析等级相关分析得到残差序列后首先对其取绝对值然后计算出残差和解释变量的秩最后计算Spearman等级相关系数并进行等级相关分析具体过程见相关分析相关章节线性回归分析回归分析步骤第一分析大量样本变量观测值确定变量之间的数学关系式回归方程第二分析其回归方程的可信程度区分影响显著的和影响不显著的自变量第三根据已确定的数学关系预测 y 或者控制 x 特定变量的取值并给出预测或控制的精确度线性回归分析线性回归的使用条件线性趋势即自变量与因变量的关系是线性的独立性因变量Y的取值相互独立反映在方程中即残差独立正态性即自变量的任何一个线性组合 Y应该服从正态分布反映在方程中即残差Ei服从正态分布方差齐性自变量的任何一个线性组合 Y的方差相同一元线性回归分析 2 一元线性回归分析的SPSS操作打开分析回归线性出现线性回归主对话框进行SPSS程序命令操作即对各子对话框进行设置线性回归分析 1 变量因变量被选入该文本框中的变量为线性回归模型中的被解释变量数值类型为数值型如果被解释变量为分类变量则可以用二元或者多元Logistic模型等建模分析自变量被选入该列表框中的变量为线性模型中的解释变量数值类型一般为数值型如果解释变量为分类变量或定性变量可以用虚拟变量哑变量表示如果选择多个自变量可将自变量分组成块通过上一张和下一张按钮对不同的变量子集指定不同的进入方法线性回归分析总离差平方和可分解为 2 方法用于选择线性回归中变量的进入和剔除方法来建立多个回归模型进入该方法表示自变量列表中所有的变量都进入回归模型逐步该方法是一个动态过程表示具有F统计量的概率最小的自变量被选进回归模型对于已经在回归方程中的变量如果它们的F统计量的概率变得足够大则移除这些变量直到不再有自变量符合进入或移除的条件该方法终止删除该方法表示建立回归模型前设定一定条件然后根据条件删除自变量向后该方法表示首先将自变量列表中的所有自变量选入到回归模型中然后按顺序移除最先删除与因变量之间的部分相关性最小的那个变量移除第一个变量后得到新的方程又将与因变量之间的部分相关性最小的那个变量删除直到方程中没有满足消除条件的变量过程结束向前该方法与向后恰好相反是将自变量按顺序选入到回归模型中首先选入与因变量之间具有最大相关性的满足选入条件的变量进入回归模型中然后再考虑下一个变量直到没有满足条件的变量时过程结束线性回归分析 3 选择变量该文本框主要用于指定分析个案的选择规则当回归分析中包含由选择规则定义的个案则需要进行设置线性回归设置规则子对话框用于选择关系对于分类变量可用的关系有等于和不等于对于字符串型变量可以用等于关系在值文本框中输入按具体数值或字符串选择个案的规则如在值中输入 f 则表示只有那些性别为女性的个案才能进入分析对于连续变量则可用的关系有等于不等于小于小于等于大于以及大于等于如选择不等于并在值中输入 1 表示只有那些有无线服务的个案才会包含在回归分析中线性回归分析 4 个案标签该文本框主要用于指定个案标签的变量 5 WLS权重该文本框表示加权最小二乘当判断回归模型的残差存在异方差时才选用加权最小二乘方法指定加权变量线性回归分析 6 统计量按钮设置回归系数选项组估计选择该复选框可输出回归系数标准误标准化系数beta t值以及t的双尾显著性水平置信区间误差条形图的表征选择该复选框可输出每个回归系数或协方差矩阵指定置信度的置信区间在水平框中输入范围协方差矩阵选择它可输出回归系数的方差协方差矩阵其对角线以外的协方差对角线上为方差同时还显示相关系数矩阵线性回归分析残差选项组该选项组用于指定对回归残差进行检验的方法 Durbin Watson 该复选框表示输出用于检验残差系列自相关的D W检验统计量个案诊断该复选框表示对个案进行诊断输出个案其中离群值表示输出满足条件的个案离群值标准差用于指定离群值满足几倍标准差的条件所有个案指可以输出所有个案的残差线性回归分析模型拟合度勾选该复选框则输出显示输入模型的变量和从模型删去的变量并显示以下拟合优度统计量复相关系数 R2和调整R2 估计的标准误以及方差分析表 R方变化勾选该复选框则输出由于添加或删除自变量而产生的R2统计量的更改如果与某个变量相关联的R2变化很大则意味着该变量是因变量的一个良好的预测变量描述性勾选该复选框则输出回归分析中的有效个案数均值以及每个变量的标准差同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的个案数线性回归分析部分相关和偏相关性该复选框表示输出部分相关和偏相关统计量其中部分相关指对于因变量与某个自变量当已移去模型中的其他自变量对该自变量的线性效应之后因变量与自变量之间的相关性当变量添加到方程时它与R2的更改有关偏相关指的是对于两个变量在移去由于它们与其他变量之间的相互关联引起的相关之后这两个变量之间剩余的相关性对于因变量与某个自变量当已移去模型中的其他自变量对上述两者的线性效应后这两者之间的相关性共线性诊断输出各变量的容限公差以及共线性诊断表线性回归分析 7 绘制按钮设置线性回归图对话框主要用于帮助验证正态性线性和方差相等的假设还可以检测离群值异常观察值和有影响的个案在源变量列表中列出了因变量 DEPENDNT 及以下的预测变量和残差变量标准化预测值 ZPRED 标准化残差 ZRESID 剔除残差 DRESID 调整的预测值 ADJPERD 学生化的残差 SRESID 以及学生化的已删除残差 SDRESID 线性回归分析散点1的1该选项组可以利用源变量列表中的任意两个来绘制散点图在 Y 中选入Y轴的变量 X 中选入X轴的变量单击下一张可以再绘制下一张图单击上一张可以回到刚刚设定的上一张图进行修改另外针对标准化预测值绘制标准化残差可以检验线性关系和等方差性标准化残差图该选项组用于绘制标准化残差图主要可以指定两种图直方图和正态概念图将标准化残差的分布与正态分布进行比较产生所有部分图该复选框表示当根据其余自变量分别对两个变量进行回归时显示每个自变量残差和因变量残差的散点图但是要求方程中必须至少有两个自变量线性回归分析 8 保存按钮设置线性回归保存对话框主要用于在活动数据文件中保存预测值残差和其他对于诊断有用的统计量包括预测值选项组该选项组用于保存回归模型对因变量的预测值未标准化选中该复选框表示保存回归模型对因变量的预测值标准化选中该复选框表示保存标准化后的预测值调节选中它表示保存当某个案从回归系数的计算中排除时个案的预测值均值预测值的S E 选中它表示保存预测值的标准误线性回归分析残差选项组该选项组用于保存回归模型的残差未标准化选中它表示保存观察值与模型预测值之间的原始残差标准化选中它表示保存标准化后的残差即Pearson残差学生化选中它表示保存学生化的残差即残差除以其随个案变化的标准差的估计这取决于每个个案的自变量值与自变量均值之间的距离删除选中它表示保存当某个案从回归系数的计算中排除时该个案的残差它是因变量的值和调整预测值之间的差学生化已删除选中它表示保存学生化的删除残差即个案的剔除残差除以其标准误线性回归分析距离选项组该选项组用于标识自变量的值具有异常组合的个案以及可能对回归模型产生很大影响的个案的测量 Mahalanobis距离表示自变量中个案的值与所有个案的平均值相异程度的测量大的Mahalanobis距离表示个案在一个或多个自变量上具有极值 Cook距离选中它表示保存Cook距离值较大的Cook距离表明从回归统计量的计算中排除个案之后系数会发生很大变化杠杆值选择它表示保存杠杆值杠杆值是度量某个点对回归拟合的影响范围从0到 N 1 N 其中0表示对回归拟合无影响线性回归分析影响统计量选项组该选项组用于测度由于排除了特定个案而导致的回归系数 DfBeta 和预测值 DfFit 的变化 DfBeta 即计算Beta值的差分表示由于排除了某个特定个案而导致的回归系数的改变标准化DfBeta 表示计算Beta值的标准化差分 DfFit 表示计算拟合值的差分即由于排除了某个特定个案而产生的预测变量的更改标准化DfFit 表示计算拟合值的标准化差分协方差比率选中它表示从回归系数计算中排除特定个案的协方差矩阵的行列式与包含所有个案的协方差矩阵的行列式的比率如果比率接近1 则说明被排除的个案不能显著改变协方差矩阵线性回归分析预测区间选项组该选项组用于设置均值和个别预测区间的上界和下界线性回归分析线性回归选项对话框主要用于对步进方法标准和缺失值进行设置各选项含义如下步进方法标准选项组该选项组在已指定向前向后或逐步式变量选择法的情况下适用变量可以进入到模型中或者从模型中移除这取决于F值的显著性概率或者F值本身使用F的概率表示如果变量的F值的显著性水平小于进入值则将该变量选入到模型中如果该显著性水平大于删除值则将该变量从模型中移除其中进入值必须小于删除值且两者均必须为正数使用F值表示如果变量的F值大于进入值则该变量输入模型如果F值小于删除值则该变量从模型中移除进入值必须大于删除值且两者均必须为正数要将更多的变量选入到模型中请降低进入值要将更多的变量从模型中移除请增大删除值线性回归分析在等式中包含常数复选框该复选框表示回归模型中包含常数项取消选择此选项可强制使回归模型通过原点但是某些通过原点的回归结果无法与包含常数的回归结果相比较如不能以通常的方式解释R2 缺失值选项组该选项组用于对回归中缺失值的设定有3个可选项按列表排除个案选中该选项表示只有所有变量均取有效值的个案才包含在分析中按对排除个案选择该选项表示使用正被相关的变量对具有完整数据的个案来计算回归分析所基于的相关系数使用均值替换选择该选项表示用变量的均值来替换缺失值线性回归分析实例操作橡皮的韧性和拉伸倍数是否存在显著的线性关系线性回归分析 44 线性回归分析 45 线性回归分析 46 方程中包含的自变量列表同时显示进入方法如本例中方程中的自变量为x 方法为Enter 模型拟合概述列出了模型的R R2 调整R2及估计标准误 R2值越大所反映的两变量的共变量比率越高模型与数据的拟合程度越好本例所用数据拟合结果显示所考察的自变量和因变量之间的相关系数为0 985 拟合线性回归的确定性系数为0 971 经调整后的确定性系数为0 968 标准误的估计为0 09931 线性回归分析 47 方差分析表列出了变异源自由度均方 F值及对F的显著性检验本例中回归方程显著性检验结果表明回归平方和为2 658 残差平方和为0 079 总平方和为2 736 对应的F统计量的值为269 456 显著性水平小于0 05 可以认为所建立的回归方程有效线性回归分析 48 回归系数表列出了常数及非标准化回归系数的值及标准化的回归系数同时对其进行显著性检验本例中非标准化的回归系数B的估计值为0 890 标准误为0 053 标准化的回归系数为0 985 回归系数显著性检验t统计量的值为16 415 对应显著性水平Sig 0 000 0 05 可以认为方程显著因此本例回归分析得到的回归方程为 Y 0 116 0 89X对方程的方差分析及对回归系数的显著性检验均发现所建立的回归方程显著线性回归分析 49 线性回归分析线性回归分析 50 一元线性回归分析讨论的回归问题只涉及了一个自变量但在实际问题中影响因变量的因素往往有多个例如商品的需求除了受自身价格的影响外还要受到消费者收入其他商品的价格消费者偏好等因素的影响影响水果产量的外界因素有平均气温平均日照时数平均湿度等因此在许多场合仅仅考虑单个变量是不够的还需要就一个因变量与多个自变量的联系来进行考察才能获得比较满意的结果这就产生了测定多因素之间相关关系的问题研究在线性相关条件下两个或两个以上自变量对一个因变量的数量变化关系称为多元线性回归分析表现这一数量关系的数学公式称为多元线性回归模型 51 线性回归分析 52 线性回归分析 53 线性回归分析 54 方程中包含的自变量列表同时显示进入方法如本例中方程中的自变量为Q1和Q2 Q3 Q4 Q5 选择变量进入方程的方法为Enter 2 模型概述列出了模型的R R2 调整R2及估计标准误 R2值越大所反映的自变量与因变量的共变量比率越高模型与数据的拟合程度越好上面所定义模型确定系数的平方根为0 888 确定系数为0 789 调整后的确定系数为0 525 标准误为6 5322 线性回归分析 55 3 方差分析表列出了变异源自由度均方 F值及对F的显著性检验本例中回归平方和为637 321 残差平方和为170 679 总平方和为808 000 F统计量的值为2 987 Sig 0 05 可以认为所建立的回归方程无效线性回归分析 56 4 回归系数表列出了常数及回归系数的值及标准化的值同时对其进行显著性检验回归系数分析中 Sig 0 05 建立的回归方程无效说明多个变量与因变量不存在显著地线性关系线性回归分析曲线估计变量间相关关系的分析中变量之间的关系并不总是表现出线性关系非线性关系也极为常见非线性又可划分为本质线性关系形式上虽然呈非线性但可通过变量转换化为线性关系本质非线性关系不仅形式上呈非线性也无法通过变量转换化为线性关系这里的曲线估计是解决本质线性关系问题的常见本质线性模型曲线估计称曲线拟合曲线回归是研究两变量间非线性关系的一种方法选定一种用方程表达的曲线使得实际数据与理论数据之间的差异尽可能地小如果曲线选择得好那么可以揭示因变量与自变量的内在关系并对因变量的预测有一定意义曲线估计中需要解决两个问题一是选用哪种理论模型即用哪种方程来拟合观测值二是当模型确定后如何选择合适的参数使得理论数据和实际数据的差异最小在SPSS曲线估计中首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型然后 SPSS自动完成模型的参数估计并输出回归方程显著性检验的F值和概率P值判定系数R2等统计量最后以判定系数R2为主要依据选择其中的最优模型并进行预测分析曲线估计应用举例为研究居民家庭教育支出和消费性支出之间的关系收集到1990年至2002年全国人均消费性支出和教育支出的数据第一步画散点图教育支出和年人均消费性支出的散点图观察散点图发现两变量之间呈非线性关系可尝试选择二次三次曲线复合函数幂函数等模型第二步选择函数模型注选择相应的变量注模型中选择二次项立方幂复合勾选显示ANOVA表格然后点击保存按钮注勾选预测值残差预测空间 95 置信点击继续并确定得到输出结果拟合优度最高第三步分析输出结果三次两个系数均大于0 05 此模型不理想复合幂相伴概率Sig 0 000 该模型较理想二次三次复合幂函数的曲线幂函数曲线复合函数和幂函数的拟合优度都很好同时两种模型的回归系数显著性检验也都通过因此可考虑采用这两种模型但是从曲线走势上来看复合函数增长趋势比幂函数更接近原函数因此可最终考虑采用复合函数复合曲线由于在曲线估计对话框中选了保存项并且勾选了预测值残差和预测区间因此在编辑窗口增加了16个变量的值以fit 1 err 1 lcl 1 ucl 1为例进行说明 fit 1 表示在线性回归分析条件下当自变量x1值为1627 64时因变量x1的预测值为77 75243 err 1 表示在线性回归分析条件下当自变量x1值为1627 64时因变量x2的实际值与预测值残差为 39 51243 lcl 1 表示在线性回归分析条件下预测值95 可置信区间的下限为 41 46780 52 47135 ucl 1 表示在线性回归分析条件下预测值95 可置信区间的上限为 196 97266 179 94058 回归分析时间序列上的曲线估计定义时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计通常把时间设为自变量x 代表具体的经济或社会现象的变量设为因变量y 研究变量x与y之间关系的方法就是时间序列曲线估计其具体步骤与一般的曲线估计基本类似对1978 2006年间社会消费品零售总额之间的关系进行曲线回归分析时间序列上的曲线估计应用举例注因变量选择y 社会消费品零售总额变量选择x 年份同时选中时间项表示其为代表时间的自变量模型框内勾选线性二次项立方和幂四种曲线模型进行估计不必勾选显示ANOVA表格注在曲线估计中单击保存按钮当以时间作为自变量时预测个案是有效的从估计期到最后一个个案的预测是计算当前所有样本期内的预测值预测范围是指如果预测的范围超过了当前样本期可以选择在此项随后的观测值中键入一个需预测的期数 31 表示将使用不同曲线模型对1978 2008年这31年的社会消费品零售总额作预测并在spss数据编辑窗口中保留所有预测值结果和分析所选的4种曲线函数中以立方曲线的拟合优度最高所以选择立方拟合社会消费品零售总额在各年的变化趋势接下来结合观察值和各种函数模型预测值的对比图加以检验从对比图中可以看出三次函数的曲线与样本的实际观察值拟合得较好所以决定对本节中的研究问题社会消费品零售总额的趋势分析采用指数函数进行回归分析其具体模型为 y 2155 592 197 636x 35 303x2 1 947x3 由于在曲线估计窗口中选了保存项因此在spss数据编辑窗口中就新增了fit 1 fit 2 fit 3 fit 4四个变量的预测值同时在窗口下面还新增了两个个案他们分别代表对2007年和2008年的预测值以三次函数做回归分析当自变量x值为2001时因变量y的预测值为44665 01213当自变量x值为2007时因变量y的预测值为80573 79934当自变量x值为2008时因变量y的预测值为87964 31013 逻辑回归分析定性变量在许多实际问题中会经常出现因变量是定性变量的情况例如某个人是否购买汽车受到多种如家庭情况收人情况等因素的影响但最终的可能性只有两个要么购买要么不购买把y 1定义为购买 y o则表示不购买再如在是否购买某项商业保险的研究中根据消费者的年龄身体状况收人情况工作性质受教育程度等因变量y也只有两种可能结果要么y 1表示购买要么y o表示不购买 90 处理方法可用于处理定性因变量的统计分析方法有判别分析 D1scriminantanalysis Probit分析 Logistic回归分析和对数线性模型等在社会科学中应用最多的是logistic回归分析逻辑回归分析是对定性变量的回归分析 Logistic中文意思为逻辑但是这里并不是逻辑的意思而是通过logit变换来命名的 91 Logistic回归分析法 Logistic回归分析是对定性变量的回归分析分类 Logistic回归分析根据因变量取值类别不同又可以分为二元 Binarylogistic 回归分析和多项 Multinomianllogistic 回归分析变量特点因变量是分类变量自变量可以是分类变量也可以是连续变量Binarylogistic回归模型中因变量只能取两个值1和o 虚拟因变量二分类变量二元指两种可能性就好比逻辑中的是或者否一样 Multinomianllogistic回归模型中因变量可以取多个值多分类变量 92 Logistic回归分析要解决的问题具体地说 Logistic回归分析主要解决以下几方面的问题通过分析大量的样本数据确定变量之间的数学关系式对所确定的数学关系式的可信程度进行各种统计检验并区分出对某一特定变量影响较为显著的变量和影响不显著的变量利用所确定的数学关系式根据一个或几个变量的值来预测或控制另一个特定变量的取值并给出这种预测或控制的精确度 93 二元logistic回归模型数学表达式二元Logistic函数的形式为二元Logistic回归方程二元logistic中通过Logit变换成为线性关系利用极大似然估计法对参数进行估计可用SPSS计算 94 对参数进行检验常用检验统计量 1 2对数似然值 2loglikelihood 2LL 因为 2LL近似服从卡方分布且在数学上更为方便所以 2LL可用于检验Logistic回归的显著性公式为 2 拟合优度GoodnessofFit统计量Logistic回归的拟合优度统计量计算公式为 95 3 cox和snell的R24 Nagelkerke的R25 伪R2 Psedo R square 伪R2与线性回归模型的R2相似其意义相似但它小于16 Hosmer和Lemeshow的拟合优度检验统计量7 Wald统计量 96 二元logistic回归应用在一组独立变量上对二分类从属变量进行回归利用前像后向逐步方法或全部进入方法建模用偏差数对比简单比较差分反Helmert Helmert 多项式邻近类别比较用户自定义或指示预示变量选择建模标准变量进入的评分统计量的概率值 Wald概率值或者移除变量的对数似然比统计量保存统计量预测概率和分组残差偏差值 Logit 标准化残差杠杆值类似Cook s的距离差异通过XML导出模型 97 多项logistic回归模型数学表达式多项logistic回归模型模型如下与二元逻辑回归一样通过变换可得 98 检验统计量拟合检验Pearson卡方统计量卡方偏差统计量大样本数据的这两个统计量的取值很相近伪R方统计量指McFadden统计量 99 多项logistic回归应用在一组自变量上对多于两种类别的分类因变量进行回归用CRITERIA子命令控制算法调整参数的值包含交互作用项自定义假设检验使用TEST子命令直接把零假设指定为参数的线性组合用SCALE子命令指定离差偏离比例建立包含不包含截距项的方程几率比的置信区间保存统计量预测概率预测响应类别 100 预测响应分类的概率和实际响应分类的概率指定因变量的参照类处理非常大的问题利用逐步方法从众多的可能的预测因子中选择最佳预测因子利用评分和Wald方法使您在大数据集的情况下更迅速地得出研究结果利用AIC或者BIC准则也称为SBC 评估模型拟合度 101 多项logistic回归二元logistic回归二元与多项logistic回归的区别 103 同二元Logistic回归相对应当因变量有2个以上的分类变量时就选用多项Logistic回归在因变量中其中一个分类变量要作基线类其他类别都同它比较成为非冗余的逻辑变换模型对于基线类其模型中所有系数均为0 比如三分类的变量A B C 可以以B为基线 A与B比较 C与B比较这就如同建立了两个二元Logistic回归分析多项Logistic回归实例操作案例1 二元Logistic回归在一次关于某城镇居民上下班使用交通工具的社会调查中因变量y 1表示居民主要乘坐公共汽车上下班 y 0表示主要骑自行车上下班自变量x1表示被调查者的年龄 x2表示被调查者的月收入 x3表示被调查者的性别 x3 1为男性 x3 0为女性试建立y与自变量间的Logistic回归数据如表L 1所示 104 操作步骤 1 输入数据 105 2 在分析菜单的回归子菜单中选择二元Logistic 命令进行Logistic回归分析 106 3 在弹出的 Logistic回归对话框中从左侧的变量列表中选择y变量居民上下班使用交通工具的情况将至添加到因变量框中表示该变量时因变量选择年龄月收入性别进入协变量框中表示其为自变量在Method框中选择SPSS默认的 Enter 方法使所选变量全部进入回归方程如图所示 107 4 单击对话框中的选项按钮在弹出的 Logistic回归选项对话框中按需要选择各选项如图所示 108 统计量和图框中的选项用来选择输出哪些统计量或统计图表具体选项如下 Classificationplots 分类图通过比较因变量的观测值和预测值之间关系反映回归模型的拟合效果 Hosmer Lemeshowgoodness of fit H L拟合优度检验统计量用以检验整个回归模型的拟合优度 Casewiselistingofresiduals 个案残差列表输出标准方差大于某值 Outliersoutside std Dev 的个案或者全部个案 Allcases 的入选状态因变量的观测值和预测值及其相应预测概率残差值 Correlationsofestimates 估计参数的相关性输出模型中各估计参数间的相关矩阵 Iterationhistory 迭代历史输出参数估计迭代过程中的系数及对数似然值 CIforexp B exp B 的N 置信区间选中该选项将会在模型检验的输出结果中列出exp B 各回归系数指数函数值的N 缺省值为95 置信区间如果要改变缺省值可以在空白方框内输入1 99 一般常用的值为90 95 99 之间的任何一个整数选项说明 110 输出框用来选择输出计算结果的方式 Ateachstep 显示spss每个步骤的计算结果 Atlaststep 只显示最终计算结果在模型中包括常数选项用以确定所求模型的参数是否要包含常数项为了更好地说明以上各选项的意义本例选择了所有选项但保留各选项中的缺省值选项说明步进概率框用来设定步长标准以便逐步控制自变量进入方程或被剔除出方程进入设置变量进入方程的标准值如果变量的分数统计概率小于所设置进入方程的标准值则该变量进入模型 SPSS默认的显著性水平为0 05删除设置变量被剔除方程的标准值如果变量的分数统计概率大于所设置被剔除出方程的标准值则将该变量剔除出方程 SPSS默认的显著性水平为0 10 分类标准值选项用以确定个案分类的中止点因变量预测值大于分类中止点的个案设归为正个案一类因变量预测值小于分类中止点的个案设为负个案 SPSS设中止点缺省值为0 5 我们可以通过输入0 01 0 99之间任一数值改变缺省值从而产生新的分类表最大迭代次数选项用以确定最大对数似然值达到之前的迭代次数最大对数似然值是通过反复迭代计算知道收敛为止而得到的 SPSS中该项的缺省值为20 我们可以重新输入一个新的正整数来改变此项的值选项说明 5 在保存中只选择预测值中的概率组成员即原始数据个案中每一个个案最后的预测分类情况 PRE 1 PGR 1分别是最后的预测结果中的预测概率和预测组的变量名做完后才会在数据视图中出现 6 单击继续按钮返回上一个对话框然后单击确定按钮即可得到SPSS回归分析的结果 112 第二个表格说明初始的因变量值 0 1 已经转换为逻辑回归分析中常用的0 1数值 SPSS输出结果文件如下 1 第一部分输出结果有两个表格第一个表格说明所有个案 28个都被选入作为回归分析的个案 6 结果讨论和分析结果分析 2020 3 10 114 可编辑 2 第二部分 Block0 输出结果有4个表格第1个输出表格列出迭代过程其中常数项包括在模型中初始 2LL为38 673 迭代结束于第二步因为此时参数与其在上一步的变化已经小于0 001 第2个分类表说明Step0的拟合效果可以看出对于y 0 有100 的准确性对于y 1 有0 准确性总共有53 6 的准确性此时参数估计的变化表现为对数似然值的变化分类表结果分析下面两个表格给出了模型系数的检验结果其中常数项的系数值为 0 143 其伴随概率为0 706 可见常数项不显著 X1 X2 X3的系数通过了检验即这两个变量显著各回归系数指数函数值结果分析 3 表格列出了模型系数的综合检验结果 4 表格给出了 2对数似然值 Cox和Snell的R2以及Nagelkerke的R2检验统计结果 cox和snell的R2是在似然值基础上模仿线性回归模型的R2解释Logistic回归模型一般小于1 为了对cox和snell的R2进一步调整使得取值范围在0 1之间 Nagelkerke把cox和snell的R2除以它的最大值即Nagelkerke的R2 5 表格给出了Hosmer和Lemeshow的拟合优度检验统计量 HosmerandLemeshow检验 HosmerandLemeshow检验的随机性表与一般拟合优度检验不同 Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组然后根据观测频数和期望频数构造卡方统计量即Hosmer和Lemeshow的拟合优度检验统计量简称H L拟合优度检验统计量最后根据自由度为8的卡方分布计算其p值并对Logistic模型进行检验如果该P值小于给定的显著性水平如 0 05 表明模型的预测值与观测值存在显著差异如果P值大于给定的显著性水平表明在可接受的水平上模型的估计拟合了数据大于0 05 表明拟合了数据 6 分类表说明第一次迭代结果的拟合效果从该表格可以看出对于y 0 有86 7 的准确性对于y 1 有76 9 准确性因此对于所有个案总共有82 1 的准确性正确分类比例预测值观测值 7 方程中的变量表格列出了Step1中各个变量对应的系数以及该变量对应的Wald统计量和它对应的相伴概率从该表格中可以看出X3相伴概率最小 Wald统计量最大可见该标量在模型中很重要 wald统计量用于判断个变量是否应该包含在模型中 SPSS软件没有给出Logisticc回归的标准化回归系数因此如果要考虑每个自变量在回归方程中的重要性不妨直接比较Wald统计量的大小或sig Wald统计量大者或sig值小者显著性高也就更重要 8 相关矩阵表格列出了常数Constant 系数之间的相关矩阵常数与月收入之间相关性最大年龄和性别之间的相关性最小相关矩阵 9 下图所示是观测值和预测概率分布图该图以0和1为符号每四个符号代表一个个案横坐标是个案属于1的隶属度这里称为预测概率 PredictedProbability 纵坐标是个案分布频数反映个案的分布如果逻辑回归预测完全准确那么该坐标图中预测概率是0 0 5之间的个案都应该是0 0 5 1之间的个案都应该是1 该例生成的图基本上符合这个效果不正确的结果包括预测概率是0 0 5之间的个案中有3个实际的观测值为1 0 5 1之间的个案观测值有2个为0 这是错误预测的结果观测值和预测概率分布图 10 逻辑回归的最后一个输出表格式CasewiseList 列出了残差大于2的个案本例中列出了两个符合条件的个案分别是第10个案和第19个案这两个个案都有表明这两个个案的逻辑回归结果是错误的案例列表残差标准化残差 124 案例2 多项Logistic回归分析某快餐公司为了提高早餐的市场份额对880名消费者做了一份调查请利用多项Logistic回归方法分析3种早餐的市场销售情况数据见表L 1 125 操作步骤 1 输入数据 126 2 在分析菜单的回归子菜单中选择多项Logistic 命令进行多项Logistic回归分析 127 3 变量设置选择相应的因变量因子项目接着点击参考类别对因变量设置参考类别分别有第一类最后一类用户指定取值三种类别然后选择类别顺序根据图示设置 128 4 模型设置点击模型进入模型界面选择设定步进式模型把因素列表中的 agecat 和 active 放入强制输入项栏建立项选择主效应如图进行设置 129 5 统计量设置点击统计量进行图示设置用于选择关于统计模型的统计量用于选择关于模型参数的输出统计量设置分组定义 130 6 收敛标准设置点击条件设置收敛准则 131 7 选项设置点击选项在此设置逐步回归的参数 132 8 保存设置点击保存勾选需要保存到数据集中的变量 133 9 结果分析按确定获得需要的分析结果拟合优度表格零假设是模型能够很好拟合原始数据 Pearson统计量和偏差统计量的显著水平都大于0 1 不能否定零假设即最终模型显著成立零假设认为某效应从模型中剔除后系数没有变化由于卡方检验的显著水平 Sig值都远远小于0 01 故不能否定零假设认为3个效应对系数的影响都是显著的不能剔除 134 135 136 OrdinalRegression序数回归分析相关分析与回归分析定义是根据反应变量水平是否有序来区分的有序多分类的Logistic回归又称之为等级回归分析序数回归的过程在语法中称为PLUM 应用如疗效可以分为无效缓解好转治愈4个等级其中缓解与好转是病人的主观体验难以测量与量化用序数回归就可以分析这样的有序变量 OrdinalRegression序数回归分析有序结果变量回归的适用条件 1 一个因变量它是两个或以上水平的分类变量无论是主观名义变量或客观有序结果变量的分类均可 2 一个或以上的协变量它可以是分类变量或连续型变量患者对药物剂量可能的反应可以分为无轻微适度或剧烈轻微反应和适度反应之间的差别很难或不可能量化并且这种差别是取决于感觉的另外轻微反应和适度反应之间的差别可能比适度反应和剧烈反应之间的差别更大或更小相关分析与回归分析序数回归和线性回归当你试图预测有序反应时一般线性回归模型并不能很好地工作这些方法仅可以衡量结果定变量是在一个区间范围这不是真正的有序结果变量因此回归模型可能无法准确反映数据之间的关系一个有序变量最重要的就是排序因此如果您将两个相邻的类别折叠成一个较大的类别这只是一个很小的变化使用旧的和新的类别建立的模型应十分类似不幸的是线性回归对类别的使用很敏感类别合并前建成的模型和合并后建成的模型有很大不同广义线性模型适合每一类别中的有序变量的单独方程每一个方程给出了在相应类别或者任何较低类别中的预测概率没有建立预测模型而所有的案件都必须在最后一类或较低类别其概率为1 正因为如此对于最后一类预测方程是不需要的序数回归数据注意事项 1 数据假设因变量是序数并且可以是数值或字符串通过对因变量的值进行升序排序来确定排列顺序最低值定义第一个类别假设因变量是分类变量协变量必须为数值请注意使用多个连续协变量很容易使创建的单元概率表非常大 2 假设只允许使用一个因变量并且必须指定该因变量另外对于多个自变量值的各个不同模式假设该因变量是独立的多项变量输出的统计量与图形包括协变量中每个分类变量的观测频数预测频数累计频数频数与累计频数的Pearson残差观察概率与预测概率和累积概率还有参数估计值的渐进相关矩阵与协方差矩阵 Prarson卡方统计量似然比卡方统计量拟合优度统计量迭代历史参数估计值标准误差和Cox SnellR方统计量等序数回归使用总体思路 1 需要确定因变量的序 2 需要决定是否使用预测模型的位置组件 3 需要决定是否使用规模组件如果需要确定哪一个预测值需要使用在许多

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

spss回归分析大全ppt.ppt

文档简介

温馨提示

最新文档

评论

spss回归分析大全ppt.ppt

文档简介

温馨提示

最新文档

评论

相关文档