spss回归分析大全.ppt_第1页
spss回归分析大全.ppt_第2页
spss回归分析大全.ppt_第3页
spss回归分析大全.ppt_第4页
spss回归分析大全.ppt_第5页
已阅读5页,还剩220页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、BG,SPSS回归分析,小组成员: 李标 祝斌 宋金泽 周益丰 贾汪洋,2,2,本章内容,7.1 回归分析概述 7.2 线性回归分析 7.3 曲线估计回归分析 7.4 罗辑回归分析 7.5 序数、概率回归分析 7.6 非线性、权重估计、两阶最小二乘、 最佳尺度回归分析,3,3,回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。 涉及的自变量的多少 一元回归分析 多元回归分析 自变量和因变量之间的关系类型, 线性回归分析 非线性回归分析,回归分析,4,4,回归分析一般步骤: 确定回归方程中的解释变量(自变量)和被解释变量(因变量)

2、确定回归模型 建立回归方程 对回归方程进行各种检验 利用回归方程进行预测,回归分析,5,线性回归分析,一元线性回归方程反应一个因变量与一个自变量之间的线性关系,当直线方程Y=a+bx的a和b确定时,即为一元回归线性方程。经过相关分析后,在直角坐标系中将大量数据绘制成散点图,这些点不在一条直线上,但可以从中找到一条合适的直线,使各散点到这条直线的纵向距离之和最小,这条直线就是回归直线,这条直线的方程叫作直线回归方程。 注意:一元线性回归方程与函数的直线方程有区别,一元 线性回归方程中的自变量X对应的是因变量Y的一个取值范围。,6,1.一元线性回归分析的基本理论 把解释变量和被解释变量的多个对应样

3、本值组队成坐标数据对(xi,yi),通过观察数据对(xi,yi)的散点图,如果发现y与xi之间呈现出显著的线性关系,则应考虑建立y和xi的一元线性回归模型,其中,y=a+bx+,y为被解释变量;a为模型的截距项;b为待估计参数;x为解释变量;为随机误差项。,线性回归分析,7,对于一元线性模型,一般采用最小二乘估计法来估计相关的参数(如和的无偏估计值和),从而得到样本回归直线,这样把得到的样本回归直线作为总体回归的近似,是一种预测过程。 那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方程的线性关系进行各种统计检验,包括拟合优度检验、回归方程显著性检验、回归系数的显著性检验(t检

4、验)、残差分析等。,线性回归分析,8,回归方程的拟合优度检验(相关系数检验) 一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系数,数学定义为 其中 称为回归平方和(SSA) 称为总离差平方和(SST) R2取值在0-1之间, R2越接近于1,说明回归方程对样本数据点的拟合优度越高。,线性回归分析,9,9,多元线性回归的拟合优度检验采用 统计量,称为调整的判定系数或调整的决定系数,数学定义为,式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意义与一元回归方程中的R2是相同的。,回归方程的拟合优度检验(相关系数检验),线性回归分析,10,回归方程的显著性检验(F检验)

5、 即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为线性关系显著。,一元线性回归方程显著性检验的零假设是1=0,检验采用F统计量,其数学定义为:,线性回归分析,11,11,回归方程的显著性检验(F检验),多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F统计量,其数学定义为:,即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自由度的F分布。SPSS将会自动计算检验统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应

6、拒绝零假设,认为y与x的全体的线性关系显著。,线性回归分析,12,回归系数的显著性检验(t检验) 一元线性回归方程的回归系数显著性检验的零假设是1=0,检验采用t统计量,其数学定义为: t统计量服从n-2个自由度的t分布。 SPSS将会自动计算t统计量的观测值以及对应的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为x对y有显著贡献,线性关系显著。,线性回归分析,13,13,回归系数的显著性检验(t检验),多元线性回归方程的回归系数显著性检验的零假设是i=0,检验采用t统计量,其数学定义为:,ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算ti统计量的观测值以及对应

7、的概率p值,如果p值小于给定的显著性水平,则应拒绝零假设,认为xi对y有显著贡献,应保留在线性方程中。,(i=1,2, ,p),线性回归分析,14,残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即 它是回归模型中 的估计值。如果回归方程能较好地反映被解释变量 的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。,线性回归分析,15,残差分析均值为0的正态性分析 残差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残差均值为0,残差图中的点应在纵坐标为0的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析,线性回归分析,16,

8、16,回归方程的统计检验 残差分析独立性分析 绘制残差序列的序列图 以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。 计算残差的自相关系数 取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验 DW取值在0至4之间,直观判断标准是DW=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。,线性回归分析,17,17,回归方程的统计检验 残差分析异方差分析 绘制残差图 如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。,线性回归分析,18,18,回归方

9、程的统计检验 残差分析探测样本中的异常值和强影响点(对于y值) 标准化残差ZRE 由于残差是服从均值为0的正态分布,因此可以根据3准则 进行判断,首先对残差进行标准化 ,绝对值大于3对应的观察值为异常值。 学生化残差SRE 剔除残差DRE(或剔除学生化残差SDRE) 上述SRE、SDRE的直观判断标准同标准化残差ZRE。,19,19,线性回归分析,20,20,多元回归分析中的其他问题 变量筛选问题 向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。 向

10、后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量。 逐步筛选策略 向前筛选与向后筛选策略的综合,线性回归分析,21,21,多元回归分析中的其他问题 变量多重共线性问题 容忍度Tol 容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。 方差膨胀因子VIF 膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严重的多重共线性。 特征根和方差比 这里的特

11、征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。 条件指数ki 10 ki 100时,认为多重共线性较强, ki 100时,认为多重共线性很严重,线性回归分析,22,22,回归方程的统计检验 残差分析异方差分析 等级相关分析 得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算Spearman等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。,线性回归分析,23,回归分析步骤: 第一,分析大量样本变量观测值,确定变量之间的数学关系式回归方程; 第二,分析其回归方程的可信程度,区分影响显著的和影响不显著

12、的自变量; 第三,根据已确定的数学关系,预测(y)或者控制(x)特定变量的取值,并给出预测或控制的精确度。,线性回归分析,24,线性回归的使用条件: 线性趋势,即自变量与因变量的关系是线性的。 独立性,因变量Y的取值相互独立。反映在方程中即残差独立。 正态性,即自变量的任何一个线性组合,Y应该服从正态分布。反映在方程中即残差Ei服从正态分布。 方差齐性,自变量的任何一个线性组合,Y的方差相同。,一元线性回归分析,25,2.一元线性回归分析的SPSS操作 打开【分析】【回归】 【线性】,出现线性 回归主对话 框,进行 SPSS程序命令操作, 即对各子对话框 进行设置。,线性回归分析,26,(1)

13、变量 因变量 被选入该文本框中的变量为线性回归模型中的被解释变量,数值类型为数值型。如果被解释变量为分类变量,则可以用二元或者多元Logistic模型等建模分析。 自变量 被选入该列表框中的变量为线性模型中的解释变量,数值类型一般为数值型。如果解释变量为分类变量或定性变量,可以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量分组成块,通过“上一张”和“下一张”按钮对不同的变量子集指定不同的进入方法。,线性回归分析,27,总离差平方和可分解为,(2)方法 用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型,进入,该方法表示自变量列表中所有的变量都进入回归模型。 逐步,该方法是一个

14、动态过程,表示具有F统计量的概率最小 的自变量被选进回归模型;对于已经在回归方程中的变量, 如果它们的F统计量的概率变得足够大,则移除这些变量, 直到不再有自变量符合进入或移除的条件,该方法终止。 删除,该方法表示建立回归模型前设定一定条件,然后根据 条件删除自变量。 向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按顺序移除,最先删除与因变量之间的部分相关性最小的那个变量,移除第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。 向前,该方法与“向后”恰好相反,是将自变量按顺序选入到回归模型中。首先选入与

15、因变量之间具有最大相关性的、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。,线性回归分析,28,(3)选择变量 该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选择规则定义的个案,则需要进行设置。,线性回归:设置规则子对话框用于选择关系。对于分类变量,可用的关系有“等于”和“不等于”,对于字符串型变量,可以用“等于”关系,在“值”文本框中输入按具体数值或字符串选择个案的规则;如在“值”中输入“f”,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可用的关系有“等于”、“不等于”、“小于”、“小于等于”、“大于”以及“大于等于”

16、,如选择“不等于”,并在“值”中输入“1”,表示只有那些有无线服务的个案才会包含在回归分析中。,线性回归分析,29,(4)个案标签 该文本框主要用于指定个案标签的变量。 (5)WLS权重 该文本框表示加权最小二乘,当判断回归模型的残差存在异方差时,才选用加权最小二乘方法,指定加权变量。,线性回归分析,30,(6)统计量按钮设置 回归系数选项组: 估计,选择该复选框,可输出回归系数、标准误、标准化系数beta、t值以及t的双尾显著性水平。 置信区间,误差条形图的表征,选择该复选框,可输出每个回归系数或协方差矩阵指定置信度的置信区间,在“水平”框中输入范围。 协方差矩阵,选择它,可输出回归系数 的

17、方差协方差矩阵,其对角线以外 的协方差,对角线上为方差,同时还 显示相关系数矩阵。,线性回归分析,31,残差选项组 该选项组用于指定对回归残差进行检验的方法。 Durbin-Watson,该复选框表示输出用于检验残差系列自相关的D-W检验统计量。 个案诊断,该复选框表示对个案进行诊断,输出个案,其中 离群值,表示输出满足条件的个案离群值; 标准差,用于指定离群值满足几倍标准差的条件; 所有个案,指可以输出所有个案的残差。,线性回归分析,32,模型拟合度 勾选该复选框,则输出显示输入模型的变量和从模型删去的变量,并显示以下拟合优度统计量:复相关系数、R2和调整R2、估计的标准误以及方差分析表。

18、R方变化 勾选该复选框,则输出由于添加或删除自变量而产生的R2统计量的更改。如果与某个变量相关联的R2变化很大,则意味着该变量是因变量的一个良好的预测变量。 描述性 勾选该复选框,则输出回归分析中的有效个案数、均值以及每个变量的标准差,同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的个案数。,线性回归分析,33,部分相关和偏相关性 该复选框表示输出部分相关和偏相关统计量。其中: 部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对该自变量的线性效应之后,因变量与自变量之间的相关性。当变量添加到方程时,它与R2的更改有关。 偏相关,指的是对于两个变量,在移去由于它们与其他变量之

19、间的相互关联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之间的相关性。 共线性诊断 输出各变量的容限公差以 及共线性诊断表。,线性回归分析,34,(7) 绘制按钮设置 “线性回归:图”对话框主要用于帮助验证正态性、线性和方差相等的假设,还可以检测离群值、异常观察值和有影响的个案。,在源变量列表中列出了因变量(DEPENDNT)及以下的预测变量和残差变量:标准化预测值(*ZPRED)、标准化残差(*ZRESID)、剔除残差(*DRESID)、调整的预测值(*ADJPERD)、学生化的残差(*SRESID)以及学生化的

20、已删除残差(*SDRESID)。,线性回归分析,35,散点1的1 该选项组可以利用源变量列表中的任意两个来绘制散点图,在“Y”中选入Y轴的变量,“X”中选入X轴的变量。单击“下一张”可以再绘制下一张图,单击“上一张”可以回到刚刚设定的上一张图进行修改。另外,针对标准化预测值绘制标准化残差,可以检验线性关系和等方差性。 标准化残差图 该选项组用于绘制标准化残差图,主要可以指定两种图:“直方图”和“正态概念图”,将标准化残差的分布与正态分布进行比较。 产生所有部分图 该复选框表示 当根据其余自变量分别对两个变量进 行回归时,显示每个自变量残差和因 变量残差的散点图。但是要求方程中 必须至少有两个自

21、变量。,线性回归分析,36,(8)保存按钮设置 “线性回归:保存”对话框主要用于在活动数据文件中保存预测值、残差和其他对于诊断有用的统计量,包括:,预测值选项组该选项组用于保存回归模型对因变量的预测值。 未标准化,选中该复选框,表示保存回归模型对因变量的预测值。 标准化,选中该复选框,表示保存标准化后的预测值。 调节,选中它,表示保存当某个案从回归系数的计算中排除时个案的预测值。 均值预测值的S.E.,选中它,表示保存预测值的标准误。,线性回归分析,37,残差选项组 该选项组用于保存回归模型的残差 未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。 标准化,选中它,表示保存标准化后的

22、 残差,即Pearson残差。 学生化,选中它,表示保存学生化的残 差,即残差除以其随个案变化的标准差 的估计,这取决于每个个案的自变量值 与自变量均值之间的距离。 删除,选中它,表示保存当某个案从回 归系数的计算中排除时该个案的残差, 它是因变量的值和调整预测值之间的差。 学生化已删除,选中它,表示保存学生 化的删除残差,即个案的剔除残差除以 其标准误。,线性回归分析,38,距离选项组 该选项组用于标识自变量的值具有异常组合的个案以及可能对回归模型产生很大影响的个案的测量。 Mahalanobis距离,表示自变量中个 案的值与所有个案的平均值相异程度的 测量,大的Mahalanobis距离表

23、示个 案在一个或多个自变量上具有极值。 Cook距离,选中它,表示保存Cook距 离值,较大的Cook距离表明从回归统计 量的计算中排除个案之后,系数会发生 很大变化。 杠杆值,选择它,表示保存杠杆值,杠 杆值是度量某个点对回归拟合的影响, 范围从0到(N-1)/N,其中0表示对 回归拟合无影响。,线性回归分析,39,影响统计量选项组该选项组用于测度由于排除了特定个案而导致的回归系数(DfBeta)和预测值(DfFit)的变化。 DfBeta,即计算Beta值的差分,表示由于 排除了某个特定个案而导致的回归系数的改变。 标准化DfBeta,表示计算Beta值的标准化差分。 DfFit,表示计算

24、拟合值的差分,即由于排除了 某个特定个案而产生的预测变量的更改。 标准化DfFit,表示计算拟合值的标准化差分。 协方差比率,选中它,表示从回归系数计算中排 除特定个案的协方差矩阵的行列式与包含所有个 案的协方差矩阵的行列式的比率,如果比率接近 1,则说明被排除的个案不能显著改变协方差矩 阵。,线性回归分析,40,预测区间选项组 该选项组用于设置均值和个别预测区间 的上界和下界。,线性回归分析,41,“线性回归:选项”对话框主要用于对步进方法标准和缺失值进行设置,各选项含义如下: “步进方法标准”选项组 该选项组在已指定向前、 向后或逐步式变量选择法的情况下适用。变量可以 进入到模型中,或者从

25、模型中移除,这取决于F值 的显著性概率或者F值本身。 使用F的概率,表示如果变量的F值的显著性水平小 于“进入”值,则将该变量选入到模型中,如果该显 著性水平大于“删除”值,则将该变量从模型中移除。 其中“进入”值必须小于“删除”值,且两者均必须为 正数。 使用F值,表示如果变量的F值大于“进入”值,则该变量输入模型,如果F值小于“删除”值,则该变量从模型中移除。“进入”值必须大于“删除” 值,且两者均必须为正数。要将更多的变量选入到模型中,请降低“进入” 值。要将更多的变量从模型中移除,请增大“删除”值。,线性回归分析,42,“在等式中包含常数”复选框 该复选框表示回归模型中包含常数项。取消

26、选择此选项可强制使回归模型通过原点,但是某些通过原点的回归结果无法与包含常数的回归结果相比较。如:不能以通常的方式解释R2。 “缺失值”选项组该选项组用于对回归中缺失值的设定,有3个可选项。 按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包含在分析中。 按对排除个案,选择该选项,表示使用正被 相关的变量对具有完整数据的个案来计算回 归分析所基于的相关系数。 使用均值替换,选择该选项,表示用变量的 均值来替换缺失值。,线性回归分析,43,实例操作 橡皮的韧性和拉伸倍数是否存在显著的线性关系,线性回归分析,44,44,线性回归分析,45,45,线性回归分析,46,46,方程中包含的

27、自变量列表 同时显示进入方法。如本例中方程中的自变量为x,方法为Enter。,模型拟合概述 列出了模型的R、R2 、调整R2 及估计标准误。R2 值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。,本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为0.985,拟合线性回归的确定性系数为0.971,经调整后的确定性系数为0.968,标准误的估计为0.09931。,线性回归分析,47,47,方差分析表 列出了变异源、自由度、均方、F值及对F的显著性检验。,本例中回归方程显著性检验结果表明:回归平方和为2.658,残差平方和为0.079,总平方和为2.736,对应的F统计

28、量的值为269.456,显著性水平小于0.05,可以认为所建立的回归方程有效。,线性回归分析,48,48,回归系数表 列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显著性检验。,本例中非标准化的回归系数B的估计值为0.890,标准误为0.053,标准化的回归系数为0.985,回归系数显著性检验t统计量的值为16.415,对应显著性水平Sig.=0.0000.05,可以认为方程显著。因此,本例回归分析得到的回归方程为:Y=-0.116+0.89X 对方程的方差分析及对回归系数的显著性检验均发现,所建立的回归方程显著。,线性回归分析,49,49,线性回归分析,50,线性回归分析,

29、50,一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。 因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。,51,51,线性回归分析,52,52

30、,线性回归分析,53,53,线性回归分析,54,54,方程中包含的自变量列表 同时显示进入方法。如本例中方程中的自变量为Q1和Q2,Q3,Q4,Q5,选择变量进入方程的方法为Enter。 2.模型概述 列出了模型的R、R2 、调整R2 及估计标准误。R2 值越大所反映的自变量与因变量的共变量比率越高,模型与数据的拟合程度越好。,上面所定义模型确定系数的平方根为0.888,确定系数为0.789,调整后的确定系数为0.525,标准误为6.5322。,线性回归分析,55,55,3.方差分析表 列出了变异源、自由度、均方、F值及对F的显著 性检验。 本例中回归平方和为637.321,残差平方和为170

31、.679,总平方和为808.000,F统计量的值为2.987,Sig.0.05,可以认为所建立的回归方程无效。,线性回归分析,56,56,4.回归系数表 列出了常数及回归系数的值及标准化的值,同时对其进行显著性检验。 回归系数分析中,Sig.0.05,建立的回归方程无效,说明多个变量与因变量不存在显著地线性关系。,线性回归分析,57,曲线估计,58,变量间相关关系的分析中,变量之间的关系并不总是表现出线性关系,非线性关系也极为常见。非线性又可划分为: 本质线性关系 形式上虽然呈非线性,但可通过变量转换化为线性关系。 本质非线性关系 不仅形式上呈非线性,也无法通过变量转换化为线性关系。 这里的曲

32、线估计是解决本质线性关系问题的。,59,常见本质线性模型,60,曲线估计(称曲线拟合、曲线回归)是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定意义; 曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小;,61,在SPSS曲线估计中,首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型,然后,SPSS自动完成模型的参数估计,并输出回归方程显著性

33、检验的F值和概率P值、判定系数R2等统计量;最后以判定系数R2为主要依据选择其中的最优模型,并进行预测分析。,62,曲线估计应用举例,为研究居民家庭教育支出和消费性支出之间的关系,收集到1990年至2002年全国人均消费性支出和教育支出的数据。,63,第一步:画散点图,64,65,66,67,教育支出和年人均消费性支出的散点图,观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线,复合函数、幂函数等模型。,68,第二步:选择函数模型,69,注:选择相应的变量,70,注:模型中,选择“二次项”、“立方”、“幂”、“复合”,勾选“显示ANOVA表格”,然后点击保存按钮,71,注:勾选“预

34、测值”、“残差”、“预测空间”(95%置信),点击继续,并确定,得到输出结果。,72,拟合优度最高,第三步:分析输出结果,73,三次,两个系数均大于0.05,此模型不理想,74,复合,幂,相伴概率Sig.=0.000,该模型较理想,75,二次、三次、复合、幂函数的曲线,幂函数曲线,76,复合函数和幂函数的拟合优度都很好,同时两种模型的回归系数显著性检验也都通过 ,因此可考虑采用这两种模型。但是从曲线走势上来看,复合函数增长趋势比幂函数更接近原函数,因此可最终考虑采用复合函数。,77,复合曲线,78,79,由于在曲线估计对话框中选了“保存”项,并且勾选了“预测值”、“残差”和“预测区间”,因此在

35、编辑窗口增加了16个变量的值,以fit_1、err_1、lcl_1、ucl_1为例进行说明: fit_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x1的预测值为77.75243; err_1:表示在线性回归分析条件下,当自变量x1值为1627.64时,因变量x2的实际值与预测值(残差)为-39.51243; lcl_1:表示在线性回归分析条件下,预测值95%可置信区间的下限为:-41.46780、-52.47135. ucl_1:表示在线性回归分析条件下,预测值95%可置信区间的上限为:196.97266、179.94058.,80,回归分析,时间序列上的曲线估计,8

36、1,定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y,研究变量x与y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似,82,对19782006年间社会消费品零售总额之间的关系进行曲线回归分析,时间序列上的曲线估计应用举例,83,注:因变量选择y(社会消费品零售总额),变量选择x(年份),同时选中“时间”项,表示其为代表时间的自变量。“模型”框内勾选线性、二次项、立方和幂四种曲线模型进行估计,不必勾选“显示ANOVA表格”。,84,注:在“曲线”估计中单击“保存”按钮,当以时间作为自变量

37、时,“预测个案”是有效的。“从估计期到最后一个个案的预测”是计算当前所有样本期内的预测值。“预测范围”是指如果预测的范围超过了当前样本期,可以选择在此项随后的“观测值”中键入一个需预测的期数,“31”表示将使用不同曲线模型对19782008年这31年的社会消费品零售总额作预测,并在spss数据编辑窗口中保留所有预测值。,85,结果和分析,所选的4种曲线函数中以立方曲线的拟合优度最高。所以选择立方拟合社会消费品零售总额在各年的变化趋势,接下来结合观察值和各种函数模型预测值的对比图加以检验。,86,87,从对比图中可以看出,三次函数的曲线与样本的实际观察值拟合得较好,所以决定对本节中的研究问题“社

38、会消费品零售总额的趋势分析”采用指数函数进行回归分析,其具体模型为: y=2155.592-197.636x+35.303x2+1.947x3,88,由于在“曲线估计”窗口中选了“保存”项,因此在spss数据编辑窗口中就新增了fit_1,fit_2,fit_3,fit_4四个变量的预测值,同时在窗口下面还新增了两个个案,他们分别代表对2007年和2008年的预测值。以三次函数做回归分析: 当自变量x值为2001时,因变量y的预测值为44665.01213 当自变量x值为2007时,因变量y的预测值为80573.79934 当自变量x值为2008时,因变量y的预测值为87964.31013,89

39、,逻辑回归分析,90,定性变量,在许多实际问题中,会经常出现因变量是定性变量的情况: 例如,某个人是否购买汽车,受到多种如家庭情况、收人情况等因素的影响,但最终的可能性只有两个,要么购买,要么不购买。把y1定义为购买,yo则表示不购买。 再如,在是否购买某项商业保险的研究中,根据消费者的年龄、身体状况、收人情况、工作性质、受教育程度等,因变量y也只有两种可能结果:要么y=1表示购买,要么yo表示不购买。,90,91,处理方法,可用于处理定性因变量的统计分析方法有:判别分析(D1scriminant analysis)、Probit分析、 Logistic回归分析和对数线性模型等。 在社会科学中

40、,应用最多的是logistic回归分析,逻辑回归分析是对定性变量的回归分析。 Logistic中文意思为“逻辑”但是这里,并不是逻辑的意思,而是通过logit变换来命名的,91,92,Logistic回归分析法,Logistic回归分析是对定性变量的回归分析 分类: Logistic回归分析根据因变量取值类别不同,又可以分为二元(Binary logistic)回归分析和多项(Multinomianl logistic)回归分析。 变量特点:因变量是分类变量,自变量可以是分类变量也可以是连续变量 Binary logistic回归模型中因变量只能取两个值1和o(虚拟因变量),二分类变量。二元指

41、“两种可能性”,就好比逻辑中的“是”或者“否”一样。 Multinomianl logistic回归模型中因变量可以取多个值,多分类变量。,92,93,Logistic回归分析要解决的问题,具体地说, Logistic回归分析主要解决以下几方面的问题: 通过分析大量的样本数据,确定变量之间的数学关系式 对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度,93,94,二元logistic回归模型数学表达式,二元Logistic函数

42、的形式为: 二元Logistic回归方程: 二元 logistic中通过Logit变换,成为线性关系: 利用极大似然估计法,对参数进行估计,可用SPSS计算。,94,95,对参数进行检验,常用检验统计量: 1.-2对数似然值(-2log likelihood,-2LL) 因为-2LL近似服从卡方分布且在数学上更为方便,所以-2LL可用于检验Logistic回归的显著性。公式为: 2.拟合优度Goodness of Fit统计量 Logistic回归的拟合优度统计量计算公式为:,95,96,3. cox和snell的R2 4. Nagelkerke的R2 5.伪R2 (Psedo-R-squar

43、e) 伪 R2 与线性回归模型的R2 相似,其意义 相似,但它小于1 6.Hosmer和Lemeshow的拟合优度检验统计量 7.Wald 统计量,96,97,二元logistic回归应用,在一组独立变量上对二分类从属变量进行回归 利用前像/后向逐步方法或全部进入方法建模 用偏差数对比、简单比较、差分(反Helmert) 、Helmert、多项式、邻近类别比较、用户自定义、或指示预示变量 选择建模标准:变量进入的评分统计量的概率值、Wald概率值、或者移除变量的对数似然比统计量 保存统计量:预测概率和分组、残差、偏差值、Logit、标准化残差、杠杆值、类似Cooks的距离、差异 通过XML导出

44、模型,97,98,多项logistic 回归模型数学表达式,多项logistic 回归模型 模型如下: 与二元逻辑回归一样,通过变换可得,98,99,检验统计量,拟合检验 Pearson卡方统计量、卡方偏差统计量 大样本数据的这两个统计量的取值很相近 伪R方统计量 指McFadden统计量,99,100,多项logistic回归应用,在一组自变量上对多于两种类别的分类因变量进行回归 用CRITERIA子命令控制算法调整参数的值 包含交互作用项 自定义假设检验:使用TEST子命令直接把 零假设指定为参数的线性组合 用SCALE子命令指定离差偏离比例 建立包含/不包含截距项的方程 几率比的置信区间

45、 保存统计量:预测概率、预测响应类别、,100,101,预测响应分类的概率和实际响应分类的概率 指定因变量的参照类 处理非常大的问题 利用逐步方法从众多的可能的预测因子中选择最佳预测因子 利用评分和Wald方法,使您在大数据集的情况下更迅速地得出研究结果 利用AIC或者BIC准则 ( 也称为SBC ) 评估模型拟合度,101,102,多项logistic回归:,二元logistic回归:,二元与多项logistic回归的区别,103,103,同二元Logistic回归相对应,当因变量有2个以上的分类变量时,就选用“多项Logistic回归”。 在因变量中,其中一个分类变量要作基线类,其他类别都

46、同它比较成为非冗余的逻辑变换模型,对于基线类,其模型中所有系数均为0。比如,三分类的变量A、B、C,可以以B为基线,A与B比较,C与B比较,这就如同建立了两个二元Logistic回归分析。,多项Logistic回归,104,实例操作,案例1. 二元Logistic回归 在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y1表示居民主要乘坐公共汽车上下班;y0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3:1为男性,x3:0为女性)。 试建立y与自变量间的Logistic回归,数据如表L-1所示。,104,105,操作步骤:

47、1.输入数据,105,106,2.在“分析”菜单的“回归”子菜单中选择“二元 Logistic”命令,进行Logistic回归分析;,106,107,3.在弹出的“Logistic 回归”对话框中,从左侧的变量列表中选择y变量(居民上下班使用交通工具的情况),将至添加到“因变量”框中,表示该变量时因变量; 选择年龄、月收入、性别进入“协变量”框中,表示其为自变量; 在Method框中选择SPSS默认的“Enter”方法,使所选变量全部进入回归方程,如图所示。,107,108,4.单击对话框中的“选项”按钮,在弹出的“Logistic 回归:选项”对话框中按需要选择各选项,如图所示。,108,1

48、09,“统计量和图”框中的选项用来选择输出哪些统计量或统计图表,具体选项如下。 Classification plots(分类图):通过比较因变量的观测值和预测值之间关系,反映回归模型的拟合效果。 Hosmer-Lemeshow goodness-of-fit (H-L拟合优度检验统计量):用以检验整个回归模型的拟合优度。 Casewise listing of residuals(个案残差列表):输出标准方差大于某值(Outliers outside*std. Dev.)的个案或者全部个案(All cases)的入选状态,因变量的观测值和预测值及其相应预测概率、残差值。 Correlatio

49、ns of estimates (估计参数的相关性):输出模型中各估计参数间的相关矩阵。 Iteration history (迭代历史):输出参数估计迭代过程中的系数及对数似然值。 CI for exp(B)(exp(B)的N%置信区间):选中该选项将会在模型检验的输出结果中列出exp(B)(各回归系数指数函数值)的N%(缺省值为95%)置信区间,如果要改变缺省值,可以在空白方框内输入199(一般常用的值为90,95,99)之间的任何一个整数。,选项说明,110,110,“输出”框用来选择输出计算结果的方式。 At each step:显示spss每个步骤的计算结果。 At last ste

50、p:只显示最终计算结果。 “在模型中包括常数”选项用以确定所求模型的参数是否要包含常数项。 为了更好地说明以上各选项的意义,本例选择了所有选项,但保留各选项中的缺省值。,选项说明,111,“步进概率”框用来设定步长标准,以便逐步控制自变量进入方程或被剔除出方程: 进入 :设置变量进入方程的标准值。如果变量的分数统计概率小于所设置进入方程的标准值,则该变量进入模型,SPSS默认的显著性水平为0.05 删除:设置变量被剔除方程的标准值。如果变量的分数统计概率大于所设置被剔除出方程的标准值,则将该变量剔除出方程,SPSS默认的显著性水平为0.10,“分类标准值”选项用以确定个案分类的中止点。因变量预

51、测值大于分类中止点的个案设归为正个案一类;因变量预测值小于分类中止点的个案设为负个案。SPSS设中止点缺省值为0.5,我们可以通过输入0.010.99之间任一数值改变缺省值,从而产生新的分类表。 “最大迭代次数”选项用以确定最大对数似然值达到之前的迭代次数。最大对数似然值是通过反复迭代计算知道收敛为止而得到的。SPSS中该项的缺省值为20,我们可以重新输入一个新的正整数来改变此项的值。,选项说明,112,5.在“保存”中只选择“预测值”中的“概率”、“组成员”即原始数据个案中,每一个个案最后的预测分类情况,PRE_1、PGR_1分别是最后的预测结果中的预测概率和预测组的变量名(做完后才会在数据

52、视图中出现)。 6.单击“继续”按钮,返回上一个对话框。然后,单击“确定”按钮,即可得到SPSS回归分析的结果。,112,113,第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。,SPSS输出结果文件如下。 (1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。,6.结果讨论和分析:,结果分析,114,(2)第二部分(Block 0)输出结果有4个表格。 第1个输出表格列出迭代过程。其中常数项包括在模型中,初始-2LL为38.673。迭代结束于第二步,因为此时参数与其在上一步的变化已经小于0.001 。,第2个分类表说明S

53、tep 0 的拟合效果。可以看出对于y=0,有100%的准确性,对于y=1,有0%准确性,总共有53.6%的准确性。,此时参数估计的变化表现为对数似然值的变化,分类表,结果分析,115,下面两个表格给出了模型系数的检验结果,其中常数项的系数值为-0.143,其伴随概率为0.706,可见常数项不显著。X1,X2,X3的系数通过了检验,即这两个变量显著。,各回归系数 指数函数值,结果分析,116,(3)表格列出了模型系数的综合检验结果。,(4)表格给出了-2对数似然值、Cox 和 Snell 的R2 以及Nagelkerke的R2 检验统计结果。,cox和snell的R2是在似然值基础上模仿线性回

54、归模型的R2解释Logistic回归模型,一般小于1.,为了对cox和snell的R2进一步调整,使得取值范围在01之间,Nagelkerke把cox和snell的R2除以它的最大值,即Nagelkerke的R2,117,(5)表格给出了Hosmer 和 Lemeshow 的拟合优度检验统计量。,Hosmer and Lemeshow检验,Hosmer and Lemeshow检验的随机性表,与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简

55、称HL拟合优度检验统计量),最后根据自由度为8的卡方分布计算其p值并对Logistic模型进行检验。如果该P值小于给定的显著性水平 (如0.05),表明模型的预测值与观测值存在显著差异。如果P值大于给定的显著性水平,表明在可接受的水平上模型的估计拟合了数据。,大于0.05,表明拟合了数据,118,(6)分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。,正确分类比例,预测值,观测值,119,(7)方程中的变量表格列出了Step 1 中各个变量对应的系数,以及该变量对应的Wald 统计量

56、和它对应的相伴概率。从该表格中可以看出X3相伴概率最小,Wald统计量最大,可见该标量在模型中很重要。,wald统计量用于判断个变量是否应该包含在模型中。 SPSS软件没有给出Logisticc回归的标准化回归系数,因此,如果要考虑每个自变量在回归方程 中的重要性,不妨直接比较Wald统计量的大小(或sig),Wald统计量大者(或sig值小者)显著性高,也就更重要。,120,(8)相关矩阵表格列出了常数Constant、系数之间的相关矩阵。常数与月收入之间相关性最大,年龄和性别之间的相关性最小。,相关矩阵,121,(9)下图所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个

57、个案。横坐标是个案属于1的隶属度,这里称为预测概率(Predicted Probability)。纵坐标是个案分布频数,反映个案的分布。,如果逻辑回归预测完全准确,那么该坐标图中预测概率是00.5之间的个案都应该是0,0.51之间的个案都应该是1. 该例生成的图基本上符合这个效果。不正确的结果包括:预测概率是00.5之间的个案中有3个实际的观测值为1,0.51之间的个案观测值有2个为0,这是错误预测的结果。,观测值和预测概率分布图,122,(10)逻辑回归的最后一个输出表格式Casewise List,列出了残差大于2的个案。本例中列出了两个符合条件的个案,分别是第10个案和第19个案。这两个

58、个案都有*,表明这两个个案的逻辑回归结果是错误的。,案例列表,残差、标准化残差,123,123,案例2. 多项Logistic回归分析 某快餐公司为了提高早餐的市场份额,对880名消费者做了一份调查,请利用多项Logistic回归方法分析3种早餐的市场销售情况。数据见表L-1。,124,124,操作步骤: 1.输入数据,125,125,2.在“分析”菜单的“回归”子菜单中选择“多项 Logistic”命令,进行多项Logistic回归分析;,126,126,3.变量设置:选择相应的“因变量”、“因子”项目; 接着点击“参考类别”,对因变量设置“参考类别”,分别有“第一类、最后一类、用户指定取值

59、”三种类别;然后选择“类别顺序”;根据图示设置。,127,127,4.模型设置:点击“模型”,进入模型界面;选择“设定/步进式”模型;把“因素”列表中的“agecat”和“active”放入“强制输入项”栏,建立项选择“主效应”;如图进行设置。,128,128,5.统计量设置:点击“统计量”, 进行图示设置。,用于选择关于统计模型的统计量,用于选择关于模型参数的输出统计量,设置分组定义,129,129,6.收敛标准设置:点击“条件”,设置收敛准则。,130,130,7.选项设置:点击“选项”,在此设置逐步回归的参数。,131,131,8.保存设置:点击“保存”,勾选需要保存到数据集中的变量。,132,132,9.结果分析:按“确定”,获得需要的分析结果。,拟合优度表格:零假设是模型能够很好拟合原始数据。Pearson统计量和偏差统计量的显著水平都大于0.1,不能否定零假设,即最终模型显著成立。,零假设认为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论