SPSS 相关分析与回归分析专题.ppt_第1页
SPSS 相关分析与回归分析专题.ppt_第2页
SPSS 相关分析与回归分析专题.ppt_第3页
SPSS 相关分析与回归分析专题.ppt_第4页
SPSS 相关分析与回归分析专题.ppt_第5页
已阅读5页,还剩305页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关分析 与 回归分 析 相关分析与回归归分析专题专题 (Correlation & regression) 相关分析 与 回归分 析 相关分析 (Correlation Analysis) 相关分析 与 回归分 析 一、相关分析的意义义: 研究问题过问题过 程:单变单变 量分析 双变变量分析 多变变量分 析 多变变量分析与单变单变 量分析的最大不同:揭示客观观事物之间间 的关联联性。 所以,相关分析的意义义和目的在于: (1)在统计统计 学中有理论论与实实践意义义 (2)对对相关关系的存在性给给出判断 ( 3 ) 对对相关关系的强度给给出度量和分析 相关分析 与 回归分 析 二、相关分析的概念 变变量之间间的关系分为为确定性关系和非确定性关系。 确定性关系:当一个变变量值值(自变变量)确定后,另一 个变变量值值(因变变量)也就完全确定了,确定性关系往往可 以表示成一个函数的形式,比如圆圆的面积积和半径的关系: S=r 非确定性关系:给给定了一个变变量值值后,另一个变变量值值 可以在一定范围围内变变化,例如家庭的消费费支出和家庭收入 的关系。 研究者把非确定性关系称为为相关关系。 相关分析 与 回归分 析 三.相关分析的特点和应应用 相关关系是普遍存在的,函数关系仅仅是相关关系的特 例。 1.相关关系的类类型 相关关系多种多样样,归纳归纳 起来大致有以下6种: l 强正相关关系,其特点是一变变量X增加,导导致另一变变 量 Y明显显增加,说说明X是影响Y的主要因素。 l 弱正相关关系,其特点是一变变量X增加,导导致另一变变 量Y增加,但增加幅度不明显显。 l 强负负相关关系,其特点是X增加,导导致Y明显显减少,说说 明X是影响Y的主要因素 相关分析 与 回归分 析 l弱负负相关关系,其特点是变变量X增加,导导致Y减少,但 减少幅度不明显显,说说明X是Y的影响因素,但不是唯一 因素。 l 非线线性相关关系,其特点是X、Y之间间没有明显显的线线 性 关系,却存在着某种非线线性关系,说说明X仍是影响Y的 因素。 l 不相关,其特点是X、Y不存在相关关系,说说明X不 是 影响Y的因素。 相关分析 与 回归分 析 2.相关分析的应应用 (1)相关分析可以在影响某个变变量的诸诸多变变量中判 断哪些是显显著的,哪些是不显显著的。而且在得到相关分 析的结结果后,可以用于其他分析,如回归归分析和因子分 析。 (2) 相关分析方法已广泛用于心理学、教育学、医 学、经济经济 学等各学科。它对试验对试验 数据的处处理、经验经验 公 式的建立、管理标标准的测测定、自然现现象和经济现经济现 象的 统计预报统计预报 ,都是一种方便而且有效的工具。 相关分析 与 回归分 析 四、相关系数 l相关分析的主要目的是研究变变量之间间关系的密切程度, 以及根据样样本的资资料推断总总体是否样样关。反映变变量之间间 关系紧紧密程度的指标标主要是相关系数r。相关系数r取值值在 -1到+1之间间,当数值值愈接近-1或+1时时,说说明关系愈紧紧密 ,接近于0时时,说说明关系不紧紧密。 相关分析 与 回归分 析 相关系数的计计算 l样样本的相关系数一般用r表示,总总体的相关系数一般用p表 示。 l对对于不同类类型的变变量,相关系数的计计算公式不同。在相关 分析中,常用的相关系数有: Pearson简单简单 相关系数:对对定距连续变连续变 量的数据进进行计计 算。如测测度收入和储储蓄,身高和体重。 Spearman等级级相关系数:用于度量定序变变量间间的线线性 相关关系。如军队军队 教员员的军衔军衔 与职职称。 Kendall r相关系数:用非参数检验检验 方法来度量定序变变量 间间的线线性相关关系。计计算基于数据的秩。 相关分析 与 回归分 析 Pearson相关系数应应用广泛,其计计算公式及其性质质如下 : 相关分析 与 回归分 析 在Analyze的下拉菜单单Correlate命令项项中有三个 相关分析功能子命令: l Bivariate(两两相关分析过过程) l Partial (偏相关分析过过程) l Distances(距离分析过过程) 五、SPSS中相关分析Correlation菜 单单 相关分析 与 回归分 析 Bivariate过过程 相关分析 与 回归分 析 lBivariate过过程用于进进行两个或多个变变量间间的参数与 非参数相关分析,如为为多个变变量,给给出两两相关的分 析结结果。这这是correlate菜单单中最常用的一个过过程, 包括自动计动计 算Pearson简单简单 相关系数、T检验统计检验统计 量 和对应对应 的概率P值值。 相关分析 与 回归分 析 举举例:对对肺活量和体重 做相关分析 1.打开SAV数据。 2.用散点图图初步观观察两变变 量间间有无相关趋势趋势 ,依次 单击单击 菜单单“Graphs-Chart Builder”打开图图形构建器, 选择选择 做散点图图(Scatter /Dot)。 相关分析 与 回归分 析 3.设设置相关分析的参数。 依次单击单击 “Analyze-Correlate- Bivariate”执执行两变变量相关分析。其主设设置面 板如图图所示: 待分析变变量列表 变变量列表 相关系数 显显著性检验选检验选 项项 相关分析 与 回归分 析 相关分析 与 回归分 析 (2)相关性输输出,“相关性”表格给给出的是 Pearson相关系数及其检验结检验结 果:“相关系数”表格 给给出的是两个非参数相关系数及其检验结检验结 果。可见见 ,3个相关系数在0.01和0.05的显显著性水平(双边边 检验检验 )上都非常显显著,从而推断体重和肺活量之间间 存在着明显显的正相关关系。 (1)描述性输输出,“描述性统计统计 量”表格给给出了两个 变变量的基本统计统计 信息,包括均值值、标标准差和频频率。 相关分析 与 回归分 析 Partial 过过程 相关分析 与 回归分 析 l偏相关分析也称净净相关分析,它在控制其他变变量的线线性 影响下分析两变变量间间的线线性相关,所采用的是工具是偏 相关系数(净净相关系数)。运用偏相关分析可以有效地 揭示变变量间间的真实实关系,识别识别 干扰变扰变 量并寻寻找隐隐含的 相关性。如控制年龄龄和工作经验经验 的影响,估计计工资资收 入与受教育水平之间间的相关关系。 lPartial过过程,当进进行相关分析的两个变变量的取值值都受 到其他变变量的影响时时,就可以利用偏相关分析对对其他 变变量进进行控制,输输出控制其他变变量影响后的相关系数 。 相关分析 与 回归分 析 举举例: 分析身高与肺活量之间间的相关性,要控制体重在 相关分析过过程中的影响。 1.设设置偏相关分析的参数。 依次单击单击 “Analyze-Correlate-Patial”执执行偏 相关分析。其主设设置面板如图图所示: 相关分析 与 回归分 析 0阶阶偏相关 (Pearson) 1阶阶偏相关 显显著相关 相关不显显著 相关分析 与 回归分 析 (1)描述性输输出,“描述性统计统计 量”表格给给出了三个变变 量的基本统计统计 信息,包括均值值、标标准差和频频率。 (2)相关性输输出,“相关性”表格给给出了所有变变量的0 阶阶偏相关(Pearson简单简单 相关)系数和1阶阶偏相关系数 的计计算结结果果、以及它们们各自的显显著性检验检验 P值值。分 析结结果显显示:在体重 不变变的条件下,身高与肺活量之 间间不存在显显著 线线性相关关系。 相关分析 与 回归分 析 Distances过过程 相关分析 与 回归分 析 l距离分析:此过过程可以在观测记录观测记录 之间间或者 不同变变 量之间进间进 行相似性和不相似性分析。相似性分析可以 用于检测观测值检测观测值 的接近程度,不相似性分析可用于考 察各变变量的内在联联系和结结构。该过该过 程一般不单单独使用 ,而是作为为因子分析、聚类类分析和多维维尺度分析等的 预预分析过过程,以帮助了解复杂杂数据集的内部结结构,为为 进进一步的分析做准备备。 l与距离分析有关的统计统计 量分为为相似性测测度和不相似性 测试测试 两大类类。 相关分析 与 回归分 析 l不相似性测测度 a、对对定距变变量的测测度可以使用的统计统计 量有Euclid欧氏距 离、平方欧氏距离、契比雪夫距离等。 b、对对定序变变量,使用卡方不相似测测度和Phi方不相似测测度 。 c、对对二值值(只有两种取值值)变变量,使用欧氏距离、平方 欧氏距离、Lane and Williams 不相似测测度。 l相似性测测度: a、对对定距变变量的测测度,主要有统计统计 量Pearson相关或余 弦距离。 b 、对对二值变值变 量的相似性测测度主要包括简单简单 匹配系数、 Jaccard相似性指数等。 在通常使用的距离中,最常用的是欧式距离。 相关分析 与 回归分 析 案例:打开“地区经济发经济发 展水平指标标.sav” 相关分析 与 回归分 析 参数设设置: 距离的计计算对对 象 距离的测测度类类 型 分析变变量例表 相关分析 与 回归分 析 结结果分析: 相关分析 与 回归分 析 (1)案例处处理摘要。“案例处处理摘要”表格给给出了数据 使用的基本情况。主要是对对有无缺失值值的统计统计 信息, 可见见本例的11个案例没有缺失,全部用于分析。 (2)近似矩阵阵。“近似矩阵阵”表格给给出的是各变变量之 间间的相似矩阵阵,图图中以线线框标标注了相关系数较较大的几 对变对变 量。它们们在进进一步的分析中应应重点关注,或者直 接对对其进进行适当的预处预处 理(例如变变量约约减) 相关分析 与 回归分 析 相关分析 与 回归分 析 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量 关系的一种统计分析方法。 p涉及的自变量的多少 a. 一元回归分析 b. 多元回归分析 p自变量和因变量之间的关系类型, a. 线性回归分析 b. 非线性回归分析 线性回归 相关分析 与 回归分 析 回归分析一般步骤: 确定回归方程中的解释变量(自变量)和被 解释变量(因变量) 确定回归模型 建立回归方程 对回归方程进行各种检验 利用回归方程进行预测 线性回归 相关分析 与 回归分 析 一元线性回归模型是指只有一个解释变量的线性 回归模型,用于揭示被解释变量与另一个解释变量 之间的线性关系。 一元线性回归数学模型: 其中0和1是未知参数,分别称为回归常数和回归 系数,称为随机误差,是一个随机变量,且应该 满足两个前提条件: E( )=0 var()=2 线性回归模型 线性回归 相关分析 与 回归分 析 多元线性回归模型是指有多个解释变量的线性回归 模型,用于揭示被解释变量与其他多个解释变量之间 的线性关系。 多元线性回归数学模型: 其中0、1、 p都是未知参数,分别称为回归常数 和偏回归系数,称为随机误差,是一个随机变量, 且同样满足两个前提条件: E( )=0 var()=2 线性回归 线性回归模型 相关分析 与 回归分 析 回归参数的普通最小二乘估计(OLSE) 线性回归方程确定后的任务是利用已经收集到的样本数据,根 据一定的统计拟合准则,对方程中的各参数进行估计。普通最 小二乘就是一种最为常见的统计拟合准则。 最小二乘法将偏差距离定义为离差平方和,即 (1) 最小二乘估计就是寻找参数0 、1、 p的估计值 0 、 1、 p,使式(1)达到极小。通过求极值原理(偏导为零)和解方程 组,可求得估计值,SPSS将自动完成。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u回归方程的拟合优度检验(相关系数检验) 一元线性回归的拟合优度检验采用R2统计量,称为判定 系数或决定系数,数学定义为 其中 称为回归平方和(SSA) 称为总离差平方和(SST) 线性回归 相关分析 与 回归分 析 线性回归 u回归方程的统计检验 u回归方程的拟合优度检验(相关系数检验) R2取值在0-1之间, R2越接近于1,说明回归方程对样本 数据点的拟合优度越高。 相关分析 与 回归分 析 多元线性回归的拟合优度检验采用 统计量,称为调整的 判定系数或调整的决定系数,数学定义为 式中n-p-1、n-1分别是SSE和SST的自由度。其取值范围和意 义与一元回归方程中的R2是相同的。 u回归方程的统计检验 u回归方程的拟合优度检验(相关系数检验) 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u回归方程的显著性检验(F检验) 一元线性回归方程显著性检验的零假设是1=0,检验采用 F统计量,其数学定义为: 即平均的SSA/平均的SSE,F统计量服从(1,n-2)个自由 度的F分布。SPSS将会自动计算检验统计量的观测值以及 对应的概率p值,如果p值小于给定的显著性水平,则应 拒绝零假设,认为线性关系显著。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u回归方程的显著性检验(F检验) 多元线性回归方程显著性检验的零假设是各个偏回归系数 同时为零,检验采用F统计量,其数学定义为: 即平均的SSA/平均的SSE,F统计量服从(p,n-p-1)个自 由度的F分布。SPSS将会自动计算检验统计量的观测值以 及对应的概率p值,如果p值小于给定的显著性水平,则 应拒绝零假设,认为y与x的全体的线性关系显著。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u回归系数的显著性检验(t检验) 一元线性回归方程的回归系数显著性检验的零假设是1=0 ,检验采用t统计量,其数学定义为: t统计量服从n-2个自由度的t分布。 SPSS将会自动计算t统 计量的观测值以及对应的概率p值,如果p值小于给定的 显著性水平,则应拒绝零假设,认为x对y有显著贡献, 线性关系显著。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u回归系数的显著性检验(t检验) 多元线性回归方程的回归系数显著性检验的零假设是i=0 ,检验采用t统计量,其数学定义为: ti统计量服从n-p-1个自由度的t分布。 SPSS将会自动计算 ti统计量的观测值以及对应的概率p值,如果p值小于给定 的显著性水平,则应拒绝零假设,认为xi对y有显著贡 献,应保留在线性方程中。 (i=1,2, ,p) 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值 之间的差距,即 它是回归模型中 的估计值。如果回归方程能较好地反映 被解释变量的特征和变化规律,那么残差序列中应不包含明 显的规律性和趋势性。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u残差分析均值为0的正态性分析 残差均值为0的正态性分析,可以通过绘制残差图进行分 析,如果残差均值为0,残差图中的点应在纵坐标为0的横 线上下随机散落着。正态性可以通过绘制标准化(或学生 化)残差的累计概率图来分析 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u残差分析独立性分析 绘制残差序列的序列图 以样本期(或时间)为横坐标,残差为纵坐标,如果残差 随时间的推移呈规律性变化,则存在一定的正或负相关性 。 计算残差的自相关系数 取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验 DW取值在0至4之间,直观判断标准是DW=4,残差序列完 全负自相关;DW=2,完全无自相关;DW=0,完全正自相 关。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u残差分析异方差分析 绘制残差图 如果残差的方差随着解释变量值的增加呈增加(或减少) 的趋势,说明出现了异方差现象。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u残差分析异方差分析 等级相关分析 得到残差序列后首先对其取绝对值,然后计算出残差和解 释变量的秩,最后计算Spearman等级相关系数,并进行等级 相关分析。具体过程见相关分析相关章节。 线性回归 相关分析 与 回归分 析 u回归方程的统计检验 u残差分析探测样本中的异常值和强影响点(对于y值 ) 标准化残差ZRE 由于残差是服从均值为0的正态分布,因此可以根据3准则 进行判断,首先对残差进行标准化 ,绝对值大于3 对应的观察值为异常值。 学生化残差SRE 剔除残差DRE(或剔除学生化残差SDRE) 上述SRE、SDRE的直观判断标准同标准化残差ZRE。 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 多元回归分析中的其他问题 u变量筛选问题 向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线 性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选 与解释变量偏相关系数最高并通过检验的变量进入回归方程。 向后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检 验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值 最小的变量。 逐步筛选策略 向前筛选与向后筛选策略的综合 线性回归 相关分析 与 回归分 析 多元回归分析中的其他问题 u变量多重共线性问题 容忍度Tol 容忍度值越接近于1,表示多重共线性越弱。SPSS变量多重共线性的要求 不很严格,只是在容忍度值太小时给出相应警告信息。 方差膨胀因子VIF 膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性越 弱。通常如果VIFi大于等于10,说明解释变量xi与其余解释变量之间有严 重的多重共线性。 特征根和方差比 这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其 他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。 条件指数ki 10 ki 100时,认为多重共线性较强, ki 100时,认为多重共线性很 严重 线性回归 相关分析 与 回归分 析 n回归分析基本操作 (1)选择菜单AnalyzeRegressionLinear,出现如下对话框 因变量 自变量 条件变量 标志变量 筛选策略 线性回归 相关分析 与 回归分 析 (2)将因变量选入Dependent框 (3)将一个或多个自变量选入 Independengt(s)框 (4)在Method框中选择回归分析 中自变量的筛选策略。其中Enter 表示所选变量强行进入回归方程 ,是SPSS默认策略,通常用在一 元线性回归分析中;Remove表示 从回归方程中剔除所选变量; Stepwise表示逐步筛选策略; Backward、Forward分别表示向后 、向前筛选策略。 n回归分析基本操作 线性回归 相关分析 与 回归分 析 (5)上述(3)、(4)中确定的自变量和筛选策略可放置 在不同的Block中,单击 “Next”和“Previous”按钮设置 多组自变量和变量筛选策略,并放在不同Block中,SPSS将 按照设置顺序依次进行分析。“Block”设置便于作各种探 索性的回归分析。 n回归分析基本操作 线性回归 相关分析 与 回归分 析 (6)选择一个变 量作为条件变量到 Selection Variable框 中,并单击 “Rule”按钮给定 一个判断条件。只 有变量值满足给定 条件的样本数据才 参与线性回归分析 。 线性回归 n回归分析基本操作 相关分析 与 回归分 析 (7)在Case Labels框中指定哪个变量作为数据样本点的标 志变量,该变量的值将标在回归分析的输出图形中。 (8)WLS Weight中选人权重变量,主要用于加权最小二乘 法。 至此便完成了线性回归分析的基本操作,SPSS将根据指 定自动进行回归分析,并将结果输出到输出窗口中。 线性回归 n回归分析基本操作 相关分析 与 回归分 析 n回归分析的其他操作 Statistics选项选项 输出与回归系 数相关的统计 量,包括回归 系数、回归系 数标准误、标 准化回归系数 、回归系数显 著性检验的t统 计量和概率p值 ,个解释变量 的容忍度。 每个非标准化 回归系数的 95%置信区间 输出各解 释变量间 的相关系 数、协方 差以及各 回归系数 的方差 线性回归 相关分析 与 回归分 析 输出判定系数、 调整的判定系数 、回归方程的标 准误、回归方程 显著性检验的方 差分析表 每个解释变量进 入方程后引起的 判定系数的变化 量和F值的变化 量(偏F统计量 ) 输出个解释变量 和被解释变量的 均值、标准差、 相关系数矩阵及 单侧检验概率值 输出方程中各解 释变量与被解释 变量之间的简单 相关、偏相关系 数和部分相关 线性回归 n回归分析的其他操作 Statistics选项选项 相关分析 与 回归分 析 多重共线性分 析: 输出各解释变 量的容忍度、 方差膨胀因子 、特征值、条 件指标、方 差比例等 DW值 输出标准化残差 绝对值大于等于 3(默认)的样 本数据的相关信 息 线性回归 n回归分析的其他操作 Statistics选项选项 相关分析 与 回归分 析 Plots选项选项 标准化预测值 标准化残差 剔除残差 调整的预测值 学生化残差 剔除学生化残差 标准化残差序 列直方图 标准化残差序 列正态分布累 计概率图 依次绘制被解 释变量与各解 释变量的散点 图 线性回归 n回归分析的其他操作 相关分析 与 回归分 析 Save选项选项 该窗口将回归分析的某些结果以SPSS变量的形式保存到 数据编辑窗口中,并可同时生成XML格式的文件,便 于分析结果的网络发布。 线性回归 n回归分析的其他操作 相关分析 与 回归分 析 Save选项选项 保存剔除第i个样本 后各统计量的变化 量 回归系数变化量 标准化回归系数变化量 预测值变化量 标准化预测值变化量 协方差比 线性回归 n回归分析的其他操作 相关分析 与 回归分 析 Options选项选项 设置多元线性回 归分析中解释变 量进入或剔除出 回归方程的标准 偏F统计量 的概率值 线性回归 n回归分析的其他操作 相关分析 与 回归分 析 u线性回归分析的应用举例 为研究高校人文社会科学研究中立项课题数受哪些因素的 影响,收集某年31个省市自治区部分高校有关社科研究方 面的数据,并利用线性回归方法进行分析。这里,被解释 变量为立项课题数X5,解释变量为投入人年数( X2)、投 入高级职称的人年数( X3)、投入科研事业费( X4)、 专著数( X6)、论文数( X7 )、获奖数( X8 )。具体操 作如前所述。分析结果如下 线性回归 相关分析 与 回归分 析 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 立项课题数多元线性回归分析结果(强制进入策略)(一) 回归方程的拟合优 度较高 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 立项课题数多元线性回归分析结果(强制进入策略)(二) SS A SS E SST 被解释变量与解释变量 的全体的线性关系显著 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 立项课题数多元线性回归分析结果(强制进入策略)(三) 偏回归系数检验只有x2 的是显著的,其他均不 显著,即与0无显著差异 各解释变量之间存 在很强共线性 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 立项课题数多元线性回归分析结果(强制进入策略)(四) 由特征根的较大差异、条件指数以及方差比进一步证实 了各解释变量之间存在严重的线性自相关。 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 立项课题数多元线性回归分析结果(向后筛选策略)(一) 由此可见,不能以一味追求高的拟合优度为 目标,还要重点考察解释变量对被解释变量 的贡献 线性回归 相关分析 与 回归分 析u线性回归分析的应用举例 立项课题数多元线性回归分析结果(向后筛选策略)(二) SS A SS E SST 线性回归 相关分析 与 回归分 析u线性回归分析的应用举例 立项课题数多元线性回归分析结果(向后筛选策略)(三) 由 此 可 清 楚 地 看 到 变 量 剔 除 的 过 程 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 立项课题数多元线性回归分析结果(向后筛选策略)(四) 线性回归 相关分析 与 回归分 析 u线性回归分析的应用举例 通过上述回归方程的分析以及各种检验,得出如下回归 方程: 立项课题数=-94.524+0.492投入人年数,意味着投入人年 数每增加一个单位会使立项课题数平均增加0.492个单位 。 线性回归 相关分析 与 回归分 析 曲线估计 相关分析 与 回归分 析 曲线线估计计 变量间相关关系的分析中,变量之间的关系并不总是表 现出线性关系,非线性关系也极为常见。非线性又可划 分为: 本质线性关系 形式上虽然呈非线性,但可通过变量转换化为线性关系 。 本质非线性关系 不仅形式上呈非线性,也无法通过变量转换化为线性关 系。 这里的曲线估计是解决本质线性关系问题的。 相关分析 与 回归分 析 模型名回归方程变量变换后的线性方程 二次曲线(Quadratic) 复合曲线(Compound) 增长曲线(Growth) 对数曲线(Logarithmic) 三次曲线(Cubic) S曲线(S) 指数曲线(Exponential) 逆函数(Inverse) 幂函数(Power) 逻辑函数(Logistic) 常见本质线性模型 曲线线估计计 相关分析 与 回归分 析 在SPSS曲线估计中,首先在不能明确哪种模型更接近 样本数据时可在上述可选择的模型中选择几种模型, 然后,SPSS自动完成模型的参数估计,并输出回归方 程显著性检验的F值和概率P值、判定系数R2等统计量 ;最后以判定系数为主要依据选择其中的最优模型, 并进行预测分析。 曲线线估计计 相关分析 与 回归分 析 基本操作: (1)选择菜单Analyze Regression Curve Estimation。 (2)选择被解释变量到Dependent框。 (3)曲线估计中解释变量可以是相关因素变量,也可以 是时间变量。如果解释变量为相关因素变量。则选择 Variable选项,并指定一个解释变量到Independent框;如 果选择Time参数表示解释变量为时间变量。 (4)在Models中选择几种模型。 (5)选择Plot Models选项绘制回归线;选择Display ANOVA table输出各个模型的方差分析表和各回归系数显 著性检验结果。 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 为研究居民家庭教育支出和消费性支出之间的关系,收集到1990 年至2002年全国人均消费性支出和教育支出的数据。 曲线线估计计 相关分析 与 回归分 析 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 教育支出和年人均消费性支出的散点图 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 观察散点图发现两变量之间呈非线性关系,可尝 试选择二次、三次曲线,复合函数、幂函数等模 型。 曲线线估计计 相关分析 与 回归分 析 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 观察散点图发现两变量之间呈非线性关系,可尝试选择 二次、三次曲线,复合函数、幂函数等模型。 拟合优度比较 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 与实际不符 回归系数检 验不通过 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 复合函数和幂函数的拟合优度都很好,同时两种模 型的回归系数显著性检验也都通过 ,因此可考虑采用这 两种模型。另外,由于复合函数数值增长速度高于幂函 数,从居民消费未来趋势看,教育支出将可能占消费性 支出的较大比例,并呈快速增长的趋势,而且复合函数 拟合优度高于幂函数,因此可最终考虑采用复合函数。 曲线线估计计 相关分析 与 回归分 析 曲线估计应用举例 曲线线估计计 相关分析 与 回归分 析 相关分析 与 回归分 析 部分最小平方回归 PLS 相关分析 与 回归分 析 部分最小平方回归PLS PLS 是一种预测技术,可替代普通最小二乘法 (OLS) 回归、 典型相关性或结构化方程建模,并且它在预测变量高度相关 或预测变量数量超过个案数量时特别有用。 PLS 融合主成分分析和多重回归功能。它首先提取一组充分 解释自变量和因变量之间的协方差的潜在因子。然后,回归 步骤使用自变量分解来预测因变量的值。 可用性。PLS 属于扩展命令,需要在您计划运行 PLS 的系统上 安装 Python 扩展模块。PLS 扩展模块需要单独安装,安装程 序下载链接为 /devcentral 。 相关分析 与 回归分 析 输出的图形与统计量包括: 表 解释方差比例(潜在因子)、潜在因子权重、潜在因子 加载、图像自变量重要性 (VIP) 和回归参数估计值(因变量 )全部缺省生成。 图表 前三个潜在因子的图像变量重要性 (VIP)、因子得分、因 子权重,以及模型距离均从选项选项卡生成。 部分最小平方回归数据注意事项: 测量级别。因变量和自(预测)变量可以是刻度、名义或有序 变量。该过程假设相应的测量级别已指定给所有变量。该过程 以相同的方式处理类别(名义或有序)变量。 相关分析 与 回归分 析 类别变量编码。该过程在其间使用一个 c 编码临时对类别 因变量重新编码。如果存在变量的 c 类别,则变量存储为 c 矢量,第一个类别指示为 (1,0,.,0),下一个类别 (0,1,0,.,0),.,和最后一个类别 (0,0,.,0,1)。使用 虚拟编码表示类别因变量,即仅省略对应于参考类别的指 示符。 频率权重。权重值在使用前四舍五入为最接近的整数。在 分析中不使用缺失权重或权重小于 0.5 的个案。 缺失值。用户和系统缺失值视为无效。 重新调整。所有模型变量均被居中和标准化,包括表示类 别变量的指示变量 相关分析 与 回归分 析 引例:汽车行业集团保持对个人的各种机动车辆的销售 进行追踪。为了能够识别过度和表现不佳的模式,想 建立一个汽车销售与车辆特征的关系。 由于车辆的特征是相关的,部分最小二乘回归可以很 好的替代普通最小二乘回归。 car_sales.sav。该数据文件包含假设销售估计值、订 价以及各种品牌和型号的车辆的物理规格。订价和物 理规格可以从 和制造商处获得。 相关分析 与 回归分 析 步骤: Analyze Regression Partial Least Squares 选择log-transformed sales 作为因变量 选择车辆类型类型通过燃油效率 英里作 为自变量。 点击option 相关分析 与 回归分 析 相关分析 与 回归分 析 选择保存估计个别的个案,数据集名称类型 indvCases。 选择保存估计潜在因素和数据集的名称类型 latentFactors。 选择保存估计自变量和数据集的名称类型 indepVars。 该程序符合部分最小平方回归模型的规模变量 lnsales,使用的一个因素和价格等变量的类型, 通过英里表示。 相关分析 与 回归分 析 OUTDATASET命令要求分别输出与具体案件 ,潜在因素,以及预测被保存到新的数据集 indvCases,latentFactors和indepVars相关 的变量。这些选择也将产生潜在的因子得分 ,潜在因子权重,潜在因子图像变量重要性 (VIP)的因素 所有其他选项设置为默认值。 相关分析 与 回归分 析 相关分析 与 回归分 析 该解释的方差比例表显示了每个潜在因子模型的贡献。 第一个因素解释了在自变量中20.9%的方差和在因变量中40.3的方差。 第二个因素解释了在自变量中55.0%的方差和在因变量中2.9的方差。 第三个因素解释了在自变量中5.3%的方差和在因变量中4.3的方差。 合计,前三个因素的解释了在自变量中81.3%的方差和在因变量中47.4的方 差 相关分析 与 回归分 析 虽然第四个因素增加了很少的Y方差解释, 但它对于X的方差的贡献大于第三个因素, 并且其调整R平方值高于第三个因素。 第五个因素对于X方差和Y方差的贡献都最小 。并且其调整R平方值有轻微下降。并没有 令人信服的证据可以说明选择第四个因素而 不是第五个因素。 相关分析 与 回归分 析 参数表显示为预测因变量的每一个自变量的回归系数的估计。而不是模型影响 的典型实验,寻找图像变量的重要性在哪一个预测量是最有用方面提供指导。 相关分析 与 回归分 析 预测变量重要性代表了每一个猜测值对于模型的贡献,及在模型中因素数 量的累积贡献。例如,在一个因素模型中,价格对第一因素比重较大,有 2.088的VIP值,当更多的因素加入的时候,累积的VIP值慢慢的降到1.946 ,大概是因为对于这些因素的比重较小。相比之下,engin-s在单因素模型 中有0.512的VIP值。而在5个因素模型中上升到0.932 相关分析 与 回归分 析 参数系数和VIP值信息也保存到indepVars数据集中,以对其进一步分析。 例如,累积变量的重要性图表就是用这些数据建立的。 相关分析 与 回归分 析 累积变量的重要性图表提供了在投影表中变量重要性的可视化。对于单因素 模型而不是多因素模型的预测贡献的信息,参照latent factors表格的输出 相关分析 与 回归分 析 相关分析 与 回归分 析 权重和荷载,类似于重量在这不做讨论,这些被保存在lf数据集中并且数据会被 进一步利用。如权重因素图即是实用这个数据集创建的。 相关分析 与 回归分 析 权重因素图表提供前三个因素两两比较的可视化,上图可看到,价格、马力和(类型 是汽车)与insales出现负的相关,因为是在与insales相反的方向。长度、轴距和英里在 一定意义上正相关,其他的与insales弱相关,因为他们在insales的垂直方向上。 相关分析 与 回归分 析 在因素3和1的比较中,油箱容量在因素2与1的比较中是与engine_s正相关的, 而在因素3中是负相关的。 相关分析 与 回归分 析 在由因素3和2所界定的空间中,insales似乎与英里、engine_s、油箱容量 有更密切的关系,说明了多个角度的重要性。 相关分析 与 回归分 析 没有个别案件表格输出,但是,有一个casewise大量信息写入到indvCases数据集中, 包括在模型中变量的原始值,对于预测的模型预测值,对于insales的模型预测值,对于 预测和insales的残差,X分数,Y分数和X、Y距离模型(新闻统计仅仅是对于模型的Y距 离平方的总和)。此数据集用于创建Y分数与X分数的比较,以及X分数与X分数的比较。 相关分析 与 回归分 析 这个散点图矩阵显示最初几个因素的高相关性(图中左上角),逐渐扩散到较小 的相关性。它可以用来确定潜在的离群者以作更进一步的调查。 相关分析 与 回归分 析 对X分数与自身相比较是一个有用的诊断。不应有任何的模式、集团或离群。 离群是潜在的事件;在上图中有一些针对性的调查。 模式和集团表示更复杂的模型,组别的单独分析可能是必要的。 相关分析 与 回归分 析 Ordinal Regression 序数回归分析 相关分析 与 回归分 析 定义: 是根据反应变量水平是否有序来区分的有序多分类的Logistic回归,又称 之为等级回归分析,序数回归的过程在语法中称为 PLUM 。 应用: 如疗效可以分为无效、缓解、好转、治愈4个等级,其中缓解与好转是 病人的主观体验,难以测量与量化,用序数回归就可以分析这样的有序 变量。 Ordinal Regression 序数回归分析 有序结果变量回归的适用条件: (1) 一个因变量,它是两个或以上水平的分类变量。无论是主观(名义变量) 或客观(有序结果变量)的分类均可。 (2) 一个或以上的协变量,它可以是分类变量或连续型变量。 患者对药物剂量可能的反应可以分为 无、轻微、适度或剧烈。轻微反应 和适度反应之间的差别很难或不可能量化,并且这种差别是取决于感觉 的。另外,轻微反应和适度反应之间的差别可能比适度反应和剧烈反应 之间的差别更大或更小。 相关分析 与 回归分 析 序数回归和线性回归: 当你试图预测有序反应时,一般线性回归模型并不能很好地工作。这些 方法仅可以衡量结果(定)变量是在一个区间范围。这不是真正的有 序结果变量,因此,回归模型可能无法准确反映数据之间的关系。一 个有序变量,最重要的就是排序。因此,如果您将两个相邻的类别折 叠成一个较大的类别,这只是一个很小的变化,使用旧的和新的类别 建立的模型应十分类似。不幸的是,线性回归对类别的使用很敏感, 类别合并前建成的模型和合并后建成的模型有很大不同。 广义线性模型: 适合每一类别中的有序变量的单独方程。每一个方程给出了在相应类别 或者任何较低类别中的预测概率。没有建立预测模型,而所有的案件 都必须在最后一类或较低类别,其概率为1,正因为如此,对于最后一 类预测方程是不需要的。 相关分析 与 回归分 析 序数回归数据注意事项: (1) 数据。假设因变量是序数并且可以是数值或字符串。通过对因变量的 值进行升序排序来确定排列顺序。最低值定义第一个类别。假设因变量 是分类变量。协变量必须为数值。请注意:使用多个连续协变量很容易 使创建的单元概率表非常大。 (2)假设。只允许使用一个因变量,并且必须指定该因变量。另外,对 于多个自变量值的各个不同模式,假设该因变量是独立的多项变量。 输出的统计量与图形包括: 协变量中每个分类变量的观测频数、预测频数、累计频数、频数与累计 频数的Pearson残差、观察概率与预测概率和累积概率;还有参数估计值 的渐进相关矩阵与协方差矩阵、Prarson卡方统计量、似然比卡方统计量 、拟合优度统计量、迭代历史、参数估计值、标准误差和Cox&Snell R方 统计量等。 相关分析 与 回归分 析 序数回归使用总体思路: (1)需要确定因变量的序。 (2)需要决定是否使用预测模型的位置组件。 (3)需要决定是否使用规模组件,如果需要,确定哪一个预测 值需要使用。 在许多情况下,规模组件是没有必要的,只有位置组件的模型也将提供很好 的数据总结。在保持事情简单同时获利益时,通常最好的是只使用位置组件 的模型,并有证据表明只有位置组件的模型为您的数据不足时才添加一个规 模组件。 (4)需要决定哪些链接功能最适合您的研究问题和数据结构。 相关分析 与 回归分 析 链接功能: 是累积概率估计的改造模式。 连接函数表 相关分析 与 回归分 析 应用举例: 这里通过序数回归过程来分析债权人如何确定申请者信 用风险的问题,以下给出各种金融和个人特征。 从他们顾客的数据库中,确定因变量是 账目情况,共有以 下5个有序取值水平: 没有贷款历史,现在没有贷款,正在偿还,逾期偿还和拖欠 贷款,分别赋值1-5。 请注意,事实上,此特定顺序可能不是最好的可能结果的顺序。您可以 轻松地认为,一个没有目前的债务,或目前正在偿还的已知客户,比目 前没有可知的信用记录的客户有更好的信贷风险。在这个问题上进行更 多的讨论见平行线试验。 相关分析 与 回归分 析 选择模型的位置组件预测过程类似于线性回归模型中选择预测的过 程。理想情况下,模型将包括所有重要的预测并且没有其他的。在 实践中,直到建立模型之前,往往不知道哪些预测将被证明是重要 的。在这种情况下,通常最好开始的预测包括你认为所有的可能重 要的。如果发现这些预测有些似乎在模型中没有帮助,您可以删除 并重新估计模型。 在这种情况下,以之前的经验和一些初步的分析确定以下5种包括年 龄、贷款期限、 住房类型, 贷款数目,其他贷款作为可能预测并分别 进行初步预测。 其中年龄及贷款期限是连续的预测,作为这个模型的协变量输入。 相关分析 与 回归分 析 选择链接函数 依次单击菜单“Graphs Chart Builder”打开图形构 建器界面, 在Choose from列表 中选择做Histograms (简单直方图),并 以账目情况作为横轴 ,默认的count(计 数)作为纵轴作图。 Spss viewer 输出图形 。 相关分析 与 回归分 析 可见,第3类(正在 偿还)和第5类(拖 欠贷款)人出现的频 率最大,并且类别编 码越大,拖欠贷款的 可能性也越大,所以 建议选择 Complementary log- log连接函数,此函数 更关注编码较大的类 别。 相关分析 与 回归分 析 Ordinal回归的参 数设置 单击菜单“Analyze Regression Ordinal”执行 Ordinal回归分析的功 能 相关分析 与 回归分 析 表 列 量 变 Dependent选框,用于选 入一个有序分类变量( ordinal)作为因变量,可以 是数值型或字符串型 的,因 变量的取值将自动按照升序 排列,最小的值指定为第1类 Factors列表框,用于从变 量列表选入分类变量作为自 变量 Covariates列表框,用于 从变量列表选入数值型变量 作为协变量 1.变量设置: 相关分析 与 回归分 析 2.选项设置: 单击Option按钮,弹出用于设置关于迭代参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论