




已阅读5页,还剩120页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相关分析与回归分析专题 Correlation regression 相关分析 CorrelationAnalysis 一 相关分析的意义 研究问题过程 单变量分析双变量分析多变量分析多变量分析与单变量分析的最大不同 揭示客观事物之间的关联性 所以 相关分析的意义和目的在于 1 在统计学中有理论与实践意义 2 对相关关系的存在性给出判断 3 对相关关系的强度给出度量和分析 3 二 相关分析的概念变量之间的关系分为确定性关系和非确定性关系 确定性关系 当一个变量值 自变量 确定后 另一个变量值 因变量 也就完全确定了 确定性关系往往可以表示成一个函数的形式 比如圆的面积和半径的关系 S r 非确定性关系 给定了一个变量值后 另一个变量值可以在一定范围内变化 例如家庭的消费支出和家庭收入的关系 研究者把非确定性关系称为相关关系 4 三 相关分析的特点和应用相关关系是普遍存在的 函数关系仅是相关关系的特例 1 相关关系的类型相关关系多种多样 归纳起来大致有以下6种 强正相关关系 其特点是一变量X增加 导致另一变量Y明显增加 说明X是影响Y的主要因素 弱正相关关系 其特点是一变量X增加 导致另一变量Y增加 但增加幅度不明显 强负相关关系 其特点是X增加 导致Y明显减少 说明X是影响Y的主要因素 5 弱负相关关系 其特点是变量X增加 导致Y减少 但减少幅度不明显 说明X是Y的影响因素 但不是唯一因素 非线性相关关系 其特点是X Y之间没有明显的线性关系 却存在着某种非线性关系 说明X仍是影响Y的因素 不相关 其特点是X Y不存在相关关系 说明X不是影响Y的因素 6 2 相关分析的应用 1 相关分析可以在影响某个变量的诸多变量中判断哪些是显著的 哪些是不显著的 而且在得到相关分析的结果后 可以用于其他分析 如回归分析和因子分析 2 相关分析方法已广泛用于心理学 教育学 医学 经济学等各学科 它对试验数据的处理 经验公式的建立 管理标准的测定 自然现象和经济现象的统计预报 都是一种方便而且有效的工具 7 四 相关系数 相关分析的主要目的是研究变量之间关系的密切程度 以及根据样本的资料推断总体是否样关 反映变量之间关系紧密程度的指标主要是相关系数r 相关系数r取值在 1到 1之间 当数值愈接近 1或 1时 说明关系愈紧密 接近于0时 说明关系不紧密 8 相关系数的计算 样本的相关系数一般用r表示 总体的相关系数一般用p表示 对于不同类型的变量 相关系数的计算公式不同 在相关分析中 常用的相关系数有 Pearson简单相关系数 对定距连续变量的数据进行计算 如测度收入和储蓄 身高和体重 Spearman等级相关系数 用于度量定序变量间的线性相关关系 如军队教员的军衔与职称 Kendallr相关系数 用非参数检验方法来度量定序变量间的线性相关关系 计算基于数据的秩 9 Pearson相关系数应用广泛 其计算公式及其性质如下 10 在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令 Bivariate 两两相关分析过程 Partial 偏相关分析过程 Distances 距离分析过程 五 SPSS中相关分析 Correlation菜单 Bivariate过程 Bivariate过程用于进行两个或多个变量间的参数与非参数相关分析 如为多个变量 给出两两相关的分析结果 这是correlate菜单中最常用的一个过程 包括自动计算Pearson简单相关系数 T检验统计量和对应的概率P值 13 举例 对肺活量和体重做相关分析1 打开SAV数据 2 用散点图初步观察两变量间有无相关趋势 依次单击菜单 Graphs ChartBuilder 打开图形构建器 选择做散点图 Scatter Dot 14 3 设置相关分析的参数 依次单击 Analyze Correlate Bivariate 执行两变量相关分析 其主设置面板如图所示 待分析变量列表 变量列表 相关系数 显著性检验选项 15 16 2 相关性输出 相关性 表格给出的是Pearson相关系数及其检验结果 相关系数 表格给出的是两个非参数相关系数及其检验结果 可见 3个相关系数在0 01和0 05的显著性水平 双边检验 上都非常显著 从而推断体重和肺活量之间存在着明显的正相关关系 1 描述性输出 描述性统计量 表格给出了两个变量的基本统计信息 包括均值 标准差和频率 17 Partial过程 偏相关分析也称净相关分析 它在控制其他变量的线性影响下分析两变量间的线性相关 所采用的是工具是偏相关系数 净相关系数 运用偏相关分析可以有效地揭示变量间的真实关系 识别干扰变量并寻找隐含的相关性 如控制年龄和工作经验的影响 估计工资收入与受教育水平之间的相关关系 Partial过程 当进行相关分析的两个变量的取值都受到其他变量的影响时 就可以利用偏相关分析对其他变量进行控制 输出控制其他变量影响后的相关系数 19 举例 分析身高与肺活量之间的相关性 要控制体重在相关分析过程中的影响 1 设置偏相关分析的参数 依次单击 Analyze Correlate Patial 执行偏相关分析 其主设置面板如图所示 20 0阶偏相关 Pearson 1阶偏相关 显著相关 相关不显著 21 1 描述性输出 描述性统计量 表格给出了三个变量的基本统计信息 包括均值 标准差和频率 2 相关性输出 相关性 表格给出了所有变量的0阶偏相关 Pearson简单相关 系数和1阶偏相关系数的计算结果果 以及它们各自的显著性检验P值 分析结果显示 在体重不变的条件下 身高与肺活量之间不存在显著线性相关关系 22 Distances过程 23 距离分析 此过程可以在观测记录之间或者不同变量之间进行相似性和不相似性分析 相似性分析可以用于检测观测值的接近程度 不相似性分析可用于考察各变量的内在联系和结构 该过程一般不单独使用 而是作为因子分析 聚类分析和多维尺度分析等的预分析过程 以帮助了解复杂数据集的内部结构 为进一步的分析做准备 与距离分析有关的统计量分为相似性测度和不相似性测试两大类 24 不相似性测度a 对定距变量的测度可以使用的统计量有Euclid欧氏距离 平方欧氏距离 契比雪夫距离等 b 对定序变量 使用卡方不相似测度和Phi方不相似测度 c 对二值 只有两种取值 变量 使用欧氏距离 平方欧氏距离 LaneandWilliams不相似测度 相似性测度 a 对定距变量的测度 主要有统计量Pearson相关或余弦距离 b 对二值变量的相似性测度主要包括简单匹配系数 Jaccard相似性指数等 在通常使用的距离中 最常用的是欧式距离 25 案例 打开 地区经济发展水平指标 sav 26 参数设置 距离的计算对象 距离的测度类型 分析变量例表 27 结果分析 28 1 案例处理摘要 案例处理摘要 表格给出了数据使用的基本情况 主要是对有无缺失值的统计信息 可见本例的11个案例没有缺失 全部用于分析 2 近似矩阵 近似矩阵 表格给出的是各变量之间的相似矩阵 图中以线框标注了相关系数较大的几对变量 它们在进一步的分析中应重点关注 或者直接对其进行适当的预处理 例如变量约减 相关分析与回归分析 29 相关分析与回归分析 线性回归 30 线性回归 回归分析 regressionanalysis 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法 涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型 线性回归分析非线性回归分析 线性回归 32 回归分析一般步骤 确定回归方程中的解释变量 自变量 和被解释变量 因变量 确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测 线性回归 33 线性回归模型 线性回归 34 多元线性回归模型是指有多个解释变量的线性回归模型 用于揭示被解释变量与其他多个解释变量之间的线性关系 多元线性回归数学模型 其中 0 1 p都是未知参数 分别称为回归常数和偏回归系数 称为随机误差 是一个随机变量 且同样满足两个前提条件 E 0var 2 线性回归 线性回归模型 35 回归参数的普通最小二乘估计 OLSE 线性回归方程确定后的任务是利用已经收集到的样本数据 根据一定的统计拟合准则 对方程中的各参数进行估计 普通最小二乘就是一种最为常见的统计拟合准则 最小二乘法将偏差距离定义为离差平方和 即 1 最小二乘估计就是寻找参数 0 1 p的估计值 0 1 p 使式 1 达到极小 通过求极值原理 偏导为零 和解方程组 可求得估计值 SPSS将自动完成 线性回归 36 回归方程的统计检验回归方程的拟合优度检验 相关系数检验 一元线性回归的拟合优度检验采用R2统计量 称为判定系数或决定系数 数学定义为 其中称为回归平方和 SSA 称为总离差平方和 SST 线性回归 线性回归 回归方程的统计检验回归方程的拟合优度检验 相关系数检验 R2取值在0 1之间 R2越接近于1 说明回归方程对样本数据点的拟合优度越高 38 多元线性回归的拟合优度检验采用统计量 称为调整的判定系数或调整的决定系数 数学定义为 式中n p 1 n 1分别是SSE和SST的自由度 其取值范围和意义与一元回归方程中的R2是相同的 回归方程的统计检验回归方程的拟合优度检验 相关系数检验 线性回归 回归方程的统计检验回归方程的显著性检验 F检验 一元线性回归方程显著性检验的零假设是 1 0 检验采用F统计量 其数学定义为 即平均的SSA 平均的SSE F统计量服从 1 n 2 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为线性关系显著 线性回归 40 回归方程的统计检验回归方程的显著性检验 F检验 多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零 检验采用F统计量 其数学定义为 即平均的SSA 平均的SSE F统计量服从 p n p 1 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为y与x的全体的线性关系显著 线性回归 41 回归方程的统计检验回归系数的显著性检验 t检验 一元线性回归方程的回归系数显著性检验的零假设是 1 0 检验采用t统计量 其数学定义为 t统计量服从n 2个自由度的t分布 SPSS将会自动计算t统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为x对y有显著贡献 线性关系显著 线性回归 42 回归方程的统计检验回归系数的显著性检验 t检验 多元线性回归方程的回归系数显著性检验的零假设是 i 0 检验采用t统计量 其数学定义为 ti统计量服从n p 1个自由度的t分布 SPSS将会自动计算ti统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为xi对y有显著贡献 应保留在线性方程中 i 1 2 p 线性回归 43 回归方程的统计检验残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距 即 它是回归模型中的估计值 如果回归方程能较好地反映被解释变量的特征和变化规律 那么残差序列中应不包含明显的规律性和趋势性 线性回归 回归方程的统计检验残差分析 均值为0的正态性分析 残差均值为0的正态性分析 可以通过绘制残差图进行分析 如果残差均值为0 残差图中的点应在纵坐标为0的横线上下随机散落着 正态性可以通过绘制标准化 或学生化 残差的累计概率图来分析 线性回归 45 回归方程的统计检验残差分析 独立性分析绘制残差序列的序列图以样本期 或时间 为横坐标 残差为纵坐标 如果残差随时间的推移呈规律性变化 则存在一定的正或负相关性 计算残差的自相关系数取值在 1到 1之间 接近于 1表明序列存在正自相关性 DW Durbin Watson 检验DW取值在0至4之间 直观判断标准是DW 4 残差序列完全负自相关 DW 2 完全无自相关 DW 0 完全正自相关 线性回归 46 回归方程的统计检验残差分析 异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加 或减少 的趋势 说明出现了异方差现象 线性回归 47 回归方程的统计检验残差分析 异方差分析等级相关分析得到残差序列后首先对其取绝对值 然后计算出残差和解释变量的秩 最后计算Spearman等级相关系数 并进行等级相关分析 具体过程见相关分析相关章节 线性回归 48 回归方程的统计检验残差分析 探测样本中的异常值和强影响点 对于y值 标准化残差ZRE由于残差是服从均值为0的正态分布 因此可以根据3 准则进行判断 首先对残差进行标准化 绝对值大于3对应的观察值为异常值 学生化残差SRE剔除残差DRE 或剔除学生化残差SDRE 上述SRE SDRE的直观判断标准同标准化残差ZRE 线性回归 49 多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程 首先选择与被解释变量具有最高线性相关系数的变量进入方程 并进行各种检验 其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程 向后筛选策略变量不断剔除出回归方程的过程 首先所有变量全部引入回归方程并检验 然后在回归系数显著性检验不显著的一个或多个变量中 剔除t检验值最小的变量 逐步筛选策略向前筛选与向后筛选策略的综合 线性回归 50 多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1 表示多重共线性越弱 SPSS变量多重共线性的要求不很严格 只是在容忍度值太小时给出相应警告信息 方差膨胀因子VIF膨胀因子是容忍度的倒数 越接近于1 表示解释变量间的多重共线性越弱 通常如果VIFi大于等于10 说明解释变量xi与其余解释变量之间有严重的多重共线性 特征根和方差比这里的特征根是指相关系数矩阵的特征根 如果最大特征根远远大于其他特征根的值 则说明这些解释变量之间具有相当多的重叠信息 条件指数ki10 ki 100时 认为多重共线性较强 ki 100时 认为多重共线性很严重 线性回归 线性回归 52 2 将因变量选入Dependent框 3 将一个或多个自变量选入Independengt s 框 4 在Method框中选择回归分析中自变量的筛选策略 其中Enter表示所选变量强行进入回归方程 是SPSS默认策略 通常用在一元线性回归分析中 Remove表示从回归方程中剔除所选变量 Stepwise表示逐步筛选策略 Backward Forward分别表示向后 向前筛选策略 回归分析基本操作 线性回归 53 5 上述 3 4 中确定的自变量和筛选策略可放置在不同的Block中 单击 Next 和 Previous 按钮设置多组自变量和变量筛选策略 并放在不同Block中 SPSS将按照设置顺序依次进行分析 Block 设置便于作各种探索性的回归分析 回归分析基本操作 线性回归 54 6 选择一个变量作为条件变量到SelectionVariable框中 并单击 Rule 按钮给定一个判断条件 只有变量值满足给定条件的样本数据才参与线性回归分析 线性回归 回归分析基本操作 55 7 在CaseLabels框中指定哪个变量作为数据样本点的标志变量 该变量的值将标在回归分析的输出图形中 8 WLSWeight中选人权重变量 主要用于加权最小二乘法 至此便完成了线性回归分析的基本操作 SPSS将根据指定自动进行回归分析 并将结果输出到输出窗口中 线性回归 回归分析基本操作 56 回归分析的其他操作 Statistics选项 输出与回归系数相关的统计量 包括回归系数 回归系数标准误 标准化回归系数 回归系数显著性检验的t统计量和概率p值 个解释变量的容忍度 每个非标准化回归系数的95 置信区间 输出各解释变量间的相关系数 协方差以及各回归系数的方差 线性回归 57 输出判定系数 调整的判定系数 回归方程的标准误 回归方程显著性检验的方差分析表 每个解释变量进入方程后引起的判定系数的变化量和F值的变化量 偏F统计量 输出个解释变量和被解释变量的均值 标准差 相关系数矩阵及单侧检验概率值 输出方程中各解释变量与被解释变量之间的简单相关 偏相关系数和部分相关 线性回归 回归分析的其他操作 Statistics选项 58 多重共线性分析 输出各解释变量的容忍度 方差膨胀因子 特征值 条件指标 方差比例等 DW值 输出标准化残差绝对值大于等于3 默认 的样本数据的相关信息 线性回归 回归分析的其他操作 Statistics选项 59 Plots选项 标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学生化残差 标准化残差序列直方图 标准化残差序列正态分布累计概率图 依次绘制被解释变量与各解释变量的散点图 线性回归 回归分析的其他操作 60 Save选项 该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中 并可同时生成XML格式的文件 便于分析结果的网络发布 线性回归 回归分析的其他操作 61 Save选项 保存剔除第i个样本后各统计量的变化量 回归系数变化量标准化回归系数变化量预测值变化量标准化预测值变化量协方差比 线性回归 回归分析的其他操作 62 2020 2 4 63 Options选项 设置多元线性回归分析中解释变量进入或剔除出回归方程的标准 偏F统计量的概率值 线性回归 回归分析的其他操作 64 线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响 收集某年31个省市自治区部分高校有关社科研究方面的数据 并利用线性回归方法进行分析 这里 被解释变量为立项课题数X5 解释变量为投入人年数 X2 投入高级职称的人年数 X3 投入科研事业费 X4 专著数 X6 论文数 X7 获奖数 X8 具体操作如前所述 分析结果如下 线性回归 65 66 线性回归 67 线性回归 68 线性回归 69 线性回归 70 线性回归 71 线性回归 72 线性回归 73 线性回归 74 线性回归 75 线性回归 76 线性回归 77 线性回归 78 线性回归 79 线性回归 80 线性回归 81 线性回归 82 线性回归 83 线性回归 84 线性回归 85 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 一 回归方程的拟合优度较高 线性回归 86 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 二 SSASSESST 被解释变量与解释变量的全体的线性关系显著 线性回归 87 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 三 偏回归系数检验只有x2的是显著的 其他均不显著 即与0无显著差异 各解释变量之间存在很强共线性 线性回归 88 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 四 由特征根的较大差异 条件指数以及方差比进一步证实了各解释变量之间存在严重的线性自相关 线性回归 89 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 一 由此可见 不能以一味追求高的拟合优度为目标 还要重点考察解释变量对被解释变量的贡献 线性回归 90 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 二 SSASSESST 线性回归 91 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 三 由此可清楚地看到变量剔除的过程 线性回归 92 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 四 线性回归 93 线性回归分析的应用举例 通过上述回归方程的分析以及各种检验 得出如下回归方程 立项课题数 94 524 0 492投入人年数 意味着投入人年数每增加一个单位会使立项课题数平均增加0 492个单位 线性回归 94 曲线估计 95 曲线估计 变量间相关关系的分析中 变量之间的关系并不总是表现出线性关系 非线性关系也极为常见 非线性又可划分为 本质线性关系形式上虽然呈非线性 但可通过变量转换化为线性关系 本质非线性关系不仅形式上呈非线性 也无法通过变量转换化为线性关系 这里的曲线估计是解决本质线性关系问题的 96 常见本质线性模型 曲线估计 97 在SPSS曲线估计中 首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型 然后 SPSS自动完成模型的参数估计 并输出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑拆除项目的节能环保技术应用方案
- 小升初语文-文言文专项复习训练三(含答案)
- 建筑工地噪音控制措施
- 隋唐时期陶瓷作品欣赏一02课件
- 建筑项目工程项目完工前检查方案
- 混凝土施工过程中温控管理方案
- 水电安全知识培训资料课件
- 2025版水电项目施工承包合同书
- 水电厂运维管理课件
- 2025版毛坯房出租租赁期限合同范本
- 地铁安检培训课件
- 2025年豪华别墅室内外装饰设计及施工一体化服务合同
- 废铅酸蓄电池回收处置项目可行性研究报告
- 2025年重庆对外建设有限公司招聘考试笔试试题
- 2025年阿克苏社区专职工作人员招聘真题
- 药学教学课件下载
- 急性下壁心肌梗死患者PCI术后护理个案
- 出生缺陷防治知识课件
- 口腔门诊护理人员管理
- 通山城区污水处理厂运营维护方案
- 市政管网工程施工过程质量保证措施
评论
0/150
提交评论