第5章 相关分析与回归分析ppt课件.ppt_第1页
第5章 相关分析与回归分析ppt课件.ppt_第2页
第5章 相关分析与回归分析ppt课件.ppt_第3页
第5章 相关分析与回归分析ppt课件.ppt_第4页
第5章 相关分析与回归分析ppt课件.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章相关分析与回归分析 1 皮尔逊积矩系数 Spearman相关系数以及Kendall相关系数的计算与分析 2 偏相关系数的计算与伪相关系数的鉴别 3 简单线性回归 4 多元线性回归 统计学原理 变量间的关系分为确定性关系和非确定性关系 确定性关系即函数关系 非确定性关系即相关关系 相关分析的主要目的是研究变量之间关系的密切程度 回归分析是揭示一个变量如何与其他变量相联系 前者叫做解释变量 后者叫做被解释变量相关分析和回归分析都是对客观事务数量依存关系的分析 相关系数的取值范围在 1和 1之间 即 1 r 1 其中 若0 r 1 表明变量之间存在正相关关系 即两个变量的相随变动方向相同 若 1 r 0 表明变量之间存在负相关关系 即两个变量的相随变动方向相反 1 相关分析的统计学原理 为了判断r对 的代表性大小 需要对相关系数进行假设检验 1 首先假设总体相关性为零 即H0为两总体无显著的线性相关关系 零假设H0 x y不相关备择假设H1 x y相关 2 其次 计算相应的统计量 并得到对应的P值 如果P值小于或等于指定的显著性水平 则拒绝H0 认为两总体存在显著的线性相关关系 如果P值大于指定的显著性水平 则不能拒绝H0 认为两总体不存在显著的线性相关关系 0 05不相关 通常取0 05 P 也有时 取值0 01或0 001 0 05相关 计算相关系数有不同的方法 其中 皮尔逊积矩相关系数 Pearson简单相关系数 适用等间隔测度 而Spearman相关系数和Kendall相关系数都是非参测度 Pearson简单相关系数用来衡量定距变量间的线性关系 如衡量国民收入和居民储蓄存款 身高和体重 高中成绩和高考成绩等变量间的线性相关关系 Pearson简单相关系数 计算公式如下 Pearson简单相关系数计算公式为 对Pearson简单相关系数的统计检验是计算t统计量 公式为t统计量服从n 2个自由度的t分布 定序变量又称为有序 ordinal 变量 顺序变量 它取值的大小能够表示观测对象的某种顺序关系 等级 方位或大小等 也是基于 质 因素的变量 例如 最高学历 变量的取值是 1 小学及以下 2 初中 3 高中 中专 技校 4 大学专科 5 大学本科 6 研究生以上 由小到大的取值能够代表学历由低到高 Spearman和Kendall stua b等级相关系数用以衡量定序变量间的线性相关关系 它们利用的是非参数检验的方法 Spearman等级相关系数为 对Spearman等级相关系数的统计检验 一般如果个案数n 30 将直接利用Spearman等级相关统计量表 SPSS将自动根据该表给出对应的P值 相伴概率 Kendall stau b等级相关系数 对Kendall stua b等级相关系数的统计检验 一般如果个案数n 30 将直接利用Kendall stua b等级相关统计量表 SPSS将自动根据该表给出对应的相伴概率值 2 相关分析过程的操作原理 选择Analyze Correlate相关分析过程具体包括 Bivariate 计算双变量间的相关系数 Partial 计算偏相关系数 Distances 对变量进行相似性或不相似性测度 双变量相关分析过程 Statistics Correlate Bivariate 数据5 1 选择求相关的变量 至少选择两个移动到 Variables内 CorrelationCoefficients 相关类型Pearson 皮尔逊积矩相关系数Kendall stau b 肯德尔和谐系数Spearman 斯皮尔曼等级相关系数 Testofsignificance 显著性检验Two tailed 双侧检验 默认 One tailed 单侧检验 Flagsignificantcorrelations 选择相关显著度水平的标识 该标识就是 号 当显著度水平低于0 05时 显示一个 号 当低于0 01时 将显示两个 号 Options 选项 Statistics Meansandstandarddeviations显示每一个变量的均值和标准差Cross productdeviationsandcovariances每一对变量的离均差交叉积与协方差 Missingvalues 缺失值Excludecasespairwise 成对删除Excludecaseslistwise 成列删除 偏相关分析 二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系 例如 在研究某农场春季早稻产量与平均降雨量 平均温度之间的关系时 产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响 同时平均降雨量对平均温度也会产生影响 在这种情况下 单纯计算简单相关系数 显然不能准确地反映事物之间地相关关系 而需要在剔除其他相关因素影响的条件下计算相关系数 偏相关分析正是用来解决这个问题的 定义 偏相关分析是指当两个变量同时与第三个变量相关时 将第三个变量的影响剔除 只分析另外两个变量之间相关程度的过程 偏相关分析的工具是计算偏相关系数r12 3 统计学上的定义和计算公式 偏相关分析过程 Statistics Correlate Partial 数据5 2 选择两个求相关变量到 Variables框内选择中介变量到控制变量 Controlling 框中显示相关显著度水平的标识 Displayactualsignificance Options 选项 Statistics Meansandstandarddeviations显示每一个变量的均值和标准差Zero ordercorrelations 零阶相关系数 显示所有变量的Pearson相关系数 Missingvalues 缺失值Excludecasespairwise 成对删除Excludecaseslistwise 成列删除 偏相关系数的计算与伪相关的鉴别数据文件5 4 2 回归分析的统计学原理 回归分析是研究客观事物变量间的关系 它是建立在对客观事物进行大量试验和观察的基础上 通过建立数学模型寻找不确定现象中所存在的统计规律的方法 回归分析所研究的主要问题就是研究因变量 y 和自变量 x 之间数量变化规律 如何利用变量X Y的观察值 样本 对回归函数进行统计推断 包括对它进行估计及检验与它有关的假设等 i 0 1x2i 2x kxki i 回归分析过程操作原理 选择Analyze Regression 打开 Regression 的右拉式菜单 菜单包含 1 Linear线性回归 2 CurveEstimation曲线估计 3 BinaryLogistic二元逻辑分析 4 MultinomialLogistic多元逻辑分析 5 Ordinal序数分析 6 Probit概率分析 7 Nonlinear非线性估计 8 WeightEstimation加权估计 9 2 StageLeastSquares两段最小二乘法 在数学关系式中只描述了一个变量与另一个变量之间的数量变化关系 则称其为一元回归分析 其回归模型为y称为因变量 x称为自变量 称为随机误差 a b称为待估计的回归参数 下标i表示第i个观测值 如果给出a和b的估计量分别为 则经验回归方程 一般把称为残差 残差可视为扰动的 估计量 1 线性回归过程 Analyze Regression Linear数据文件5 5 Dependent 因变量 Independent S 自变量注 SPSS中一元回归和多元回归以及多元逐步回归都是使用同一过程 所以该栏可以输入多个自变量 SelectionVariable 控制变量输入栏 控制变量相当于过滤变量 即必须当该变量的值满足设置的条件时 观测量才能参加回归分析 输入控制变量后 激活 Rule 按钮 CaseLabels 选择观测量的标签变量 在输出结果中 可显示该观测量的值 通过该变量的值可查看相应的观测量 WLS 选择加权变量 Method 选择一种回归分析方式 强行介入法Enter 一次性进入 这是一种不检验F和Tolerance 一次将全部自变量无条件地纳入回归方程 强行剔除Remove 一次性剔除 指定某些变量不能进入方程 这种方法通常同别的方法联合使用 而不能首先或单独使用 因为第一次使用或单独使用将意味着没有哪个变量进入方程 逐步进入Stepwise每次选择符合进入条件的自变量进入方程 进入后立即检验 不合格者剔除 直到全部合格自变量进入方程 反向剔除Backward先强行介入 再逐个剔除不合格变量 直到全合格 正向进入Forward每次选择符合进入条件的自变量进入方程 逐个选择 逐个进入 直到全部合格自变量进入方程 Statistics RegressionCoefficients 回归系数选项 Estimates 输出回归系数和相关统计量 Confidenceinterval 回归系数的95 置信区间 Covariancematrix 回归系数的方差 协方差矩阵 Residuals 残差选项 Durbin Watson Durbin Watson检验 Casewisediagnostic 输出满足选择条件的观测量的相关信息 选择该项 下面两项处于可选状态 Outliersoutsidestandarddeviations 选择标准化残差的绝对值大于输入值的观测量 Allcases 选择所有观测量 其它输入选项 Modelfit 输出相关系数 相关系数平方 调整系数 估计标准误 ANOVA表 Rsquaredchange 输出由于加入和剔除变量而引起的复相关系数平方的变化 Descriptives 输出变量矩阵 标准差和相关系数单侧显著性水平矩阵 Partandpartialcorrelation 相关系数和偏相关系数 Collinearitydiagnostics 显示单个变量和共线性分析的公差 Plots 该对话框用于设置要绘制的图形的参数 X 和 Y 框用于选择X轴和Y轴相应的变量 左上框中各项的意义分别为 DEPENDNT 因变量 ZPRED 标准化预测值 ZRESID 标准化残差 DRESID 删除残差 ADJPRED 调节预测值 SRESID 学生氏化残差 SDRESID 学生氏化删除残差 StandardizedResidualPlots 设置各变量的标准化残差图形输出 Histogram 用直方图显示标准化残差 Normalprobabilityplots 比较标准化残差与正态残差的分布示意图 Produceallpartialplot 偏残差图 对每一个自变量生成其残差对因变量残差的散点图 Save PredictedValues 预测值栏选项 Unstandardized非标准化预测值 就会在当前数据文件中新添加一个以字符 PRE 开头命名的变量 存放根据回归模型拟合的预测值 Standardized标准化预测值 Adjusted调整后预测值 S E ofmeanpredictions预测值的标准误 Distances 距离栏选项 Mahalanobis 距离 Cook s Cook距离 Leveragevalues 杠杆值 PredictionIntervals 预测区间选项 Mean 区间的中心位置 Individual 观测量上限和下限的预测区间 在当前数据文件中新添加一个以字符 LICI 开头命名的变量 存放预测区间下限值 以字符 UICI 开头命名的变量 存放预测区间上限值 ConfidenceInterval 置信度 SavetoNewFile 保存为新文件 选中 Coefficientstatistics 项将回归系数保存到指定的文件中 ExportmodelinformationtoXMLfile 导出统计过程中的回归模型信息到指定文件 Residuals 保存残差选项 Unstandardized 非标准化残差 Standardized 标准化残差 Studentized 学生氏化残差 Deleted 删除残差 Studentizeddeleted 学生氏化删除残差 InfluenceStatistics 统计量的影响 DfBeta s 删除一个特定的观测值所引起的回归系数的变化 StandardizedDfBeta s 标准化的DfBeta值 DiFit 删除一个特定的观测值所引起的预测值的变化 StandardizedDiFit 标准化的DiFit值 Covarianceratio 删除一个观测值后的协方差矩阵的行列式和带有全部观测值的协方差矩阵的行列式的比率 Options SteppingMethodCriteria 框用于进行逐步回归时内部数值的设定 UseprobabilityofF 如果一个变量的F值的概率小于所设置的进入值 Entry 那么这个变量将被选入回归方程中 当变量的F值的概率大于设置的剔除值 Removal 则该变量将从回归方程中被剔除 由此可见 设置 UseprobabilityofF 时 应使进入值小于剔除 UesFvalue 如果一个变量的F值大于所设置的进入值 Entry 那么这个变量将被选入回归方程中 当变量的F值小于设置的剔除值 Removal 则该变量将从回归方程中被剔除 同时 设置 UseFvalue 时 应使进入值大于剔除值 Includeconstantinequation 选择此项表示在回归方程中有常数项 MissingValues 框用于设置对缺失值的处理方法 Excludecaseslistwise 剔除所有含有缺失值的观测值 Exchudecasespairwise 仅剔除参与统计分析计算的变量中含有缺失值的观测量 Replacewithmean 用变量的均值取代缺失值 曲线配合过程 选择Analyze Regression CurveEstimation CaseLabels 选择标签变量 可以利用该变量的值在图上查找观测值 Models 选择曲线方程模型 Linear线性模型Quadratic二次模型Compound复合模型Growth生长模型Logarithmic对数模型S形模型Cubic抛物线模型Exponential指数的模型Inverse倒数模型Power幂函数模型Logistic逻辑斯蒂模型当选中 Logistic 项时 应在 Upperbound 框中输入一个数值作为逻辑模型的上限值 Includeconstantinequation 回归方程中包含常数项 Plotmodels 绘制出回归方程模型图 DisplayANOVAtable 输出方差分析表 Save 该对话框用于选择要保存的新变量 SaveVariables 框中列出了可保存的新变量 Predictedvalues 因变量的预测值 Residuals 残差 因变量的观测值和预测值的差 Predictionintervals 残差因变量的预测区间 当选中 Predictionintervals 项时 可在该项下面的 Confidenceinterval 框中输入显著性水平 Predictcases 当选择时间序列为自变量时 本栏设置一个超过数据时间序列的预测周期 Predictfromestimationperiodthroughlastcase 根据估计周期为所有的观测量提供预测周期 Predictthrough 当要预测的观测量超过当前的数据时间序列时 输入观测量的一个周期数值 二项逻辑回归 选择Analyze Regression BinaryLogistics 概率回归过程 Probit概率回归过程主要用来测试分析反应比例与刺激强度之间的关系 选择An alyze Regression Probit 非线性回归分析 选择Analyze Regression Nonlinear Name 输入参数名称 Starting 输入参数的初始值 输入完参数名和初始值后 单击 Add 按钮 则定义的变量及其初始值将显示在下方的参数框中 需要修改已经定义的参数变量 先用将其选中 然后在 Name 和 Starting 栏里进行修改 完成后点击 Change 按钮确认修改 要删除已经定义的参数变量 先用将其选中 然后点击 Bemove 按钮删除 Parameters 用于设置参数的初始值 比如 逻辑斯蒂模型中估计的参数有 K a 和 b 三个参数变量 设置初始值为 K 0 1 a 3 b 0 1 输入后的 Nonlinear 对话窗口如下图 ModelExpression 输入需要拟合的方程式 在该方程中包含自变量 参数变量和常数等 自变量和参数变量可以从左边的列表框和 Parameters 框里选入 Function 从中选入方程中的函数 运算符号和常数可以用鼠标从窗口 数字符号 显示区中点击输入 Loss 按钮 输入迭代条件 Sumofsquaredresiduals 残差平方和最小值 系统默认 User definedlossfunction 自定义选项 设置其他统计量为迭代条件 在下边输入框中输入相应的统计量的表达式 称为损失函数 在左上角的变量列表框中 RESID 代表所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论