多重分析(一).ppt_第1页
多重分析(一).ppt_第2页
多重分析(一).ppt_第3页
多重分析(一).ppt_第4页
多重分析(一).ppt_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Multivariateanalysis 多变量分析 一 多变量分析 多重线性回归 Multiplelinearregression 多元线性回归 Multivariablelinearregression Logistic回归 Logisticregression Cox回归 Coxregression 主成分分析 principlecomponentanalysis 因子分析 factoranalysis 聚类分析 ClusterAnalysis 判别分析 DiscriminantAnalysis 多元线性回归分析 多元线性回归分析是研究多个变量之间关系的回归分析方法 按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析 简称为 一对多 回归分析 及多个因变量对多个自变量的回归分析 简称为 多对多 回归分析 按回归模型类型可划分为线性回归分析和非线性回归分析 当因变量个数大于1时称为多重回归 多元线性回归分析 Mulitvariablelinearregession 人的体重与身高 胸围血压值与年龄 性别 劳动强度 饮食习惯 吸烟状况 家族史糖尿病人的血糖与胰岛素 糖化血红蛋白 血清总胆固醇 甘油三脂射频治疗仪定向治疗脑肿瘤过程中 脑皮质的毁损半径与辐射的温度 与照射的时间 多元回归分析数据格式 第一节多元线性回归 一 回归模型简介 一 多元线性回归模型的一般形式 二 多元线性回归分析的一般步骤 二 多元线性回归方程的建立 各变量的离差矩阵 各变量的离差矩阵 建立多元回归方程 三 多元线性回归方程的假设检验及其评价 一 回归方程的方差分析 所有回归系数为0 有关计算公式 二 有关评价指标 软件有关结果 RootMSE 残差标准差 2 00954R Square 决定系数 0 6008AdjR Sq 校正决定系数 0 5282DependentMean应变量的均值 11 92593 1 残差标准差 RootMSE 反映了回归方程的精度 其值越小说明回归效果越好 2 决定系数 determinationcoefficient 说明所有自变量能解释Y变化的百分比 取值 0 1 越接近1模型拟合越好 3 复相关系数 multiplecorrelationcoefficient 说明所有自变量与Y间的线性相关程度 即观察值Y与估计值之间的相关程度 如果只有一个自变量 此时 4 校正决定系数 Adjusteddeterminationcoefficient 四 各自变量贡献大小的假设检验及其评价 一 各回归系数的t检验 ParameterStandardStandardizedVariableDFEstimateErrortValuePr t Estimate变量自由度回归系数标准误t值P值标准化回归系数Intercept225 943272 828592 100 04730X1220 142450 365650 390 70060 07758X2220 351470 204201 720 09930 30931X322 0 270590 12139 2 230 0363 0 33948X4220 638200 243262 620 01550 39774 二 标准化回归系数 三 偏回归平方和 sumofsquaresforpartialregression 及其F检验 实例计算 第二节自变量的选择 1 变量多增加了模型的复杂度2 计算量增大3 估计和预测的精度下降4 模型应用费用增加 一 全局择优法 根据一些准则 criterion 建立 最优 回归模型 校正决定系数 考虑了自变量的个数 Cp准则 C即criterion p为所选模型中变量的个数 Cp接近 p 1 模型为最优 AIC Akaike sInformationCriterion 准则 AIC越小越好 校正决定系数 Adjusteddeterminationcoefficient 一 Cp准则的计算公式 二 AIC准则的计算公式 应用以上准则如何选择模型 求出所有可能的回归模型 共有2m 1个 对应的准则值 按上述准则选择最优模型 SAS获得的几个准则值结果 全局择优法的局限性 如果自变量个数为4 则所有的回归有24 1 15个 当自变量数个数为10时 所有可能的回归为210 1 1023个 当自变量数个数为50时 所有可能的回归为250 1 1015个 二 逐步选择法 1 前进法 forwardselection 2 后退法 backwardelimination 3 逐步回归法 stepwiseregression 它们的共同特点是每一步只引入或剔除一个自变量 决定其取舍则基于对偏回归平方和的F检验 一 前进法 自变量从无到有 从少到多 Y对每一个自变量作直线回归 对回归平方和最大的自变量作F检验 有意义 P小 则引入 在此基础上 计算其它自变量的偏回归平方和 选取偏回归平方和最大者作F检验 局限性 即后续变量的引入可能会使先进入方程的自变量变得不重要 二 后退法 先将全部自变量放入方程 然后逐步剔除 偏回归平方和最小的变量 作F检验及相应的P值 决定它是否剔除 P大 建立新的回归方程 重复上述过程 局限性 自变量高度相关时 可能得不出正确的结果 三 逐步回归法 双向筛选 引入有意义的变量 前进法 剔除无意义变量 后退法 小样本检验水准a定为0 10或0 15 大样本把值定为0 05 值越小表示选取自变量的标准越严 注意 引入变量的检验水准要小于或等于剔除变量的检验水准 逐步回归法实例 令 入 出 0 10 逐步回归法实例 第一步 逐步回归法实例 第二步 逐步回归法实例 X1剔除否 逐步回归法实例 第三步 逐步回归法实例 X4 X1 X3剔除否 逐步回归法实例 第四步 逐步回归法实例 是否剔除 逐步回归法实例 是否剔除 例15 3的方差分析结果 例15 3的回归系数及其检验 第三节多元线性回归的应用及其注意事项 一 应用 影响因素分析 控制混杂因素预测 由自变量值推出应变量Y的值控制 指定应变量Y的值查看自变量的改变量 二 应用条件 三 应用的注意事项 一 变量的数量化 1 自变量为连续型变量 必要时作变换 2 自变量为有序变量 依次赋值 如疗效好中差 可分别赋值3 2 1 3 自变量为二分类 如令男 1 女 0 4 自变量为名义分类 需要采用哑变量 dummyvariables 进行编码 名义分类变量的哑变量化 假如职业分类为工 农 商 学 兵5类 则可定义比分类数少1个 即4个哑变量 编码方法如下 二 样本含量 观察个体数n与变量个数m的比例一般至少应为 n m 5 10 三 统计 最优 与专业的 最优 不同准则 方法得出的 最优 方程不同 不同的引入 剔除标准获得的 最优 方程不同 方程还受数据的正确性 共线性影响 四 多重共线性 自变量间存在着线性关系 使一个或几个自变量可以由另外的自变量线性表示时 称为该变量与另外的自变量间存在有共线性 collinearity 回归系数的符号与由专业知识不符变量的重要性与专业不符 多重共线性的识别与解决办法 整个方程决定系数R2高 但各自变量对应的回归系数均不显著 解决共线性的主要方法 筛选自变量用主成分回归岭回归 五 交互作用 当某一自变量对应变量的作用大小与另一个自变量的取值有关时 则表示两个变量有交互作用 interaction 检验两变量间有无交互作用 普遍的做法是在方程中加入它们的乘积项再做检验 如考察X1 X2间的交互作用 可在模型中加入X1X2项 六 残差分析 检验应用条件 六 用标准化残差发现异常点 一般标准化残差绝对值大于2考虑为异常点 outlier 也称离群值 七 偏相关系数 几个相关系数的区别 多重共线性之主成分回归 刚才说到了多重共线性 逐步回归等方法也是可以消除多重共线性的 除此之外 还有主成分回归 岭回归等 要想明白什么是主成分回归 我们先来了解一下什么是主成分分析 人体系统是多要素的复杂系统 在研究到底是什么危险因素影响到人体的健康 多变量问题是经常会遇到的 变量太多 无疑会增加分析问题的难度与复杂性 而且在许多实际问题中 多个变量之间是具有一定的相关关系的 因此 人们会很自然地想到 能否在相关分析的基础上 用较少的新变量代替原来较多的旧变量 而且使这些较少的新变量尽可能多地保留原来变量所反映的信息 问题的提出 事实上 这种想法是可以实现的 主成分分析方法就是综合处理这种问题的一种强有力的工具 主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法 从数学角度来看 这是一种降维处理技术 一 主成分分析的基本原理 假定有n个人群样本 每个样本共有p个变量 构成一个n p阶的人群数据矩阵 当p较大时 在p维空间中考察问题比较麻烦 为了克服这一困难 就需要进行降维处理 即用较少的几个综合指标代替原来较多的变量指标 而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息 同时它们之间又是彼此独立的 定义 记x1 x2 xP为原变量指标 z1 z2 zm m p 为新变量指标 3 5 2 系数lij的确定原则 zi与zj i j i j 1 2 m 相互无关 z1是x1 x2 xP的一切线性组合中方差最大者 z2是与z1不相关的x1 x2 xP的所有线性组合中方差最大者 zm是与z1 z2 zm 1都不相关的x1 x2 xP 的所有线性组合中方差最大者 则新变量指标z1 z2 zm分别称为原变量指标x1 x2 xP的第一 第二 第m主成分 从以上的分析可以看出 主成分分析的实质就是确定原来变量xj j 1 2 p 在诸主成分zi i 1 2 m 上的荷载lij i 1 2 m j 1 2 p 从数学上容易知道 从数学上可以证明 它们分别是的相关矩阵的m个较大的特征值所对应的特征向量 二 计算步骤 一 计算相关系数矩阵rij i j 1 2 p 为原变量xi与xj的相关系数 rij rji 其计算公式为 3 5 3 3 5 4 二 计算特征值与特征向量 解特征方程 常用雅可比法 Jacobi 求出特征值 并使其按大小顺序排列 分别求出对应于特征值的特征向量 要求 1 即 其中表示向量的第j个分量 计算主成分贡献率及累计贡献率 贡献率 累计贡献率 一般取累计贡献率达85 95 的特征值所对应的第一 第二 第m m p 个主成分 计算主成分载荷 各主成分的得分 3 5 5 3 5 6 三 主成分分析方法应用实例 下面 我们根据表3 4 5给出的数据 对某农业生态经济系统做主成分分析 表3 4 5某农业生态经济系统各区域单元的有关数据 步骤如下 1 将表3 4 5中的数据作标准差标准化处理 然后将它们代入公式 3 5 4 计算相关系数矩阵 见表3 5 1 表3 5 1相关系数矩阵 2 由相关系数矩阵计算特征值 以及各个主成分的贡献率与累计贡献率 见表3 5 2 由表3 5 2可知 第一 第二 第三主成分的累计贡献率已高达86 596 大于85 故只需要求出第一 第二 第三主成分z1 z2 z3即可 表3 5 2特征值及主成分贡献率 3 对于特征值 4 6610 2 0890 1 0430分别求出其特征向量e1 e2 e3 再用公式 3 5 5 计算各变量x1 x2 x9在主成分z1 z2 z3上的载荷 表3 5 3 表3 5 3主成分载荷 第一主成分z1与x1 x5 x6 x7 x9呈显出较强的正相关 与x3呈显出较强的负相关 而这几个变量则综合反映了生态经济结构状况 因此可以认为第一主成分z1是生态经济结构的代表 第二主成分z2与x2 x4 x5呈显出较强的正相关 与x1呈显出较强的负相关 其中 除了x1为人口总数外 x2 x4 x5都反映了人均占有资源量的情况 因此可以认为第二主成分z2代表了人均资源量 分析 显然 用三个主成分z1 z2 z3代替原来9个变量 x1 x2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论