第九章回归分析和相关分析ppt课件.ppt_第1页
第九章回归分析和相关分析ppt课件.ppt_第2页
第九章回归分析和相关分析ppt课件.ppt_第3页
第九章回归分析和相关分析ppt课件.ppt_第4页
第九章回归分析和相关分析ppt课件.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章回归分析和相关分析 本章目录 9 1相关性及其度量9 2一元线性回归分析9 3多元线性回归分析9 4回归诊断9 5logistics回归目的 通过研究变量间的相互关系 测定其紧密程度 揭示数据后的规律 构建模型 来进行结构分析 政策评价 预测和控制 9 1相关性及其度量 变量间相互关系分为两种 函数关系 可以用某一方程y f x 表达相关关系 数值变化存在不完全确定的依存关系 可以用某种相关性度量来刻画相关关系 相关分析 函数关系 回归分析 相关的种类 相关程度 完全相关不完全相关不相关 相关方向 正相关负相关 相关形式 线性相关非线性相关 涉及变量 一元相关多元相关 影响因素 单相关复相关 在进行相关分析和回归分析之前需要观察不同变量之间的散点图 了解相关程度 x c 1 21 1 30 1 39 1 42 1 47 1 56 1 68 1 72 1 98 2 10 y c 3 90 4 50 4 20 4 83 4 16 4 93 4 32 4 99 4 70 5 20 plot x y 得到图形如右图所示 数据分布相对分散 存在某种递增关系 推测x和y之间存在某种正相关关系 相关分析 线性相关 Pearson相关系数Spearman秩相关系数Kendall相关系数H0 x和y不相关检验函数 cor tsest cor test cor test x y alternative c two sided less greater method c pearson kendall spearman exact NULL conf level 0 95 x和y的相关系数为0 68 p值 0 03 0 05 故拒绝原假设 从而认为x和y相关 如何算x和y的Spearman秩相关系数 练习 P271 9 1 9 2一元线性回归分析 数学模型 y 0 1X 相关的函数 求回归方程 lm 求参数置信区间 confint summary anova predict R软件实现 lm y x summary lm y x 一元线性回归步骤 散点图 判断能否进行回归分析 回归分析需要对回归系数 t值 拟合优度 R方 方程进行检验 F值 残差分析预测 举例 粮食需求量x和人口增加量y a data frame x c 274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 y c 162 120 223 131 67 169 81 192 116 55 525 234 144 103 212 plot a x a y 作x和y的散点图summary lm y x 回归分析结果abline lm y x 在散点图上显示回归直线plot residuals lm y x 残差散点图predict lm y x data frame x 200 interval prediction x 200时的预测区间根据显示结果说说X和Y的关系如何 练习 P272 9 2 9 3多元线性回归分析 数学模型 y 0 1X1 2X2 3X3 4X4 数据输入 y c 11 2 8 8 12 3 11 6 13 4 18 3 11 1 12 1 9 6 8 4 9 3 10 6 8 4 9 6 10 9 10 1 14 8 9 1 10 8 10 2 13 6 14 9 16 0 13 2 20 0 13 3 10 4 x1 c 5 68 3 79 6 02 4 85 4 60 6 05 4 90 7 08 3 85 4 65 4 59 4 29 7 97 6 19 6 13 5 71 6 40 6 06 5 09 6 13 5 78 5 43 6 50 7 98 11 54 5 84 3 84 x2 c 1 90 1 64 3 56 1 07 2 32 0 64 8 50 3 00 2 11 0 63 1 97 1 97 1 93 1 18 2 06 1 78 2 40 3 67 1 03 1 71 3 36 1 13 6 21 7 92 10 89 0 92 1 20 x3 c 4 53 7 32 6 95 5 88 4 05 1 42 12 60 6 75 16 28 6 59 3 61 6 61 7 57 1 42 10 35 8 53 4 53 12 79 2 53 5 28 2 96 4 31 3 47 3 37 1 20 8 61 6 45 x4 c 8 2 6 9 10 8 8 3 7 5 13 6 8 5 11 5 7 9 7 1 8 7 7 8 9 9 6 9 10 5 8 0 10 3 7 1 8 9 9 9 8 0 11 3 12 3 9 8 10 5 6 4 9 6 A data frame y x1 x2 x3 x4 软件实现 lm reg lm y x1 x2 x3 x4 data A summary lm reg 有些自变量通不过检验怎么办 lm step step lm reg AIC 赤迟信息准则 值越少越好 summary lm step 练习 P245 例9 3 1 9 4回归诊断 误差项是否满足不相关性 等方差性 正态性等选择的模型是否合适是否存在异常样本回归分析是否具备稳定性自变量之间是否存在高度相关 多重共线性 残差分析 残差散点图 残差图 以残差为纵坐标的图形 残差图应随机在 2 2之间的带状区间里 称之为正常残差图 图a 其他三张为异常残差图 图b 应改为曲线模型 图c 主差齐性不成立 图d 观测值不独立 R语言实现 y res residuals lm reg 计算残差print y res y rst rstandard lm reg 计算标准化残差print y rst y fit predict lm reg 计算预测值op par mfrow c 1 2 将两张散残差点图一并输出plot y res y fit plot y rst y fit 方差齐性的诊断及修正方法 当残差的绝对值随预测值的增加也有明显增加的趋势 或减少的趋势 或先增加后减少的趋势 时 表示关于误差的方差齐性 即误差方差 的假定不成立 误差方差非齐性时 有时可以通过对因变量作适当的变换 使得关于因变量Z在回归中误差的方差接近齐性 R语言实现 x c 294 247 267 358 423 311 450 534 438 697 688 630 709 627 615 999 1022 1015 700 850 980 1025 1021 1200 1250 1500 1650 y c 50 40 45 55 70 65 55 62 68 78 80 84 88 97 100 109 114 117 106 128 130 160 97 180 112 210 135 B data frame x y lm reg lm y x summary lm reg y rst rstandard lm reg y fit predict lm reg op par mfrow c 2 2 plot y rst y fit lm new reg update lm reg sqrt coef lm new reg yn rst rstandard lm new reg yn fit predict lm new reg plot yn rst yn fit 正态性检验 QQ图 plot lm reg 2 plot lm new reg 2 异常点的识别 一般把标准化残差的绝对值 2的观测点认为是可疑点 而标准化残差的绝对值 3的观测点认为是异常点 影响分析 对回归结构影响很大的观测点 影响函数 去掉某个观测点后的系数与包含所有观测点的系数的差 相差越大 该观测点对回归结果的影响越大 lm influence 模型 do coef TRUE 判别标准 Cook距离 Di 4 n强影响点DFFITS准则 Di 强影响点COVRATIO准则 离1越远 影响越大 influence measures 模型 R语言实现 x1 c 1500 1500 3300 4200 2000 2500 2300 2500 x2 c 5000 4000 3000 2500 2000 2500 3500 3000 y c 96000 95000 95000 94000 90000 92000 95000 94000 money data frame x1 x2 y lm reg lm y x1 x2 data money summary lm reg influence measures lm reg 共线性诊断 特征值法条件指数方差膨胀因子 特征值法eigen 构建数据框y data frame x1 x2 x3 x4 eigen y valuesr个特征值近似等于0 则有r个共线性 条件指数法kappa 条件指数 10 30弱相关30 100中等相关大于100强相关kappa y 方差膨胀因子VIF VIF 10 模型有很强的共线性问题 vif lm y x1 x2 x3 Logistic回归 logistic回归模型属于广义线性模型 GeneralizedLinearModel 的一种 R语言实现 x1 rep c 1 0 1 0 1 c 5 10 10 10 10 x2 c 17 44 48 55 75 35 42 57 28 20 38 45 47 52 55 68 18 68 48 17 70 72 35 19 62 39 40 55 68 25 17 45 44 67 55 61 19 69 23 19 72 74 31 16 61 x3 c 1 0 1 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 1 1 0 1 1 1 1 0 0 1 0 0 0 0 0 1 1 0 1 0 1 1 0 1 1 y c 1 0 0 0 1 1 1 0 1 1 0 1 1 0 1 0 0 0 1 0 1 0 1 0 0 1 1 0 1 0 0 1 1 0 1 0 0 0 1 0 1 0 1 0 0 accident data frame x1 x2 x3 y log glm glm y x1 x2 x3 family binomial data accident summary log glm 方程 如果有系数没有通过检验 逐步 log step step log glm summary log step 预测 log pre predict log step data frame x1 1 p1 exp log pre 1 exp log pre p1log pre predict log step data frame x1 0 p2 exp log pre 1 exp log pre p2 9 3 1数据 y c 162 120 223 131 67 169 81 192 116 55 252 232

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论