多元统计分析及R语言建模(第五版)课件第四五章_第1页
多元统计分析及R语言建模(第五版)课件第四五章_第2页
多元统计分析及R语言建模(第五版)课件第四五章_第3页
多元统计分析及R语言建模(第五版)课件第四五章_第4页
多元统计分析及R语言建模(第五版)课件第四五章_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第4章 多元相关与回归分析及R使用多元统计分析及R语言建模 - 1-多元统计分析及R语言建模4 多元相关与回归分析及R使用内容与要求内容: 变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法。要求: 在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。多元统计分析及R语言建模第4章 多元相关与回归分析及R使用本节内容1 简单相关分析的R计算2 一元线性回归分析的R计算4 多元相关与回归分析及R使用4.1 变量间的关系分析4 多元相关与回归分析及R使用两变量线性相关系数 样本的线性相关系数: 离均差平方和与离均差积和:4.

2、1 变量间的关系分析4 多元相关与回归分析及R使用说明与举例 举例: 【例 4-1】(续例2-2)身高与体重的相关关系分析。下面以例2-2的身高与体重数据分析。 先建立一个离均差积和函数:4.1 变量间的关系分析4 多元相关与回归分析及R使用 数据输入:读取身高与体重的数据 数据输出: plot(x1,x2) 直观分析:图示法 通过散点图看身高与体重的关系x1=c(171,175,159,155,152,158,154,164,168,166,159,164)x2=c(57,64,41,38,35,44,41,51,57,49,47,46)4.1 变量间的关系分析4 多元相关与回归分析及R使用

3、 建立离均差乘积和函数: 数据输出: lxyF) x 1 712077 712077 27427 |t|) (Intercept) -1.19660 1.16126 -1.03 0.311 x 1.11623 0.00674 165.61 |t|) (Intercept) 23.5321088 4.5990714 5.117 2.47e-05 *x1 -0.0033866 0.0080749 -0.419 0.678 x2 1.1641150 0.0404889 28.751 2e-16 *x3 0.0002919 0.0085527 0.034 0.973 x4 -0.0437416 0.0

4、092638 -4.722 7.00e-05 *Signif. codes: 0*0.001 *0.01 *0.05 .0.1 1Residual standard error: 2.79 on 26 degrees of freedomMultiple R-squared: 0.9997,Adjusted R-squared: 0.9997 F-statistic: 2.289e+04 on 4 and 26 DF, p-value: 2.2e-16summary(fm)#多元线性回归系数t检验lm(formula = y x1 + x2 + x3 + x4, data = yX)Resid

5、uals: Min 1Q Median 3Q Max -5.0229 -2.1354 0.3297 1.2639 6.9690 多元统计分析及R语言建模4.3 多元相关分析 在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为三个或者三个以上时,称为偏相关或复相关。实际上,偏相关和复相关是对简单相关的一种推广。多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析设样本矩阵为:多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析此时任意两个变量间相关系数构成的矩阵为:多元统计分析及R语言建模4.3 多

6、元相关分析多元统计分析及R语言建模4.3 多元相关分析其中rij为任意两变量之间的简单相关系数:多元统计分析及R语言建模4.3 多元相关分析举例与说明(续例4.4)财政收入与其他变量间的相关分析。计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数,表4.9给出了相关系数的假设检验统计量。首先我们计算变量两两间的相关系数多元统计分析及R语言建模4.3 多元相关分析#多元数据相关系数矩阵cor(yX) R语言代码数据输出多元统计分析及R语言建模4.3 多元相关分析函数说明由于没有现成的进行相关系数矩阵的假设检验,下面编写计算相关系数的值和值的函数corr.test()。

7、多元统计分析及R语言建模4.3 多元相关分析library(mvstats)#多元数据相关系数检验corr.test(yX) R语言代码数据输出从结果可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收之间的关系最为密切。多元统计分析及R语言建模4.3 多元相关分析复相关分析 在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析假

8、定回归模型为:复相关系数多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析复相关系数计算公式为:复相关系数多元统计分析及R语言建模4.3 多元相关分析多元统计分析及R语言建模4.3 多元相关分析复相关系数:决定系数决定系数:多元统计分析及R语言建模4.3 多元相关分析#显示多元线性回归模型决定系数(R2=summary(fm)$r.sq) R语言代码数据输出#显示多元数据复相关系数(R=sqrt(R2)1 0.99971 0.9999多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模多元回归分析主要用途用于描述解释现象, 这时希望回

9、归方程中所包含的自变量尽可能少一些用于预测, 这时希望预测的均方误差较小用于控制,这时希望各回归系数具有较小的方差和均方误差多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模变量太多,容易引起的问题变量多增加了模型的复杂计算量增大估计和预测的精度下降模型应用费用增加多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模解决方法全部子集法向后删除法向前引入法逐步回归法4.4 回归变量的选择方法多元统计分析及R语言建模全局最优法从理论上说,自变量选择最好的方法是所有可能回归法,即建立因变量和所有自变量全部子集组合的回归模型,也称全部子集法。对于每个模型,

10、在实用上,从数据与模型拟合优劣的直观考虑出发,基于残差(误差)平方和的变量选择准则使用的最多。多元统计分析及R语言建模4.3 多元相关分析举例与说明【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:x1,x2,x3,x4。所有可能的模型可分为5组子集:多元统计分析及R语言建模4.3 多元相关分析举例与说明例4.4数据的RSS与R2准则回归子集:多元统计分析及R语言建模4.3 多元相关分析library(leaps) #加载leaps包varsel=regsubsets(yx1+x2+x3+x4,data=yX) result=summary(varsel) data.frame(r

11、esultoutmat,RSS=resultrss,R2=result$rsq) R语言代码数据输出多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模R2和RSS准则优缺点具有较大R2的对较少自变量的模型应该是好的选择,较大的意味着有好的拟合效果,而较少的变量个数可减轻信息的收集和控制。对于有个自变量的回归模型来说,当自变量子集在扩大时,残差平方和随之减少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原则来选择自变量子集,则毫无疑问应该选全部自变量多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模变量选择的常用准则平均残差平方和最小准则误

12、差均方根MSE最小准则校正复相关系数平方(Adjusted R2)准则Cp准则AIC准则BIC准则多元统计分析及R语言建模举例与说明表4.10例4.4数据的Cp与BIC准则回归子集4.4 回归变量的选择方法多元统计分析及R语言建模4.3 多元相关分析data.frame(resultoutmat,adjR2=resultadjr2,Cp=resultcp,BIC=result$bic)R语言代码数据输出多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模全局择优法的缺陷如果自变量个数为4,则所有的回归有15个,当自变量个数为10时,所有可能的回归为1023个,当自变量数个

13、数为50时,所有可能的回归为1015个,当p很大时,数字2p大得惊人,有时计算是不可能的,于是就提出了所谓逐步回归的方法.4.4 回归变量的选择方法多元统计分析及R语言建模逐步回归分析在作实际多元线性回归时常有这样情况, 变量x1,x2,.xp相互之间常常是线性相关的,即在x1,x2,.xp中任何两个变量是完全线性相关的, 即相关系数为1,则矩阵XTX的秩小于p,XTX就无解。当变量x1,x2,.xp中任有两个变量存在较大的相关性时, 矩阵XTX处于病态, 会给模型带来很大误差。因此作回归时, 应选变量x1,x2,.xp中的一部分作回归, 剔除一些变量。逐步回归法就是寻找较优子空间的一种变量选

14、择方法。多元统计分析及R语言建模4.4 回归变量的选择方法多元统计分析及R语言建模逐步变量选择的方法向前引入法向后剔除法逐步筛选法多元统计分析及R语言建模fm=lm(yx1+x2+x3+x4, data=yX) fm.step=step(fm,direction=forward) #向前引入法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模fm.step=step(fm,direction=backward) #向后剔除法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模fm.step=step(fm,direction=both)

15、 #逐步筛选法变量选择结果R语言代码数据输出4.4 回归变量的选择方法多元统计分析及R语言建模 第5章 广义与一般线性模型及R使用多元统计分析及R语言建模第5章 广义与一般线性模型及R使用多元统计分析及R语言建模第5章 广义与一般线性模型及R使用基本内容:数据的分类与模型选择、广义线性模型概述、Logistic回归模型、对数线性模型、一般线性模型的计算。基本要求:要求学生针对因变量和解释变量的取值性质,了解统计模型的类型。掌握数据的分类与模型选择方法,并对广义线性模型和一般线性模型有初步的了解。内容与要求5.1 数据的分类与模型选择5广义与一般线性模型及R使用5.1 数据的分类与模型选择5广义

16、与一般线性模型及R使用2.模型选择方式:基本公式 yX连续变量0-1变量有序变量多分类变量连续伴有删失连续变量线性回归方程logistic回归模型累积比数模型对数线性模型对数线性模型多分类logistic回归模型cox比例风险模型分类变量 实验设计模型(方差分析模型)连续变量分类变量协方差分析模型5.2 广义线性模型5广义与一般线性模型及R使用表5.1 广义线性模型中的常用分布族5.2 广义线性模型5广义与一般线性模型及R使用5.2 广义线性模型5广义与一般线性模型及R使用说明与举例 说明: 2、Logistic模型:函数形式其中参数估计采用极大似然估计。 举例:对45名驾驶员的调查结果,其中

17、四个变量的含义为:x1:表示视力状况,它是一个分类变量,1表示好,0表示有问题;x2:年龄,数值型;x3:驾车教育,它也是一个分类变量,1表示参加过驾车教育,0表示没有;y:分类变量(去年是否出过事故,1表示出过事故,0表示没有)。5.2 广义线性模型5广义与一般线性模型及R使用d5.1=read.table(clipboard,header=T) #读取例5.1数据 logit.glm-glm(yx1+x2+x3,family=binomial,data=d5.1) #Logistic回归模型summary(logit.glm) #Logistic回归模型结果得到初步的logistic回归模

18、型:(1)建立全变量logistic回归模型:程序与结果5.2 广义线性模型5广义与一般线性模型及R使用logit.step-step(logit.glm,direction=both) #逐步筛选法变量选择由此得到新的logistic回归模型:(2)逐步筛选变量logistic回归模型:summary(logit.step) #逐步筛选法变量选择结果程序与结果5.2 广义线性模型5广义与一般线性模型及R使用pre1-predict(logit.step,data.frame(x1=1) #预测视力正常司机Logistic回归结果p1-exp(pre1)/(1+exp(pre1) #预测视力正

19、常司机发生事故概率pre2-predict(logit.step,data.frame(x1=0) #预测视力有问题的司机Logistic回归结果p2-exp(pre2)/(1+exp(pre2) #预测视力有问题的司机发生事故概率c(p1,p2) #结果显示(3):预测发生交通事故的概率程序与结果5.2 广义线性模型5广义与一般线性模型及R使用说明与举例 说明: 3、对数线性模型:函数形式 式2含有交叉效应 举例: 某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。满意不满意合计高533891中434108542低11148159合计598194792数据形式变为:用y表示频数,x1表示收入人群,x2表示满意程度5.2 广义线性模型5广义与一般线性模型及R使用程序与结果(1)建立Poisson对数线性模型:从检验结果可看出,p1=0.00310.01,p20.01,说明收入和满意程度对产品有重要影响5.3 一般线性模型5广义与一般线性模型及R使用说明与举例 举例: 设有3台机器,用来生产规格相同的铝合金薄板。现从3台机器生产出的薄板

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论