《多元统计分析及R语言》第5章广义与一般线性模型_第1页
《多元统计分析及R语言》第5章广义与一般线性模型_第2页
《多元统计分析及R语言》第5章广义与一般线性模型_第3页
《多元统计分析及R语言》第5章广义与一般线性模型_第4页
《多元统计分析及R语言》第5章广义与一般线性模型_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问题:

分析驾驶事故与视力、年龄和驾车教育之间关系。针对定性变量,如何建立数据模型并预测?问题提出是否事故y视力状况x1年龄x2驾车教育x31117101440014810155011751一般线性模型广义线性模型实验设计模型Logistic回归模型对数线性模型方法完全随机设计模型随机单位组设计模型析因设计模型正交实验设计模型第5章广义与一般线性模型5.1数据分类与模型选择5.2广义线性模型5.3一般线性模型5.1数据分类与模型选择1.数据分类连续变量0-1变量有序变量多分类变量连续伴有删失变量因变量连续变量分类变量等级变量自变量2.模型选择0-1变量:Logistic回归模型有序变量:对数线性和累积比数模型多分类变量:对数线性和多分类Logistic回归模型连续伴有删失变量:Cox比例风险模型因变量x1,…xp为变量:线性回归连续变量同时自变量x1,…xp为因素哑变量:实验设计或方差分析一部分是因素哑变量,一部分是变量:协方差分析模型5.2广义线性模型思想:

一般线性模型假定因变量y服从正态分布或方差为有限常数,经常出现与现实不符情况,需要对y分布特征进行推广,由此,提出了广义线性模型和拟似然函数。模型假定条件其中:m为连接函数组成的向量,将μ转化为β的线性表达式,V(μ)为nⅹn的矩阵,其中每个元素均为μ的函数,当yi各值相互独立时,V(μ)为对角矩阵。当m(μ)=μ时,为一般线性模型。1.y的常用分布族结论:典则参数θ是μ和β的函数,常规分布都可以用指数分布族表示,得到以下分布指数概率密度函数:正态分布与指数分布族变换:典则参数θ是μ和β的函数,对μ做变换,得到以下分布连接函数形式:指数概率密度函数:正态分布(普通线性):二项分布(Logistic):Possion分布(对数线性):E(y)=u2.Logistic模型

回归函数限制在[0,1]区间的连续曲线,不能再沿用线性回归方程

因变量y取0,1值,不适合直接作回归模型因变量,P表示y=1时概率,Q表示y=0时概率,Q=1-P,均值为P基本形式:Logit变换:3.Logistic回归模型参数估计-极大似然估计联合概率函数:设P(yi=1)=π,P(yi=0)=1-πyi概率函数:对数似然函数:结论:使用Newton迭代计算出βi和lnL的估计值4.Logistic回归模型参数检验-Z统计量检验结论:Z所对应p值小于0.05,拒绝原假设,β≠0,否则,β=0.Fisher信息阵检验统计量:对应置信区间:βi方差:5.实例分析问题:

分析驾驶事故与视力、年龄和驾车教育之间关系,构建变量间关系模型是否事故y视力状况x1年龄x2驾车教育x31117101440014810155011751Logistic回归模型:5.实例分析d5.1=read.table("clipboard",header=T)#读取例5.1数据logit.glm<-glm(y~x1+x2+x3,family=binomial,data=d5.1)结论:模型参数p>0.05未通过参数检验,可以对参数进行逐步筛选。summary(logit.glm)#Logistic回归模型结果glm(formula=y~x1+x2+x3,family=binomial,data=d5.2)EstimateStd.ErrorzvaluePr(>|z|)(Intercept)0.59760.89480.670.504x1-1.49610.7049-2.120.034*x2-0.00160.0168-0.100.924x30.31590.70110.450.652AIC:65.03NumberofFisherScoringiterations:4逐步筛选logit.step<-step(logit.glm,direction=“both”)#逐步筛选Start:AIC=65.03y~x1+x2+x3DfDevianceAIC-x2157.03563.035-x3157.23263.232<none>57.02665.026-x1161.93667.936Step2:AIC=61.24y~x1DfDevianceAIC<none>57.24161.241+x3157.03563.035+x2157.23263.232-x1162.18364.183Step1:AIC=63.03y~x1+x3DfDevianceAIC-x3157.24161.241<none>57.03563.035+x2157.02665.026-x1161.99165.991模型检验与预测summary(logit.step)#逐步筛选法变量选择结果Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)0.61900.46881.3200.1867x1-1.37280.6353-2.1610.0307*AIC:61.241Logistic回归模型:pre1<-predict(logit.step,data.frame(x1=1))#视力正常p1<-exp(pre1)/(1+exp(pre1))#视力正常司机发生事故概率pre2<-predict(logit.step,data.frame(x1=0))#视力有问题p2<-exp(pre2)/(1+exp(pre2))#预测视力有问题发生事故概率c(p1,p2)=(0.320.65)结论:说明视力有问题司机发生交通事故的概率是视力正常的司机的两倍以上。2.对数线性模型基本形式:只有主效应列链表:有主效应和交叉效应列链表:说明:其模型参数估计与检验同logistic模型β收入分类α满意不满意合计高533891中434108542低11148159合计598194792实例分析问题:

分析顾客对产品是否满意,并了解不同收入人群对产品满意程度是否相同。分类满意不满意合计高533891中434108542低11148159合计598194792某企业想了解顾客对其产品是否满意,同时还想了解不同收入的人群对其产品的满意程度是否相同。在随机发放的1000份问卷中,收回有效问卷792份结果如表。实例分析构建变量:收入人群和满意程度变量结论:模型系数p<0.05,通过参数检验,说明顾客收入和满意程度对产品有重要影响。y收入人群x1满意程度x2531143421111313812108224832d5.2=read.table("clipboard",header=T)#读取例5.2数据log.glm<-glm(y~x1+x2,family=poisson(link=log),data=d5.2)Coefficients:EstimateStd.ErrorzvaluePr(>|z|)(Intercept)6.15690.142043.37<2e-16***x10.12910.04372.960.0031**x2-1.12570.0826-13.62<2e-16***一般线性模型广义线性模型Logistic回归模型对数线性模型方法完全随机设计模型随机单位组设计模型析因设计模型正交实验设计模型5.3一般线性模型-实验设计模型思想:

对完全随机试验结果构建线性模型,进行显著性检验其中:μ表示观测结果yij的总体均值,αi是哑变量x系数,eij为误差项1、完全随机设计模型模型基本形式:矩阵形式2.实例分析问题:上表是从3台机器生产出的薄板中各随机抽取6块所测出的厚度值,试分析各机器生产的薄板厚度有无显著差异?处理不分组123456机器12.362.382.482.452.472.43机器22.572.532.552.542.562.61机器32.582.642.592.672.662.62F统计量:原理:组间均值尽可能大,组内均值尽可能小2.实例分析d5.3=read.table("clipboard",header=T)#读取例5.3数据anova(lm(Y~factor(A),data=d5.3))#方差分析Response:YDfSumSqMeanSqFvaluePr(>F)factor(A)20.12220.061140.5348.94e-07***Residuals150.02260.0015结论:P<0.05,说明各机器生产的薄板厚度有显著差异。构建变量:处理类别变量x1y机器类型x1(A)2.3612.3812.4812.5722.5322.552思想:分组的条件下,检验各处理差异显著性程度,构造F统计量方法其中:μ表示观测结果yij的总体均值,αi是哑变量处理B的第i个水平效应,βj为第j个单位组的效应,eij为误差项2、随机单位组设计模型模型基本形式:处理区组A1A2A3A4B1582491601758B2562541709582B3653516392487实例分析使用4种燃料,3种推进器作火箭射程试验,每一种组合情况做一次试验,则得火箭射程列在下表:处理(推进器)区组(燃料)A1A2A3A4B1582491601758B2562541709582B3653516392487问题:分析各种燃料A与各种推进器B对火箭射程有无显著影响?实例分析d5.4=read.table("clipboard",header=T)#读取例5.4数据anova(lm(Y~factor(A)+factor(B),data=d5.4))#方差分析Response:YDfSumSqMeanSqFvaluePr(>F)factor(A)31575952530.430.74factor(B)222385111920.920.45Residuals67319812200结论:P(A)>0.05,接受原假设,各种燃料对火箭射程无显著影响;P(B)>0.05,接受原假设各种推进器对火箭射程无显著影响构建哑变量:推进器类型B和燃料类型Ay燃料类型A推进器B582114912160131758415621254122思想:分组且重复实验条件下,检验各处理和区组对因变量显著性程度,构造F统计量方法其中:μ表示观测结果yij的总体均值,αi是哑变量区组A的第i个水平效应,βj为第j个处理的效应,(αβ)ij区组与处理的交互效应,eij为误差项3、析因设计模型模型基本形式:处理区组(方法(A))新法旧法甲化合物乙化合物甲化合物乙化合物化合物(B)52845247488844644490405244802645合计188350162208问题:分析两种不同方法提取甲、乙两种化合物的回收效果。处理区组(方法(A))新法旧法甲化合物乙化合物甲化合物乙化合物化合物(B)52845247488844644490405244802645合计188350162208实例分析实例分析d5.5=read.table("clipboard",header=T)#读取例5.5数据anova(lm(Y~factor(A)+factor(B)+factor(A)*factor(B),data=d5.6))#方差分析Response:YDfSumSqMeanSqFvaluePr(>F)A11600160028.40.00018***B12500250044.42.3e-05***A:B172972912.90.00366**结论:P(A)<0.05,拒绝原假设,不同方法对回收率有显著影响;P(B)<0.05,拒绝原假设,不同化合物对回收率有显著影响;P(AB)<0.05,拒绝原假设,化合物与方法交互作用对回收率有显著影响;构建哑变量:化合物类型B和方法类型Ay方法类型A化合物B52114811441144118412思想:非全面组合条件下,检验各处理和区组对因变量显著性程度,构造F统计量方法其中:μ表示观测结果yij的总体均值,αi是哑变量区组A的第i个水平效应,βj为第j个处理的效应,γij区组与处理的交互效应,eij为误差项,θk为单位组效应,

(αβ)k

是A与B的交互作用。4、正交实验设计模型模型基本形式:问题:用方差分析法分析农药收率Y的影响因素。实例分析列号1234567表头ABABCD试验结果Y11111111862111222295312211229141222211945212121291621221219672211221838221211288

某农药厂生产某种农药,指标为农药的收率,显然是越大越好。据经验知,影响农药收率的因素有4个:反应温度A,反应时间B,原料配比C,真空度D。每个因素都有两个水平,具体情况如下:A1:60oC,A2:80oC;B1:2.5h,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论