




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章 回归分析与相关分析 (Regression analysis and correlation analysis),2.1 回归与相关,2.3 协方差分析,2.4 多元线性回归,2.2 简单回归复习与提高,2.5 通径分析与偏相关分析,2.6 逻辑(logistic )回归,2.1 回归与相关,在生物科学研究中,经常会遇到探讨共处于一个统一 体中变量之间的关系问题,其目的就是想了解变量之间是 否有因果关系或相关关系。,对于变量之间的因果关系,统计学的任务是查明因果关系 是否存在,若存在,判定强弱,并找出揭示这种关系的模 型,用于预测、控制、优化。对于相关关系(又叫相依关 系),统计学的任
2、务是找出刻画这种关系强弱的指标,并 用于判定这种关系存在性及强弱。前者就是回归分析,后 者就是相关分析。,相关关系,如人的血压Y与年龄X之间的关系,一般来说,年龄越大血压越高,但年龄相同的两个人的血压不一定相等。又 如某农作物的亩产量Y与施肥量X之间有一定的关系,但施肥量相同,亩产量却不一定相同。这样的例子在实际 中举不甚举。相关关系是两个随机变量之间的平行关系,它们要么互为因果,要么具有共同的因。,相关关系概念,相关关系度量指标,线性相关关系检验,例题 设从某油松林地随机抽测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系强弱。,例题 设从某油松林地随机抽
3、测10块样地,测得林地林木平均高X与木材蓄积量Y如下表所示,试检验X与Y的线性相关关系是否可认为是0.99,并给出其95%置信区间。,回归关系与回归分析 回归关系 在相关关系中,如果关心的是容易测定或控制变量X对变量Y的决定作用大小,将X看成一个普通变量,这时变量X与Y之间就成为回归关系。,回归模型 如果普通变量x与随机变量Y具有回归关系,则Y除过受变量x的作用以外,还受到控制不严格和未知因素的作用。所以,x与Y应满足关系式,对于回归模型,显然有,回归模型分类,回归分析,研究一个随机变量与一个或几个可控变量之间回归关系,从而找出回归关系的模型,用于预测、优化和控制,这种统计方法称为回归分析。回
4、归分析主要解决三个问题: 提供建立具有回归关系的变量之间的数学关系式(称为经验公式)的一般方法; 判别所建立的经验公式是否有效,并从影响随机变量的诸变量中判别哪些变量的影响是显著的,哪些是不显著; 利用所得到的经验公式进行预测和控制。,2.2 简单回归复习与提高,一元线性回归模型,一元线性经验回归方程及其建立,最小二乘法(The least square method),最小二乘法估计量的统计性质,所以,又正态分布的性质有:,进而有,一元线性回归有关检验,离差平和分解,回归显著性检验,F检验,T检验,相关系数检验,截距检验,例 为了研究大豆脂肪含量 和蛋白质含量 的关系,测定了10种大豆品种籽
5、粒内的脂肪含量和蛋白质含量,得到如下数据。分别两组观测数据建立蛋白质含量对脂肪含量的回归方程。,回归直线间与相关系数间比较,两条回归直线间比较,在生物科学研究中,人们经常要了解物种之间是否存在共同生物学基础。这种问题的探讨是以回归线的比较为基本工具。回归线比较包括平行检验、共截距检验、重合检验等。,平行检验,共截距检验,重合检验,所谓回归线重合检验就是在平行检验接受平行的情况 下,两回归线合并估计斜率,在进行共截距检验。,例 对由两组观测数据建立蛋白质含量对脂肪含量的回归线进行比较。,多条回归直线间比较,重合分析,平行分析,共截距分析,注意:k条回归线的共截距分析方法略作改进就可以用于 检验k
6、条回归线是否过指定点。具体做法如下:,三种施肥试验下y对x回归线分析,两条相关系数间比较,在生物科学研究中,人们经常要探讨某个试验指标受不 同控制因素影响关系的强弱。这一问题在相当普遍情况 下,可以通过相关系数的比较得以解决。,2.3 协方差分析(Analysis of covariance),生物科学研究试验,大部分情况下是自然试验,或观测 试验。试验指标除受人们关心的、严格控制因素影响以 外,很多情况下会受到无法控制的可测量因素指标的影 响。如果在对试验指标受严格控制因素影响的探索试验 中,忽视这种无法控制的可测量因素指标对试验结果的 作用,无疑会由试验数据得到虚假结论。例如前面我们 介绍
7、的苹果树产能受施肥影响的实验中,如果忽视苹果 树产能受基础产能影响,直接由施肥后的产量数据进行 方差分析,会得到下列结论:,不考虑基础产能影响的产能方差分析,协变量与协方差分析概念,设在研究试验指标Y受可控因素A影响的试验中,由于无法 控制可测量指标因素指标x导致试验单元不一致,从影响试 验结果,则称指标x为协变量;分析带有协变量试验数据的 统计方法称为协方差分析。 协方差分析是把回归分析与普 通方差分析相结合,处理带有些变量数据问题有效方法。,协方差分析数据结构,协方差分析统计模型,协方差分析一般流程,苹果树生产能力受施肥影响例子续,回归校正后试验指标数据表,协方差分析出了可以按前面所讲的过
8、程实现以外,也可 以用与前面所讲过程等价的离回分析来实现,具体见下 表。,单因素单协变量协方差分析(离回分析)表,在生物科学研究中,经常会遇到探讨共处于一个统一 体中一个变量(向应变量)与多个变量(自变量)之间的关系问 题,其目的就是想了解变量之间是否有因果关系或相关关 系,进而确定引起应变量发生变化的主要自变量,并建立应 变量随这些主要自变量变化关系的经验模型。 在统计学中,把分析两个或两个以上自变量对一个自变 量是否有线性影响关系的统计分析称之为多元线性回归.,二元性线性回归模型,二元性回归模型及其几何解释,2.4 多元线性回归分析,二元性线性回归几何解释,多元性回归分析,多元性线性回归模
9、型,多元性线性回归模型的数据结构,多元性线性经验回归方程建立,中心化经验回归方程为,一医学工作者与了解糖尿病人的血糖 (响应变量)与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂(均为自变量) 之间的多元回归方程,以便了解糖尿病人的血糖与其他几个血液理化指标之间的关系,进而探索糖尿病的有效治疗方案.其随机收集了27名糖尿病患者的血液化验样本数据如下表所示,试就这些数据建立糖尿病人的血糖 (响应变量)与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂(均为自变量)之间的多元线性经验回归方程.,多元线性回归分析举例,计算建立经验回归方程所需各量,最小二乘法的正规方程组,记号及其含义,一、回归方程的方差分
10、析,多元线性回归方程的假设检验及其评价,二、偏回归系数检验,偏相关系数t检验,偏相关系数F检验,三、复相关系数与多元线性回归显著性检验,决定系数表示回归离差平方和占总离差平方和的比例,它反映了进入回归方程所有自变量对响应变量回归贡献的大小,决定系数愈接近1,说明回归整体愈显著。,复相关系数所有自变量xi与响应变量y间的线性相关程度。 如果只有一个自变量,此时,复相关系数等于样本相关系数。复相关系数与下列临界值比较可以检验回归显著性。,糖尿病人血糖与其他血液理化指标回归的方差分析表,Parameter Standard Variable DF Estimate Error t Value Pr
11、|t| 变量 自由度 偏回归系数 标准误 t值 P值 Intercept 22 5.94327 2.82859 2.10 0.0473 X1 22 0.14245 0.36565 0.39 0.7006 X2 22 0.35147 0.20420 1.72 0.0993 X3 22 -0.27059 0.12139 -2.23 0.0363 X4 22 0.63820 0.24326 2.62 0.0155,糖尿病人血糖与其他血液理化指标回归的偏回归系数t检验,糖尿病人血糖与其他血液理化指标回归的偏回归系数F检验,标准化回归系数,1.残差标准差( Root MSE ),反映了回归方程的精度,其
12、值越小说明回归效果越好。,三、其他有关评价指标与评价,2.决定系数( determination coefficient),说明所有自变量能解释Y变化的百分比。取值(0,1),越 接近1模型拟合越好,3.复相关系数(multiple correlation coefficient),说明所有自变量与Y间的线性相关程度。 即观察值Y与估 计值之间的相关程度。 如果只有一个自变量,此时,4.校正决定系数( Adjusted determination coefficient),回归方程的优化(自变量的选择),1. 变量多增加了模型的复杂度2. 计算量增大3. 估计和预测的精度下降4. 模型应用费用
13、增加,一、全局择优法,根据一些准则(criterion)建立 “最优”回归模型,校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaikes Information Criterion)准则; AIC越小越好,1.Cp准则的计算公式,2. AIC准则的计算公式,二、选优法方法,双向筛选 ;引入有意义的变量(前进法),剔除无意义变量(后退法).,前进法,自变量从无到有、从少到多。,1.Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(p小)则引入。 2.在此基础上,计算其它自变量的偏回归
14、平方和,选取偏回归平方和最大者作F检验,。 局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,后退法,先将全部自变量放入方程,然后逐步剔除。,1.偏回归平方和最小的变量,作F检验及相应的p值,决定它是否剔除(p大); 2.建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果.,逐步回归法,逐步回归法与前进法、后退法有所不同,它是一种对回归方程中自变量的双向筛选。该方法通过先引入有意义的自变量,后剔除无意义变量这种过程的反复重复,直至既没有有意义自变量可引入回归方程,也没有无意义变量从回归方程剔除为止。,注意:入选标准愈低,能进入模型的变量愈少。,糖尿病
15、人血糖与其他血液理化指标的逐步回归过程演示,逐步回归第一步,从方程中无自变量开始,选取一元回归回归离差平方和最大的自变量,作F 检验以决定是否选入方程。,X4入选,逐步回归第二步,在第一步基础上,分别引入一个尚未进入方程的自变量,选引入后回归离差平方和最大者;对已进入回归方程的自变量检验偏回归显著性,从而确定是否要剔除自变量。,剔出x1,x1入选,逐步回归第三步,在第二步基础上,重复第二步的过程。,剔出x3,x3入选,逐步回归第四步,在第三步基础上,重复第二步的过程。,剔出x1,x2入选,逐步回归第五步,在第四步基础上,检验是否还有自变量需要剔出。,没有可剔出的变量了,多元回归应用的条件,观察
16、个体数n与变量个数m的比例一般至少应为: n /m510,残差分析(检验应用条件),用标准化残差发现异常点,一般,观测点的标准化残差绝对值大于2,就认为该观测点为异常点(outlier也称离群值),多重复共线性及其应对方法,多元线性回归中,若自变量间存在较强的线性相关关系,使一个或几个自变量可以由另外的自变量线性表示时,则称自变量间存在有复共线性(Multi-Colinearity)。,复共线性的存在,可使得回归系数最小二乘估计方差加大,回归系数估计稳定性差,有时甚至会严重背离实际情况,结果分析困难。,复共线性危害的认识,现从该系统中,随机抽取10个个体,观测数据如下。试 就这些数据建立经验回
17、归方程,并比较经验回归系数与 其理论值。,复共线性存在性的识别,显然,复共线性有下列危害 统计上会使经验回归系数严重不稳定; 应用上,会使回归系数的符号与专业知识推断不符,自变量的重要性与专业认识不符。,1.符号检验法 若某自变量在多元回归模型中的偏回归系数的符号与相应简单回归系数(或简单相关系数)的符号相反,表明有多重共线性存在,并确定该变量为引起多重共线性的变量。 2.简单相关系数矩阵法 根据简单相关系数确定多重共线性的严重程度。一般认为相关系数在 0.6 以上均可导致多重共线性。,3.决定系数法 整个方程决定系数R2高,但各自变量对应的回归系数均不显著,则一定有复共线性。 4.方差膨胀因
18、子(the variance inflation factor,VIF)法:方差膨胀因子表达式为VIFi=1/(1-Ri2)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。 5.条件数与特征分析法 在自变量的观测值构成的设计矩阵X中,求出自变量相关系数矩阵R的特征值,如果某个特征值很小(如小于0.05),或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。,对多重共线性的两点认识:在实际中,多重共线性是一个程度问题而不是有无的问题,有意义的区分不在于有和无,而在于多重共线性的程度。多重共线性是针对固定的自变量而言
19、,是一种样本的特征,而非总体的特征。,消除多重共线性的方法: 1.增加样本容量; 2.利用先验信息改变; 3.筛选自变量,删除不必要的自变量或采用逐步回归; 4.针对性估计法: 岭回归(Ridge regression) 主成分分析(Principal components analysis) 偏最小二乘回归法(Partial least squares regression) Lasso (The least absolute shrinkage and selection operator)回归 以下对4种针对性方法简要介绍如下,复共线性处理方法,岭回归(Ridge regression)
20、,岭回归法是1970年Hoerl(霍尔)和Kennard(凯南德)提出 来的方法。主要用以引入偏误为代价,换取估计量方 差的减小,回归系数估计以下列方式实现,主成分分析(Principal components analysis),主成分回归法是另外一种常用的处理多重共线性的有偏估计方法,它通过提取主成分,将解释变量集合转化为相互正交的少数几个主成分变量,试图通过降维消除解释变量之间的多重共线性,然后再实施最小二乘回归。,偏最小二乘回归法(Partial least squares regression),偏最小二乘回归是1983年由H.Wold和C.Albano提出,其原理也是通过提取主成分
21、方式来降维以消除多重共线性。在提取主成分过程中,偏最小二乘法不同于主成分回归法,它要求所提取的主成分满足两个原则:(1)尽可能大地代表设计阵X中的变异信息;(2)提取出的主成分对因变量Y的解释能力达到最强。,Lasso 回归法,Lasso 回归是1996年Tibshiran提出来的方法。回归系数估计以下列方式实现,2.5 通径分析与偏相关分析,通径分析有关量的计算,1.通径系数计算,2.直接决定系数与间接决定系数计算,3.xj对y的决策系数计算,4.xj对y的直接决定系数检验,例题,例题,2.6 逻辑(logistic )回归,在生物科学研究中,我们经常会遇到一种现象的发生与多个因素有关的问题,这些因素有些可能是定量的、有些可能是定性的,并且他们之间还有可能有存在混杂作用。分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 团队特征解析与构建策略
- 2025全国安全生产合格证危险化学品生产单位主要负责人真题及答案
- 2025年全国中级注册安全工程师之安全实务化工安全考试题及答案
- 2025年投资项目管理师之投资建设项目实施能力测试试卷B卷附答案
- 学校安全隐患问题整改清单
- 中级护师考试题库及答案
- 心脏血管异常讲解
- 心胸外科医疗纠纷案例分析
- 泡沫浮选分离技术
- 网红创意设计平台创新创业项目商业计划书
- 电动门合同协议书
- 烈士陵园、纪念馆AI应用行业深度调研及发展项目商业计划书
- 米村合伙人合同范本
- 船舶拖带协议书
- 2025年房地产市场的变化趋势试题及答案
- 风电场危险源辨识、风险评价和风险控制清单
- 医疗AI算法揭秘如何构建高效的疾病预测模型
- 电商外包客服合同协议
- 糖尿病性黄斑水肿护理查房
- 《铁路建设项目安全穿透式管理实施指南》知识培训
- 企业研究院管理制度
评论
0/150
提交评论