已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章简单回归分析前面介绍了两变量间关联性分析,本章与下一章我们将进一步的介绍观察数据中变量间的数量依存性的回归关系。,第一节简单直线回归,一、直线回归的概念及其统计描述,在上一章中,对15名健康人凝血浓度(Y)与凝血时间(X)数据计算相关系数,定量描述了变量间关联性的强弱程度与方向。为直观地说明直线回归的概念,我们以以上一章中对15名健康人凝血浓度与凝血时间数据为例,来探讨两变量间依存变化关系。反应变量(Y)与自变量(X)的简单线性模型(simplelinearregressionmodel)可表达为:,表12115名健康成人凝血时间与凝血酶浓度测量值在通常情况下,研究者只能获取一定数量的样本数据,用该样本数据建立的有关Y与X变化的线性方程称为回归方程(regressionequation)即:,在描述两变量的关系时,一般把两个变量中能精确容易测量的作自变量,不易测量作为因变量。即用易测量的数据X估计不易测量的另一数据。如年龄估算小儿体重等。在描述凝血时间与凝血浓度的依存关系中,将凝血酶浓度作为自变量(X),凝血时间作为应变量(Y)。由图121可见,凝血时间随凝血酶浓度增大而减少且呈直线趋势,但并非15点恰好全部都在一直线上。两变量数量间虽然存在一定关系,但不是十分确定的。这与两变量间严格对应的函数关系不同,称为直线回归(Linearregression)。直线回归是回归分析中最基本、最简单的一种,故又称简单simpleregression)。,图121凝血浓度与凝血时间的散点分布,二、回归模型的前提假设线性回归模型的前提条件是:线性(linear)、独立(independent),正态(normal),等方差(equalvariance)1、线性是指反应变量Y的总体平均值与自变量X呈线性关系。2、独立是指任意两观察值互相独立。3、正态性假定是指线性模型的误差项i服从正态分布。4、等方差是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。,三、回归参数的估计,一)回归参数估计的最小二乘原则参数与一般只能通过样本数据来估计。当X取值为Xi时,Y的平均值的估计应为a+bXi,而实际观察值为Yi。两者之差称为残差(residual),即当a与b取不同值时获取不同的候选直线,如能求a与b的适宜值,能使所有实测值到这条直线的上纵向距离的平方和为最小,则称这一对a和b为与的最小二乘估计(leastestimation,LES)。,二)回归参数的估计方法a为Y轴上的截距;b为斜率,表示X每改变一个单位,Y的变化的值,称为回归系数;表示在X值处Y的总体均数估计值。为求a和b两系数,根据数学上的最小二乘法原理,可导出a和b的算式如下:,1.由原始数据及散点图的初步分析,本例呈直线趋势,故作下列计算。2.求3.计算X、Y的均数,及离均差平方和lXY、lyy与离均差积和lXY。,4.求回归系数b和截距a。5.列出回归方程,三)、直线回归方程的图示,为了进行直观分析或实际需要,可按回归方程在坐标纸上作图。在自变量X的实测全距范围内任取相距较远且易读的两X值,代入回归方程,如上例取在图上确定(0.6,17.58581)和(1.1,14.09373)两点,用直线连接,即得直线方程的图形。,图123凝血浓度与凝血时间的散点分布及拟合直线,四、回归系数的统计推断,前面所求得的回归方程是否成立,即X、Y是否有直线关系,是回归分析要考虑的首要问题。我们知道即使X、Y的总体回归系数为零,由于抽样误差,其样本回归系数b也不一定为零。因此需作是否为零的假设检验,用方差分析或t检验。一)、样本回归系数b的抽样误差,本章例121,,二)总体回归系数的假设检验例122检验例121求凝血时间对凝血酶浓度的直线关系是否成立?1.假设2.检验统计量,三)回归系数的区间估计例123试用例1211所计算的样本回归系数b=0.6902,估计总体回归系数的95%的可信区间:Sb=0.76,,第二节线性回归的应用,一、总体回归线的95%置信带是总体中当X为某一定值X0的条件下Y的均数。它的点估计为,其标准误为它的(1)置信区间为例121试计算当X0=1.1时,的95%可信区间。,用同样方式,可计算出所有15个观测点的总体均数的95%置信区间。,二、个体Y值的容许区间总体中,X为某定值时,个体Y值的波动范围,其标准差SY(请勿与样本标准差相混)它为:例125用例121所求回归方程,试计算当X0=1.1时,个体Y值的95%容许区间。即估计总体中凝血酶浓度1.1毫升者,有95%的人,凝血时间在12.961815.2297范围内。,图126凝血时间依凝血浓度回归线的95%置信带与Y个体值95%预测带,第三节残差分析,残差分析(residualanalysis)旨在通过残差深入了解数据与模型之间的关系,评价资料是否符合回归模型假设,识别异常点等。图127凝血数据的回归残差图,图128残差示意图,第四节非线性回归一般而言,自然界的生命现象中绝对线性关系并不多见,但从相对与近似的观点出发,我们可以用前面已经提到的线性回归模型来解决许多实际问题。可以说,非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归都比非线性回归应用多,原因在于无论从数学理论还是计算方法,线性回归都比非线性回归模型简单得多。,一、通过自变量的变换实现线性化实践中有两类非线性关系,一类是通过自变量X的适当变换可线性化,另一类是不可能通过自变量X的变换实现线性化的。例如,假定观察样本(Xi,Yi),i=1,2,,n满足例如,假定观察样本(Xi,Yi),i=1,2,,n满足,但是诸如:等情形,都不能通过自变量的变换实现线性化,只能通过应变量Y的变换实现线性化。,二、变换自变量实现线性回归的步骤1.将观察样本(Xi,Yi),i=1,2,,n作散点图,观察散点分布特征类似于何种函数类型;2.按照所选定的函数进行相应的变量变换;3.对变换后数据用常规最小二乘法(OLS)作线性模型的参数估计。4.一般拟合多个相近的模型,然后对各个模型的拟合优度评价挑选较为合适的模型。,例12-2为了研究某药物浓度与肾上腺释放量关系,选取10个药物浓度水平,每种药物剂量水平上重复5次试验,观测结果如表12-3所示。,表12-3药物剂量对肾上腺释放量影响的试验结果,分别拟合三种不同的回归模型的结果综合于表12-4中。,表12-4拟合不同回归模型的结果,0.8520,0.0001,135.05,2.72770,二次函数,0.8659,0.0001,309.88,1.39592,对数函数,0.8157,0.0001,212.48,1.91786,简单线性,R2值,P值,F值,MSE,回归方程,模型名称,第七节小结1、回归分析是从预测的角度,通过样本数据在最小二乘原则下建立线性回归方程,以便用自变量(X)的数值估计反应变量(Y)的数值及变异;2、最小二乘原则是指观测样本的实测反应变量值与方程估计值之差之和最小的回归参数估计;3、总体回归线的95%置信带与个体值Y预测带均由对称于回归线的弧形曲线构成,而且后者比前者更远离回归线;,4、最常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国水气泵电机行业市场前景预测及投资价值评估分析报告
- 2026年中国铝扁管行业市场前景预测及投资价值评估分析报告
- 2025贵州龙里县人民医院(医共体)总院第四次招聘25人考试笔试模拟试题及答案解析
- 2025年南昌大学法学院科研助理招聘2人考试笔试备考试题及答案解析
- 2025年山东城市建设职业学院公开招聘博士研究生(17名)笔试考试参考试题及答案解析
- 2025年甘肃省定西市漳县武阳镇卫生院口腔医师招聘考试笔试备考题库及答案解析
- (苏少2024版)美术二年级上册全册教学设计(新教材)
- 妇科常见炎症预防与治疗措施
- 老年人低温烫伤
- 2025年品牌加盟合同违约责任
- 2025年交管12123学法减分考试题库及答案
- 技术培训制度汽车维修技术培训制度
- 消费品行业投资咨询合同(2篇)
- 《检察院档案管理》课件
- 小学生冬季预防流感知识
- 临床试验质控
- 中小学报账员岗位职责
- 结核病科护理工作总结
- 克罗恩病的护理诊断和措施
- 广东省珠海市金砖四校2024-2025学年高一上学期11月期中考试 数学 含答案
- 校企合作意向书范本样式
评论
0/150
提交评论