




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MedicalStatistics医学统计学,回归分析RegressionAnalysis,主要内容,直线回归的定义(掌握)直线回归方程的估计(掌握)回归方程的解释(掌握)回归系数的t检验(掌握)回归方程中变异的分解(掌握)回归方程的方差分析(掌握)与回归有关的区间估计(熟悉)两直线回归方程的比较(了解)过定点的直线回归(了解)相关与回归的区别和联系(掌握)回归分析的正确应用(掌握)其他类型的回归(了解),周长C,这两个关系有什么不同?,直线回归的定义,宏观上来讲,体重和体表面积呈直线关系,但并不能用来描述。所以我们用“hat”表示估计值,给定x时y的条件均数,Y因变量,响应变量(dependentvariable,responsevariable)X自变量,解释变量(independentvariable,explanatoryvariable)b回归系数,斜率(regressioncoefficient,slope)a截距(intercept),不同斜率时回归直线的表现,Regression释义,小插曲:为什么叫”回归“?,F.GaltonK.Pearson,小插曲:为什么叫”回归“?,分析实例:3岁男童体重与体表面积,绘制散点图,直线回归方程的求解:最小二乘原理,目标:使点到回归直线的综合距离为最小!,直线回归方程的求解,最小二乘法(LeastSquareMethod),回归方程的估计,对于本例,经计算得,回归方程,3岁男童体重和体表面积间的直线回归方程,回归直线,回归直线的有关性质,直线通过均点直线上方各点到直线的纵向距离之和=直线下方各点到直线的纵向距离之和即:各点到该回归线纵向距离平方和较到其它任何直线者为小。,回归系数和回归方程的意义及性质,b的意义a的意义和的意义的意义,回归系数的解释,b的涵义:体重增加1(kg),则体表面积平均递增0.2385(103cm2)。体重为X1(kg)的3岁男童,其平均体表面积比体重为X(kg)的3岁男童之平均体表面积多0.2385(103cm2)。,a的意义,a截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。,估计值的意义,X=12kg,=5.3832(103cm2)即体重为12kg的3岁男童其体表面积之均数的估计值为5.3832(103cm2)给定X时,Y的均数的估计值。当时,这里的均数是给定X的条件下,由回归方程估计得到的,故又称条件均数(conditionalmean)。,残差,残差平方和(residualsumofsquares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘),的意义,直线回归系数的t检验,回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对整个回归方程的检验:方差分析,直线回归系数的t检验,总体回归系数=0,则回归关系不存在。H0:总体回归系数为0,=0;H1:总体回归系数不为0,0;=0.05。,直线回归系数的t检验,Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度,什么叫做本身的变异?,甲在学习某学科之前,只知晓该学科10%的知识点,如果当时去考试,不一定恰好考10分,但是大约会在10分附近波动;如果他考了12分。甲在学习某学科1周,知晓该学科40%的知识点,如果当时去考试,不一定恰好考40分,但是大约会在40分附近波动;如果他考了36分。甲在学习某学科5周,知晓该学科80%的知识点,如果当时去考试,不一定恰好考80分,但是大约会在80分附近波动;如果他考了85分。甲在学习某学科10周,知晓该学科95%的知识点,如果当时去考试,不一定恰好考95分,但是大约会在95分附近波动;如果他考了92分。,在本例中,从成绩来看,四次成绩波动很大,但请注意,这四次这么大的波动,并非主要是由于考生考运等原因造成的,而是由于不同的学习时间导致对知识掌握程度不同。只有将学习时间这个影响因素去除,2(12-10)、-4(36-40)、5(85-80)、-3(92-95),这些分数的差别才是一种变异,即考生各次考试间的变异。,直线回归系数的t检验,名词辨析:Y的变异Y本身的变异,SY22.63,SY.X12.39,H0:总体回归系数0,即体重与体表面积无回归关系;H1:总体回归系数0,即体重与体表面积有回归关系。=0.05。=10-2=8按=8查t界值表,得P0.001。按=0.05水准拒绝H0,接受H1。可以认为体重与体表面积之间有回归关系。,回归系数与相关系数的假设检验,结果等价。,因变量总变异的分解,X,P(X,Y),Y,实际上是原始观察值Y的离均差平方和,又称为总离均差平方和,或总变异,记为SS总。回归直线与Y的均数之距离平方和,称为回归平方和反映在总平方和中可以用X解释的部分,记为SS回。为原始观察值离回归直线的纵向距离平方和,又称剩余平方和,记为SS剩。在总变异中,扣除由X解释的部分后剩余的部分,或不能由X解释的部分。,Y的总变异分解,回归方程的方差分析,H0:体重与体表面积间无直线回归关系;H1:体重与体表面积间有直线回归关系。=0.05。列方差分析表,F=89.01,今1=1,2=8,查F界值表,得P0.01,按=0.05水准拒绝H0,接受H1,故可认为3岁男童的体重与体表面积之间有线性回归关系。,直线回归中三种假设检验间的关系,在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。,与直线回归有关的区间估计,回归系数的可信区间估计(掌握)估计值的可信区间估计(了解)个体Y值的容许区间估计(了解),总体回归系数的可信区间估计,根据t分布原理估计:,总体回归系数的可信区间估计,根据t分布原理估计:本例中已计算得sb=0.02528,复习可信区间容许区间,均数的可信区间:均数界值标准误个体的容许区间(参考值范围):均数界值标准差,的可信区间估计,样本总体Y的总平均给定X时Y的平均(Y的条件均数),根据t分布原理:,X=12时,求的95%可信区间,=13.44,lXX=24.9040,=0.1262。当X=12时,=5.38325.38322.3060.0540=5.25875.5077即体重为12kg的3岁男童,估计其平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077)(103cm2)。,Y的容许区间估计,给定X时Y的估计值是Y的均数的一个估计。给定X时Y值的容许区间是Y值的可能范围。Y的100(1-)%容许限:,5.38322.3060.1372=5.06665.6998即体重为12kg的3岁男童,估计有95的人体表面积在5.0666到5.6998(103cm2/kg)之间。,剩余标准差、条件标准误、条件标准差,抽样误差,抽样误差个体变异,估计值、95%可信区间和95%容许区间,体表面积Y(103cm2),体重X(Kg),两直线回归方程的比较,在实际工作中,有时需要对两条回归方程进行比较,以推断相应的两总体回归直线是否平行,是否重叠。决定直线回归方程的参数是回归系数b和截距a,两回归直线平行,等价于1=2;两回归直线重叠,等价于1=2且1=2。,在第十章例10.3中已对成年男子和女子的心率与心脏左室电机械收缩时间的线性相关进行了比较。这里,对该资料进行回归分析,并对两个回归方程进行比较。,1、散点图,2、分别建立回归方程,并进行假设检验,男子:t=5.941,=10,P0.001女子:t=7.317,=10,P0.10,按=0.10水准,不拒绝H0,可认为两总体回归系数相等,即两条直线平行。,斜率相等,说明两条回归线平行,但还不能说明两条回归线重合。若需进一步了解这两条回归线是否重合,还须检验两条回归线的截距是否相等。如果斜率不等,则没有必要对截距进行检验。(P130),过定点的直线回归,医学研究中应用直线回归,经常会遇到一种特殊情况,即所求回归直线除了要根据若干对观察值进行最佳拟合外,还要求所拟合的直线必须经过某一定点(X0,Y0)。这在应用光电比色分析、荧光分析、火焰光度测定以及同位素测定等实验方法来绘制标准直线时常会遇到。,设有n对观察值及定点(X0,Y0),求经过此定点并拟合此n对(X,Y)值的直线回归方程为:,=n-1,在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。,直线回归与直线相关的联系,均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;,直线回归与直线相关的区别,r没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系;回归表示数量依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析;I型回归:X是精确控制的;II型回归:X是随机的。由X推算Y:由Y推算X:,相关和回归分析的正确应用,作直线回归分析要有实际意义充分利用散点图。回归系数的统计学意义。不能仅根据回归系数假设检验之P值判断回归效果的优劣。对于判断大样本回归系数的统计学意义尤其要谨慎。要想说明回归的贡献大小,需用决定系数r2作定量的度量。回归关系可以内插,不宜外延;应用条件(LINE):线性(linear)独立(independent)给定X时,Y正态分布(normal)等方差(equalvariance),直线回归不允许任意外推,内插(Interpolate),外推(extrapolate),我国19401988年间不同月份的男性婴儿死亡率()的季节性分析,男性婴儿死亡率(),月份,事故发生数与时间的关系,170,给定X时,Y是正态分布、等方差示意图,给定X时,Y是正态分布、不等方差示意图,男性年龄与血糖的关系(方差随自变量的增加而增加),glucose,age,20,30,40,50,60,70,80,3,6,9,12,其他的回归分析,多元线性回归多元Logistic回归时间序列回归模型Poisson回归等等广义线性模型族,多元线性回归分析,考察多个因素对某一个结果的影响。排除干扰因素(混杂因素)的影响,考察所关心的因素对结果的影响。,研究初生儿体重与胎儿的孕龄,头径,胸径的关系,参数估计结果,用多元回归模型来预测,孕龄为280天,头径为100mm,胸径为100mm的胎儿,估计其出生体重为多少?,Logistic回归模型,若观察结果为二分类的,可以使用Logistic回归模型,研究产妇状况(经产、初产)对电针引产成功率的影响,需要考虑胎膜状况的干扰。,建模结果,时间序列回归模型,江苏省19902000年各月伤寒、副伤寒发病人数,混合周期指数模型,混合指数周期模型拟合发病人数曲线,ThankYou,ZhaoYang,PhDCandidate,MDDepartmentofEpidemiologyandBiostatisticsSchoolofPubli
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年土壤理化分析试卷及答案
- 2025年水溶肥料考试题及答案
- 2025年血液用水试题及答案
- 沟渠改移工程方案(3篇)
- 2025年警示标志使用试卷及答案
- 2025中介服务合同范本
- 家畜解剖基础实验报告蛙解剖和牛解剖没有套用实验模版-可搜索
- 2025年管工等级试题及答案
- 工程原材料送检方案(3篇)
- 工程应急小组方案(3篇)
- 河北大学本科教育教学审核评估工作任务分解表
- 知识表示与处理(人工智能专业)PPT完整全套教学课件
- 非煤矿山通用三级安全教育培训资料公司级
- 2023年6月浙江省大学英语三级考试真题试卷
- 工业设计概论
- 安全生产标准化管理文件7.事故管理(填写模板)参考模板范本
- 纤维桩粘接及临床操作课件
- 复盘把的经验转化为能力课件
- 500kV倒闸操作(实操课课件)
- 针灸治疗肩痛的技术与方法课件
- 铝合金门窗 工程监理实施细则
评论
0/150
提交评论