双变量关联性分析.ppt_第1页
双变量关联性分析.ppt_第2页
双变量关联性分析.ppt_第3页
双变量关联性分析.ppt_第4页
双变量关联性分析.ppt_第5页
已阅读5页,还剩196页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,第十二章,双变量关联性分析,第一节直线相关,掌握直线相关与回归的概念、意义及应用条件;掌握直线相关与回归各指标的意义、应用及计算方法;熟悉直线相关与回归的联系及区别;了解曲线回归的概念、意义及类型。,教学目的及要求,医学上许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。,一直线相关Linearcorrelation,相关与回归就是用于研究和解释两个变量之间相互关系的。相关分析用于分析两变量间相互联系的密切程度及相关方向。回归分析适用于分析变量间的依存关系;用一个自变量的值来估计另一个应变量的值。,2020/4/26,6,前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?,2020/4/26,7,如果两个连续型变量X和Y都随机变动且不分主次,可通过线性相关(linearcorrelation)分析来估计它们之间可能存在的线性联系的方向与程度。两个随机变量X和Y,可以是对同一观察单位同时测量X与Y的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。,直线相关(linearcorrelation)又称简单相关(simplecorrelation)或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法,用于双变量正态分布资料(要求两个变量均服从正态分布),在线性相关分析中,两个变量X和Y的值总是成对的出现,记为(X1,Y1)、(X2,Y2)(Xn,Yn),这些观察值在直角坐标系中形成一幅散点图,这种散点图可以简单而直观的表示两变量间的线性关系,例13-1为研究中年女性体重指数和收缩压之间的关系,随机测量了16名40岁以上的女性的体重指数和收缩压,见表13-1,试绘制散点图。,实例,解:以体重指数为变量X,收缩压为变量Y作散点图,见图13-1。可见,体重指数与收缩压有比较密切的线性相关关系。,某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的相关关系。表14-18名正常儿童的年龄X(岁)与尿肌酐含量Y(mmol/24h),实例,直线相关的概念又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法,应用条件要求两个变量均呈正态分布(双变量正态分布),相关系数(correlationcoefficient)又称积差相关系数(coefficientofproductmomentcorrelation),或Pearson相关系数(软件中常用此名称),2020/4/26,16,没有单位,取值介于-1与1之间相关方向用正负号表示相关的密切程度用绝对值表示,相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标.r表示样本相关系数,表示总体相关系数,-1r1,r的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质或方向(正负号)。,相关分析的目的在于通过相关系数r来描述和度量两变量线性联系的程度和方向。r0正相关r0.05,后一样本P0,Y随X的增大而增大(减少而减少)斜上b0,Y随X的增大而增大(减少而减少)斜上;b0,Y随X的增大而减小(减少而增加)斜下;b=0,Y与X无直线关系水平。b越大,表示Y随X变化越快,直线越陡峭。,直线回归是分析两变量间线性依存变化的数量的关系,最小二乘法原则(leastsquaremethod)使各实际散点(Y)到直线()的纵向距离的平方和最小。即使最小。,二、回归方程参数的计算,X,3,3,LeastSquaresMethodThe“best”lineistheonethatminimizesthesumofsquaredverticaldifferencesbetweenthepointsandtheline.,w,w,w,w,4,4,(1,2),2,2,(2,4),(3,1.5),Sumofsquareddifferences=,(2-1)2+,(4-2)2+,(1.5-3)2+,(4,3.2),(3.2-4)2=6.89,2.5,Letuscomparetwolines,Thesecondlineishorizontal,Thesmallerthesumofsquareddifferencesthebetterthefitofthelinetothedata.,最小二乘(Leastsquares)法图解,寻找使S(残差i)2最小的直线,度量了实际散点远离回归直线的离散程度,反映了模型的可靠性。越小模型越好。tb检验,区间的计算均需要使用这一值。,剩余(残差)标准差SY|X,2020/4/26,82,方差分析,因变量y的取值大小不同,y取值的这种波动称为变异。变异来源于两个方面:由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响,2020/4/26,83,对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示,x和y的线性关系引起的变异,y的变异,误差引起的变异,X,Y的离均差平方和的分解,2020/4/26,86,2020/4/26,87,三个平方和的意义,y的总离均差平方和(totalsumofsquares)表示未考虑x与y的回归关系时,一组y值之间的总变异。,2020/4/26,88,回归平方和(regressionsumofsquares)指当自变量x引入回归方程后,由于x值的不同而引起的之间的不同它反映在y的总变异中,可以用x与y的线性关系解释的那部分变异。SS回越大,回归效果越好。,2020/4/26,89,亦称剩余平方和(residualsumofsquares)表示考虑回归之后y的随机误差,是x对y的线性影响之外的一切因素对y的变异,即总变异中无法用x解释的部分。SS残即SS剩越小,回归效果越好。,2020/4/26,90,总=回+残相应的自由度分别为:总=n-1回=1(自变量的个数)残=n-2,统计量的构造:,2020/4/26,91,SS总、SS回和SS残的计算:,直线回归分析的基本步骤,绘制散点图计算回归系数b是根据最小二乘法原理(各实测点至直线的纵向距离的平方和最小)求得的对回归系数进行假设检验,2020/4/26,93,2020/4/26,94,2020/4/26,95,对【例13-1】资料进行回归分析,2020/4/26,96,2020/4/26,97,2020/4/26,98,回归参数a、b的解释,斜率(b)当X每增加1个单位时,Y改变b个单位本例b=0.2041,表明在所研究的体重范围内,体重每增加1kg,心脏横径增加0.2041cmY的截距(a)X=0时Y的平均值本例a4.2121,表示体重为0时,心脏横径的期望值为4.2121cm(注意有时这种解释无实际意义),2020/4/26,99,回归系数的假设检验,b0原因:由于抽样误差引起,总体回归系数=0的确存在回归关系,总体回归系数0假设检验:,方差分析t检验,2020/4/26,100,对例13-1所求回归方程用方差分析进行检验,【检验步骤】1.建立检验假设,确定检验水准H0:总体回归系数=0H1:总体回归系数0=0.05,2020/4/26,101,2.计算检验统计量,2020/4/26,102,表13-2例13-1资料的方差分析表,2020/4/26,103,3.确定P值,作出统计推断,查F界值表,得P50时,可用正态近似法进行检验检验统计量z的计算公式为:,2020/4/26,173,补充例题,2020/4/26,174,2020/4/26,175,第三节列联表的关联性分析,【例12-4】某研究者欲研究幽门螺杆菌感染(Hp)与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组182例,Hp阳性125例;家庭成员无胃病史组417例,Hp阳性198例。,2020/4/26,176,2020/4/26,177,两样本率比较与两分类变量关联性的对比二者2检验公式、理论频数计算和自由度的计算应用条件等完全相同。形式相同,是从不同角度推导的,2020/4/26,178,研究目的、设计方案、数据结构以及对结果的解释都是不同的两样本率比较检验的是两个样本率所代表的未知的两总体率是否相同分类变量关联性分析是要检验两个分类变量是否独立,二者之间是否存在关联,2020/4/26,179,一、22列联表的关联性分析,【检验步骤】1.建立检验假设,确定检验水准H0:Hp与家庭成员胃病史之间互相独立H1:Hp与家庭成员胃病史之间互相关联=0.05,2020/4/26,180,2.计算检验统计量值,2020/4/26,181,3.确定P值,做出统计推断,查附表9,0.005P0.01,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为幽门螺杆菌感染(Hp)与家庭成员胃病史之间有关联,2020/4/26,182,计算关联系数Pearson列联系数(contingencycoefficient),2020/4/26,183,列联系数c(用于行列数相同):Cramer校正v(用于行列数不同):,2020/4/26,184,二、配对设计22表的关联性分析,【例12-5】有56份咽喉涂抹标本,把每份标本一分为二,按同样的条件分别接种在甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,结果见表12-5。实验者欲研究甲乙两种培养基的结果有无关联,用配对2检验(或McNemar检验)对资料进行了分析,得2=11.25,查2界值表,P0.05,认为甲乙两种培养基的结果有关联,2020/4/26,185,2020/4/26,186,当比较甲乙两种方法测定结果的阳性率是否有差别时,可采用配对2检验(或McNemar检验)当了解甲乙两法测定结果之间有无相关关系时,应采用普通四格表的检验。,2020/4/26,187,【检验步骤】1.建立检验假设,确定检验水准H0:两种培养基的结果之间互相独立H1:两种培养基的结果之间互相关联=0.05,2020/4/26,188,2.计算检验统计量值,2020/4/26,189,3.确定P值,做出统计推断,查附表9,P0.005,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为两种培养基的结果之间有关联,2020/4/26,190,补充内容,曲线拟合,2020/4/26,191,医学研究中,X与Y两变量的数量关系并非总是线性的,如毒物剂量动物死亡率年龄身高时间血药物浓度可用曲线直线化估计(Curveestimation)方法进行统计学分析。,2020/4/26,192,绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)按曲线类型,作曲线直线化变换建立变换数据间的直线回归方程(假设检验,计算决定系数)比较决定系数选取“最佳”方程写出曲线方程,曲线直线化估计的步骤,2020/4/26,193,常见的曲线回归方程,对数函数:,幂函数:,指数函数:,多项式:,2020/4/26,194,15名重伤病人的住院天数X与预后指数Y,利用线性回归拟合曲线(例题),2020/4/26,195,(一)绘制散点图,决定曲线类型,2020/4/26,196,(二)曲线直线化变换,2020/4/26,197,(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论