卫生统计学线性相关与回归_第1页
卫生统计学线性相关与回归_第2页
卫生统计学线性相关与回归_第3页
卫生统计学线性相关与回归_第4页
卫生统计学线性相关与回归_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医科研设计与统计Tel:E-Mail:《医学统计学》马斌荣主编人民卫生出版社2006年第四版第十章线性相关与回归第一节线性相关第二节线性回归第三节线性相关和回归的区别与联系第四节等级相关概述“回归”名称的由来:最早由英国遗传学家弗朗西斯·高尔顿(FrancisGalton)引入。在一篇著名的论文“FamilyLikenessinStature”中,高尔顿发现,虽然有一个趋势:父母高,子女也高;父母矮,子女也矮,即父母的身高对子女的身高起到决定性作用。但给定父母的身高,子女的平均身高却趋向于或者“回归”到种族人群的平均身高。换言之,尽管父母都非常高或非常矮,但儿女的身高却有回归到人群总体平均身高的趋势。这就是Galton的普遍回归定律(lawofuniversalregression)。现代统计学奠基人卡尔·皮尔逊(KarlPearson)也证明了子女身高确实“回归到中等”(regressiontomediocrity)。他发现,对于一个父亲高的群体,儿子的平均身高通常低于他们父辈的身高;而对于一个父亲矮的群体,儿子的平均身高通常高于其父辈的身高。即高的和矮的儿子身高一同“回归”到所有男性的平均身高。皮尔逊观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X(自变量),取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现散点的趋势近乎一条直线。计算出直线回归方程为:回归的现代释义

在普遍回归定律中,高尔顿的兴趣在于发现为什么人口的身高分布有一种稳定性。但是现代统计学并不关心这种解释,我们关心的是知道了父辈的身高,怎样去估计或预测子女的身高。回归的现代解释和应用大致上可以这样说:回归分析是研究一种叫做被解释变量(或称应变量:DependentVariable)的变量对另一种叫做解释变量(或称自变量:IndependentVariable)的变量之间依赖关系的统计方法,当解释变量取某个已知或设定值时,能够估计或预测出与之相关的被解释变量所有可能出现对应值的(总体)均值。变量关联性分析变量关系函数关系:有精确数学表达式(S=

R²,C=2R)统计关系(非确定性关系)相关分析(确定性关系)(平等关系)多元相关分析复相关分析偏相关分析简单相关分析:直线相关分析回归分析(因果关系)一元回归分析多元回归分析直线回归分析曲线回归分析多元非线性回归分析多元线性回归分析直线相关与回归的区别直线相关分析:研究两随机变量之间的是否存在线性关系,以及线性关系的性质和强弱;分析的两变量没有自变量和应变量之分;两变量间是共变关系(双向),地位是平等的;不能用一个变量去预测或控制另一个变量的变化。直线回归分析:研究两相关变量之间是否存在线性依存关系,以及依存关系的数量比例关系;分析的两变量有自变量和应变量之分;两变量间是因果关系(单向),地位不平等的;可以用自变量来预测或控制应变量。第一节线性相关一、二维散点图例1:一个产科医师发现孕妇尿中雌三醇含量与新生儿的体重有关。于是设想,通过测量待产孕妇尿液中雌三醇含量,是否可以预测新生儿体重,以便对低体重新生儿进行预防准备。因此收集了31例待产孕妇24小时的尿液,测量其中的雌三醇含量,同时记录新生儿的体重。数据记录如表1所示:31例待产妇尿雌三醇含量(mg/24h)与新生儿的体重(kg)编号尿雌三醇产儿体重编号尿雌三醇产儿体重172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2二、相关关系的度量:离均差乘积和(简称乘积和,Sumofproducts)SPxy>0:正相关SPxy<0:负相关SPxy=0:无相关或非线性相关缺点:SPxy的大小与样本含量有关协方差(covariance):离均差乘积和除以自由度Cov(x,y)>0:正相关Cov(x,y)<0:负相关Cov(x,y)=0:无相关或非线性相关缺点:Cov的大小受变量取值尺度(数量级)的影响 Cov有单位(量纲),不同单位资料不能比较皮尔逊相关系数:将协方差标准化(Pearsoncorrelationcoefficient)又称为皮尔逊积差相关系数(Pearsonproductmomentcorrelationcoefficient)相关系数的性质相关系数的定义阈:-1≤r≤1,其中绝对值大小反映了两随机变量之间相关关系的密切程度,而正负则反映了相关关系的方向。+1>r>0:正相关-1<r<0:负相关

r=0:零相关或无相关

r=+1:完全正相关

r=-1:完全负相关生物界影响因素众多,|r|值为l的机会极为罕见,因而很少有完全相关。在医学数据中经常见到的是r值介于-1与+l之间,即不完全相关。相关关系示意图r=0(h)r=0(g)r=-1(d)r=1(c)0<r<1(a)-1<r<0(b)r

0(e)r

0(f)零相关正相关负相关完全正相关完全负相关零相关零相关零相关计算例1资料的相关系数∑x=534,∑y=99.2∑x2=9876,∑y2=324.18,∑xy=1750,n=31从计算结果可以知道,31例待产妇尿中雌三醇含量与新生儿体重之间呈正相关,相关系数是0.6097。问题:能否得出结论,即待产妇尿中雌三醇含量与新生儿体重之间呈正相关,相关系数就是0.6097?相关系数的假设检验上例中的相关系数r等于0.6097不为0,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数必然会存在抽样误差。因为:即使总体相关系数

为零时,由于抽样误差,从总体抽出的31例样本,其相关系数r也可能不等于零。所以,我们必须对该样本所代表总体的相关系数

是否为0进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。1.查表法:以自由度v=n-2直接查r界值表。查t界值表t0.05(29)=2.0452.t检验:H0:=0,雌三醇含量与出生体重不存在相关关系H1:

≠0,雌三醇含量与出生体重存在相关关系α=0.05查t界值表t0.05(29)=2.045<t,在α=0.05水准拒绝H0,认为总体相关系数不为零,雌三醇含量与新生儿出生体重之间存在线性相关关系。3.F检验(方差分析):F0.05(1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论