已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
临床科研设计和统计分析错误辨析与释疑简单线性相关与回归分析 军事医学科学院生物医学统计咨询中心 胡良平 一、简单线性相关与回归分析常见错误概述 两个变量之间进行简单线性相关与回归分析时,常见的错误有哪些?人们在研究两个变量之间的相互关系或依赖关系时经常运用简单线性相关分析与回归分析,然而,他们经常犯这样或那样的错误,导致结论的可信度低,有时,甚至得出绝对错误的结论来。这方面常见的错误概括起来有如下几点:其一,脱离专业知识,盲目进行简单线性相关与回归分析;其二,对资料中因“过失误差”造成的错误视而不见,盲目进行统计计算得出违背专业知识的结论来;其三,将数据直接录入计算机,调用统计软件快速得出计算结果,作出结论;其四,对于仅在统计学上有意义的计算结果,盲目给出专业上的“肯定结论”,但结论经不起实践的检验;其五,对于在专业上有联系且成对出现的变量(X,Y),当二者中至少有一个为非随机变量时,也进行相关分析。二、直线相关与回归分析常见错误案例与释疑 脱离专业知识盲目进行统计分析,或者忽视因过失误差造成的错误,将可能得出错误的结论。1、脱离专业知识,盲目进行直线相关与回归分析 例1:某人在北京郊区调查居民被狗咬伤的情况,结果显示:各年龄组中被狗咬伤的百分率是不同的,即:年龄由小到大,被狗咬伤的百分率依次为:很小、较小、较大、很大、较大、较小、很小、较大。原作者的一个惊人的发现是:年龄与百分率之间的相关系数r=0.9956,P0.0001,因此拟合的直线回归方程也是有统计学意义的。故原作者认为:在所调查的市郊,被狗咬者的年龄与被狗咬伤的百分率之间有很好的线性关系,可用此直线回归方程来预测该地任何一位居民被狗咬伤的概率,以便提醒人们外出时携带必要的防身器械,要倍加小心,尽可能减少被狗咬的机会。 对差错的辨析与释疑:这是一件多么荒唐可笑的事情啊!不会走的婴儿由大人抱在怀里,其被犬咬伤的发生率肯定很低;刚刚学会走路的小孩,通常都有大人在他们身边,因此,他们被犬咬伤的发生率比前者可能会高一点,但不会太高;只有那些整天到处乱跑,又没有很强抵御能力的3-6岁的孩子,被犬咬伤的机会最大;7-12岁的儿童,通常都有比较强的抵御能力,因此,他们被犬咬伤的机会较前者会有所减少;依此类推,中青年被犬咬伤的发生率最低,上了年岁的老人,行动不便,他们被犬咬伤的发生率又会有所增大;而更老的体弱多病者整天呆在家中不出门,他们被犬咬伤的发生率几乎为零。这些都是生活常识,没有必要用统计学方法生搬硬套地去描述它。退一步说,即使你一定要用一用统计学知识写一篇论文的话,也不应该用直线回归分析,很可能要运用多项式曲线回归分析。因为某地居民被犬咬伤的发生率与年龄之间更有可能呈“波浪型”变化趋势。况且,某地居民被犬咬伤的发生率与当时居民养犬的“数目、品种、养犬方式”等都有关系。仅通过一个直线回归方程来描述调查结果,并作出推断结论是毫无意义的。这是“脱离专业知识,盲目进行直线相关与回归分析”的一个生动案例。2、对资料中因“过失误差”造成的错误视而不见 例2:某研究者对7例糖尿病患者给某种药物治疗后,测量其血中胰岛素和血糖的含量,结果如下: 该研究者采用的是直线相关分析,得:r0.3140,P0.05,结论为胰岛素含量和血糖的含量之间无直线相关关系。 对差错的辨析与释疑:在原资料中,有6人胰岛素含量在1024?u/ml之间,仅有1人为121?u/ml,远远大于其余6人,属可疑值。由于此数据的存在,可能会影响直线相关的结论,故应考虑可否将此数据剔除。 首先应检查有无过失误差(测量错误或抄写错误等人为因素引起的误差),若属过失误差引起的,应坚决予以纠正;若不是由于过失误差所致,当指标观测值的总体服从正态分布时,可借助统计方法判断“可疑值”是否为“异常值”。在正常情况下,人胰岛素含量的测定结果近似服从正态分布,故可用Grubbs法检验某些“可疑值”是否为异常值。本例经Grubbs法检验,得:Gb=2.25,P?0.01,可见121?u /ml 的测定值属异常值,应予剔除。将第6对数据(121,238)剔除后重新计算相关系数得,r=-0.9363,P?0.01,说明人体血中胰岛素含量与血糖含量之间存在直线相关关系,与原作者结论不同。 3、将数据直接录入计算机进行直线相关与回归分析 在进行直线相关与回归分析前,应先作散点图,只有这样才能得出正确的结论。例3:设有4组定量指标的数据如下,(Xi,Yi)(i=1、2、3、4)是第i对在专业上有联系的指标。对各对指标均观测了11对数据,某人将各对数据直接录入计算机,用统计软件快速给出了计算结果,其结论是:这四组数据完全可以用同一个直线回归方程来描述,这样做对吗? 对差错的辨析与释疑:直观判断,虽难给出明确的答复,但没有绘制各对数据的散布图就盲目拟合直线回归方程并作假设检验,其结果是值得怀疑的!下面我们也像原作者那样盲目做一下,看看结果如何。这是对四组数据分别拟合直线回归方程后,对回归方程的假设检验结果,此结果表明:四条回归直线都有统计学意义,而且,他们的F值和P值几乎都是相等的。这是分别对四条回归直线的截距和斜率进行假设检验的结果,此结果表明:四条回归直线几乎是完全重合的,换句话说,上述的四组数据可用同一条回归直线来描述,而且,其截距(a3.0)、斜率(b0.5)以及整个回归方程的假设检验结果在统计学上是有统计学意义的。事实果真如此吗?答案是否定的!让我们将上述四组数据的散布图绘出后(见图1),问题就会真相大白了。在图1中,共有16幅反映两变量同时变化的散布图,排成四行四列,各行横轴上的变量名从左到右依次为X1、X2、X3、X4,他们未显示出来。若直接在SAS软件环境中“打印预览”或“打印”,他们就都显示出来了;各列纵轴上的变量名从上到下依次为Y1、Y2、Y3、Y4,而我们所需要的图就是位于主对角线(即从左上角到右下角)上的那四幅图,即分别反映(X1,Y1)、(X2,Y2)、(X3,Y3)、(X4,Y4)变化趋势的散布图。将其内的观察点放大后,可以清楚地看到:第1组数据的各散点在“从左下角到右上角的一条不太宽的带内随机地分布着”,不存在明显的曲线趋势,不平行于X轴或Y轴,也不存在异常点,故此资料适合进行直线回归与相关分析;第2组数据的各散点呈一条抛物线分布趋势,只不过抛物线的右边缺少了一部分,显然此资料不适合用直线回归方程来描述,宜选用二次抛物线方程进行曲线拟合;第3组数据的绝大部分散点在一条直线上分布着,但有一点游离在直线上方很远处,它是一个异常点;第4组数据的绝大部分散点在一条垂直于X轴的直线上分布着,但有一点游离在直线右边很远处,它是一个异常点。 由上面对散布图的分析可知,在四组数据中,仅第1组数据适合作直线回归分析。那么,为什么后三组数据用直线回归方程描述,经假设检验也有统计学意义呢?这是因为:第2组数据虽呈近似抛物线分布趋势,但抛物线的后半支不全,若将上述拟合出来的回归直线绘在图中,开始部分的散点落在直线上方、末尾部分的散点落在直线的下方,因此,整个回归直线上观察值与理论值的残差还是比较小的,所以,能顺利通过假设检验;后两组数据都由于各存在一个异常点,导致他们碰巧得出了同一个直线回归方程,若将异常点删除,第3组数据其余的各散点将严格地落在一条直线上(但不是已求出的那条直线!);而第4组数据根本不适合拟合直线回归方程,因为除去异常点之外,其余的点都落在垂直于X轴的一条直线上,即这些点仅仅纵坐标Y的值在改变,而X始终为一常量。例4:直线两端闹“地震”。这是对呈“S形”或“倒S形”曲线变化趋势资料盲目拟合直线回归方程所得结论的“形象化描述”。请看下面的实例: 某地进行核试验,在一定条件下,离爆心的距离x(km)与冲击伤发生率y()之间有如下试验数据:若采用直线相关与回归分析,相关系数r0.9754,回归方程y=-4.2960x+113.3081,对相关系数及回归方程的假设检验均有:P0.0001,结论为:在离爆心430km范围内,离爆心的距离与冲击伤发生率间有良好的线性关系。 对差错的辨析与释疑:计算最后一点y(冲击伤发生率)的预测值是15.6;若将x=1代入上述求得的直线回归方程计算,可得y的预测值是109.0%,这两端的计算结果都不符合实际,故称为直线两端闹“地震”。若将资料绘制出散布图,见图2。 由图2可以清楚地看出:各散点虽落在一条不太宽的带内,但他们并非是随机地分布,而是呈一条光滑的曲线变化趋势,这条曲线属于“倒S形曲线”,适合进行“Logistic曲线”回归分析,限于篇幅,具体的拟合过程和结果从略。 4、统计学上有意义不代表在专业上就一定有意义 统计分析应该与专业实际相联系来说明结论是否有意义。用直线回归来分析重复试验数据是不妥的。例5:某作者欲分析年龄与淋巴细胞转化率的关系,调查了252人的年龄和淋巴细胞转化率,采用的统计处理方法是直线相关与回归分析,得相关系数r=-0.20,回归方程y=76.0-0.4x。直线相关系数r的假设检验:自由度?=250,查r界值表得P?0.01,结论是淋巴细胞转化率与年龄密切相关。这个结论有实际意义吗?对差错的辨析与释疑:“淋巴细胞转化率与年龄密切相关”的结论,对问题的回答尚不够完整和严谨,更有“严重脱离实际”之嫌! 事实上,对相关系数的假设检验得P0.01,仅说明“淋巴细胞转化率(X1)与年龄(X2)之间存在线性相关关系”。至于这两个变量间呈线性关系的密切程度,需要借助r2(称为确定系数或决定系数)的数值大小来给出定量的度量。若建立有X2(年龄)推算X1(淋巴细胞转化率)的直线回归方程,则r2就等于SS回/SSX1。SS回是由于X2的变化而引起X1改变的量,称为回归的离差平方和;SSX1是X1的总变异,称为总的离均差平方和。因此,r2实际上反映了X1与X2线性变化部分的量占X1总变异的百分比。本例r2(-0.20)2 =0.04,说明淋巴细胞转化率的变化中只有4的量是与年龄有关的,所以尽管在对相关系数的假设检验中得P0.01,但两变量之间的线性相关程度还是较低的。这提示:用某种曲线方程来描述两个变量之间的变化关系,效果可能更好些。5、误用简单直线回归分析处理具有重复试验的回归分析资料例6:某流行病研究所新研制了一种TK发生器,可将微生物以微小颗粒的形式分散到空气中。在探讨影响粒子大小(MMD)的主要因素时,其中分析了喷雾气体压力对粒子大小的影响。在实际观测数据时,选择了8种喷雾气体压力,每种压力条件下测5次粒子大小,结果见表1。许多人直接以各种压力下的均值 为因变量y作简单直线回归分析,这样做合适吗? 对差错的辨析与释疑:原资料属于具有重复试验数据的回归分析资料,在作直线回归分析(包括可化成直线形式的情况,如本例)时,未作失拟检验(即检验直线所不能解释的部分相对于实验误差来说是否具有统计学意义,若检验结果为P值小于0.05,就说明被分析的资料不能简单地用直线回归方程来描述),这是不妥的。应选用处理具有重复试验数据的回归分析方法进行合理地分析,以说明此资料仅用直线回归方程描述就可以了还是必须要选用某种特殊形式的曲线回归方程来描述和分析。参考文献 1.胡良平编著.医学统计学内容概要、考题精选与考题详解,军事医学科
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB 4404.2-2026粮食作物种子第2部分:豆类
- GB/T 17101-2026桥梁缆索用热镀锌或锌基合金钢丝
- DB65 T8033-2025 建筑光伏系统工程技术标准
- 冷却塔补水排污规程
- 超载限制器调试规程
- 管理学院《旅游学概论》考试试卷及答案
- 凉菜加工卫生检查记录表
- 模拟召回报告(清脑降压片(批号20260503))
- 建筑安全标准化建设要点
- CN119870830A 大型工件自动化焊接机器人
- DB51T 2772-2021 四川省医疗护理员服务规范
- 二建公路学霸笔记
- 境内汇款申请书模板
- 加利福尼亚批判性思维技能测试后测试卷班附有答案
- 中医内科学:肺系病证-肺胀
- 锅炉房烟、风道制作安装施工方案
- PEP英语六年级下册unit-4-Then-and-now-Revision复习课课件
- 酒水铺货合同范本
- 拉森钢板桩专项施工方案专家论证
- JJG 1003-2016流量积算仪
- 《现代汉语句群》课件
评论
0/150
提交评论