临床医学科研设计统计分析技巧.ppt_第1页
临床医学科研设计统计分析技巧.ppt_第2页
临床医学科研设计统计分析技巧.ppt_第3页
临床医学科研设计统计分析技巧.ppt_第4页
临床医学科研设计统计分析技巧.ppt_第5页
已阅读5页,还剩186页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床医学科研设计44:124958,Yearsfromdiagnosis,Beta-cellfunction(%),1086420246,100806040200,Name:YLSex:maleAge:28,JiL,unpublisheddata,罗格列酮可预防2型糖尿病患者发生冠脉再狭窄,对象和方法:随机双盲、前瞻性研究对象为冠脉支架植入的2型糖尿病患者罗格列酮组(4mg/天)45例,56个支架;安慰剂组48例,60个支架从第1次支架植入开始随访6个月植入支架的管腔狭窄程度超过50定义为发生再狭窄,SungHeeChoi,etal.82-OR,63rdADA,,p0.001,罗格列酮可预防2型糖尿病患者发生冠脉再狭窄,Rosiglitazone(4mg-26weeks)reducescoronarystentrestenosisintype2diabetes,100,80,60,40,20,0,%ofin-stentrestenosisafter6months,%ofstentswithlesionsafter6months,ChoiSHetal2003ADAabstractNo82-oral,Double-blindplacebo-controlledstudy,CRP60%,CRP60%,%ofpatients,有的放矢无病呻吟,二、研究设计,科研设计是科研的灵魂严密的设计是取得有价值结果的先决条件从这个意义上说没有“设计”就没有科研。不少回顾性分析,内容包罗万象,是研究无主题的反映:研究者在研究之初对研究要解决的问题即主攻方向心中无数,对研究所报的态度是逮着什么算什么,并不是想通过研究解决某一特定的问题,或不知道通过研究能解决什么问题。这些研究缺乏严格的设计或无设计,这类研究即使有重要的发现也属偶然。,“前瞻性”研究,无前瞻性的设计几年前做了几万人的糖尿病普查,发现了400例糖尿病和500例糖耐量低减,几年后的今天忽然想起这些病例很可能出一篇文章,于是又去调查了一番,找到了200例糖尿病和300例糖耐量低减。写出1.糖尿病人冠心病危险因素分析2.高危人群糖尿病的危险因素.这种研究是残缺不全的随访,并不是前瞻性研究,缺点是难以弥补的。高达50%的失访率会造成严重的信息偏差(informationBias):若是有问题的人召之即来,则发病率会被高估;若严重者已去医院看病不来参加,来的只有轻的病人,则会低估疾病的发病率。,例如糖尿病人群中有许多人合并了高血压、高血脂病不少人已用药物治疗治疗中有的长期坚持用药,有人仅偶尔用药有人血压或血脂一直控制很好,有些人时好时差此时不论以随访的血压、血脂指标,还是以末次随访的指标分析,都不能反映干预对疾病的影响。这些重要混杂因素的干扰,分析的结果常会远离实际情况.,更糟糕的是有些研究者对这种情况非常不以为然,当审稿人提出问题让他们补充此方面材料的,得到的回答是估计服药的人很少,不会对结果发生影响殊不知“差之毫厘,谬之千里,”在你轻易的原谅自己的疏忽的时候,统计学的P值随之发生了改变。,终点事件过少,有些研究者为了某种原因,希望尽早发表自己研究的结果,仅随访极短的时间(半年或一年),仅有几个或十几个终点事件(如死亡)就进行多因素分析,寻找危险因素。终点事件过少的这种分析看上去可能条条是道,但其结果往往是不可靠的。应延长随访时间,增加终点事件后再分析Navigntor研究设计出现1000个终点事体时才结题。,为保证科研的成功,一个完整的科研设计应包括以下几项内容:有理论或实用价值的选题选择合适的研究对象制定可靠的测量指标选择科学的统计分析方法若能对结果做恰当的描述,则会得出符合实际的结论。,例1大庆糖尿病研究设计目的:探讨单纯生活方式干预是否可有效预防糖尿病对象:非糖尿病成人样本量:500例随机分组:四组,拉丁方块设计CDED+E随访期:预计8年第0.5年每月,以后每3月随访终点:OGTT判定DM分析:多因素分析排除混杂因素干扰后证实生活方式干预有效。,例2:DPS比大庆研究干预目标体重下降7%例3:DPP干预目标体重下降7%,增加药物干预组,治疗性研究设计的基本要素,研究设计的方案要科学:在研究方案的设计上,必须要坚持三条基本原则:随机化的原则(randomization);对比原则(comparison),设置对照组;盲法原则(blindness)。符合上述三原则者为随机盲法对照试验(randomizedblindcontrolledtrial,RCT)是治疗性研究设计首选方案。,随机化分配的原则的基本要求是每研究对象均有相同的机会被分配到实验组和对照组,使两组具备充分的可比性防止偏倚的干扰和人为的主观干预有效地避免选择偏倚(selectionbias)。,随机化的应用主要用于以下两个方面:从总体中随机抽取样本进行研究。因为在临床研究中,不可能将所有的某种疾病的患者都纳入研究,为了使抽取的样本能代表总体,就必须采用随机抽机样的方法。在随机对照的试验研究中样本的随机化分配(randomassignment)即将研究对象随机分成实验组和对照组。,随机化的方法简单随机化:可能参照统计学工具书中介绍的方法,最不带偏倚的方法是运用随机数字表法,或电子计算器/机随机编码法。区组随机化:如将研究对象总人数,分成四人一区组,对各个区组内的患者,分别根据随机数字进行编号分组,确定奇数和偶数各属于哪一组,其排列组合如下表所示,将24患者分A、B两组。可先按时间先后的顺序将24名研究对象分为6个组,每组4名为例,,表1区组随机排列组合区组号123456排列组合ABABBABAABBABAABAABBBBAA随机抽取6个区组号,得3、1、6、5、2、4分序号,再按下法将研究对象分组,见表2。,表2研究对象分组患者号123456789101112分配序号316研究对象分组ABBAABABBBAA患者号131415161718192021222324分配序号524研究对象分组AABBBABABAAB患者号为1、4、5、7、11、12、13、14、18、20、22、23的研究对象随机分配到A组,其余患者号共12例分配到B组。,分层随机化:是根据研究对象的主要临床特点或预后危险因素等其分为不同的层,现将层内不同数量的研究对象随机分配到试验组和对照组例如:已知与研究对象预后有关的重要因素有年龄、性别和吸烟,则分层方法见表3。,表3三层因素分层表年龄(岁)性别吸烟史1、40491、男1、现在吸烟2、50592、女2、过去曾吸烟现已戒烟3、60693、从未吸烟由上表可得323=18层次,每层次内再进行随机化分组。随机化法的应用,可以平衡实验组和对照组中已知的和未知的混杂因素,有效地避免选择性偏倚,提高两组可比性,为研究结果的准确性提供了重要保证。,随机化分组在大多数情况下十分重要,但随机化并非总是有利的和有道理的。在某些情况下有比随机化更重要的东西那就是要满足适应症的要求。适应症不合理,随机化反使结果变糟。,髋关节骨折手术及保守治疗存活率(28天)手术保守存活102/139(74%)34/65(52%)结论:手术效果优于保守疗法符合适应症不符合适应症手术保守手术保守存活102/129(73%)30/33(91%)1/10(10%)18/82(12.5%),结论:保守疗法不逊于手术效果,女性激素补充治疗的循证研究(妇女健康倡议研究WHI),19世纪70年代结论:雌激素加孕激素能有效缓解更年期症状,治疗泌尿生殖道萎缩,防止骨质疏松。但不会增加子宫内膜癌危险。WHI(大规模,多中心,随机对照)结论:雌激素孕激素联合治疗不宜用于绝经后妇女心血管疾病预防,预防骨质疏松时应考虑乳腺及心血管病风险。弊多利少!心脏事件29%,卒中41%,乳腺癌26%,结肠癌37%,髋骨骨折34%,妇女健康倡议研究(WHI)-再好的研究也有缺陷!,50-79岁均值63岁有子宫者随机用雌激素孕激素联合治疗无子宫者随机用雌激素,妇女健康倡议研究(WHI)-再好的研究也有缺陷!,忽略了HRT最明显的益处:(缓解更年期症状,治疗泌尿生殖道萎缩,防止骨质疏松)没有遵照处方药应该严格掌握适应症的原则(性激素低下而非所有老年妇女,更不是健康老年妇女。该研究中80%以上是没有绝经期症状的老年妇女。不具有HRT适应症结论不应随意扩大(品种,剂量,种族)与某些风险相比WHI所阐明的HRT对各种事件的绝对风险是很低的,妇女健康倡议研究(WHI)恐慌后的冷静思考,共同意见:HRT能有效缓解绝经症状及预防骨质疏松;应用小于4年风险小。HRT不用予心血管疾病预防。风波后的冷静思考:不是否定而是更深入不是终止而是要阻止滥用不是恐慌和困惑而是更成熟和清醒HRT不是更危险而是更安全,(一).研究对象的选择,要想证实研究者的思想,确定入选和排除标准,选择合理的研究对象是关键的一环。,1.研究对象要有代表性做疾病患病率的调查,随机化的原则可保证研究样本是总体人群的“缩影”,从而避免结果失真。从某一局部地区“整体人体”调查出的“率”如推广到普遍认群,应说明该局部的“整体”人群与全局的人群结构相似。,1.研究对象要有代表性随机化抽样的缺点是研究对象地域较为分散,每个单位仅有少量病例,这对于干预治疗的前瞻性研究的病人管理极为不利,耗费更多人力,常使研究无法进行。而在人群较多的社区进行“整群”调查,会在相对较小的地域找到较大样本,从而有利干预治疗的管理。如果其人群结构接近全局的人群,其统计的“率”也有重要参考价值。,如果仅为测定一个“率”做几万人的调查则较为浪费人力物力,而随机分层抽样可以以最小的样本,最少的花费取得有代表性的结果。随机化大样本研究基线资料组间不一定可比,如果差别显著,可用分层分析或多因素分析消除混杂因素的影响。,“随机化”的另一缺点是可能有时“随机化”分组得到的两组(或几组)对象的某些参数值不可比,在样本量较小时尤其突出。一般来说大样本的随机对照研究试验组资料会有可比性,但有时也会有显著差别。病例对照研究可保证所选各组对象参考数的平衡,,2.样本含量的估计队列研究属前瞻性研究,应考虑到失访的可能性,故一般需再加10%的样本量。失访率40%以上,其研究的真实性就会受到严重怀疑。如果失访与暴露或疾病都有联系,那么即使随访率达到80%以上也难以防止偏倚的发生。,3.从生物学医学原理选择持定的合理人群(不犯人群结构错误)研究对象中所观察变量的梯度,例1,看生长激素水平与身高的关系:对2574岁者测GH与身高结果发现GH与身高不相关结论肯定错了因为GH的最重要作用在于促生长原因是人群选择失当GH促生长表现在身高增长期,即儿童期成人身高已不再增高。,例2:在高血压(或血压正常)人群研究血压水平对冠心病发生的影响或研究致高血压因子的作用都可能得出假阴性的结果.,研究某些变量的生物学作用时,这些变量必须有一定梯度,否则会掩盖因果关系。例如:研究继发性高血压的病因有研究者发现某些著名的继发性高血压与其公认的病因无关:柯兴氏病高血压与皮质醇水平不相关活动性肢端肥大症血压与生长激素水平不相关。,这些怪事如何解释?材料都是真实可靠!研究对象中所观察变量没有足够梯度所有来诊病例是经长期辗转来到研究者单位看病时病情都十分典型,激素水平都很高,该变量梯度很小,掩盖了激素与血压的相关关系。,解决的办法:在激素水平相当人群,若能发现病程长短与血压水平有关,也算是发现了激素对血压的影响。但若病程长短也相同,还是不会有阳性发现。但若手术后激素水平下降,血压也下降,将治疗前后的病情加以比较则必会发现继发性高血压与激素水平的关系那是因为人为的制造了梯度。,研究肥胖与糖尿病的关系不能仅选择超重和肥胖的人群(BMI25-30)因为(BMI25-27)与(BMI27-30)的人群糖尿病的患病率可能无明显差别,但与BMI24人群差别会很显著变量的梯度是成功的关键。,例.G蛋白3基因C825T亚型多态性与血压,胰岛素抵抗,肥胖的相关性:2000年一位作者在血压正常人群未发现该基因多态性与血压相关;2002年Hyperten一文发现该基因多态性与胰岛素抵抗及肥胖相关.因为他选择了高血压人群也未发现该基因多态性与血压相关.(170/105mmHg)在1999年一项大规模的人群调查基础上的包括高血压(43%)和非高血压人群的研究却发现两种不同亚型基因的患者高血压患病率相差3倍(OR=3.43),GNB3C825T多态性对胰岛素抵抗与收缩压相关性的影响(第一代子女组),GNB3C825T多态性对胰岛素抵抗与舒张压相关性的影响(第一代子女组),LnIAI-4.21-4.8-5.15-4.21-4.81-5.15FINS(uIU/ml)12.222.432.512.222.432.5SBPDBP,第一代子女825CT/TT基因型组不同胰岛素敏感性及空腹胰岛素水平与血压的关系(调整年龄、性别)(n=376),P0.05,P0.01,P0.001,GNB3C825T多态性对胰岛素抵抗与血压关联的影响(第一代子女组),GNB3C825T多态性对胰岛素抵抗与收缩压相关性的影响(第一代子女组),GNB3C825T多态性对胰岛素抵抗与舒张压相关性的影响(第一代子女组),4、设定恰当的入选和排除标准,恰当的入选和排除标准可防止混杂因素的干扰,保证研究结果的科学性,这是在各项研究遵守的。例如,看血压与胰岛关系,不可纳入有心功障碍及肾病患者,否则可结果会有偏差。,4、设定恰当的入选和排除标准,入组的研究对象的准入指标,是保证研究质量的最重要和最基本的条件,在研究设计和发表的论著中务必详细交代。但这种选入排除标准应是实事求是的而不是过于苛求。,在制订纳入和排除标准时,在保证研究质量的前题下,一定要考虑研究成果的代表性和研究结果推广的受益面。例:有一重点课题仅考虑入组病例诊断的严格性排除标准竟设计了17项合格的纳入对象约占整个患该病人群的10%左右90%左右的患者被排除掉。即使该研究的结果有高度的内在真实性(internalvalidity),其代表性也仅为10%左右。,过度严格的选择会有轻型病人被排除,使研究结果出现偏差。例:冠心病与胰岛素的关系仅用冠脉造影资料作为诊断标准结果发现冠脉造影(-)者:FINS22mm/ml冠脉造影(+)者:FINS23mm/ml结论是冠心病与胰岛素无关问题出在什么地方?,问题出在“诊断标准”:冠脉造影(-)的人为什么能接受这种不无危险的检查?因为这些人已有许多危险因素!或有轻度狭窄但达不到“狭窄的定义”的切点没达到“狭窄”切点,只是时间尚短。这并不能说明胰岛素与冠心病无关。,选入排除标准过于苛求例:研究胆石症与胰岛素抵抗的关系(国家自然基金项目):选择对象为l手术证实的初发胆囊胆固醇结石l年龄,性别,BMI相配(!)l血压,糖耐量,血甘油三脂,尿酸,PAI1,尿蛋白量正常(!),表:胆囊胆固醇结石与胰岛素抵抗的关系结石组对照组P年龄33.9+9.3239.97+9.710.85BMI22+2.4422.14+2.350.23WHR0.83+0.060.81+0.070.05FINS17.6+1.317.8+1.20.72INS2H47.5+1.438.9+1.50.04SBP111.4+11.1102.4+11.90.00InsSenindex-4.37+0.29-4.42+0.250.33结果:未发现胆石症与胰岛素抵抗相关,SBP,INS2H升高是胆石症的危险因素(?),(二)、选择试验效果测试指标:选择要求,关联性:指标与研究目的有本质的联系,应能确切反映处理因素的作用。生物学意义合理:冠脉造影,HbA1c看降糖药物疗效。灵敏性:指标能正确反映效应变化的最小数量或最小水平。特异性:对治疗反应的阳性结果要能准确地测量和确定,其特异性越强越好;尽量选用客观指标作为主要观察指标。精确性:包含准确度(效度)和精密度(信度)两个方面。稳定性:变异程度经济可行:在考虑敏感性和特异性的基础上,应从各种方法比较中,选择经济及可行性良好的测试方法和指标。指标的选择要少而精,在治疗性研究方法中相应的预防和处理的措施如防止选择性偏倚,使用随机抽性与随机分配法;避免测量偏倚,使用盲法;减少机遇因素的影响,采用限制型及型错误水平的方法;有的混杂因素可通过配对及统计分层分析法加以避免或处理;通过严格培训人员,严格实验仪器、条件和方法以防止混乱;通过医学知识教育,改善医疗服务环节,以促进患者的依从性等这些措施和方法均应贯穿整个设计、执行和资料分析的全过程,保证研究的高质量,从而获得科学的结论。,三.统计分析,在我国临床科研的统计学应用中,在统计方法的选择上存在过分强调统计检验而忽略统计学估计的倾向,存在统计方法越复杂越好的片面看法。在发表的医学论文中,大多强调是否得到差别有统计学意义,而较少对测定值进行95%可信区间估计,提及样本量估计及抽样方法、样本代表性问题的文章就更少了在80年代初期,国外医学杂志针对类似的情况曾进行广泛的讨论,提出应重视区间估计的意义而不能将注意力集中在P值是否小于0.05上。,现在大多数的国际医学刊物发表的论文中要求作者同时给出点估计、区间估计和具体的检验统计值,如相对危险度(RelativeRisk,RR,RR值就是暴露人群发病机与非暴露人群发病机率之比,即a/(a+b)与c/(c+b)之比),RR的95%可信限和P值。诸如95%可信限的区间估计可以提供更多有价值的信息但在我国临床科研的统计学应用中尚未引起足够的重视。片面地认为越复杂的统计方法越好,而忽视统计检验方法的适用性和恰当性。,(1)、描述性统计描述性统计分析是统计检验的基础,能提供资料的总体特征,不论在最后的论文报告中描述性统计分析的结果占多大的比重,它都是实际的资料分析过程中的起点它为选择进一步的分析方法如选择合理的变量提供重要的信息,发现原始资料中的错误忽略必须的描述性统计分析是导致统计方法应用不当的原因。,从简单到复杂最基本的分析形式为单个因素的不匹配不分层资料组间比较的分析这是病例对照研究推断性统计的基础。可比较病例组与对照之间危险因素的分布情况,分析其危险因素与患病之间的联系。由于病例和对照只是总体的代表,无法直接计算真实的患病率,也就无法直接计算RR值,可以估计相对危险度OR,用以来代替RR。,表6饮酒与食管癌病例对照研究资料饮酒食管癌组对照组合计大量a328b258586不饮c107d193300合计435451886将表6的数据代入公式得:OR=ad/bcOR值是两个概率的比值,这一数值范围是从0到无限大的正数。当数值为1时,表示暴露与疾病危险无关联,当数值大于1说明疾病的危险度增加,叫做“正”关联,当数值小于1说明疾病的危险度减少,叫做“负”关联。,(2)、统计分析中变量的选择,变量的确定:研究的目的是相看哪两个变量之间的关系(不妨假设一因,一果)例;高血压为因,冠心病为果,A.明确变量的性质,重点和首要的看变量是否为正态分布分析中对变量进行正态分布检验血胰岛素、血脂、生长激素、皮质醇、尿微量白蛋白,骨密度等都常为非正态分布。非正态分布的变量是不能以原始资料进行参数统计分析,此时不进行正态化处理,得出结论会面目全非。,B.注意变量的动态变化由于前瞻研究的期限较长,有些长达几年甚至十几年,这类研究中特别要注意变量的自身演变,有些变量是不会变的,如身高;有些因素在“成长”,如血压、血糖;有些变量在某一时期在“成长”,在某时期却在“衰减”,甚至消失,,例:血胰岛素水平从糖耐量正常到糖耐量低减这几年,胰岛素水平在逐渐升高;从糖耐量低减到糖尿病胰岛素水平在下滑;晚期糖尿病胰岛素则衰亡,水平很低,在一个包括NGT、IGT、DM的人群中观察数年期间有的个体胰岛素水平在升高有的胰岛素水平在下降故此在这总人群以基线水平去预测某种疾病自然得不出正确的结论在演变中未变成糖尿病人群中,可以发现胰岛素对某事件的阳性作用,而在IGT演变为糖尿病,尤其是糖尿病病情恶化的人群中,则会看到它的阴性作用。,这种影响的两级分化在极大程度上还会受观察期限的影响:在非糖尿病人群落观察十年,如不删除研究期间恶化为糖尿病的病例,就可能大大低估胰岛素的致病作用在NGT人群观察5年,则不会出现上述偏移对这种消亡中的变量,如不在人群选择和研究时限上加以严格的限制,很难有可靠的结果。,对象和方法,1986-19921986年170非糖尿病人(25-74岁)(107NGT63IGT)1992年126NGT,IGT44DM,基线OGTT胰岛素曲线下面基线与6年后血压的关系(n=170),非高血压人群基线OGTT胰岛素曲线下面积与6年后的收缩压水平的关系(n=126)因变量:随访6年后SBPR2=0.33,.非高血压人群基线OGTTINSAUC与6年后的DBP水平的关系因变量:随访6年后DBP(n=126)R2=0.27,C、决定哪些变量进入多因素分析?,过度调整?调整失当?调整不足?,确定重要的变量(包括混杂因素)数量的方法,1.首先可根据自己对所研究领域专业知识的了解初步选择例:对氧磷脂酶基因多态性与糖尿病人群合并冠心病的关系对照组糖尿病组糖尿病组+冠心病组病例数383639男/女29/924/1236/3年龄70.8+10.864.8+11.972.7+8.3高血压(有/无)30/819/1717/22BMI23.86+3.4124.96+3.1425.29+2.56PON-192BB13.2%11.1%30.8%年龄是必须调整的混杂因素,确定重要的变量(包括混杂因素)数量的方法,1.首先可根据自己对所研究领域专业知识的了解初步选择例:对氧磷脂酶基因多态性与糖尿病人群合并冠心病的关系对照组糖尿病组糖尿病组+冠心病组病例数383639男/女29/924/1236/3年龄70.8+10.864.8+11.972.7+8.3高血压(有/无)30/819/1717/22BMI23.86+3.4124.96+3.1425.29+2.56?DM病程0?服药0?PON-192BB13.2%11.1%30.8%年龄是必须调整的混杂因素,2.然后加入文献中同类研究必须纳入的变量3.应用逐步回归分析也会发现哪些变量应该选入。有些研究在分析中囊括全部已测变量来做多因素步回归分析,或以为计算机挑出的变量就是最佳变量,是一种误解。计算机挑出的变量受许多因素的影响,有些未被计算计挑出的变量有时非常重要(如年龄、性别),所选变量中若不含有这些变量,分析结果可能不会被承认。,变量的选择,1、强制进入模型(logisticstepwise);2、AgeAge2;3、interation:BMI.INS(BMIINS);4、调整混杂因素后的(meanSE);5、调整年龄性别后的率:logistic回归ModelDM=agesexr_BMI,连续变量(BMI)改为分组变量(r_BMI),1组2组3组4组5组HP=AgeSexr_BMI,因果关系与研究对象选择及分组-BMIHP,因BMI25BMI25AGESexHPSBPDBP,因果关系与研究对象选择及分组-HPBMI,因HP0HP1AgeSexBMITCSMOHPH.s,D、决定用等级变量还是连续变量,分析中随意决定将原来的连续变量改为等级变量也是常见的错误研究者不明白哪些变量应作为连续变量,哪些变量应作为等级变量分析中将某一变量作为等级变量还是连续变量不是可以随意决定,而是由变量本身的性质决定的。,D、决定用等级变量还是连续变量,将本应作为连续变量的参数改为等级变量有时会丢掉许多有用的信息。决定哪些变量应作为连续变量,哪些变量应作为等级变量应由其与因变量线性相关(pearson)及等级相关(spearman)的结果来决定,线性相关优于等级相关的变量不应以等级变量进入分析。pearson相关优于spearman相关用连续变量较合理。spearman相关优于Pearson相关用分组变量较合理。,E.确定入选变量的数目,入选变量并非入选变量的数目越多研究越严密,总的自变量数应由样本数决定(1:10),(对于多因素设计,观测变量数为样本例数的1/5-1/10)。一些作者在分析中自变量的选择目的不明,一共有100个病例,每人有30个变量,就将30个变量都用作为自变量,以为自变量越多,分析水平越高。,注意变量间相互关系作者应十分明确所研究的两个主要变量的关系将可能的混杂因素作为协变量放入模型选入过多变量画蛇添足,徒劳无益,甚至有害选入过多的协变量统计学上称为“过度调整”,这种调整常常掩盖有意义的关联。,作为一个原则,多因素分析中,如不是为什么特殊目的,不宜将两个密切相关的变量放入一个方程进行分析过度调整常会丢失一些有价值的信息。,例如:分析糖尿病的危险因素因变量为:糖尿病自变量为:年龄,性别,体重指数,腰围,腰/臀比值,收缩压,舒张压,个人收入,家庭收入,家庭人口,冠心病史,高脂血症,糖尿病家族史,职业,教育水平等十五项.,例如:分析糖尿病的危险因素因变量为:糖尿病自变量为:年龄,性别,体重指数,腰围,腰/臀比值,收缩压,舒张压,个人收入,家庭收入,家庭人口,冠心病史,高脂血症,糖尿病家族史,职业,教育水平等十五项.问题:一些变量定义模糊另一些变量间关系密切结果:会丢失一些有价值的信息。,例如:有的学者在其研究中发现餐后高血糖与糖尿病慢性并发症显著相关,而空腹血糖不显著相关(DiabetesInterventionStudy,DIS1996)。认为只有餐后血糖才重要其实空腹血糖和餐后血糖在糖耐量异常人群高度相关,在进行逐步回归分析中,如将空腹及高后血糖同时做和自变量,统计中仅餐后血糖进入方程,空腹血糖不能进入,并不表明空腹血糖不重要。这种情况下应逐个放入方程,才能不致漏掉重要的危险因素。糖化血红蛋白水平也应与血糖水平密切相关,逐步回归方析中,若一个进入方程,另一个不能进入也不能说,另一指标不重要。这种情况尤其要结合临床考虑,不要做出过于武断的结论。,F.多因素分析方法的选择:,多因素分析模式的选择取决于研究的性质:现状研究可选用线性回归和Logistic回归,前瞻性研究选用成比例风险模型或Logistic回归因变量的性质:因变量为连续变量选用线性回归,因度量为分组变量(0,1)选Logistic回归或成比例风险模型。一般说来前瞻性研究的成比例风险模型更为优越。,在使用多元回归分的文章中,常常存在所用分析方法的名称不详(如是Logistic回归还是多元线性回归)、定义不明、自变量选择不恰当的情况。判定统计方法优劣有某些参考指标复相关系数R2(决定系数)是其一。R2接近于1说明引入方程的自变量与应变量相关的效果好。,四.结果判定,应以审视的眼光看待统计分析的结果:为什麽?因为人们常犯下述错误先入为主的一个想法(自己创造的,或别人特别是外国人发表的);在最容易取材的环境中收集病例(常常数量不多,不管或不知有多少因素干扰);统计分析t检验“定终身”,P0.05就皆大欢喜。,五.结果判定,这些研究在做统计学分析时常常是在搞“逼、供、信”:强制一个不适当的人群做为研究对象强加给一个不适当的分析方法逼出一个结果并对之深信不疑这些研究是垃圾文章的制造厂。,1.P值的意义:,在进行研究和阅读文献时应物别注意P值的大小。但是,P值并没有告诉我们这一性状出现的频率或水平的大小和方向要了解这些信息必须依靠基本统计量基本统计量包括率、均数、标准差等。比较两组(或多组)的率或均数可以了解该性状在组间分布的差异有多大及其变化的方向。在此基础上,结合统计检验的P值和专业知识下结论。在分析评价研究结果时P值和基本统计量都是非常重要的,缺一不可。,观察对象的数量较少时,基本统计量的差别可能很大而P值大于0.05,此时应注意其专业意义。如果这种差别在专业上已非常重要,应考虑继续扩大样本量,直至随机发生这种差别的机率小于5%。,当基本统计量的差别较小而观察对象的数量很大时,往往发现组间差异有显著性,此时应特别注意组间差别在专业上有无意义如果这种差异在专业上并无重要意义,即使P值小于0.05,我们也认为其并无重要的意义命题,GLP1及INS分泌的种族差异AA(n=16)Caucasians(n=26)(F/m)15/124/2NSKg22.974.9723.346.97NSBMI46.431.7043.621.39NSWHR0.860.020.820.01NSFINS22.13.217.72.0NS?ISI2.540.423.160.29NSIAUC239744828144781463DM病程血压血压视网膜病视网膜病变结论:2型DM年龄较轻者易患视网膜病。血糖、血压,2型DM病程与视网膜病变无关。新发现!不对,一定有混杂因素。经调查学校教师视力多缓慢下降,粮店职工多突然下降且多发于工作中。真正的原因是负重时突然血压升高而致眼底出血。,但有时问题往往不这末简单,尤其是在你不熟悉的领域GLP1及INS分泌的种族差异AA(n=16)Caucasians(n=26)(F/m)15/124/2NSKg22.974.9723.346.97NSBMI46.431.7043.621.39NS?WHR0.860.020.820.01NS?FINS22.13.217.72.0NS?ISI2.540.423.160.29NSAAUC2397448281447814630.05GLPIAUC1175412822191=0.05?结论:因敏感性相同,肥胖度相同,所以INS对GLP1反应(OGTT)有种族差别.其实,NS无差异NS是由于例数太少所致,现况:Leptin肥胖者高瘦者低Leptin是致肥胖原因?前瞻:肥胖减肥后Leptin水平下降Leptin可能是肥胖后果。,某项药物经济学的研究结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论