临床医学科研设计方法评价_第1页
临床医学科研设计方法评价_第2页
临床医学科研设计方法评价_第3页
临床医学科研设计方法评价_第4页
临床医学科研设计方法评价_第5页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

临床医学科研设计方法及论文的严格评价,中华医学会姜永茂,一、临床医学科研设计方法的分类,描述性研究(Descriptive Study)病例报告(Case Report)系列病例分析(Case Series Analysis)横断面调查(Cross-sectional Survey)分析性研究(Analytical Study)病例-对照研究(Case-Control study)队列研究(Cohort Study)干预性研究(Interventional Study)随机对照临床试验(RCT)、非随机同期对照临床实验(CCT)、历史对照临床试验、自身前后对照实验(Before-After Study)、交叉试验(Cross-Over Study),病例报告,是有关单个病例或10例以下病例的详尽临床报告,系对罕见病进行临床研究的主要形式。对新发生的疾病或临床事件的首例报告具有重要的价值,许多疾病首次认识都是通过病例报告形式,如AIDS、莱姆病等病例报告由于详细描写病例的临床表现和治疗经过,有时可以提示实验室尚不能证实的发病机制,如血小板减少性紫癜、海豹肢畸形高度选择,容易出现偏倚不能估计疾病或临床事件的发生频率据Fletcher统计,国外主要的医学期刊发表的原始研究中大约20%-30%为10例以下的病例报告,如BMJ的“Lesson of the Week”,病例报告实例,1980-1981年6个月的时间内,洛杉矶三家医院先后发现5例以前健康的男性同性恋青年患卡氏肺囊虫肺炎,这种情况引起了人们的注意,因为这种类型的肺炎以前几乎毫无例外地发生于老年男性或女性,因为他们的免疫系统受到了抑制。这种不常见的情况提示医生他们可能患了一种以前不知道的疾病,后来证实他们患的是获得性免疫缺陷综合征,即艾滋病Hymes KB,Greene JB,Marcus A, et al. Kaposis sarcoma in homosexual men-a report of eight cases. Lancet, 1981, 2: 598.,系列病例分析,是对一组病例资料进行的分析(一般10例)可以是前瞻性的,但多数是回顾性的,病例资料不全对病例有一定的选择性,容易导致偏倚缺少对照,难以比较效果评价:(1)样本量;(2)前瞻性还是回顾性;(3)连续样本、抽样样本、选择样本;(4)诊断标准,系列病例分析实例,1997年新英格兰医学杂志报道了24例既往健康且相对年轻的妇女患有瓣膜性心脏病。通过分析发现, 这些妇女在患病前的1年时间里均服用了一种通过抑制食欲而达到减肥目的的减肥药(fenfluramine-phentermine)。作者推论这种减肥药可能导致严重的瓣膜性心脏病。后经病例-对照研究证实。Connolly HM. Valvular heart disease associated with fenfluamine-phentermine. N Engl J Med, 1997,337:581-588.,描述性研究的评价,病例报告和病例分析都是描述性研究,缺乏严格的科研设计和规范的对照分析,科学性差,论证强度低,只能为进一步进行分析性和试验性研究提供线索,本身并不能验证假设。但描述性研究容易进行,临床医生面临大量临床资料和病史记录,随时可以总结分析,所需时间短,不需很多的人力、物力,因此至今仍是临床医生应用的最主要的科研设计方案,横断面研究,是在某一时点或相当短的时间内(如1天、一周或一个月)对某一人群中有关疾病或临床事件的患病(或发生)状况及影响因素进行调查分析,因此又称为现况研究或患病率研究现况研究的目的是了解某一疾病或临床事件的发生状况及其影响因素,根据不同的研究目的可获得不同的结果,如患病率、抗体阳性率、实验室指标的阳性率、疾病的伤残率和死亡率等诊断试验评价的科研设计可以视为特殊形式的横断面研究,横断面研究实例,我国糖尿病研究协作组进行的“我国14省市30万人口糖尿病调查报告”,是我国首次在全国范围内进行的糖尿病患病率调查,获得我国糖尿病的实际患病率为0.609%,对研究我国糖尿病的分布及制定防治规划都有十分重大意义。评价这项研究要注意:所抽取的30万人口作为研究对象代表性如何?所应用的筛选试验本身敏感性和特异性如何?糖尿病的诊断标准如何确定?可同时进行危险因素调查,如年龄、性别、吸烟、饮酒等,横断面研究的评价,横断面研究基本上属于描述性研究,但与病例报告及病例分析相比,其研究设计较为严密,需要计算样本大小,在选择研究对象、抽样方法、影响因素的调查及结果的分析等方面均较为规范,对患者和非患者的特征及影响因素又可以进行某些比较性研究和分析。现况研究主要是通过普查和抽样调查方式进行。普查是对选定的目标人群的所有对象都进行调查,抽样调查则随机抽取目标人群的样本人群作为研究对象。代表性最好的抽样方法是随机抽样,横断面研究的评价,横断面研究论证强度较低,用于病因或预后研究时,因为是同时调查疾病和影响因素,没有时间因果关系。因此,横断面研究主要功能是普查或抽样调查获得疾病的患病率及用于诊断试验的评价,而对防治、病因、预后研究,只能是提供线索,为进一步作分析性研究或试验性研究打下基础,病例-对照研究,病例-对照研究是一种用于分析暴露和疾病(或临床事件)之间因果关系的分析性研究设计方案。选择具有所研究疾病(或临床事件)的一组病人组成病例组,无此病(或临床事件)的一组为对照组,比较两组的暴露率或暴露水平的差异,以研究该疾病(或临床事件)与暴露的关系。如果病例组的暴露率或暴露水平高于对照组,则认为该暴露因素与疾病或事件有联系。这里“暴露”指暴露于某些危险因素、具有某种预后因素或接受某种诊疗措施等,病例-对照研究的设计模式,病例-对照研究的结果,病例组 对照组 有暴露因素 a b 无暴露因素 c d Odds Ratio(OR) = (a/b)/(c/d) = ad/bc 进行卡方检验,计算P值和可信区间(95%CI),病例-对照研究实例,瑞典进行了一项大规模病例-对照研究来探讨胃-食管反流和食管腺癌的关系。研究者收集了189例食管腺癌患者和820例经年龄、性别配对的对照组,以同样方式调查了两组烧心等症状的情况 食管腺癌组 对照组 烧心、反胃或都有 113 135 (至少每周一次) 无上述症状 76 685 OR = 7.5, 95%CI = 5.3-11.4, 严重者OR = 43.5(18.3-103.5) Symptomatic gastroesophageal reflux as a risk factor for esophageal adenocarcinoma. New Engl J Med, 1999, 340:825-831.,病例-对照研究的特点,研究对象分成病例组和对照组并不是随机化分组,因此按有无被研究的疾病或临床事件来分组,因此病例组和对照组不是研究者能控制的所调查的研究因素是由研究者从现在对过去的回顾而获得,因此是回顾性研究从因果关系的角度来看,是先有了疾病再去调查暴露情况,分析疾病和暴露的关系,因此是由果推因的研究,病例-对照研究的优点,所需样本量较少,适合于罕少见疾病的研究调查暴露情况采用回顾性方法,适用于对长潜伏期疾病的研究,如化学因素致癌作用常需10-20年允许同时调查许多因素与研究疾病的联系,可以使用病史记录作为数据来源省人、省时、省钱,科研周期短,容易出成果,病例-对照研究的缺点,选择合适对照组非常困难,对照组系由研究者自行选择,难免产生选择偏倚暴露率和暴露水平的测量是在患病之后回顾而获得,因此特别容易受到回忆性偏倚的影响不能计算发病率,只能计算相对危险度,用优势比(odds ratio, OR)来估计论证强度不及队列研究和试验性研究,因此当病例-对照研究得出的结论有争议时,应进一步设计队列研究加以证实,队列研究,队列研究也是一种用于分析暴露和疾病(或临床事件)之间因果关系的分析性研究设计。它把一群研究对象按是否暴露于某种因素分成暴露组与非暴露组,随访适当长的时间,比较两组之间所研究疾病(或临床事件)的发生率(发病率或死亡率)的差异,以研究疾病与暴露之间的因果关系,队列研究的设计模式,队列研究的结果,患病 无病 危险性 暴露 a b a/(a + b) 非暴露 c d c/(c + d) Relative Risk(RR) =a/(a+b)/c/(c+d) Attributable Risk = a/(a+b) - c/(c+d),队列研究的实例,世界上最著名的队列研究是由Austin Bradford Hill爵士、Richard Doll爵士及后来的Richard Peto进行的,这项研究为最初的两位作者赢得了爵位。他们通过问卷随访了34440名英国医生,将他们分为四个队列(非吸烟者、轻度吸烟者、中度吸烟者、重度吸烟者),应用全病因死亡率和特异病因死亡率作为观察结果。在1964年发表的10年初步报告中,显示吸烟者无论肺癌死亡率还是全病因死亡率都大幅度升高,并且有剂量-效应关系(吸烟越多,患肺癌的几率越大)。这项重要研究的20年和40年的结果(对1951年收集并且没有死亡的研究对象的随访率达到惊人的94%),不仅表明了吸烟的危害性,也表明了从一个执行良好的队列研究中获得证据的重要作用,队列研究的实例,吸烟者和非吸烟者每年每100000人死于肺癌和缺血性心脏病的人数 肺癌 缺血性心脏病 非吸烟者 10 413 吸烟者 140 669 1-14/d 78 608 15-24/d 127 652 25/d 251 792 吸烟者和非吸烟者肺癌RR = 140/10 = 14;25/d者RR = 25.1 吸烟者和非吸烟者缺血性心脏病RR = 669/413 = 1.6 肺癌AR = 140 10 = 130/100000/year 缺血性心脏病AR = 669 413 = 256/100000/year,队列研究的优点,可设立前瞻性的同期对照,除了暴露因素接触与否外,各队列中纳入的观察对象、诊断标准和纳入/排除标准以及观察指标等都可作到标准化,因此论证强度高,可靠性强因为暴露在前,疾病在后,确定暴露没有偏倚由于是前瞻性观察,没有回忆性偏倚临床应用广,病因研究、预后研究、防治效果远期疗效的观察等都可以应用,特别是在病因及危险因素的研究中有重要价值。RCT不能进行时,队列研究是最好的设计方案,队列研究的缺点,在发病率很低的疾病需要很大的样本数,并且有些暴露因素从接触到发病有很长的潜伏期,因此不适用于少见疾病的研究队列研究属于观察性研究,分组是自然形成的,与试验性研究相比,容易产生偏倚容易发生失访偏倚,如失访率在10%以上就可能会影响研究结果 由于随访时间较长,在此过程中会发生许多事件或因素,很难判定最后出现的结果只与所研究的暴露因素有关,随机对照临床试验,试验组和对照组的分组是采用真正随机化分配方法。两组都被随访一个特定的时期,然后按预先确定的终点指标(死亡、心脏病发作、血清胆固醇水平等)进行分析。RCT 还可按是否实行盲法(blinding)分为单盲试验、双盲试验和开放试验(open或open label),后者不实行盲法。随机对照双盲试验(randomized, controlled, double blinded trial) 被认为是最佳的科研设计方法,是科研设计的“金标准”,目标人群,研究样本,随访时间,未改善,改善,改善,未改善,试验组,比较组,随机对照临床试验实例,4S研究(Scandinavian Simvastatin Survival Study)入选4444例患有冠心病且血清胆固醇为5.5-8.0 mmol/l的患者,随机分为两组,一组接受辛伐他汀治疗,另一组接受安慰剂治疗。该试验是双盲,且结果评价人员也不了解分组情况。一级终点是总死亡率,二级终点是主要冠状动脉事件发生率。两组随访条件一致,平均随访5.4年。结果:辛伐他汀组总死亡率8.2% ,安慰剂组11.5%;相对危险性减少(RRR)为29%;绝对危险性减少(ARR)为3.3%;需要治疗人数(NNT)为30,随机对照临床试验的优点,前瞻性设计,是检验一种假设的最有力的方法随机化分组,试验组和对照组之间的均衡性好,增加了可比性,排除了很多非研究因素的混杂偏倚有严格的诊断、纳入/排除标准,观察指标与判断标准统一,在很大程度上减少了偏倚的发生双盲法减少了观察性偏倚允许作系统评价(systematic review) 和汇总分析 (meta analysis),随机对照临床试验的缺点,昂贵且耗时,因此许多RCT,或者从未作过,或者研究对象太少,或者研究的时间太短经常使用替代终点指标而非临床结果,可导致潜在的偏倚随机化方法不正确,或随机化不理想没有对所有合格的患者进行随机化分组,排除了不典型、合并症、预后差、禁忌症的病人需要病人知情同意,实施困难医学伦理学问题,系统评价和汇总分析,1973年,一个小样本研究证实对早产妇女给予皮质类固醇激素可以降低婴儿死亡率。随后10年又进行了6个研究,因为样本量都很小,所以其结果不一致。假如在1983年进行汇总分析,就会发现这些试验总的结果表明类固醇激素治疗具有有益的作用。但又过了10年并又进行了另外7个研究,才最终证实了类固醇治疗的作用,临床实践才开始改变,论文质量,重要性,原始性,真实性,可读性,可重复性,科学性,实用性,伦理性,二、医学论文的严格评价,医学论文科学性的严格评价,研究设计的因素研究对象的因素观测结果的因素资料收集与整理的因素统计分析的因素,证据的等级,我国临床研究的现状,科研设计方法 1985年 1995年 病例报告 95 (14.8%) 72 (7.6%) 临床试验 221 (34.5%) 298 (31.2%) 对照临床试验(CCT) 36 (5.6%) 108 (11.3%) 随机对照临床试验(RCT) 8 (1.3%) 40 (4.2%) 前瞻性研究 25 (3.9%) 57 (6.0%) 回顾性研究 160 (25.0%) 133 (13.9%) 横断面研究 272 (42.5%) 452 (47.4%) 实验性研究 52 (8.1%) 132 (13.8%) 合计 640 (100%) 954 (100%),对科研设计方法的正确评价,科研设计方法的选择取决于不同的研究阶段循序渐进取决于不同的研究领域诊断性研究取决于不同的疾病罕少见疾病取决于医学伦理学的要求治疗性研究的恰当时机,各种科研设计方案的应用范围,研究对象的因素,研究对象的纳入、排除标准研究对象的代表性连续样本、抽样样本、选择样本(Real World)样本大小分组情况(无对照、对照、随机对照)干预措施的隐匿情况随访时间、失访率,观察结果的因素,测量结果的质量控制方法是否采用盲法(客观、主观)替代终点指标与临床终点指标,诊断性研究的评价,描述性研究横断面研究选择研究对象确立标准诊断,将对象分为有病、无病用研究的诊断方法检查对象,结果与标准诊断比较计算评价指标前瞻性或回顾性,Sensitivity = a/(a+c) Specificity = d/(b+d)Efficacy(Accuracy) = (a+c)/(a+b+c+d) Positive predictive Value = a/(a+b)Negative Predictive Value = d/(c+d),诊断性试验的评价,1. 是否与标准诊断方法进行盲法对比标准诊断方法指当前公认的诊断疾病最可靠的方法,也称“金标准”常用的“金标准”有病理学诊断、手术、特殊的影象诊断(冠造诊断冠心病),也可用公认的综合诊断标准标准诊断的选择应结合临床具体情况标准诊断选择不妥,将造成病例组、对照组划分错误如评价B超对胆石症的诊断价值,采用口服胆囊造影作为诊断胆石症的金标准,实际上口服胆囊造影要比B超为差,从而造成敏感性、特异性评价结果的不正确,诊断性试验的评价,2. 研究对象能否代表试验检查对象总体病例组应包括该病的各种临床类型:轻、中、重型,早、中、晚期,典型和不典型,有和无并发症等,使试验结果具有代表性对照组应选自确实无该病的其他病例,应包括易与该病混淆的其他相关疾病,这样才具有鉴别诊断价值研究对象应是同期进入研究的连续样本或随机抽样样本,避免选择偏倚样本量应足够大,样本偏倚(Spectrum Bias),分期 病例组 对照组 目的 I 小量典型病例 观察实验的性能 II 小量典型病例 健康人 初步鉴别诊断 III 病例范围扩大 健康人 更进一步鉴别诊断 IV 包括伴发疾病 包括易混淆的疾病 具有临床鉴别诊断意义 V 广泛病例 广泛的易混淆疾病 验证临床价值 Andrew A. Nierenberg, Alvan R. Feinstein,癌胚抗原的评价,Ransohoff DR 和Feinstein AR检索了1969-1973年英文杂志发表的有关CEA诊断结肠癌的文章,发现17篇。其中3篇早期进行的研究报告CEA有很高的敏感性(90%),1篇报告有很高的特异性(90%)。但应用上述标准对这些研究进行评价,却发现研究对象存在问题,癌胚抗原的评价,结肠癌病例组17个研究均没有按临床(如疾病严重程度)或合并疾病进行分类3个报告有高敏感性的研究没有进行病理分期,即没有说明是否包括局限性病例其他14个研究中7个报告低敏感性,病例均进行了病理分期,包括了局限性病例CEA对广泛侵润病例的敏感性比局限性病例高对照病例应包括其他部位的癌症患者(如乳腺癌、肺癌)及同一部位的其他疾病患者(如结肠炎)17个研究中,只有1个报告CEA有高特异性。对照组包括其他癌症和结肠疾病,但疾病的侵犯范围没有报道16个研究报告低特异性,6个指出了侵犯范围,诊断性试验的评价,3. 是否介绍了研究对象的来源三级医院的专科门诊和基层医院的普通门诊, 某些疾病的患病人数和病情有很大差别,如报道肾动脉造影对青年高血压患者的诊断价值,专科医院可查出10%的肾动脉狭窄对照组的来源也必须交待清楚,如实验室工作人员、医学生等,诊断性试验的评价,4. 精确性及测量偏倚是否作了描写必须描写试验的精确度和可靠度(可重复性),报告有否测量偏倚,操作者水平和操作者间偏倚(一致性,kappa值),诊断性试验的评价,5. 参考值的确定是否合理、可靠正常值与参考值的区别正态分布的数据, 参考值为均数+2s, 包括95%的正常范围,双侧各2.5%为不正常非正态分布的数据,参考值可用中位数和百分位数表示数据常有重叠,临界点的确定取决于对敏感性和特异性的要求。ROC曲线可帮助确定临界点,诊断性试验的评价,6. 是否说明了在一组试验中的价值如诊断试验作为一组试验(平行试验或系列试验)之一用于临床,除测定该组试验总的诊断价值外,还应测定该试验在该组试验总的诊断价值中占多少价值,诊断性试验的评价,7. 是否介绍了具体方法和注意事项试验对象、方法和结果的判断应加以叙述,被检查者是否需要摄入量、饮食或体力活动等方面的限制,是否要禁用某种药物,是否有不良反应,诊断性试验的评价,8. 是否作了效用分析四格表计算敏感性、特异性、预测值、似然比介绍假阳性、假阴性病人的最后结局,如对诊断阳性的病人常进行特异的治疗,对阴性的病人不治疗,其中肯定包括假阳性的病人接受了治疗,假阴性的病人未接受治疗,会出现那些结果,诊断性试验中常见的偏倚,1. 病情检查偏倚 对试验出现阳性结果的患者用金标准确诊,而对阴性结果的患者则不再进一步检查,造成缺乏假阴性的资料。这种情况下会出现敏感性升高,特异性降低的假象,即病情检查偏倚 据调查,19901993年世界主要期刊有关诊断性试验的文章中38%的研究中存在这种问题,诊断性试验中常见的偏倚,例如确定病史体检在冠心病诊断中的作用, 对1030例门诊怀疑冠心病患者, 通过病史体检有168例进一步作心导管确诊,报告敏感性74%,特异性84%,而全部病例无偏倚的敏感性为53%,特异性为93%,诊断性试验中常见的偏倚,2. 缺乏对照人群试验结果造成的偏倚 实际上是一种描述性研究-病例分析。例如有腰背痛的患者做MRI检查,发现许多人有椎间盘突出,故常用此结论来解释原因,并进行治疗。另一篇文章对98例无腰背痛患者作 MRI检查,2/3有椎间盘突出,发生率略低,但无统计学差异,诊断性试验中常见的偏倚,3. 由病例丢失引起的偏倚诊断试验常有结果不明确者,在资料分析时作者常将他们剔除,从而造成结论不真实1990-1993年的世界主要期刊中约62%的研究存在此种偏倚,诊断性试验中常见的偏倚,4. 审阅者偏倚审阅者事先已知道试验结果所造成的偏倚1990-1993年世界主要医学期刊中约53%的研究有此偏倚,诊断性试验中常见的偏倚,5. 测量偏倚试验操作不正规,缺乏质量控制,没有进行重复性测定,没有对观察者、仪器在不同时间测定的变化加以分析1990-1993年世界主要医学期刊中,约68%的研究有这类问题,诊断性试验中常见的偏倚,6. 评价指标不全面许多文章没有关于敏感性、特异性、预测值、似然比可信区间、ROC曲线等评价指标全面的描述约76%的研究有此问题,诊断性试验中常见的偏倚,7. 样本数太少样本量的大小取决于对敏感性、特异性的要求和允许误差的大小,诊断性试验中常见的偏倚,8. 参考试验偏倚是指金标准选择不当所造成的偏倚。如评价B超对胆石症的诊断价值,采用口服胆囊造影作为诊断胆石症的金标准,实际上口服胆囊造影要比B超为差,从而造成敏感性、特异性评价结果的不正确,病因及发病因素研究的评价,1. 是采用哪一种研究方法?其论证强度如何? 描述性研究 病例-对照研究 队列研究 随机对照临床试验 暴露组与非暴露组的可比性如何,病因及发病因素研究的评价,2. 因果关系相关性的强度如何? 在随机对照临床试验和队列研究中, 采用相对危险度(RR)作为表示因果关系相关性强度的指标,即试验组该病发病率是对照组的多少倍。在病例-对照研究中,采用优势比(OR)表示相关性强度,即暴露于某种危险因素发生某病的危险性是对照组的多少倍。RR或OR越大,表示因果关系相关性越强,病因及发病因素研究的评价,3. 结论的重复性如何? 如果结论能够重复,也就是说在不同地区、不同作者、不同研究方法均能获得一致结论,表明这种病因学的相关性是比较肯定的。如吸烟和肺癌的关系,美国作了前瞻性队列研究,追踪85 348名男性老年人,吸烟者患肺癌的RR为10;我国天津曾作病例-对照研究,发现男性吸烟者患肺癌的OR为6,病因及发病因素研究的评价,4. 因与果在时间上的先后关系是否正确? 某一病因侵袭人体而导致发病是有一定的效应时间的, 这种间隔时间还应呈现一定的规律。先暴露于发病因素或危险因素,然后发病,符合“暴露-发病”关系者,才能明确其因果关系,病因及发病因素研究的评价,5. 是否有剂量-效应梯度? 如口服雌激素避孕药,发现使用1-4.9年者患子宫内膜癌的RR为5.6, 使用5-6.9年者上升至7.2, 使用7年以上者则为13.9。存在剂量-效应关系也是论证因果关系的一个重要根据,病因及发病因素研究的评价,6. 因果关系是否有流行病学上的意义? 如乙型肝炎发病率高的地区,肝癌的发病率也高。评价有关病因学方面的文献,还要看所论证的因果关系是否符合流行病学的规律,病因及发病因素研究的评价,7. 因果关系是否有生物学意义? 如在人体肝细胞癌的组织细胞内发现HBV-DNA。HBV-DNA侵袭人体肝细胞时,有可能诱发肝癌。在肝癌发病率高的小鼠肝细胞内,也发现有类似HBV-DNA的物质,因此肝癌发病的病毒病因存在生物学证据,病因及发病因素研究的评价,8. 因果关系是否有特异性 如凝血因子VIII遗传性缺陷引起血友病, 这是特异的, 但绝大多数疾病是多因素致病, 要论证其因果关系比较复杂,预防和治疗研究的评价,1. 是否设有对照组? 分组是否随机化?2. 随访是否完整? 是否按随机化分组进行分析?3. 是否采用盲法?,预防和治疗研究的评价,4. 基线资料是否具有可比性? 随机化并不总是很好地平衡两组, 样本小时机遇的作用更明显,因此,必须对基线资料进行比较,以确定两组资料的可比性。这里不是比较两组间在预后因素的分布上有没有统计学的显著性差异,而是比较这些差异的大小,因为随机分组后任何组间基线情况的差异都是由机遇产生的,预防和治疗研究的评价,5. 终点指标是否与临床直接相关? 是否报道了临床上所有有关的结果? 免疫增强剂提高免疫球蛋白水平, 但是否能够减少死亡率, 还需进一步研究(替代终点) 安妥明降低血脂, 有预防心肌梗死发生的作用, 但安妥明治疗组的总死亡率却比安慰剂组高, 与安妥明引起心律失常的不良反应有关,预防和治疗研究的评价,6. 是否详细介绍了研究对象的情况? 纳入、排除标准;病情轻重;研究地点(三级专科医院还是基层医院);有无并发症。 读者可根据上述情况应用研究结果,预防和治疗研究的评价,7. 是否同时考虑到临床意义和统计学意义? P值说明如果无效假设正确(1= 2)时,发现这种差异或更大差异的可能性。如果P 值很小(一般0.05),则推翻无效假设。P值越小越有理由推翻无效假设。推翻无效假设,则接受备择假设,即1 2。但这只是说1与 2不相等,并不能得出两者相差有多大的结论。当样本很大时,尽管差异很小,P值也会很小,因为此时抽样误差很小,预防和治疗研究的评价,7. 是否同时考虑到临床意义和统计学意义? 临床意义是指这种差异在临床上是否有价值。 几种情况: 有临床意义,有统计学意义; 有临床意义,无统计学意义(评价样本量); 无临床意义,有统计学意义; 无临床意义,无统计学意义。,预防和治疗研究的评价,7. 是否同时考虑到临床意义和统计学意义? 例:有人对7 674例男性和2 896例女性进行了沙眼患病率的调查,结果男性沙眼患病率为81.25%, 女性沙眼患病率为76.83%, 作者认为男性与女性患病率相差不多。但某位统计学家对这一结果进行了差别的统计学检验,发现P 0.001,得出了“有极显著差别”的结论。 正确表达:差别有统计学意义,有高度统计学意义 临床意义不仅与差异的大小有关。如肺癌5年生存率有50%提高到55%,但肺癌死亡率很高,很有意义,预防和治疗研究的评价,8. 是否介绍了防治措施的实用性?治疗方法应详细描述,不良反应情况在临床上和生物学上是合理的依从性成本-效益分析,预后研究的评价,1. 是否都有统一的起始点? 是否都是从最早出现症状开始观察或是从确诊开始观察? 起点不统一, 常会造成偏倚。例如研究心肌梗死的预后,如收集心脏监护室的病人观察其病死率多少常得出预后较好的结论,因为许多还来不及送到医院或死于急诊室的病例没有统计进去,预防和治疗研究的评价,2. 是否介绍了研究对象的情况和病例的来源? 如病例的年龄、性别、严重程度和有否并发症等都与预后有关。三级医院和基层医院病人不同。例如有关儿童高热惊厥一次发作后,癫痫的发生率如何?大医院、儿童专科医院中的病例和在人群中统计,有很大的差别,预防和治疗研究的评价,3. 是否所有的对象都进行了随访?如没有,失访率是多少?如果失访率超过10%就会影响预后的估计;如果失访率达20%以上,结论就不可靠,预防和治疗研究的评价,4. 是否有客观的预后指标? 肿瘤的预后可用5年生存率表示,预防和治疗研究的评价,5. 预后估计是否采用了盲法?,三、我国医学期刊发表的论文中存在的问题,科研设计方面能够提供较强证据的论文很少缺少对照组或对照组不恰当样本量不足样本缺乏代表性没有采用随机化方法或随机化方法描述不充分,我国医学期刊发表的论文存在的问题,统计学分析方面没有采用统计学分析方法没有描述所采用的统计学方法所采用的统计学方法要求的前提条件不符合多重t检验代替方差分析将重复测量结果作为独立变量进行处理忽略配对特性很少采用可信区间很少采用多元分析或生存分析方法,我国医学期刊发表的论文存在的问题,结果解释方面错误理解P值含义过分相信小样本研究得出的阴性结果过分强调二级终点结果或亚组分析结果,我国医学期刊发表的论文存在的问题,资料描述方面缺少关键信息的描述,尤其是在资料与方法部分,我国医学期刊发表的论文存在的问题,发表偏倚阳性结果的论文比阴性结果的论文有更大地被发表的机会,我国医学期刊发表的诊断性研究的评价,上海医科大学检查了5种中华系列杂志1985和1995年发表的112篇诊断性研究论文缺乏金标准 18只有阳性率,无敏感性、特异性等指标 40没有论文采用似然比和ROC曲线,我国医学期刊发表的治疗性研究的评价,年份 杂志名称 科研设计 论文数 无对照 CCT RCT 1963 新英格兰医学杂志 35 54.0% 37.0% 9.0% 1975 新英格兰医学杂志 47 34.0% 26.0% 40.0% 1976 中华内科杂志 50 74.0% 24.0% 2.0% 1985 中华内科杂志 27 51.9% 25.9% 22.2% 1997 中华内科杂志 36 33.3% 35.2% 31.4% 1997-8 中华消化杂志 31 38.7% 25.8% 35.5% 1998-9 中华老年医学杂志 27 7.5% 1978-97 中华结核呼吸杂志 394 76.7% 12.8% 10.5% 1980-98 上海中医杂志 1971 81.9% 9.9% 9.2%,我国医学期刊发表的治疗性研究的评价,1995-1996年35种中国医学杂志发表的164篇治疗性研究论文中随机化描述 25(15.2%)描述但错误 9(5.5%)未描述 130(79.3%)基线资料完整基线资料 42(28.7%)简单描述 27(16.5%)未描述 90(54.8%)样本量10-15000,均未说明样本量的确定方法,我国医学期刊发表的病因性研究的评价,史宗道检查了6本国内杂志1994-1997年发表的61篇有关病因研究的论文其中14篇为队列研究,15篇为病例-对照研究,32篇为横断面研究14篇队列研究中,5篇考虑了混杂因素,6篇采用了RR来指示联系强度15篇病例-对照研究中,10篇考虑了混杂因素,14篇采用了OR来指示联系强度32篇横断面研究中,8篇应用了OR或RR在29篇分析性研究中,14篇研究样本量不足结论:大约一半的论文存在方法学缺陷,我国医学期刊发表的预后性研究的评价,评价3本杂志发表的12篇预后研究的情况5篇为回顾性研究8篇无对照组4篇样本量30例部分论文不是一个一致的起始队列在7篇前瞻性研究中,只有1篇失访率10%很少有论文应用Cox模型或逻辑回归分析,四、出现问题的原因,一、作者的责任-论文质量不高-缺乏科研设计、统计学、论文写作方面的培训-缺少与有关科研设计方面专家的沟通-缺少简明、实用的面向临床医生的科研设计和统计学方面的教科书-晋升的压力,医生只注重发表论文的数量,忽视论文的质量-大学和医院的科研管理机构审查把关不严格,出现问题的原因,二、杂志的责任-稿件审查不严-审稿专家过于注重科研课题的重要性,对科研设计和统计学方法的问题重视不够。-编辑人员过于依靠审稿专家在学术上把关,只注意文字和规范方面的编辑加工,忽视了对论文科学性方面的审查。 -上述两方面能力加强,许多问题(资料不完整,统计学缺陷或错误等)可以在发表前改正。-出版政策:篇幅限制、发表偏倚等。,五、问题的后果,研究对象承受了一定的风险和痛苦,但没有获得任何有益的结果。造成资源的浪费,包括时间、资金、医院床位和设备等。因为错误的研究结果本身,或因为错误的研究结果延误了更有效的治疗方法的研究,患者可能因此而接受错误的治疗方法。误导:如果研究中存在的问题未经改正就发表,研究者以后还会犯同样的错误,其他研究人员也可能会模仿采用错误的科研设计方法。,问题的严重性,医学期刊发表的论文中出现质量问题会造成非常严重的后果,所以,有专家指出,错误应用科研设计方法和统计学方法不仅仅是科研水平问题,更是科研道德问题。作者、编辑、审稿人员应对这一问题应给予足够的重视。,六、改进措施,一、长期措施:-加强对科研人员的培训,普及科研设计和统计学方面的知识,尤其是应尽快为非统计学专业的临床科研人员提供简明、实用的教材。-加强统计学家和临床流行病学家的咨询作用,科研人员主动征求上述专家的意见。-提高科研管理人员的素质,强化科研管理部门的职能,使其在对科研人员的培训、科研方案的审批、科研过程的监督、科研论文的投寄等方面起到应有的作用。,改进措施,二、短期措施鉴于目前医学期刊发表的论文存在较严重质量问题的现状,杂志应切实负起自己的责任。通过杂志自身的努力和引导,可以在较短的时间内提高所发表论文的学术质量。杂志应在以下三个方面加强工作:1、普及科研设计和统计学方面的知识,提高科研人员的科研水平,以便生产出更多、更好的“米”(科研成果)。,2、普及医学论文写作方面的知识,为作者提供详细的论文撰写指南和投稿须知,以便作者做出最好的“饭”(稿件)。3、普及医学论文严格评价方面的知识,教育读者如何批评性地吸收论文中研究结果,以便对论文的内容更好地“消化”(阅读)。,杂志本身应采取的措施,一、提高编委和审稿人员对论文科研设计和统计学方面问题的认识,为其提供内容详细的审稿单,提出对论文每个部分应注意审查的问题。二、吸收更多的临床流行病学家和统计学家进入杂志编委会和审稿组,尽可能将所有与统计学有关的论文送给他们审阅,修改后的论文应再次送给他们审阅。三、加强对编辑人员的培训,充分发挥编辑人员在学术内容方面的审查把关作用。,四、建立和完善一系列的出版政策,并大力宣传。1、优先发表科研设计严谨、论证强度高的科研论文,如RCT、队列研究、病例-对照研究等。2、拒绝发表低水平重复研究的论文。3、鼓励研究和发表有关新的科研方法和设计方法的论文。4、对阴性结果的论文给予与阳性结果的论文同样的发表机会。,5、鼓励作者将研究设计方案送杂志编辑部审阅,尤其是大规模临床试验研究。6、鼓励作者将原始资料送杂志编辑部,供审稿使用。7、杂志不应硬性限制论文的字数。论文的长短应根据论文的信息含量来确定,编辑不应以篇幅限制为由随意删减论文中必要的内容。,七、临床试验报告的强化标准,只有在发表的论文中全面和准确地描述有关RCT设计、实施和分析的情况,才有可能对临床试验的质量进行严格的评价。但是,在发表的论文中,对RCT的报告经常是不充分的,远没有达到透明的要求,再加上因为方法学拙劣而出现的问题,增加了对RCT评价的难度,临床试验报告的不完整性,许多回顾性检查证明,临床试验报告中存在着缺陷。例如,19791980年在4种最主要的医学杂志发表的67篇临床试验报告中,只有30% 报告了对终点指标的评估是否采用了盲法。同样,在1985年发表的45篇报告中,只有27% 详细说明了一级终点(end point*);在1990年发表的37篇得到阴性结果的临床试验中,只有43% 报告了样本量的计算方法。临床试验报告不但经常不完整,而且有时不准确。在119篇声明是按研究对象预先分配情况对各组中包含的所有研究对象进行分析(意向分析,intention-to-treatment* analysis)的报告中,15篇(13%)分析时把部分研究对象排除在外,或未按预先分配情况对所有研究对象进行分析。另外,许多回顾性检查发现,报告不充分更常见于专科杂志和非英语出版的杂志,因为通过恰当的随机化(randomization*)可以消除选择性偏倚(selection bias*),所以,随机化是高质量RCT的一个至关重要的组成部分。成功的随机化依赖于以下两个步骤:(1)生成(generation*)一个不可预测的分配顺序;(2)对负责入选研究对象的研究人员隐匿该分配顺序。遗憾的是,发表的论文中对所采用的将研究对象分配到不同干预措施中的方法的介绍通常也是不完整的。例如,在妇产科杂志发表的206篇所谓的RCT报告中,至少有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论