第五章-寻找良好指标_第1页
第五章-寻找良好指标_第2页
第五章-寻找良好指标_第3页
第五章-寻找良好指标_第4页
第五章-寻找良好指标_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上第五章 寻找良好指标Robert C. Lloyd越来越多的医疗护理(healthcare)专家开始使用Shewhart控制图来分析隐藏在数据中的变动,然而,很多人仍旧挣扎于质量测量中的重要方面定义和发展控制图中的合适指标。以不合适的指标为依据的控制图没有价值,只能产生图表垃圾。因此,要获得良好的数据,采用系统的收集方法是很必要的。本章提出了选择指标的模板和实际建议,讨论了质量测量发展的七个里程碑,提供了避免陷阱(avoiding pitfalls)的建议,并回顾了国内领先的指标提议和每个指标涉及的数据。(the leading national indicator

2、initiatives and the data expectations related to each initiative.)这看起来似乎很难相信,但确实有一段时间,只有医疗服务供应商本身关心测量的效率和效果。现在,这种情况不同了,虽然供应商比以往任何时候都关注绩效评价,但他们必须将自身的检测努力与下列要素保持平衡:护理(care)购买者(个人和企业)商业联盟(特定地理区域内的代表企业)对建立质量结果法律协议感兴趣的保险公司认证机构(比如认证医疗护理组织的联合委员会(Joint Commission),国家质量保证委员会(NCQA),以及国家卫生福利有关部门)医疗保险中心(The Cen

3、ters for Medicare)和医疗补助服务机构(CMS),从前叫做医疗护理财政管理局媒体(尤其是报纸和电视)越来越多的组织不仅要求医疗护理数据,并且强烈建议向公众发布这些数据,这是对医疗护理数据认识的一个根本转变。80年代初,人们只有通过法庭传唤程序才能获得有关医院或医师的数据。如今,供应商公开发布的数据相当普遍,这些数据可以从不同的互联网站、国家数据委员会,CMS、消费者报告以及各种专有供应商那里获得。其背后的基本理论是,数据的公开使得供应商对于产出更负责任,且有助于提高质量、控制成本;然而这一理论仍未被广泛认同(Consistent support of this theory r

4、emains elusive.)。National Indicator Initiatives 国家指标提议随着向公众公开医疗护理数据的流行,一个相关的挑战随之而来。具体来说,那些赞同公开供应商数据的人很快意识到,报道的指标必须符合以下条件:1. 供应商间的标准化(共同的定义和数据收集程序)2. 产生于合理的时间框架(这一直是广泛讨论的问题)3. 合理的开发成本对于供应商和数据收集者4. 易于阅读和理解(特别是对于消费者和购买者)我在涉猎医疗护理领域二十多年的经验中,从未见过一套满足以上所有四个标准的指标。许多团体和组织赞助了国家指标集(national indicator sets),几个比

5、较知名的指标倡议(indicator initiatives)概述如下:Minimum Data Set 最小数据集建立一个小型的指标集来获取有关医疗护理经验的重要方面信息是一个非常有吸引力的想法。60年代末期引入了最小数据集(MDS)的概念,由于医疗护理已变得越来越复杂,这个想法已经更有吸引力。随着时间的推移,这个一般性的概念已经衍生出各种特定的数据集,MDS已经被提议用于从住院到救护的一切服务。 MDS的背后的基本思想是,定义一个小的核心指标集,用于在区域和国家层面强制收集和报告。然而,实施这一概念的基本问题是,在构成“最小”指标集的问题上很难达成一致。另外一个主要挑战是确定MDS的最终用

6、户,供应商的数据需求不同于决策者,而两者与大公司采购经理或公众的需求又不相同。在MDS悠久灿烂的发展历史中,几个关键性的进展值得一提。1969年,国家生命健康统计委员会(the National Committee on Vital and Health Statistics)第一次制定出用于出院数据元素的MDS正式大纲,这使得统一医院抽象最小数据集(Uniform Hospital Abstract Minimum Data Set)于1973年被创立。医院出院的统一数据集(UHDDS)作为医院基础服务的标准MDS,出现在70年代初。原始UHDDS包含了14个数据元素,这些数据元素后被用于创

7、建第一个医院服务的统一账单(Uniform Bill,UB),就是众所周知的UB-82(82表示UB的结构于1982年第一次通过)。90年代中期,UB-82升级,如今已到UB-92。此单页表格包含86个字段,其中一些有多入口或子分类。(This one-page form contains 86 fields, some of which allow for multiple entries or subcategories. )虽然UB-92主要用于医疗保险索赔处理,但它的格式已经被其他团体采取(例如大多数州的数据委员会)用于向其他付款群体收集数据。UB-92中包含的元素是由国家统一账单委员

8、会(National Uniform Billing Committee,NUBC)决定的,它成立于1975年。每个州都有自己的UBC,可以对UB-92提供有限的修订建议。在医生的账单上,CMS-1500格式(最初叫做HCFA-1500)是标准参考,这种格式最后修订与1992年,被几乎所有的保险计划所接受。每年都有新的MDS被开发,一个特别活跃的领域是护理专业。70年代最初提出护理最小数据集(The Nursing Minimum Data Set),目前正在研究和开发护理管理最小数据集(Nursing Management Minimum Data Set ),目的是建立一套把握护理成分本质

9、的共同指标。美国卫生保健研究与质量管理处(Agency for Healthcare Research and Quality,AHRQ)赞助了这个领域的最新发展。这个机构是美国卫生部(U.S. Department of Health and Human Services)的研究机构,受国会管制,每年报告美国医疗护理质量状况。国家医疗护理质量报告(National Healthcare Quality Report)是报告一系列业绩和结果指标的结构,这些指标用于测量目前医疗护理服务的质量。与这个计划相关的是AHRQ的国家质量检测交易所(National Quality Measures Cl

10、earinghouse),一个基于Web的工具和数据质量评估信息库。Long-Term Care MDS 长期护理MDSCMS参与了几个与赔偿直接相关、用来评估护理(care)质量的MDS开发,其中较常用的一个是 Long Term Care Resident Assessment Instrument (RAI) MDS(版本2.0),它有三个组成部分。1. 最小数据集版本2.0(The Minimum Data Set Version 2.0)是一套获取长期护理机构住院医师的临床性和功能性特征的核心集。用包括72个字段的四页评估表格来获取核心数据元素,每位患者每年需要完成四次。讽刺的是,虽

11、然这个数据集是一个MDS,但完成这些表格仍旧给大多数机构带来了收集数据的额外负担。然而,RAI手册的第一章指出:“RAI不应该,也从不希望成为护理机构人员的额外负担。”2. 住院医师评估协议(Resident Assessment Protocols)是围绕MDS数据元素建立的,这些协议试图通过评估员工处理单个患者的社会、医疗、心理问题,来开展个性化护理计划。3. 使用准则(Utilization Guidelines)主要对何时、怎样使用RAI提供指导。这个MDS创始于2002年,与现场检测数据一起作为公布长期护理数据的最初资源。Home Health Care (OASIS) 家庭医疗护理

12、The Outcome Assessment Information Set (OASIS)是一个由CMS赞助的MDS,用来获取成人家庭护理探访的核心指标,它也是衡量所谓基于结果的质量改进(outcome-based quality improvement,OBQI)的基本数据工具。OASIS的最初设想于1990年提出,由HCFA(医疗护理财务管理局)和科罗拉多大学共同赞助。1996年首先与50家家庭护理机构进行了测试试验,并在后续为期三年的示范项目中进一步完善(1996-1999)。如今,任何希望参加医疗保险计划的机构都必须参与OASIS提议。OASIS和OBQI背后的基本想法是,如果家庭护

13、理机构了解他们的业绩,他们将进行“整治”,以改善负面结果,并且进行“强化”,以保持积极结果。OASIS系统是围绕45个指标建立的,通过这些指标获取家庭护理医疗接触的如下几个方面信息:患者的社会人口特征(患者家庭布置的)环境特征患者的支持系统患者的机能状况卫生服务的使用2003年,CMS开始使用OASIS数据系统发布医疗护理机构的公开报告。The Joint Commission Core Measures 联合委员会核心测量联合委员会(Joint Commission)在制定指标方面有着长久和丰富的历史,于1987年开始它的测量历程with the Agenda for Change。其最新提

14、议被称作ORYX和核心测量。最初,ORXY作为满足联合委员会认可要求的一种相当灵活和开放的方法,医院可以从广泛的范围中选取指标,但问题是很难在各种没有标准定义的指标中保持一致。目前,ORYX提议正在向我们所知的核心测量过度,这种方法提供一系列拥有标准定义的,更具体、更有限的指标,并且对于数据收集有更加明确的说明。对于所提议的核心测量进行首次研究之后,下列四个专题形成了联合委员会核心测量项目(Joint Commission Core Measures project)的基础。医院急性心肌梗死Hospital acute myocardial infarction(AMI):九个具体指标心脏衰竭

15、Heart failure(HF):四个具体指标社区获得性肺炎Community-acquired pneumonia(CAP):六个具体指标怀孕及相关情况Pregnancy and related conditions(PR):三个具体的指标联合委员会目前希望医院可以从这四个专题中选择两个提交相关数据,最终希望所有医院能够提供四个临床专题的所有数据。联合委员会还建议在不久的将来解决另外的临床课题(例如危重病、糖尿病、哮喘病),其最终目标是提供能够在所有医院间相比较的总体结果。为了进一步确保这些措施的可靠性,联合委员会参与到一个与CMS、美国医院协会(AHA)和一些国家医院协会的协定中,共享核

16、心测量(Core Measures)的结果。对于最大限度地减少医院收集数据的负担以及致力于多用途MDS的尝试方面,这是积极的一步。然而,由于这个协议才刚开始,进行数据共享的具体细节仍需敲定;合作的增值贡献仍有待观察。NCQA HEDIS MeasuresNCQA是一个华盛顿的私人非盈利组织,其主要目的是鉴定卫生规划,主要是健康维护组织(health maintenance organizations,HMOs)和首选供应商组织(preferred provider organizations,PPOs)。但NCQA也参与开发个人诊所、大型医疗集团、疾病管理企业和认证机构的质量和认证标准的测量。

17、参与NCQA的认证过程是完全自愿的,全国各地大约有一半的健康维护组织经过NCQA认可。相比之下,只有很少的PPO参加过认证过程,基本上是因为PPO认证过程始于2000年,而成功的评审审查需要数年的时间。涉及大公司和其他组织的NCQA健康计划报告卡(NCQA Health Plan Report Card)主要评估为员工提供怎样的健康计划。雇主健康计划数据信息集(Health Plan Employer Data and Information Set,HEDIS)是一种NCQA建立的MDS,用来评估护理(care)质量和每个健康计划客户服务,HEDIS数据元素包括护理的质量、护理的开展以及成员

18、对健康计划和医生的满意度。The Measurement Challenge 测量的挑战这种对医疗护理数据的重新重视和授权使得医疗护理供应商们处于一种与以往截然不同的处境。供应商被要求记录他们所做的,评估其努力的结果,然后准备与公众分享其成果。不幸的是,很多供应商对与测量并不是很积极,这导致很多组织防备他们的数据被公布。在这种情况下,供应商通常有以下的回应:数据是旧的(一般一到两年),也没有反映我们目前的业绩数据没有分层,不能反映适当的比较相比同一比较组中的其他医院,我们的病人病情更重(也就未对数据做风险调整)虽然这些回应往往有一定程度的好处,但他们通常被人们,尤其是那些公开数据的人们认为是软

19、弱的借口,亦或供应商企图为其目前提供服务的方式辩护。更积极的态度应该是建立一个组织范围内测量质量的方法,来满足组织内外的需要。这种方法不是一个一次性的任务,而是一个充满错误和曲折的过程。任何有价值的过程中都有里程碑,来标记进展并引导方向。本章的剩余部分概述了七个重要里程碑,来帮助寻找良好指标。Milestones Along the Quality Measurement Journey质量检测过程中的里程碑本节的主要目的是对表5.1中概括的七个里程碑进行综述,由于空间所限,这里没有提及每个里程碑的相关细节。有一些细节在本书的其他章节提及,在有关质量检测主题的引文中也可以找到更多详细资料。 (

20、Caldwell 1995; Carey 2003; Carey和Lloyd 2001; Gaucher合Coffey 1993; Langley等 1996)里程碑一质量检测历程中的第一个里程碑,从本质上来说是战略性的,这一步是通过开展组织内部的以业绩(performance)测量为形式的严肃对话实现的。很多组织不知道他们为什么要检测,在多数情况下,这些组织要么对数据采取防备的态度,要么表现出“我们等等看需要提供什么”的态度。检测是你所在组织日常运作的一部分吗?还是为了董事会会议报告或者回应外界要求而定期准备?组织中的每个人都理解业绩测量的重要角色吗?还是员工认为开发指标只是管理者需要做的事

21、情?接近这个里程碑的第一步是创建一个组织声明,明确测量的角色,也可以通过另一种方式看待这个步骤,就是考虑制定一套检测理念。Advocate Health Care是芝加哥市区最大的整合性医疗护理体系,于1995年由Lutheran General Health System和EHS Health Care合并而成,拥有八家医院、超过24000名员工和5000名医生,还拥有伊利诺伊州最大的家庭医疗护理服务组织。Advocate的检测理念宣言指出,组织应该发起他们自己的对话,来形成业绩测量角色方面的持续认识。表5.1 质量检测历程中的里程碑及相关活动里程碑活动1形成测量理念2定义测量的概念(指标的

22、类型和范畴)3选择具体的指标4制定每个指标的操作性定义5制定数据采集计划、采集数据(给出具体分层和取样意见)6用统计控制过程(statistical process control,SPC)和方法分析数据(尤其要处理和控制图标)7运用分析结果(数据)开展行动(实施改革循环、检验理论并改进)里程碑二第二个里程碑不仅是战略性的,也是操作性的,由组织需要监管的概念(又叫指标类型或范畴)组成。Donabedian (1980, 1982)提出了一个简单易懂的方法来安排检测过程,他提出了三个基本的指标类别:结构(S-struetures),程序(P-processes)和结果(O-outcomes),这

23、三者的关系如下:S+P=O组织结构(structure)代表了组织的物质方面的和组织方面(比如门诊病人的化验区的设计、雇佣政策、学费报销政策)。正如戴明(1995)一直指出的:“每一个活动,每一个工作都是整个流程的一部分”。工作流程是由经理们设立并由员工们完善的。组织结构和流程的结合就会产生效益。很多组织将Donabedian的模型作为一般指导原则,然而组织经常需要考虑得比结构、进程、结果更具体。这种情况下,大多数组织致力于他们的战略计划或文献,最经常被提及的资源是the Institute of Medicines (IOM 2001)的报告跨越质量缺口(Crossing the Quali

24、ty Chasm),报告中定义了如下四个改进目标。1. 安全2. 有效3. 以病人为中心4. 及时5. 高效6. 公平The Joint Commission (1993)也定义了如下维度,来对临床业绩指标进行分类:1. 适当2. 可用3. 连续4. 有性5. 高效6. 关心7. 安全8. 及时不管用什么方法,组织决定其所检测指标的概念、类型和范畴是非常重要的。如果关于这个问题还没有形成一个一致的结论,那么这个过程就仅仅是在数据中随意打转。里程碑三一旦组织决定了其所要追踪指标的类型,这个过程中的下一步就是定义具体的指标。很多人不明白这一步与里程碑二有什么区别,可以引入一个在棒球比赛中找座位的比

25、喻来澄清这两个里程碑。里程碑二定义了座位的区域(例如110区),另一方面,里程碑三关注你被安排的具体排号和座号(例如N排21号)。医疗护理的例子能够阐述得更清楚。假设你的组织已经将病患安全定义为你的战略目标之一,看起来这是个管理上非常好的目标,但是病患安全不能被直接测量,因为它不是一个概念。Concepts by their very nature are vague.因此,你需要将(1)你想要测量病患安全的哪个方面以及(2)实际指标具体化,图5.1展示了这个传递的过程是怎样进行的。我们需要定义在病患安全的广泛范畴之内要检测哪些方面。例如,在病患安全范畴内,你可以关注用药差错、病患falls(

26、patient falls)、手术地点出错、诊断失约/延误或血液制剂出错。(medication errors, patient falls, wrong-site surgeries, missed/delayed diagnoses, or blood product errors)这个例子选择了病患安全中用的药差错方面,现在我们需要将其具体化。在用药差错领域,有许多事情可以衡量,选择哪个指标(在图5.1所示的列表中,或者一个团队可能会开发新的列表)取决于质量改进团队针对什么样的问题。如果你提出一个绝对容量的问题,你有可能热衷于跟踪数据,了解用药差错的数目,简单的数数就可以完成;另一方面,

27、如果你感兴趣于相对数量问题,你最好测量用药差错的百分比或者测量最常见的用药差错率(medication error rate)的指示。生命中充满了选择,而指标的选择比大多数人所意识到的更多,其中的挑战是明确而有针对性地选择你的区域、排好和座号。里程碑四开发指标的真正工作开始于里程碑四制定具体指标的操作性定义。这项活动需要好奇心(擅用左脑的人通常擅长制定可操作性的定义)和耐心。我们每天都要考虑操作性定义,因为这不仅对良好的测量很必要,也是个人之间成功沟通的关键。例如,我的一位邻居刚刚度假回来,我问他是否过了一个愉快的假期,他回答:“不仅是好,简直太棒了!”我问他去了哪里,他说他和四个男性朋友出去

28、了一个星期,每天白天打高尔夫球晚上抽着雪茄打牌。这也许不满足每个人对于美好假期的定义,但对于我的邻居来说,它满足他的操作性定义中的全部标准。概念:病患安全我们想要测量病患安全的哪个方面?用药差错我们跟踪哪些具体指标?有差错医嘱的数量每天的差错数量差错医嘱的百分比用药差错率浪费的IV数量管理错误百分比你选择哪个具体指标?图5.1 概念和具体指标之间的关系概括来说,操作性定义是一个用可以量化的术语描述的测量对象及具体测量步骤。一个良好的操作性定义:·对于一个概念或想法提出可传达性的意义·明确,毫不含糊·详细说明测量方法、程序和设备(适当时)·必要时提供决策标

29、准·保持数据收集的一致性记住,无论如何,操作性定义不总是普遍真理。它们可以被争论或者被质疑。因此,一个良好的操作性定义代表了一种追踪指标相关人员之间的共识。还需要注意的是可能需要在未来的某个时刻对操作性定义进行修改,这是很平常的。定义改变的时候需要额外注意,因为这可能会对结果产生巨大影响。在医疗领域,许多术语需要更精确地操作性定义。你的机构如何定义下列术语?·A patient fall (a partial fall versus an assisted fall)·完整的病史和体检·成功的物理治疗会议·限制令(物理与化学约束)·迅

30、速响应呼叫按钮·优秀员工表现回顾·手术开始时间·准确患者账单·快速周转时间·干净的病房·快速入院·再次入院·成功的质量测量过程不理想的操作性定义给良好的测量带来的问题是显而易见的。如果你参与的是多家医院的系统,或供应商结果比较计划,那么每个供应商必须以同样的方式确定指标。例如,CMS在2002年公布了养老院的数据,2003年公布了家庭护理(home health care)的比较报告,接着又在2004年又公布了住院患者医院的数据。CMS使用的操作性定义缺乏一致性,就类似造成了这样的风险:在进行比较时没有苹果和橙子,

31、最后只能弄成水果沙拉!这些事项不具可比性,这意味着最终从数据得出的结论将不准确,也将受到供应商的质疑。所有优秀的测量开始并结束于操作性定义。里程碑五数据收集是这一里程碑的告示牌,不幸的是,很多人从这一步开始质量测量进程。面对提交数据的挑战,他们的第一反应是:“去找些数据。”这种取向通常将他们引至现成的、大家耳熟能详的便利数据,也有可能导致收集到错的数据或错的数据量(太多或太少)。使用现成、便利数据的主要问题是这些数据不能很好地解释问题。例如,一个质量改进团队使用平均滞留时间和平均成本(或费用)来测量每次卸货的质量是很普遍的,然而平均滞留时间和平均成本都是总体上粗略的结果尺度(Donabedia

32、n模型的O部分),那么团队用什么来测量结构和程序部分呢?问到这个问题的时候,团队经常这样回答:“我们目前还没有搜集到这部分的数据,而且使用那些我们一直在用且可用的数据更加容易,这就足够了,不是么?”一二十年前,这个“足够好”的数据收集方法可能被接受。然而今天,论证医疗护理程序的效果和效率有着巨大的压力,这种心态是不能接受的,卓越的质量和业绩并不是产生于那些组织一直在做的或者便利的事情。这种行为会导致永远维持现状,而大多数医疗护理行业的评论者认为不能如此。数据收集阶段包括两个部分:(1)计划数据收集和(2)实际数据收集。一个经过深思熟虑的数据收集计划应该解决诸如一下的问题:·监控哪些程

33、序?·收集哪些具体指标?·这些指标的操作性定义?·为什么收集这些数据?收集这些数据,而不是其他类型的数据的原理是什么?·这些数据能够对你的质量改进工作增加价值么?·是否讨论了指标的分层作用?·收集数据的频率和持续时间?·是否采用雇佣抽样?如果采用的话,提出怎样的抽样设计?·怎样收集数据?(使用数据表、调查表、焦点小组讨论、电话访谈,还是几种方式的组合?)·是否在收集整个组织数据之前实施一次试点研究?·收集数据的成本(资金成本和时间成本)是多少?·收集数据是否会对患者或员工产生任何负面影

34、响?·这个指标当前的基线是什么?·你的目标是什么?·如何进行数据的编码、编辑和验证?·采用手工制表分析数据还是计算机分析?·怎样使用这些数据产生影响?·对于数据收集结果的传播计划?如果能够解决这些问题,实际收集数据通常会进行得比较顺利。不幸的是,很多质量改进团队没有花足够的时间来讨论他们的数据收集计划,他们想要直接进入数据收集的步骤,这通常会导致他们(1)收集过多(或过少)的数据;(2)收集错误的数据;或者(3)对整个测量过程深感沮丧。当个人或团体对测量过程感到沮丧的时候,他们就开始对数据和结果失去信心,这导致了质量测量过程中的迂回之

35、路。因此,团队或管理机构面对他们认为不能反映预期结果的数据时,他们倾向于(1)歪曲数据(这是不道德和非法的);(2)改变产生数据的过程;或者(3)谋杀通信员!一个经过深思熟虑的数据收集计划将大大提高团队的能力,以避免这些数据陷阱。两个关键数据收集技术分层和抽样会提高任何数据收集的成就。相比统计学,这两项技术更多地基于逻辑和清晰的思维。然而,多数医护人员在这两方面受到的训练很有限。分层分层就是将同类数据归纳在一起,分层的目标是创造层或者是分类,数据在其中互相独立,这就可以很容易产生新发现。但是这些新发现在数据混杂时不易产生。分层允许数据中存在由以下原因导致的差异:·一周内的每一天(星期

36、一不同于星期三吗?)·一天内的时间(就登记来说,通常上午9-10点比下午2-3点要忙)··一年中的时间(某种诊断是否在二月份较六月份更多?)·轮班(过程在白班与晚班中相同吗?)··医嘱的类型(统计型或常规型)·员工的经验·做法的类型(核医学影片还是常规X射线·机器(例如使用呼吸器还是实验设备)收集数据之前如果不考虑这些因素怎样影响数据,就会面临这样的风险:(1)使数据产生不正确的结论;(2)需要在收集好数据后手动剔除分层的影响。考虑一下分层怎样应用于下面这个关于配药过程的例子中。质量改进团队会对这个问题感

37、兴趣:有多大比例的药物处方在一小时之内在药房办好收据并交付护士站?在就这个问题收集数据之前,团队中应有人应提出下面这些分层问题:这一比例会不会因为楼层、时间、星期、处方类型、值班药剂师或收到的处方数量不同而不同?如果你对任何部分的回答是肯定的(即团队认为,以上的一个或多个因素会影响结果),那么就应该采取措施确保每一次药房收到处方的时候相关因素都被收集到。分层是数据收集的重要方面,如果不讨论分层的影响,你会觉得你的数据比它们本身的实际情况更糟(更好)。抽样抽样是医护人员需要掌握的第二项关键技能。如果一个过程不会产生大量数据,你很可能会分析所有的事件,在这种情况下不需要抽样,通常是计算百分比率指标

38、的情况。例如,计算磁共振成像(MRI)无显示的百分比率通常不需要抽样计划,只需要用过程中所有进行但未显示的磁共振成像(分子)除以磁共振成像总数(分母)。然而,当一个过程产生了大量数据时(例如药物处方的周转时间),就需要抽样计划。在减少数据收集中所花费的时间和资源方面,抽样可能是你能做的唯一一件重要的事情。然而,与分层一样,大多数医护人员很少受到抽样程序的训练。因此,他们要么会收集过多或过少的数据,要么怀疑获得结果、质疑数据的可靠性和有效性。石川(Ishikawa)的经典作品质量控制指南(Guide to Quality Control)(1982)提出了制定抽样计划的四个条件:准确性、可靠性、

39、快速性和经济性。取得一个同时满足上述四个标准的样本几乎是不可能的,因此,抽样确实包含着一系列的妥协和折中。抽样成功的关键在于了解抽样的总体目的以及可应用于数据的具体抽样方法。抽样的基本目的是形成可观察的有限数据,并且有理由相信这些数据能够代表其所在的更大总体。然而,当一个样本不能代表其所在的总体时会怎样呢?样本会展示出一个比实际情况更加积极(positive)(positive抽样偏差)或更加消极(negative)(negative抽样偏差)的结果。因此,一次良好的抽样应该能够代表更大的总体。例如,如果运用邮寄调查来收集患者的满意度反馈,你不可能将调查表寄给每个患者,你可能会将调查表寄给大约

40、一半的患者,看看有多少反馈,你可以确定反馈率。假设你获得了25%的调查反馈,下一步就是确定这些回应对于总体的代表性。为了回答这个问题,你需要制定一个总体概况的分布图(profile)。通常情况下,分布图应该基于标准人口统计特征,譬如性别、年龄、问诊类型(visit type)、付款人阶层和是否为患者的首次问诊(visit)等。如果样本中这些特征的分布与总体相似(在5个百分点之内),就可以认为样本能够合理地代表总体;如果样本中的特征与总体中有相当差距,则需要调整抽样计划。抽样讨论中不可避免地首要问题是:“我需要多少数据呢?”这个问题并没有简单的答案,它取决于总体的规模、研究问题的重要性、可使用的

41、抽样资源。例如,如果你正在抽取一个固定时点的单一样本(戴明称其为调查研究enumerative study),通常的经验认为合适的样本容量为20-30(例如,选择下周一20位急诊患者的等候时间)。另一方面,如果是为质量改进的目的抽样(戴明称其为分析研究analytic study),就需要采用不同的方法。分析研究在本质上是动态的,随着时间考察过程。因此,进行分析研究需要在多个时点(相对于一个固定时点)抽取较小容量(比如5-10个)的样本。抽样方法主要有两种:概率抽样和非概率抽样。图5.2是主要抽样方法和途径的简单介绍。关于抽样更详细的介绍可以在有关统计方法的教材和研究设计中找到。概率抽样基于一

42、个简单的原则统计概率,也就是说,在已知的总体大小N中,每个个体被抽中的概率是固定的(Ni),若要使它成为一个真正的随机过程(而不是基于判断、有目的的意图或方便),那么这个个体(及随后个体)的抽取必须以客观的统计方法确定。概率抽样方法·系统抽样·简单随机抽样·分层随机抽样·分层比例抽样非概率抽样·便利抽样·定额抽样·立意抽样图5.2 概率抽样和非概率抽样方法坎贝尔(1974年)列出概率抽样的三个特点:1. 遵循明确的统计计划2. 从总体中抽取个体的概率是唯一的,这个概率由一个随机机制得出,通常使用随机数字表3. 抽样误差(即从

43、一个抽样调查所得结果,与使用与样本相同程序的普查之间结果的差异)可以预计,并且可以评估样本结果的精确性概率抽样有许多方法,本质上都是简单随机抽样的变化,最常用的概率抽样方法如下。系统抽样。大多数医护人员认为这是随机抽样,虽然系统抽样是随机抽样的一种形式,但它是最薄弱的概率抽样方法之一。它的主要优点是简便易行、花费较少。系统抽样(又叫机械抽样)将总体中各单位按一定顺序排列(例如时间顺序,字母表顺序、病历卡顺序),然后每隔K单位选择一个元素。大多数人会忽略的关键点是,选择元素的起点应该是大于零、小于等于K的随机值。通常使用随机数字表(在任何统计书本的最后都能找到)或计算机随机数发生器(可以在统计软

44、件程序和电子表格软件包中找到)来选择随机起点。例如,如果你想从一个大小为600的病历卡总体中通过系统抽样抽取60个样本,可以每间隔10个单位抽取一次。然而,要确定抽样的起点,你需要在1至10之间选择一个随机数字。假设随机抽签产生了数字8,那么就从第8张病历表开始系统抽样,找到它拿出来,然后抽取这个出发点后每隔10个单位的病历卡。从技术上讲,这被认为是随机启动的系统抽样(Babbie 1979)。系统抽样的主要问题是大量提供信息的数据在这一过程中被淘汰。例如,如果每隔10个单位抽取一次,就意味着自动排除进一步考虑记录1至9。如果一些情况规律性地出现在数据中,或有些情况导致数据被分至几组,比如说六

45、或七组,那么这些记录将被自动排除考虑。这种抽样形式在医疗护理环境中的另一个问题是人们通常不会随机选择起点,只是选择一个方便的起点然后启用他们选择的采样间距。这会引入偏差,大大提高抽样误差。简单随机抽样。所谓随机抽样,是指它为总体中每一个元素都提供平等、独立的机会,正如前文中提到的,这往往是通过一个随机数字表或是计算机随机数发生器实现的。随机抽样也可以在同等大小的纸片上写上一定范围内的数字(比如1-100),放进一个碗里,然后简单地拿出一个想好的数字来实现。但简单随机抽样的主要问题是可能会超过或是达不到其对于总体某些部分的代表性。分层随机抽样。在将样本增大其代表性,减少样本误差前,把总体分成相关

46、的同类阶层或是类别。一旦分层被确立后,随机选择程序便可以在每一个层次中应用。例如你可以将一个诊所的预约分层为健康的婴儿、复诊以及未预约的来访,然后在每一个类别中随机抽样。这可以保证在抽样计划中,每一组人群不会有超出(或低于)比例的代表人数。最大的挑战是这一种抽样方式要求详细的总体信息和特征的分布。分层比例随机抽样。这种情况下,使用分层随机抽样的概述方法会产生另一种曲解。总体中每一层的比例是确定的,而且这一比例在样本中被复制。例如,如果我们知道身体健康的婴儿问诊占诊所50%的会诊、复诊的占30%、未预约的占了20%,那我们在举例中从健康的婴儿中取50%、从复诊中取30%、从未预约中取20%。这样

47、产生的样本不仅具有代表性,同时显示总体的特征分布,这会进一步增加样本的精确性,大大减少抽样中的误差。这一分层比例随机抽样是目前最复杂的抽样设计之一,要求大量的关于被抽样总体的信息。同时在花费和时间上都会增加。当无需考虑评估所选择的样本的可靠性或是相对于一个较大总体推断结果时,可使用非概率抽样技术。非概率抽样最基本的目标是选择一个研究者所认为是“典型”的样本,但问题是无法衡量这一非概率样本对其所代表总体的典型性和代表性。简单说来,非概率抽样可以被认为是“足够好的样本”(即对于抽样人员来说足够好)。非概率抽样主要问题是人们有一种将样本结果推广于更大总体的倾向。举例说来,一个当地电视新闻记者进行一个

48、“路人”调查,他选取是十个从杂货店出来的人,问他们对通过增加当地税收来支持教师工资增长的提议有何看法。十人中只有八个人同意接受采访。该记者在整理采访片段和笔记后,对着镜头说:"有结果了,一份匿名的调查结果认为增加税收是不合理的。”这一应用中结果指出大众一致反对提议,但是事实上,记者只选取了有限数量的便利的样本,然后就直接给出了结论。这一情况也会发生于你在给定的一天采访急救中心的十个病人,然后对这一急救中心所提供的服务得出结论,这是一个典型的“开车越过你的车灯”(”driving beyond your headlights”)你只掌握了一点点数据,但是却跳了逻辑上的一大步,越出了你所

49、能看到的极限了。这也被称之为“生态学谬论”,就像拿一个微观生物(例如一个样本)来推断整个生物界(整个总体)。非概率抽样有三大类:简便抽样,定额抽样和抽样判断法。方便抽样。这一抽样方法获取已具备的、观察数量较小并且便于收集的样本。方便抽样也被称为按块抽样(Hess, Riedel, 和Fitzpatrick 1975)或是偶遇抽样(Maddox 1981;Selltiz et al. 1959)。方便抽样本质的背后没有科学根据,它产生一个有偏差的样本,只不过是一系列的趣闻却并不能推断出整个更大的总体。在采用方便抽样时,最首要的问题在于问“抽取的样本对于较大总体的代表性有多重要”。如果结果出现错误

50、无关紧要,那么方便抽样可能已经够了。定额抽样。定额抽样是在20世纪30年代发展起来的,并且被盖洛普民意调查组织(Gallup Organization)所广泛应用。Babbic(1979)恰当地描述了开展定额抽样的步骤。1. 制定一个矩阵,用以描述目标总体的特征。这时有必要知道其中男子和女子的比例;各个年龄、种族和民族的比例;同时也清楚总体中受教育程度和收入水平。2. 一旦这个矩阵制定好后,相关的数据填入每一格中,数据来源于所有给出的特征。3. 然后,一个给定单元中的所有个体都被分配一个加权,与之在总体中的层级相对应。4. 对所有的样本元素进行加权后,整个数据将会能够合理地代表全部总体。理论上

51、说来,一个准确的定额抽样设计应该提供能够合理代表更大总体的结果。然而要记住,实际操作当中对于各层样本的抽取是非随机的,取决于进行抽样的个人。如果数据收集者不勤奋和诚实地对待他的工作,那么这样的态度所采集到的数据就如同简便抽样而不是一个真正的定额抽样了。最后的威胁是数据收集者收集的过程。举例说来,如果某个定额抽样要在急救中心收集数据,如果只在日班时间进行,就有可能错过下午和晚班的最关键的数据。立意抽样。在立意抽样中,知识和经验是这一抽样法中的关键因素,因为并没有用于选取样本的客观的工具。其中的假设是经验、好的判断和合适的策略能够选取一个满足研究者目标的样本。显然,这种抽样形式最主要的挑战是在于个

52、人的知识和智慧来做出的判断。如果每个人都认为这个人拥有卓越的智慧,那么他们会信任这个人所选取的样本,反之人们若怀疑这个人的智慧,那么他所选取的样本也不会被信任。戴明认为立意抽样是用于质量改进研究的选择方法。Langley et al(1996)坚持认为“一个随机抽样是很少采用一个论题专家选取的样本的。”在质量改进循环中,这类抽样也被称之为专家抽样、验收抽样或是合理抽样。其主要是通过由那些的是对研究过程有专业知识的人来决定如何分组和抽样,这些次级组可以通过随机或非随机程序抽样。戴明关于立意抽样的观点中另一个重要特征是他认为抽样是随着时间推移定期进行的,而非在一个时点上选取的。大部分的抽样设计,不

53、管概率或是非概率抽样都是静止的,研究者确定一个时间框架,然后尽可能多的收集数据。相反的,戴明的观点是采集的数据可以是小量的,但是要像流水一样延续(Deming1950,1960,1975)。对抽样判断法最主要的批判是在于“专家”并不能了解所调查总体的所有方面,因此可能选取有所偏颇的样本。对这一批判的反驳是通过不断选取多样的样本,专家可能的偏差会在过程中随着固有的变化而减少。掌握各类抽样技术知识是削减收集数据的时间和工作量的最佳方法之一。若正确的实施的话,抽样也可以是确保所收集的数据是直接关联手头问题的最佳方法之一。反之,抽样可能不可避免的遭到众所周知的争议,怀疑数据、生成数据的过程或是采集者的

54、信用。里程碑六许多质量改进团队认为数据收集好之后他们大部分的工作已经完成,但实际上他们的工作才刚刚开始,因为数据不会因为团队有良好地意图就神奇地转化成信息。对数据分析和解释的步骤对于团队的成功至关重要。然而,团队在质量测量的过程中,常常因为对需要分析的部分缺乏规划而陷入僵局,因此团队成员要么几乎放弃,要么感到极度厌倦。很多团队非常努力地去界定各种指标,收集数据,却碰到了很大的障碍,因为他们并不花时间去思考如何分析数据和谁会将数据流失。关于实现这个里程碑的讨论必须要展开,否则之前质量测量过程中付出的努力远远不会使你达到目标。图5.3 提供了一列制定分析计划需要讨论的问题。但是请记住,在数据出来之

55、前,就应该想想一个分析计划的组成部分和具体的活动。如果你从事质量改进计划,最好的分析方式是由统计程序控制(SPC)控制的。这种统计学分支是20世纪20年代初由沃尔特休哈特博士在西方电气公司(舒尔,1994)工作时开发的。休哈特的主要分析工具控制图是所有质量改进工作的基石。用控制图进行的统计分析,与有些人称之为传统统计研究有很大区别(例如,假设检验,p值的发展,随机临床试验的设计)。传统的统计研究目的是将一次时间的结果(例如一个中年男子组的胆固醇水平)和第二次时间的结果(通常在初步测量几个月之后)进行比较。按这种方式进行的研究被称作静态组比较(拜雷言.劳埃德和朴塞克,2003)。研究的重点并不是

56、数据是如何随时间而改变的,而是这两组结果是否在统计学上有所不同。从另一方面来说,用控制图原则进行的研究从一个完全不同的视角来对待这些数据,即动态研究。控制图将数据看成是连续分布的、有节奏的、有模式的。在这种情况下,控制图就像心电图上的示值读数(EKG readout)或者是在重症监护室的遥测监控上显示的生命体征模式(the pattern of vital signs seen on a telemetry monitor in the ICU)。控制图是按时间先后顺序排列的数据图。平均值是通过数据中心的策划的,然后控制上限和控制下限是通过数据的内在变化计算的,这些控制范围界定数据量变化的多少

57、。控制上限和控制下限基本是围绕统计标准的概念,建立平均值正负3个标准差。本章节没有详细介绍控制图的选择、使用和解析,仅仅介绍了关键词。关于控制图更多细节可在本书的其他章节或文献中找到。(拜雷言.劳埃德和朴塞克,2003;凯里2003;凯里和劳埃德2001;西电公司1985;惠勒1995;惠勒和钱伯斯1992)。((Benneyan, Lloyd, and Plsek 2003; Carey 2003; Carey and Lloyd 2001; Western Electric Co. 1985; Wheeler 1995; Wheeler and Chambers 1992).)当你在办公室

58、收到了数据,你会如何回答下面的这些问题呢?1. 你会把这些有形的数据存放在哪里?如果你收集的是调查数据,这是一个特殊的问题,这些调查结果会迅速地开始堆积。你会保存这些调查结果,将它们存在缩微胶卷上,还是在你分析完之后再回收它们?2. 谁来负责接收数据,记录到书上和分配识别号码呢?3. 你制定了一个数据码的书么?如果没有,谁来做呢?4. 为了将数据存入电脑,你制定了什么计划?你会用电脑么?如果你没有电脑,你的手工分析计划是什么呢?5. 如果你不会用电脑,谁来输入这些数据呢?你会在数据输入之后,对其进行核实么?你想使用专业的数据录入服务么?6. 谁将负责你的数据分析?(这个问题适用于你是否用人工或自动分析)7. 你会使用什么电脑软件?你会制作描述性统计摘要、交叉表格、图形总结或控制图么?8. 一旦你有一堆的电脑输出,谁来负责将这些原始的数据转化成信息,以便做出决策呢?你

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论