南方医大医学统计学讲义

上传人：东*** IP属地：云南上传时间：2022-10-26 格式：DOCX 页数：127 大小：325.17KB 积分：9.6 举报 版权申诉

已阅读5页，还剩122页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

绪

论

一.统计学发展简史

1.古典统计学：17世纪中叶~18世纪中叶•政治算术学派•国势学派英文Statistics（统计学)一词起源于拉丁文status，即状态或国家（state)之意。可见，统计学最早的含义是指对于国家的状态作调查研究。Aristotle(BC384-322)：《国家论》（Politeiai)（故称为国情学)――统计学发展的雏形。古典统计学阶段的主要贡献是统计描述、概率论形成，以及开创近代统计学的一些理论准备，如误差理论和正态分布，中心极限定理、最小二乘法、相关与回归分析等。2.近代统计学：18世纪末~19世纪末•数理统计学派•社会统计学派F.Galton与KarlPearson（近代统计学之父)等人为代表，以”Biometrika”创刊为标志。统计推断经历了从创立到完善的过程。数理统计的理论基础已经相当雄厚，统计学的应用的到广泛的重视。3.现代统计学：20世纪中叶~至今•频率学派•贝叶斯学派板书和投影

教学过程教学内容时间分配媒体选择以50年代计算机的发展和应用为标志。由于计算技术的进步，使得许多统计方法的应用成为可能，如多元分析、生存分析、非线性模型等。除不断完善已建立的统计方法外，还产生了一些新的统计思想和方法，如探索性数据分析、质量控制或质量改进、病例对照研究Cox和logistic模型、临床统计学、空间统计学、重复抽样方法等。同时，功能强大的统计软件包广泛应用，如SAS、SPSS、B\t"/kecheng/2013/_blank"MDP、SYSTAT、S-PLUS等。该阶段更加重视统计学的应用研究，许多方法是为了解决实际问题而产生的，如E.D.A.，QC.Coxandlogisticmodels等。总之，统计学作为一门独立的学科，过去、现在、乃至未来都是一门充满活力的学科。二.基本概念和内容Statistics----“asciencedealingwiththecollection,analysis,interpretationandpresentationofmassesof

numerical

data”－－Webster国际大辞典

统计学（statistics)是关于数据收集、表达和分析的普遍原理和方法。现代科学方法可以概括为以下几点：1.

问题的识别与表达。2.

搜集有关资料。3.

通过归纳得出假说：因果联系及重要的模式。4.

从假说作出演绎：进行实验或收集更多的资料。5.推理：结果与演绎相符，假说得到加强，但不是被证明。板书和投影教学过程教学内容时间分配媒体选择医学统计学（MedicalStatistics)――用统计学原理和方法研究生物医学问题。医学统计学在医学研究中的运用主要有三个方面：1.以正确的方式收集数据，如实验设计、调查设计、抽样方法、样本估计方法等。2.描述数据的统计特征，如数据化简、统计指标的选择与计算、统计结果的表达等。统计分析及得出正确结论，如根据概率分布，对实验和观察结果存在的差异和关联作出统计推断。统计工作的步骤：1.统计设计：明确问题、试验设计2.搜集资料：取得准确可靠的原始资料3.整理资料：统计假设4.分析资料：假设演绎、统计推断三.意义1.医学领域大量的实际问题与统计学有关Ÿ

统计学渗透在医学实践中，如诊断和选择治疗方案。Ÿ

但是，这些判断究竟有多大把握是正确的呢？Ÿ

在非典型性\t"/kecheng/2013/_blank"肺炎还不为人所\t"/kecheng/2013/_blank"熟悉时，有多少人把它当作一般肺炎进行治疗的呢？Ÿ

医学实践需要尽量减少不确定性，需要统计学！医学研究的一般流程：PLANNING↓DESIGN↓板书和投影

教学过程

教学内容时间分配媒体选择EXECUTION（datacollection)↓DATAPROCESSING↓DATAANALYSIS↓PRESENTATION↓INTERPRETATION↓PUBLICATION四.名词和术语1.变异（variation)同质观察单位之间的差异成为变异。变异是生物界的重要特征。2.随机事件和随机变量（randomvariable)一定条件确定发生的事件称为确定性事件，如一个大气压下，水的沸点为1000C，40C时水的密度最大。随机事件：在一定条件下可能发生的事件，如宇宙射线每秒通过单位面积的数量、彩票、物价指数、经济增长率等。随机变量：随机事件在数量上的表现。统计学是专门研究随机事件的学科，以揭示事物发展的内在的本质的规律。3.总体（population)与样本（sample)总体（population)：根据研究目的所确定的同质观察单位的全体。板书和投影教学过程教学内容时间分配媒体选择分为有限总体和无限总体。样本（sample)：从总体中随机抽取的部分观察单位。总体与样本是一对相对概念，实际中很难对总体展开研究，故一般是通过对样本的研究（手段)来推断总体（目的)。从推理方式上，统计学用的是归纳推断，即：特殊（样本)一般（总体)4.误差（error)误差是指实际观察值与真值之差、样本指标与总体指标之差。误差可分为系统误差（systematicerror)和随机误差（randomerror)。系统误差产生的原因：1)

仪器标准试剂未经校正；2)

测量者掌握尺度不同；3)

测量者某种感官障碍所导致测量结果呈倾向性偏大或偏小。系统误差的特点：有倾向性；可避免。随机误差分为重复测量误差(errorofreplication)和抽样误差(samplingerror)。抽样误差：由于抽样所导致样本指标与总体指标的差异（主要由变异引起)。随机误差的特点：无倾向性；不可避免。5.频率（frequency)与概率（probability)频率：事件实际发生次数与可能发生次数的比率，设在相同条件下，独立重复进行n次试验，事件A出现f次，则事件A出现的频率为f/n。概率：度量随机事件发生可能性大小的一个数值，用大写的P表示；取值[0，1]。

教学过程教学内容时间分配媒体选择必然事件：P=1不可能事件：P=0例如：1)抛硬币：1/22)新生儿性别比：107：1003)施肥与农作物产量频率与概率间的关系：1)

样本频率总是围绕概率上下波动；2)

样本含量n越大，波动幅度越小，频率越接近概率；3)

随着实验次数增至足够大，频率逐渐稳定于某一常数附近，则该常数为概率。五.统计资料类型100例\t"/kecheng/2013/_blank"高血压患者治疗后的临床记录

板书和投影

教学过程教学内容时间分配媒体选择统计资料一般分为计数资料、计量资料和等级资料三类。1．计数资料（countdata)

又称定性资料（qualitativedata)，按观察单位品质标志分组，再清点各组的例数所得的资料。特点：一般无计量单位，如肤色（黑、白)、血型（A、B、O、AB)、职业（教师、公务员)、性别（男、女)等。2．计量资料（measurementdata)

又称定量资料，用仪器、工具等定量方法对观察单位测量(measure)某指标值所得到的资料。特点：有计量单位，如患者的身高（cm)、体重（kg)、血压（mmHg)、脉搏（次/分)、红细胞计数（1012/L)等。3．等级资料（rankeddata)

又称半定量资料，根据观察单位某指标量的大小，深浅或严重程度分组，得到的各等级组观察单位数。特点：有大小顺序，所以也叫有序分类资料（ordinalcategorydata)。如：①癌症分期：早、中、晚；②药物疗效：治愈、好转、无效、死亡；③尿蛋白：-、±、+、++、+++及以上。三种类型统计资料的相互转化Ÿ

计量与计数：正常与异常Ÿ

计数与计量：“-”与“+”Ÿ

等级与计量：Ÿ

计量与等级：如男性血红蛋白按量分为5等级

重度贫血

中度

轻度

12~16

正常

>16

血红蛋白增高

教学过程教学内容时间分配媒体选择六.学习指南1.目的Ÿ

掌握统计分析基本思想，重应用，不深究数学推导Ÿ

掌握处理实际资料和准确表达统计分析结果的技能①.

识别资料类型，选择正确的统计方法②.

对统计结果作出正确解释③.

顺利阅读专业文献中的统计内容2.内容Ÿ

医学研究中涉及统计学的名词和概念Ÿ

统计分析的原则及基本思想Ÿ

基本的统计分析方法

第二章统计描述及实验与调查设计第一节

调查研究的特点一、调查研究的特点和用途1.研究过程中没有人为的施加干预措施，而是客观地观察记录某些现象的现状及其相关特征；2.在调查中，欲研究的现象及其相关特征（包括研究因素和非研究因素)是客观存在的，不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响，这是调查研究区别于实验研究的重要特征；3.混杂因素的控制常借助于标准化法、分层分析、多因素统计分析等方法；4.调查研究多采用问卷（questionnaire)调查，容易产生误差和偏倚，应特别注意设计技巧和质量控制；

第二节调查设计的基本原则与内容一、明确调查目的并将其具体化到指标。明确调查目的是调查研究各个环节中最核心的问题。确定调查目的时应注意是要了解总体参数还是研究相关联系。指标要精选，尽量用客观、灵敏、精确的定量指标。

二、确定调查对象和观察单位。根据调查目的确定调查对象，即要确定调查总体及其同质范围，观察单位可为人、物、群体、地区等。

三、确定并选择调查方法根据调查目的和要求确定并选择调查方法，有以下几种：1.普查（overallsurvey)：对总体中所有的观察单位进行调查,一般用于了解总体在某一特定“时点”上的情况，如年中人口数、时点患病率。在医学领域的适用范围是：①发病率较高的疾病；②具有灵敏度和特异度较高的检查或诊断方法；③普查方法便于操作、易于接受；④具有实施条件。2.抽样调查（samplingsurvey)：是医学研究中最常用的方法，是通过随机抽样（randomsampling)方法从总体中随机抽取一定数量具代表性的观察单位组成的样本进行调查，然后根据样本信息来推断总体特征。常用的抽样方法见第三节。3.典型调查（typicalsurvey)：亦称案例调查。即对事物进行全面了解的基础上，有目的选择典型的人和单位进行调查。如调查几个卫生先进或后进单位，用于总结经验教训。此外，\t"/kecheng/2013/_blank"流行病学中的病例对照研究和队列研究也属于调查研究的范畴。四、确定样本含量详见第13章“试验设计”和有关的流行病学书籍。五、确定资料的搜集方式1.直接观察法：直接观察、检查、测量。2.采访法：调查者直接或间接与被调查者交谈，又分访谈、信访和开调查会三种。六、确定观察指标结合调查的实际问题，将调查目的转化为具体的调查指标。七、拟定调查项目和调查表1.依据调查指标确定对每个观察单位的调查项目。包括了分析项目和备查项目（1)分析项目：直接用于计算的指标，以及排除混杂因素影响多必须的内容。（2)备查项目：为了保证分析项目填写的完整、正确，便于对其核查、填补和更正而设置的，通常不直接用于分析。2.调查表（1)把调查项目按照提问的逻辑顺序列成表格供调查时使用（2)调查表中项目的排列顺序要符合逻辑，使被调查者易于接受，问答有条不紊和防止遗漏。（3)调查表的量化，给各项目附以适当的代码（4)编制详细的填表说明，组织培训。八、制定调查的组织计划包括组织领导、时间进度、分工与联系、经费预算等。第三节常用的抽样方法一、单纯随机抽样（simplerandomsampling)

将调查总体全部观察单位编号，再用抽签法或随机数字表随机抽取部分观察单位组成样本。

优点：操作简单，均数、率及相应的标准误计算简单。缺点：总体较大时，难以一一编号。二、系统抽样（systematicsampling)又称机械抽样、等距抽样，即先将总体的观察单位按某一顺序号分成n个部分，再从第一部分随机抽取第k号观察单位，依次用相等间距，从每一部分各抽取一个观察单位组成样本。优点：易于理解、简便易行。

缺点：总体有周期或增减趋势时，易产生偏性。三、整群抽样(clustersampling)

总体分群，再随机抽取几个群组成样本，群内全部调查。

优点：便于组织、节省经费。缺点：抽样误差大于单纯随机抽样。四、分层抽样（stratifiedsampling)

先按对观察指标影响较大的某种特征，将总体分为若干个类别，再从每一层内随机抽取一定数量的观察单位，合起来组成样本。有按比例分配和最优分配两种方案。

优点：样本代表性好，抽样误差减少。以上四种基本抽样方法都属单阶段抽样，实际应用中常根据实际情况将整个抽样过程分为若干阶段来进行，称为多阶段抽样。各种抽样方法的抽样误差一般是：整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。第四节实验设计的特点及分类1、实验设计的特点实验设计的特点是①研究者能人为设置处理因素；②受试对象接受何种处理因素或水平是经随机分配而定的，能使非处理因素对不同处理组的影响保持均衡，组间具有可比性，可以客观评价处理因素的作用。③实验研究设计能使多种实验因素包括在较少次数的实验中，更有效地控制误差，达到高效的目的。2、实验设计的分类根据研究目的和对象不同，实验设计可分为实验研究（experimentdesign)、临床试验（clinicaltrial)、社区干预试验（communityinterventiontrial)三种。1)实验研究以动物或标本（如细胞、组织等)为研究对象，因此在研究中，研究者可以主动施加干预措施。2)临床试验以人为研究对象，因而不可能象动物一样任意采取严格的控制措施，而且人是有思想的，存在着心理、社会活动，研究者必须周密考虑，认真设计，采取相应的措施控制误差和偏倚，以保证研究结果不受干扰。3)社区干预试验以社区人群为研究对象，接受某种处理或干预措施的基本单位是整个社区或某一人群的亚群，如一个学校的班级、某工厂的车间、某城市的街道、农村的乡镇、自然村等。其主要目的是通过干扰某些危险因素或施加某些保护性措施，观察其对人群产生的预防效果例如，观察肾综合征出血热疫苗对肾综合征出血热的预防作用。由于社区干预试验难以将受试者进行随机分配，因此又称为半试验性研究（quasi-experiment)。第五节实验设计的基本要素处理因素、受试对象和实验效应是实验设计的三个基本要素，它们贯穿于整个实验研究过程，从不同侧面影响着实验研究的结果，在实验设计中必须予以足够重视。例如，用两种药物治疗\t"/kecheng/2013/_blank"糖尿病病人，观察比较两组病人血糖、尿糖的下降情况，这里所用的药物为处理因素、糖尿病病人为受试对象，血糖值、尿糖值为实验效应。1、处理因素（treatmentfactor)在实验过程中，影响实验结果的因素是多方面的，根据研究目的可分为处理因素和非处理因素二类。处理因素是指研究者通过统计研究设计有计划的安排实验，从而科学地考察其作用大小的因素，例如药物的种类、剂量、浓度、作用时间等；非处理因素是指对评价处理因素作用有一定干扰但研究者并不想通过实验考察其作用大小的因素，例如，病人的病情、病程等。选择处理因素应遵循以下基本原则：1)要抓住实验中的主要因素实验效应是多种因素作用的结果，由于研究目的不同，以及人力、物力和时间所限，研究者不可能通过一次或几次实验中把已知的所有因素都进行处理与分析，只能抓主要的，例如我们要改进某种细胞的培养方法，与其有关的因素很多，如温度、PH值、培养液、培养时间等。其中每个因素又分若干水平（或等级)，如温度从34℃至38℃，每1℃为一个水平，则有5个水平；PH值从6.5至7.4，每0.1为一个水平，则有10个水平。培养液有两个水平；培养时间有3个水平时，须做种条件的实验，若每种条件的实验重复10次的话，就需要做3000次实验，不可能在一次或几次实验中完成。可根据专业知识和研究目的在众多因素与水平中抓住主要的因素，且因素的水平数不宜过多。2)要分清处理因素和非处理因素例如，研究综合治疗糖尿病的效果，处理因素为药物治疗加饮食疗法；合理调配作息时间和其它辅助治疗措施也能缓解症状，有助于康复，但不是本次研究的处理因素，而是非处理因素。研究者应采取各种措施，尽可能使非处理因素在所比较的各组中基本相同，以便充分显示处理因素的作用。3)处理因素必须标准化处理因素标准化就是如何保证处理因素在整个实验过程中始终如一，保持不变。如在进行药物疗效的试验观察中，在整个试验过程中，所使用药物的生产厂家、批号、药品标准等必须一致。所以，在实验设计时，必须制定处理因素标准化的具体措施和方法。2、受试对象受试对象选择的合适与否，也是一项实验是否成功的关键。医学研究受试对象有人和动物，一般先做动物实验后再做人体观察，如新药疗效的观察一般是先做动物实验，初步观察其疗效和副作用后，再进一步在患者身上做临床试验，以确定其疗效和副作用。有些实验则可直接在人体进行观察，如生理、生化正常值的测定等。根据受试对象是动物还是人，选择受试对象应遵循以下基本原则。2、实验对象1)动物的选择实验研究中，动物的选择比较灵活，但要紧紧围绕着实验目的选择动物。其具体选择方法详见第十章动物实验设计。2)病例的选择临床试验中，病例的选择不象动物选择那样灵活，由于受试对象是人，在选择时必须遵循医德要求，同时还必须明确病例的纳入和排除标准。3、实验效应一般是通过某些观察指标，定量或定性地反映实验效应。研究者应当对欲研究的问题有较为全面的了解，在实验设计中千万不要遗漏了某些重要的观察指标，以免实验结果不可靠。1)选择观察指标的基本原则（1)客观性尽可能选择客观指标，避免一些笼统的、不确切的指标。有时，客观指标还具有判断的主观性问题，如X线胸片是客观的，但判断时存在主观性问题，所以，对于这种情况，须制定明确的判断标准。（2)精确性选用的指标应尽量精确。指标的精确性包括准确性和精确性，准确性是指所观察结果的真实程度，即观测值与真值的接近程度，属系统误差；精确性是指所观察结果的深度，即重复观测时，观测值与平均值的接近程度，属随机误差。实验效应指标既要准确又要精密，而首先是准确可靠。（3)灵敏性应尽量选择高灵敏性的指标，即选择能够显著提高灵敏性的仪器对观察指标进行测量。但也要考虑实验经费问题，灵敏度高的仪器，往往费用昂贵，应根据实验经费，选择既相对廉价，灵敏度又高的测量方法。（4)特异性为了更好地揭示研究问题的本质，观察指标还应具备一定的特异性。例如，在诊断糖尿病时，测定血糖的特异性就比测定尿糖的特异性要高。实验效应指标应当同时兼顾其灵敏性和特异性，尽量使灵敏性和特异性都高。2)指标的观察（1)对实验效应的观察应避免偏倚有关偏倚及其控制方法见第十一章第二节。（2)应注意处理与效应的关系处理与效应之间往往存在一定关系，特别是药理或毒理实验研究中，处理与效应通常呈“S”型，低于某剂量的处理不引起机体反应；强处理时，机体反应出现一个峰值；再加强处理机体反应不再增加。在两个极值之间存在一个正比关系。如，做毒理学实验应选择一个合适的实验剂量。第六节实验设计的基本原则在实验设计中，应当严格遵守对照、随机、重复和均衡四个基本原则。1、对照的原则1)设立对照的意义设立对照组的的意义在于使实验组和对照组内的非处理因素的基本一致，即均衡可比。对照的意义还可以用以下符号表达：实验效应是与混在一起的，实验设计的主要任务是如何使能单独显示出来。设立对照，使实验中两组（或多组)的均衡，即。这样，实验组的效应就可以显示出来。：处理因素；与：相同的非处理因素；：与之差；：实验效应，与是与的影响结果；：与之差的效应。这样，通过对照就消除了非处理因素对实验效应的影响。2)对照的基本形式对照的形式有多种，可根据研究目的和内容加以选择，常用的有下列几种。（1)空白对照对照组不施加任何处理因素。例如，观察某种疫苗预防肾综合征出血热的效果，选择人口数量和构成、发病水平、地理环境、主要宿主鼠类基本相似的两个疫区，一个作为试验区，在人群中接种疫苗，另一个作为对照区，不施加任何干预措施，处理因素完全空白。这种对照只有在处理因素很强，非处理因素很弱的情况下才能使用。在临床试验中，一般不用空白对照。（2)实验对照对照组不施加处理因素，但施加某种实验因素。如观察\t"/kecheng/2013/_blank"赖氨酸对儿童发育的影响，实验组儿童课间加食含赖氨酸的面包，对照组儿童课间加食不含赖氨酸的面包。处理因素是赖氨酸，非处理因素的面包量两组是相同的。（3)标准对照不设立专门的对照组，而是用现有标准值或正常值做对照。在临床试验中常以某疗法为标准对照组，这种对照应注意标准组必须是代表当时水平的疗法，切不可用降低标准组的方法使实验效应提高。但实验研究一般不用标准对照，因为实验条件不一致，常常影响对比效果。（4)自身对照对照与实验在同一受试者身上进行，如用药前后作为对比。一般情况下还要求设立平行对照组。（5)相互对照这种对照不设立对照组，而是两个或几个试验组相互对照。例如用\t"/kecheng/2013/_blank"莫雷西嗪治疗冠心病、\t"/kecheng/2013/_blank"高血压、心肌病和失调症引起的室性早搏时，设立冠心病组、高血压组、心肌病组和失调症组四个治疗组，相互比较它们的疗效。（6)配对对照把研究对象条件相同的两个配成一对，分别给以不同的处理因素，对比两者之间的不同效应。配对对照常用于动物实验，临床试验也可采用，但严格地说，很难找到相同或十分相似的对子。（7)历史对照以本人过去的研究或他人研究结果与本次研究结果做对照。除了非处理因素影响较小的少数疾病外，一般不宜使用这种对照。用时要特别注意资料的可比性。2、随机的原则1)随机的意义所谓随机，就是每一个受试对象都有同等的机会被分配到任何一个组中去，分组的结果不受人为因素的干扰和影响。实验设计中必须贯彻随机化原则，因为在实验过程中许多非处理因素在设计时研究者并不完全知道，必须采用随机化的办法抵消这些干扰因素的影响。2)随机化的实施实验设计中所指的总体不是泛指的无限总体，而是根据研究假设的要求规定的纳入标准，如动物的体重、年龄、病人的病情、经济条件、父母的文化程度等所选择的受试对象（即本次实验的有限总体)，再把这些受试对象随机分入实验组和对照组中，以增强可比性，称为随机分配（randomizedallocation)。随机化的实施就是如何进行随机分配。随机化的方法有多种，最简单的如抽签。但在实验设计中广泛应用随机数字表和随机排列表。（1)随机数字表和随机排列表随机数字表表内数字相互独立，全部数字无论从横行、纵行或斜向等各种顺序均呈随机状态。因此，使用时可从任何一个数字开始，按任意一个顺序录用。例如，拟将12只大鼠随机分入甲、乙两组，每组6名。应先把受试者按体重由小到大编号，然后从随机数字表任意一处查出12个随机数，遇到相同的随机数则去掉（如从“随机数字表“第35行第1列向右查)。并将随机数由小到大编秩（秩次R)，令R为1～6者分入甲组，R为7～12者分入乙组。动物编号123456789101112随机数字699206341359717417322755秩次R912162810113547分组结果乙乙甲甲甲乙乙乙甲甲甲乙随机排列表随机排列表比随机数字表更有实用性。它可以简便地将受试对象随机分配到实验所要求的各组中去，也可以对处理因素进行随机排列，但不适用于随机抽样研究。本表共有n分别为10、20、30、40、50、100等不同自然数排列而成的六种随机排列表，本教材引用n为20的随机排列表。是每行或每列数字与顺序的等级相关系数，越小表示数字排列随机化程度越好。例如，将10只小鼠随机分入甲、乙两组。先将小鼠按体重由小到大编号，然后任意取n为20随机排列表中的任意一行或一列随机数，遇到大于或等于10的随机数则舍去。本例取随机排列表中第6行，令单号分入甲组，双号分入乙组。动物编号：12345678910随机数字：2814309675分组结果：乙乙甲乙甲乙甲乙甲甲所以，第3、5、7、9、10只小鼠被分入甲组，第1、2、4、6、8只小鼠被分入乙组。（2)几种常用随机分组方法大样本完全随机分组适用于每组例数大于100时的情况。方法是每个受试者给一个3位数的随机数，规定随机数区间：分两组（等概率)000～499500～999分三组（等概率)000～332333～665666～998分四组（等概率)000～249250～499500～749750～999分五组（等概率)000～199200～399400～599600～799800～999余类推，多余的随机数可忽略，如分三组时取000～998，分六组时取000～995之间的随机数。在有些特殊情况下需进行不等概率分组时，可按比例调整随机区间。如按1:2分组，A组的随机数区间为000～333，B组为334～999；按1:3分组，A组为000～249，B组为250～999。在临床试验中，不等概率分组的比例不能超过1:3。表13.1是1:2完全随机分组举例。表13.1300例受试者1:2完全随机分组举例受试者编号1234567891011…300随机数849140539006860347323387563678253…961处理BABABBABBBA…B表13.2等概率随机分组例数分布的抽样试验随机数区间总例数100200300400600800100015002000000～09911233036587793144191100～1996172938546890137180200～299142535477092113172226300～39992030425987106157216400～499102339507292118165218500～599122334436990112146193600～69910182834527995149203700～7999172839627999147189800～8996121731456683138193900～99913223040597091145191最小例数分2组5092137187287384480725969（50)（100)（150)（200)（300)（400)（500)（750)（1000)分5组17344771104136174281371（20)（40)（60)（80)（120)（160)（200)（300)（400)备注：括号内为每组理想例数。对于完全随机分组，各组例数没有必要调整到理想情况（如等概率分组两组例数相等)。表13.2的抽样试验结果还说明，当每组例数达到100例时，各组例数应该是大体相当的。万一出现比例严重失衡的情况，如200例等概率分组时，出现85:115或更不平衡的情况（出现概率小于0.05)，需重新分组。随机数区间总例数100200300400600800100015002000000～09911233036587793144191100～1996172938546890137180200～299142535477092113172226300～39992030425987106157216400～499102339507292118165218500～599122334436990112146193600～69910182834527995149203700～7999172839627999147189800～8996121731456683138193900～99913223040597091145191最小例数分2组5092137187287384480725969（50)（100)（150)（200)（300)（400)（500)（750)（1000)分5组17344771104136174281371（20)（40)（60)（80)（120)（160)（200)（300)（400)备注：括号内为每组理想例数。对于完全随机分组，各组例数没有必要调整到理想情况（如等概率分组两组例数相等)。表13.2的抽样试验结果还说明，当每组例数达到100例时，各组例数应该是大体相当的。万一出现比例严重失衡的情况，如200例等概率分组时，出现85:115或更不平衡的情况（出现概率小于0.05)，需重新分组。表13.3n个区组随机排列结果区组（入院时间)随机数随机数序号随机排列结果患者1患者2患者3患者1患者2患者3患者1患者2患者31690175213BAC2186581123ABC3852250312CAB4885076312CAB5058724132ACB6906416321CBA方法2当处理数k较小时（如k<5)，由方法1得到的区组内处理的排序顺序可能出现重复，如表13.3中的区组3和4。此时，可用表13.4中全排列顺序确定各区组的排列方式。表13.4k=3，4时区组内处理的全排列K=31ABC2ACB3BAC4BCA5CAB6CBAK=41ABCD2ABDC3ACBD4ACDB5ADBC6ADCB7BACD8BADC9BCAD10BCDA11BDAC12BDCA13CABD14CADB15CBAD16CBDA17CDAB18CDBA19DABC20DACB21DBAC22DBCA23DCAB24DCBA例如，当k=3时，对5个区组内A，B，C三种处理进行随机排列。取6个随机数：498，739，853，994，563，479，排序结果位2，4，5，6，3，1，查表13.4对应的序号，第一个区组的对应的序号是2，排列方式为ACB，第二个区组的对应的序号是4，排列方式为BCA，第三个区组的对应的序号是5，排列方式为CAB，第四个区组的对应的序号是6，排列方式为CBA，第五个区组的对应的序号是3，排列方式\t"/kecheng/2013/_blank"为BAC。当k=2时（配对设计)，因排列方法只有2种，即AB和BA，可用每个对子随机数的奇偶决定，但为了保证所有对子中这两种顺序出现机会均等，还可采用分段随机数分组的方法。分段随机分组分段随机分组的基本思想是利用随机数生成若干数目相同的随机排列序列，再根据序列号进行分组，其目的是使分组结果达到预想的例数分配，既适用于小样本又适用于大样本。基本步骤是：①将分组过程分多个阶段进行，每个阶段只对m个试验材料随机分组。m必须是处理数的倍数，为了保证随机效果，m最好是处理数的5倍以上；②取m个3位随机数从小到大排序，得序号R；③规定R所对应的处理，如20个动物等分为两组，则R：1～10为A组，R：11～20为B组。15名患者按1：2分为两组，则R：1～5为A组，R：6～15为B组。18名患者等分三组，R：1～6为A组，R：7～12为B组，R：13～18为C组。余类推。④将m个观察对象分配完毕以后，再按以上方法对下一批m个观察对象分组，直至分组结束。例如，将200名受试者随机等分为两组。令m=10，需分20段完成全部分组。规定每段随机排列序号R对应处理，R：1～5为A组，R：6～10为B组，第1和第2阶段的分组结果见表13.5。表13.5分段随机分组举例受试者序号第1阶段分组结果12345678910随机数421333459418384400213391754318R83974615102处理BABBABAABA受试者序号第2阶段分组结果12345678910随机数391910351024425293361660081911R69417358210处理BBAABAABAB由表13.5第2阶段分组结果可看出，若采用随机数的奇偶数决定组别，则有7个奇数，3个偶数，不能达到每组例数相等的分组结果，但用随机数排列序号R分组，可保证各组例数相等。配对设计时亦可采用此方法，如20个对子，预先规定R：1～10时处理排列顺序为AB，R：11～20时为BA。同理，当单位组个数n大于表5中的排列方式数时，亦可采用分段随机分组的方法，并规定m=k！，以最大限度地减少相同排列的重复次数。3、重复原则所谓重复，就是实验要有足够的样本含量。重复是消除非处理因素影响的又一重要手段。1)影响样本含量大小的因素实验所需的样本含量取决于以下4个因素：（1)假设检验的第Ⅰ类错误的概率（检验水准)取值越小，实验所需的样本含量越大。（2)假设检验的第Ⅱ类错误的概率（检验水准)取值越小，实验所需的样本含量越大。另外，如果把第Ⅱ类错误的概率定为，那么就是假设检验的检验效能（power)，即处理组间实际上有差别，且假设检验结果能发现该差别的概率，通常检验效能取值为0.80，0.90，0.95或0.99。检验效能越大，实验所需的样本含量越大。（3)处理组间的差别处理组间的差别越小，实验所需的样本含量越大。（4)实验单位的标准差实验单位的标准差越大，实验所需的样本含量越大。2)确定样本含量时应当具备的条件（1)建立检验假设。（2)定出检验水准和检验效能首先确定本次实验中允许犯第Ⅰ类错误的概率，通常取；同时还应明确是单侧或双侧检验。然后，在特定的检验水准条件下（比如)，确定检验效能，通常定为0.80，根据需要有时可以定为0.90或0.75。但是，在科研设计时检验效能不宜低于0.75，否则检验的结果很可能反映不出总体的真实差异，出现非真实的阴性结果。确定检验水准和检验效能，实际上是如何确定假设检验时犯第Ⅰ类错误的概率和第Ⅱ类错误的概率，和的大小应根据第Ⅰ类错误和第Ⅱ类错误的危害性来决定。以新药疗效论证的临床试验为例，第Ⅰ类错误是将疗效与对照药本无差别的新药看作对照药的替代品，第Ⅱ类错误是将疗效优于对照药的新药看作与对照药的疗效相同。如果新药的生产成本低于对照药且副作用比对照药小，不妨将和定得小一些，如，。反之，若新药的生产成本高于对照药或副作用比对照药大，应将定的略小一些，定得大一些，如，。检验效能就是优秀药物经过实验被发现的概率。当研究者倾向接受时，应取较大的值，如0.95，0.99。（3)确定所比较的总体参数间的差值和总体标准差例如，比较两总体均数或总体率的差异时，应当知道总体间的差值的信息。如两总体均数间的差值的信息。两总体率间的差值的信息。有时研究者很难得到总体参数的信息，可以用专业上（临床上)认为有意义的差值代替，如平均舒张压的差值0.69kPa(5mmHg)等。当然，也可以根据试验的目的认为规定，如规定实验的新药有效率超过标准药物有效率的30%才有推广意义等。此外，确定两均数比较的样本含量还需要估计总体标准差的信息。还可以通过预试验，获得样本间的差值和样本标准差做为总体参数间的差值和总体标准差的估计值进行样本含量的估计。3)确定样本含量的用途（1)估算达到有统计学意义的最低样本含量例如，根据文献报道\t"/kecheng/2013/_blank"血吸虫病人血红蛋白平均含量为90g/L,标准差为25g/L,现欲观察呋喃丙胺治疗后能否使血红蛋白增加。规定治疗后血红蛋白至少增加10g/L以上为有效，（双侧)，，问应治疗多少病人？回答这一问题可用下面的公式进行估算：=10g/L，=25g/L,

，单侧例。（2)估计检验效能对于现有的实验结果，已知样本含量，可以根据总体的差值估计实验的检验效能是否够大。例如，在查阅文献和借鉴前人经验时，若其假设检验的结果为，则做出无统计学意义的“阴性”结论时，研究者则面临着犯第Ⅱ类错误的可能性，应当考虑是否总体间的差异确实存在，有可能由于检验效能不足而未能把总体中确有的差异反映出来。目前，许多国际会议对于假设检验中做出的“阴性”结论，应附有犯第Ⅱ类错误的概率为据，因而有必要介绍估计检验效能的方法。例如，两样本均数比较的资料，当两样本例数相等时可用下式计算其检验效能：式中为两组合计例数。（3)估计总体参数的差异（)根据已知条件初步确定样本含量，并规定期望的检验效能为0.90，估计总体参数的差值，例如，两样本均数比较4)常用的估计样本含量的方法当研究者确定和，并对和做出估计后，就可以根据设计类型和要求估计样本含量。（1)样本均数与总体均数的比较确定和后，令，为实验结果的总体标准差，样本含量的计算公式为：（13.1)其中，为实验所需的样本含量，有单双侧之分，只取单侧，和为相应的正态分位数。例13.1据文献报道，\t"/kecheng/2013/_blank"脑血栓形成后血浆纤维蛋白浓度的均数和标准差分别为4.3（g/L)和1（g/L)。现试验一治疗措施，期望试验结果至少使血浆纤维蛋白浓度平均下降1(g/L),问至少需要观察多少病例？解：用公式13.1计算，取，，又知，。由标准正态分布表查出单侧界值,单侧，代入公式，因此，该治疗方案至少需要治疗16例病人作为样本。（2)配对设计和交叉试验的样本含量估计配对试验和交叉试验估计样本例数的公式为:(13.2)式中，为实验所需的对子数目，是每对观察对象差值的标准差，为期望能达到的最小差值，有单双侧之分，只取单侧，和为相应的正态分位数。例13.2研究碳酸铝对白细胞减少症的治疗效果,期望治疗后比治疗前平均增加/L,已知标准差为,规定(双侧检验),,求样本含量.解:用公式13.2计算，由标准正态分布表查出双侧界值,单侧，代入公式，可取15个患者参加试验。（3)两样本均数比较两样本均数比较的完全随机设计分两组例数相等和两组例数不等两种情形，但当两组例数相等时检验效能最高，设计时应尽量使两组例数相等，对于两组例数不等的情形，应使两组例数相近。这里仅介绍两组例数相等时的样本含量估算方法。公式为：（13.3)式中，为每组所需的样本例数，其它符号的意义同公式（13.1)。例13.3用新药降低高血脂患者的胆固醇，研究者规定试验组与对照组（安慰剂)相比，血清胆固醇平均降低0.5mmol/L以上才有推广价值。引用文献中胆固醇的标准差为0.8mmol/L，规定(单侧检验),,求每组所需例数。解：用公式13.3计算，取，，又知，。由标准正态分布表查出单侧界值,单侧，代入公式，所以，每组需要44例。（4)样本率与总体率的比较确定和后，为历史对照的总体率，为实验结果的总体率，，令，为实验结果的总体标准差，样本含量的计算公式为：（13.4)式中，为所需的样本含量，有单双侧之分，只取单侧，和为相应的正态分位数。例13.4已知常规治疗某病的有效率为80%，现试验一种新疗法，预计有效率为90%，规定(单侧检验),,求所需例数。解：，，，单侧界值,单侧，代入公式（13.4)所需样本例数为137例。（5)两样本率的比较两样本均数比较的完全随机设计有两组例数相等和两组例数不等两种情形，但当两组例数相等时检验效能最高，设计时应尽量使两组例数相等，对于两组例数不等的情形，应使两组例数相近。这里仅介绍两组例数相等时的样本含量估算方法。公式为：（13.5)式中，为两组总例数，每组的例数为，和分别代表两组的总体率，表示两组的合并率。有单双侧之分，只取单侧，和为相应的正态分位数。例13.5用旧药治疗慢性肾炎的近控率为30%，现实验新药的疗效，要求新药的近控率达到50%才能推广应用使用，二者合并率为40%，（单侧)，，问每组需要多少病例？解：已知，，，单侧界值,单侧，代入公式（13.5)所以，每组各取103例参加试验。（6)配对计数资料配对计数资料的整理格式如表13.6，一般用检验进行处理。其样本含量的估算见公式(13.6)。表13.6A、B两种检验方法比较A法B法合计+-+aba+b-cdc+d合计a+cb+da+b+c+d（13.6)式中，为实验所需的对子数，，，，有单双侧之分，只取单侧，和为相应的正态分位数。例13.6已知某菌种接种于甲、乙两种培养基的结果如下：甲培养基阳性、乙培养基阴性的，甲培养基阴性、乙培养基阳性的,（双侧检验)，，现准备研究一种新的与该菌种相似的菌种，问需观察多少样本对子数？解：，，，双侧界值,单侧，代入公式（13.6)所以，该实验至少应取57对样品。（7)多个样本均数比较多个样本均数比较的设计类型有多种，这里仅介绍各组例数相等的完全随机设计和随机区组设计的多个样本均数比较的样本含量估算方法。公式为：(13.7)式中为各组样本所需例数，和分别为第个样本的均数和标准差的初估值，，为组数。值由值表查得。先以和，，，查得代入公式(13.7)求得，第二次由，查得，代入公式(13.7)中求，访此进行，直至前后两次求得结果趋于稳定为止，即为所求的样本例数。以上为完全随机设计时的值求法，当为随机区组设计时，第一次，公式(13.7)中的用误差均方代替。例13.7某医院为研究三种药物的退药效果，经预试验得到药物退热时间（天)的分别为，，。给定，，问正式试验各组需观察多少病例？解：，，，，，，，，，则以，，查值表，，代入公式(13.7)计算，查值表得，再代入公式(13.7)计算，查值表得，再代入公式(13.7)计算这时，，所以，正式试验时每组至少需观察19例病人。（8)多个样本率比较多个样本率比较的设计类型有多种，这里仅介绍各组例数相等的完全随机设计的多个样本率比较的样本含量估算方法。公式为：（13.8)式中为每个样本所需观察例数，和分别为最大率和最小率，当仅知最大率和最小率差值时，则取，，是给定、和自由度，由值表查得，为组数。公式中平面角的单位是弧度。例13.8某研究者拟观察A、B、C三种治疗方法治疗某病的治疗效果，预试验结果为：A法有效率54.8%，B法有效率28.46%，C法有效率14.9%，问正式试验各组需观察多少例病人？解：，，以，，，查值表得，代入公式(13.8)中所以每组各需33例病\t"/kecheng/2013/_blank"人参入试验。（9)估计总体均数确定后，令为期望估计误差的最小值，为总体标准差，样本含量的计算公式为：（13.9)式中为所需的样本含量，有单、双侧之分，为相应的正态分位数。例13.9某研究者拟用单纯抽样方法了解某地区成年男子血红蛋白的平均水平，希望误差不超过2g/L，根据文献，血红蛋白的标准差约为25g/L,如（双侧)，问需调查多少病人？解：代入公式（8.9)所以，需调查600人。（10)估计总体率确定后，令为期望估计误差的最小值，为总体率的标准差，样本含量的计算公式为：(13.10)式中为所需的样本含量，有单、双侧之分，为相应的正态分位数。例13.10据以往调查结果，高血压的患病率为8%，某研究者欲了解某地高血压的患患病率，希望误差不超过2%，问需调查多少人？解：取（双侧)，，，，代入公式(13.10)得所以，需要调查707人。（11)直线相关分析的样本含量如果实验设计的目的是观察变量之间的相关关系，则需要用如下公式估算用于相关分析的样本含量。（13.11)式中，为相关分析的样本例数，为估计的总体相关系数，有单双侧之分，只取单侧，和为相应的正态分位数。例13.11研究健康儿童发硒（X，1000ppm)与血硒（Y，1000ppm)的相关关系，根据参考文献报道，总体相关系数，问需要抽取多少名儿童作相关分析？解：已知，规定(双侧检验),,双侧界值,单侧，代入公式（13.11)所以，需要抽取9名儿童作相关分析。有关两相关系数的比较，生存率分析等的样本含量估算方法参见有关书籍。4、均衡原则1)均衡的意义所谓均衡，就是要设法使各条件（即实验因素的各水平组合)下的受试对象受到非处理因素的干扰和影响的机会和数量基本相等。这样以来，由各组受试对象反映出来的实验效应才能较为客观地体现出处理因素因素取不同水平时所产生的效果。2)均衡对照的实施对照的一个极其重要的前提是对照必须是均衡的。贯彻均衡的原则就是对照组除了缺少一个处理因素外，其它条件应与实验组均衡一致。这就是上述对照原则中表述的的原则。均衡性越好，就越能显示出试验组处理因素所产生的效应，从而可以减少非处理因素对实验结果的影响。在实验（或试验)设计中，没有对照就无法比较鉴别，有了对照没有遵循均衡原则也同样得不到正确的结论。例如，有人在研究耐力训练与提高战士体质的关系时，设计了如下实验：以血乳酸为主要观察指标，用20名连队的战士按训练方案进行耐力训练，以机关同龄的20名战士为对照，对照组进行日常活动，观察经4周训练后，两组战士进行一定的运动时血乳酸的变化，结果如表13.7：表13.7：两组战士训练前后血乳酸（mg/L)的观察结果组别训练前训练后训练组38.2±3.533.1±3.1**##对照组40.0±4.038.9±3.5**与训练前比P<0.01##与对照组比P<0.01因而，所给出的耐力训练提高了战士的耐力的结论毫无意义。因人们早就认识到了训练和不训练不一样。应研究不同训练方案对提高战士体质之间的差别有无显著性意义，以探索最大限度地提高战士体质的最佳方案。另外，分组时，连队战士和机关战士都应随机抽取，然后将各自的样本含量的一半随机分入试验组和对照组。该设计和结论，从逻辑上讲是合理的，然而仔细考虑后就会发现有严重的缺陷。主要问题是对照选择不合理，使训练组和对照组的非处理因素不均衡。本试验中，对照组除训练因素外，其他应尽可能与试验组一致，而机关战士和连队的战士由于工作性质不同，体能的基础可能存在较大的差别，一开始两组之间就不具备均衡原则。第七节常用的实验设计方法

1、完全随机设计（completelyrandomdesign)：不考虑个体差异的影响，仅涉及一个处理因素，但可以有两个或多个水平，所以亦称单因素实验设计。该设计常用于将受试对象按随机化原则分配到处理组和对照组中，各组样本例数可以相等，也可以不等，但相等时效率高。完全随机设计的优点是设计和统计分析方法简单易行；缺点是只分析一个因素，没有考虑个体间的差异，因而要求各观察单位要有较好的同质性，否则，需扩大样本含量。设计：先将实验对象编号，按预先规定，利用随机排列表或随机数字表产生的随机数字将实验对象随机分配到各组中去（用随机排列表进行分组时，各组例数相等；用随机数字表进行分组时，各组例数常不相等，故常用前者)。1)用随机排列表分组例13.12按完全随机设计方法将10只小鼠随机分配到甲、乙两组。先将小鼠按体重由小到大编号；再从随机排列表中任意指定一行，如第3行，依次将0～9之间的随机数字录于小鼠编号下（遇9以上的数字应舍去)；按预先规定，将随机数字为奇数者分到甲组，偶数者分到乙组。分组情况如下：动物编号12345678910随机数字1203874596组别甲乙乙甲乙甲乙甲甲乙随机分组的结果是第1、4、6、8、9号小鼠被分到甲组；第2、3、5、7、10号小鼠被分到乙组。例13.13按完全随机设计方法将15名患者随机分为甲、乙、丙三组。先按患者的就诊顺序编号；再从随机排列表中任意指定一行，如第21行，依次将0～14之间的随机数字录于各患者编号下（遇14以上的数字应舍去)；按预先规定，将随机数字为0～4的患者分入甲组，5～9的患者分入乙组，10～14的患者分入丙组。结果如下：患者编号123456789101112131415随机数字12138470111514361092处理组别丙丙乙甲乙甲丙甲乙丙甲乙丙乙甲随机分组的结果是第4、6、8、11、15号患者分入甲组，第3、5、9、12、14号患者分入乙组，第1、2、7、10、13号患者分入丙组。2)用随机数字表分组例13.14按完全随机设计方法将10只小鼠随机分配到甲、乙两组。先将小鼠按体重由小到大编号；再从随机数字表中任意指定某行某列，如从第31行13列开始，向右抄录10个两位数的随机数字，依次录于小鼠编号下；按预先规定，将随机数字为奇数者分到甲组，偶数者分到乙组。分组情况如下：动物编号12345678910随机数字18045235562709248661组别乙乙乙甲乙甲甲乙乙甲随机分组的结果是第4、6、7、10号小鼠被分到甲组，第1、2、3、5、8、9号小鼠被分到乙组。例13.15按完全随机设计方法将15名患者随机分为甲、乙、丙三组。先按患者的就诊顺序编号；再从随机数字表中任意指定某行某列，如从第6行29列开始,向右录入15个两位数的随机数字，并依次列于各患者编号之下；最后将随机数字从小到大编秩后得序号R，并规定R：1～5者为甲组，6～10者为乙组，11～15者为丙组。结果如下：患者编号123456789101112131415随机数字884534284491207936317018688558序号R148537152126411110139处理组别丙乙甲甲乙丙甲丙乙甲丙甲乙丙乙注意：①随机数字的位数不应小于n的位数，遇有相同的随机数字应舍去。②如果设计上需要各组例数不相等时，可利用R调整各组例数。如,若要求例13.15中甲组8例、乙组4例、丙组3例时，可规定R：1～8者为甲组，9～12者为乙组，13～15者为丙组。③当n较大时（如n>100)，可用计算机排列出随机数字的序号R。例如，将120个实验单位随机分为甲（50例)、乙（50例)、丙（20例)三组时，利用计算机给出随机数字的排列序号R，并规定R：1～50者为甲组，51～100者为乙组，101～120者为丙组。2、配对设计与配伍组设计：先按配比条件将受试对象配成对子或区组，再将各对或各区组中的个体按随机分配的原则给予不同的处理。该类设计考虑了个体差异的影响，可分析处理因素和个体差异对实验效应的影响，所以又称两因素实验设计，比完全随机设计的检验效率高。1)设计：（1)配对设计（paireddesign)配对设计是将受试对象按配对条件配成对子，每对中的个体接受不同的处理。配对设计一般以主要的非实验因素作为配比条件，而不以实验因素作为配比条件。动物实验中，常将同性别、同窝别、体重相近的两个动物配成一对；人群试验中，常将性别和年龄、生活条件、工作条件相同或相近的两个人配成对子，再按随机化原则把每对中的受试对象分别分配到实验组和对照组，或不同处理组。此外，某些医学实验研究中的自身对照也可看作是配对设计，如某指标治疗前后的比较；同一受试对象不同部位、不同器官的比较；同一标本不同检测方法的比较。例13.16试将已配成10对的20名受试者随机分配到甲、乙两处理组。先将受试者编号，如第一对第一受试者编号为1.1，第二受试者编号为结果如下：患者编号123456789101112131415随机数字884534284491207936317018688558序号R148537152126411110139处理组别丙乙甲甲乙丙甲丙乙甲丙甲乙丙乙注意：①随机数字的位数不应小于n的位数，遇有相同的随机数字应舍去。②如果设计上需要各组例数不相等时，可利用R调整各组例数。如,若要求例13.15中甲组8例、乙组4例、丙组3例时，可规定R：1～8者为甲组，9～12者为乙组，13～15者为丙组。③当n较大时（如n>100)，可用计算机排列出随机数字的序号R。例如，将120个实验单位随机分为甲（50例)、乙（50例)、丙（20例)三组时，利用计算机给出随机数字的排列序号R，并规定R：1～50者为甲组，51～100者为乙组，101～120者为丙组。2、配对设计与配伍组设计：先按配比条件将受试对象配成对子或区组，再将各对或各区组中的个体按随机分配的原则给予不同的处理。该类设计考虑了个体差异的影响，可分析处理因素和个体差异对实验效应的影响，所以又称两因素实验设计，比完全随机设计的检验效率高。1)设计：（1)配对设计（paireddesign)配对设计是将受试对象按配对条件配成对子，每对中的个体接受不同的处理。配对设计一般以主要的非实验因素作为配比条件，而不以实验因素作为配比条件。动物实验中，常将同性别、同窝别、体重相近的两个动物配成一对；人群试验中，常将性别和年龄、生活条件、工作条件相同或相近的两个人配成对子，再按随机化原则把每对中的受试对象分别分配到实验组和对照组，或不同处理组。此外，某些医学实验研究中的自身对照也可看作是配对设计，如某指标治疗前后的比较；同一受试对象不同部位、不同器官的比较；同一标本不同检测方法的比较。例13.16试将已配成10对的20名受试者随机分配到甲、乙两处理组。先将受试者编号，如第一对第一受试者编号为1.1，第二受试者编号为样误差；②该类设计增加了区组信息，可以减少样本含量，提高统计效率。（2)缺点：①由于受配对或配伍条件的限制，有时难以将受试对象配成对子或配伍组，从而损失部分受试对象的信息；②即使区组内有一个受试对象发生意外，也会使统计分析较麻烦；③自身配对时，2种处理施加于受试对象的顺序效应会混杂在实验效应中。要避免这一情况，可采用交叉设计。3、交叉设计（cross-overdesign)：是在自身配对设计基础上发展起来的。该设计考虑了一个处理因素（A、B两水平)，两个与处理因素无交互作用的非处理因素（试验阶段和受试对象)对试验结果的影响。1)设计：首先将条件相近的观察对象配对并依次编号（如1.1，1.2；2.1，2.2；3.1，3.2；……或1,2；3,4；5,6；……)，再用随机的方法将各对观察对象分配到A、B两组；其中一个观察对象在第Ⅰ阶段接受A处理，第Ⅱ阶段接受B处理；另一个观察对象在第Ⅰ阶段接受B处理，第Ⅱ阶段接受A处理。因而要求观察对象的例数为偶数。由于A、B两种处理在全部试验过程中“交叉”进行，故称为交叉试验设计。该设计中A、B处理方式处于先后两个试验阶段的机会是均等的，因而平衡了试验顺序的影响；能把处理方法之间的差别与时间先后之间的差别分开来分析。例13.18某研究者在针刺麻醉研究中，欲通过12只大白鼠研究A、B两种参数电针刺激后痛域值上升情况，同时还考虑了个体差异与A、B顺序对痛域值的影响。根据此研究目的，用何种实验设计方法为宜，并作分组设计。根据研究者的研究目的，该试验宜用交叉设计，其分组设计如下：先将12只大白鼠按条件相近者配对并依次编号（1.1,1.2；2.1,2.2；3.1,3.2；……或1,2；3,4；5,6；……)，再任意指定随机数字表中的任一行（如第6行)，并规定随机数字为奇数时，对子中的单号观察单位先用A后用B，双号观察单位先用B后用A；随机数字为偶数时，对子中的单号观察单位先用B后用A，双号观察单位先用A后用B。大白鼠号123456789101112随机数字932253643907用药顺序ABBABAABABBABAABABBAABBA2)适用条件及应注意的问题：（1)处理因素只有2水平（A、B)，且两个非处理因素（试验阶段、受试对象)与处理因素间无交互作用。（2)试验要求两个阶段之间必须安排一定的间隔时间，以便消除前阶段治疗措施的残留效应（carry–overeffect)，保证两阶段的起始条件一致。间隔时间的长短决定于药物从体内的排除时间(washouttime)。可参照药典或预试验中药物在血清中的衰减速度，决定其间隔时间；（3)两次观察的时间不能过长，处理效应不能持续过久；（4)适用于病情较稳定、病程可以分阶段、短期治疗可见疗效的疾病；（5)为消除患者的心理作用或防止研究者的暗示，一般多采用\t"/kecheng/2013/_blank"盲法。3)优点：（1)具备自身配对的全部优点，如减少个体差异对处理因素的影响，节省样本含量等；（2)能控制时间因素（试验阶段)对处理方式的影响，因而优于自身对照设计；（3)各试验对象皆接受了试验因素和对照，符合医德要求。4、拉丁方设计（Latinsquaredesign)：是按拉丁方阵的字母、行和列安排实验（或试验)的三因素等水平的设计。该设计同时考虑三个因素对试验结果的影响。利用拉丁方阵安排实验（或试验)。拉丁方阵亦称γ阶拉丁方或γ×γ拉丁方，是用γ个拉丁字母排成γ行γ列的方阵，每个字母在每行每列中只出现一次。如4×4拉丁方：ABCDBCDACDABDABC1)设计：（1)设计的基本要求：①必须是三个因素的实验，且三个因素的水平数相等（若三因素的水平数略有不同，应以主要处理因素的水平数为主，其它两因素的水平数可进行适当调整)；②三因素间是相互独立的，均无交互作用；③各行、列、字母所得实验数据的方差齐。（2)设计步骤：①根据主要处理因素的水平数，确定基本型拉丁方，并从专业角度使另两个次要因素的水平数与之相同；②先将基本型拉丁方随机化，然后按随机化后的拉丁方阵安排实验。可通过对拉丁方的任两列交换位置，或/及任两行交换位置实现随机化；③规定行、列、字母所代表的因素与水平，通常用字母表示主要处理因素。例13.19某肿瘤研究所拟通过动物实验研究四种抗癌药物的抑癌作用，同时考虑四个不同剂量和不同瘤株对抗癌药物的作用。用何实验设计可达此研究目的？（实验过程是用四种瘤株匀浆接种小白鼠，七天后分别用四种抗癌药物，各取四种不同剂量腹腔注射，每日一次，连续10天，停药1天，处死后解剖测瘤重)本研究有三个因素：抗癌药物、剂量和瘤株，各因素皆有四水平，其中抗癌药物是主要处理因素；而且从专业角度知道三因素间无交互作用，可用拉丁方设计。其设计步骤如下：1.因三因素皆有四个水平，选用4×4基本型拉丁方。2.对4×4基本型拉丁方随机化：ABCDBCDACDABDABC第1、3列交换CBADDCBAADCBBADC第2、4行交换CBADBADCADCBDCBA3.规定行、列、字母所代表的因素与水平。本例规定：字母A、B、C、D分别代表四种不同的抗癌药物；列为瘤株种类，设Ⅰ、Ⅱ、Ⅲ、Ⅳ分别代表肉瘤180（S180)、肝肉瘤（HS)、艾氏\t"/kecheng/2013/_blank"腹水瘤（EC)和网状细胞瘤（ARS)；行为剂量，设1、2、3、4分别代表由小到大的四个不同剂量。其实验设计模型见表13.8，然后按随机化后的拉丁方阵安排实验：如第一行第一列为接种S180匀浆的小白鼠注射剂量为1的C抗癌药物；第一行第二列为接种HS匀浆的小白鼠注射剂量为1的B抗癌药物；依次类推。表13.84×4拉丁方设计的抗癌药物的实验模型剂量瘤株ⅠⅡⅢⅣ1CBAD2BADC3ADCB4DCBA2)优缺点（1)优点：①拉丁方的行与列皆为配伍组，可用较少的重复次数获得较多的信息；②双向误差控制，使观察单位更加区组化和均衡化，进一步减少实验误差，比配伍组设计优越。（2)缺点：①要求三因素的水平数相等且无交互作用。虽然当三因素的水平数不等时，可以通过调整次要因素的水平数以满足设计的要求，但有时无法达到；况且因素间可能存在交互作用，故在实际工作中有一定的局限性；②当因素的水平数（γ)较少时，易受偶然因素的影响。为了提高精确度，可应用m个γ×γ拉丁方设计（可参照有关统计学书籍)。5、析因实验设计（factorialexperimentaldesign)：是一种将两个或多个因素的各水平交叉分组，进行实验（或试验)的设计。它不仅可以检验各因素内部不同水平间有无差异，还可检验两个或多个因素间是否存在交互作用（interaction)。若因素间存在交互作用，表示各因素不是独立的，一个因素的水平发生变化，会影响其它因素的实验效应；反之，若因素间不存在交互作用，表示各因素是独立的，任一因素的水平发生变化，不会影响其它因素的实验效应。该设计是通过各因素不同水平间的交叉分组进行组合的。因此，总的实验组数等于各因素水平数的乘积。例如，两个因素各有3个水平时，实验组数为3×3=9；四个因素各有2个水平时，实验组数为24=16。所以，应用析因实验设计时，分析的因素数和各因素的水平数不宜过多。一般因素数不超过4，水平数不超过3。1)设计：常见的设计模型有2×2析因实验设计，2×2×2析因实验设计和2×2×3×2析因实验设计，在此仅介绍2×2析因实验设计。2×2析因设计属两因素析因实验设计，其它的两因素析因实验设计还有2×3，3×3，2×4，3×4等。两因素析因实验设计用于研究A、B两个因素内部不同水平间有无差异，特别是研究A、B因素间是否存在交互作用（A×B)的情况。2×2析因设计是指有两个因素，每个因素各有两个水平，共有4个组合。设A代表A因素1水平，A2代表A因素2水平；设B1代表B因素1水平，B2代表B因素2水平，交叉组合后的2×2析因设计模型如下：2×2析因实验设计模型B1B2A1A1B1A1B2A2A2B1A2B2例13.20某医师欲研究A、B两药是否有治疗\t"/kecheng/2013/_blank"缺铁性贫血的作用，以及两药间是否存在交互作用。用何试验设计可达到研究者的研究目的，并做出设计分组。该研究的目的是既要分析A、B两药是否有治疗缺铁性贫血的作用，又要分析两药间有无交互作用，可用析因实验设计。根据研究目的，设A、B两药皆有“用”与“不用”两个水平，符合2×2析因实验设计。用A1、A2和B1、B2分\t"/kecheng/2013/_blank"别表示“用”与“不用”A药和B药；按2×2析因设计有4个实验组，分别为A1B1、A1B2、A2B1和A2B2。考虑到A2B2是空白对照组，应加“一般疗法”，为保证各实验组的均衡性，其它组也应加“一般疗法”，设计分组如下：第一组（A1B1)：A药+B药+一般疗法第二组（A1B2)：A药+一般疗法第三组（A2B1)：B药+一般疗法第四组（A2B2)：一般疗法2)优缺点（1)优点：是一种高效率的实验设计方法，不仅能够分析各因素内部不同水平间有无差别，还具有分析各种组合的交互作用的功能。（2)缺点：与正交试验设计相比，属全面试验。因此，研究的因素数与水平数不宜过多。

第三章正态分布与参考值范围一、正态分布：

二、正态分布特征：1.正态曲线在横轴上方均数处最高,即频数最大2.正态分布以均数为中心，左右对称，无限接近于x轴3.曲线与横轴所围面积为1。正态曲线下面积分布有一定规律4.正态分布有两个参数：均数，标准差三、标准正态分布：标准正态分布的概率密度函数：u称为标准正态变量或标准正态离差，表示x与μ的差相当于多少个标准差单位任何正态变量X～N(μ,σ2)经过一个变换

便有u～N(0,1)。这个变换称为标准化变换,变换后的u称为标准化正态离差(standardizeddeviate)或称u值,实际上就是用标准差σ作单位来度量离均差的大小。四、正态曲线下面积的分布规律\t"/kecheng/2013/_blank"yishi/正态曲线下一定区间的面积

一般统计学书籍均附有标准正态分布的分布函数Φ(u)表。借助这个表格可以得到任何区间上标准正态分布曲线下的面积,即变量落在该区间上的概率。为应用方便，将标准正态分布的双侧尾部面积之和等于α时所对应的变量值称为正态分布的双侧临界值，记为uα/2(zα/2)即P(｜u｜>uα/2)=α对数正态分布

原始数据经对数转化后服从正态分布，如正常成人血HYPERLINK"/pharm/2009/200901130602

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

南方医大医学统计学讲义

文档简介

温馨提示

最新文档

评论

南方医大医学统计学讲义

文档简介

温馨提示

最新文档

评论

相关文档