石大医学统计学讲义

上传人：东*** IP属地：云南上传时间：2022-11-15 格式：DOCX 页数：60 大小：369.42KB 积分：8.4 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

前言第一节医学统计学的含义1、医学统计学定义医学统计学（statistics）作为一门学科的定义是：关于医学数据收集、表达和分析的普遍原理和方法。2、医学统计学研究方法：通过大量重复观察，发现不确定的医学现象背后隐藏的统计学规律。3、医学统计推论的基础：在一定条件下,不确定的医学现象发生可能性，即概率。第二节、统计学的几个重要概念一．资料的类型1、计量资料（数值变量）：对每一观察对象用定量的方法，测定某项指标所得的资料。一般有度量衡单位，每个对象之间有量的区别。2、计数资料（分类变量）：对观察对象按属性或类型分组计数所得的资料。每个对象之间没有量的差异，只有质的不同。3、等级资料（有序分类变量）：对观察对象按属性或类型分组计数，但各属性或类型之间又有程度的差别。注意：不同类型的资料采用的统计分析方法不同；三类资料类型可以相互转化。二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体：只包括在确定时间、空间范围内的有限个观察对象。2、无限总体：没有时间、空间范围的限制，观察对象的数量是不确定的，无限的三、样本从总体中随机抽取部分观察对象，其某项变量值的集合。从总体中随机抽取样本的目的是:用样本信息来推断总体特征。四、随机事件可以发生也可以不发生，可以这样发生也可以那样发生的事件。亦称偶然事件。五、概率描述随机事件发生可能性大小的数值，记作Ｐ，其取值范围0≤P≤1，一般用小数表示。Ｐ＝0，事件不可能发生必然事件（随机事件的特例）；Ｐ＝1，事件必然发生；Ｐ→0，事件发生的可能性愈小；Ｐ→1，事件发生的可能性愈大六、小概率事件习惯上将Ｐ≤0.05或Ｐ≤0.01的随机事件称小概率事件。表示某事件发生的可能性很小。七、参数和统计量参数：总体指标，如总体均数、总体率，一般用希腊字母表示统计量：样本指标，如样本均数、样本率，一般用拉丁字母表示

八、学习医学统计学的方法1、重点掌握“四基”：基本知识、基本概念、基本原理和基本方法；2、重视统计方法在实际中应用，重视实习和综合训练；注意学习每种统计方法的应用范围、应用条件，大多数公式只要求了解其意义和使用方法，不用记忆和探究数理推导。第三节统计工作的基本步骤统计设计收集资料整理资料分析资料一、统计设计1、调查设计2、实验设计（详见第十三章）二、收集资料资料来源（1）统计报表（2）日常医疗工作原始记录和报告卡（3）专题调查三、整理资料1．目的将收集的原始资料系统化、条理化，便于进一步计算和分析2．整理分组方式（1）性质分组（2）数量分组三、分析资料1、统计描述2、统计推断第四节统计图表一、统计表1、统计表的作用代替冗长的文字叙述，便于计算、分析和对比。2、统计表的结构1）标题2）标目横标目（主语）：说明表各横行数字的涵义，通常列在表的左侧纵标目（谓语）：说明表各纵栏数字的涵义主语和谓语连贯起来能读成一句完整而通顺的话3、统计表的种类：1）简单表：只按单一变量分组2）组合表：按两个或两个以上变量分组某地1980年男、女HBsAg阳性率━━━━━━━━━━━━━━━━性别调查数阳性数阳性率(%)────────────────男42343037.16女45301814.00──────────────合计87644845.52━━━━━━━━━━━━━━━━4、列表原则：重点突出，简单明了；主谓分明，层次分明5、统计表的基本要求：1）标题：概括地说明表的内容，必要时注明资料的时间和地点，写在表上方。常见的缺点：过于简略，甚至不写标题；或过于繁琐；或标题不确切。2）标目：文字简明扼要，有单位的标目要注明单位。常见的缺点：标目过多，层次不清3）线条：不宜过多，除上面的顶线，下面的底线，纵标目与合计之间的横线外，其余线条一般均省去。表的左上角不宜有斜线。4）数字：

A、数字一律用阿拉伯数字表示B、同一指标的小数位数应一致，位次对齐C、表内不宜留空格，暂缺或未记录，用“…”表示，无数字，用“—”表示，数字为0，填写0D、绝对数太小而无法计算指标，则用“…”代替。5）备注：一般不列入表内，必要时可用“*”号标出，写在表的下面。二、统计图1、统计图作用：通过点、线、面等形式表达统计资料，直观地反映事物之间的数量关系。但需注意，由于统计图对数量的表达较粗糙，不便于作深入细致的分析，一般需附相应的统计表。2、常见统计图种类：条图、百分条图，圆图，线图，半对数线图，直方图，散点图3、制图的基本要求：1）按资料的性质和分析目的，选用适合的图形2）要有标题，扼要说明资料的内容，必要时注明时间、地点，一般写在图的下面。3）横轴尺度从左到右，纵轴尺度从下而上，数量一律由小到大。横轴与纵轴坐标长度比例一般为5：74）比较不同事物，用不同线条或颜色表示，并附上图例说明。4、常见统计图适用范围及其绘制要点1）条图：（1）适用范围：相互独立的资料，常用形式：单式和复式（2）绘制要点：A．用等宽的直条的长短反映各指标的数量大小。B．纵轴的尺度必须从0开始。C．各直条之间的间隙应相等，一般将比较的指标按大小顺序排列。2）百分条图：（1）适用范围：构成比资料（2）绘制要点：A．将长条全长为100%，B．将各百分构成比在长条上分割若干段，C．各段按大小顺序排列。3）圆图（1）适用范围：构成比资料（2）绘制要点：

A．将圆面积为100%，B．将各百分构成比乘以3.6度，变为圆心角度数，C．在圆上绘出各扇型面积D．各扇型面积按大小顺序排列。4）普通线图（1）适用范围：连续性资料（2）绘制要点：

A．纵横轴均用算术尺度，B．纵横轴尺度比一般为5：7C．相邻两点用直线连接。（3）意义：反映事物的变化趋势。5）半对数线图（1）适用范围：连续性资料（2）绘制要点：A．横轴用算术尺度，纵轴用对数尺度，B．纵横轴尺度比一般为5：7C．相邻两点用直线连接。（3）意义：反映事物的变化速度。6）直方图（1）适用范围：计量的频数表资料（2）绘制要点：A．横轴表示被观察事物，纵轴表示频数或频率，B．用等宽的矩形面积表示各组段的频数或频率7）散点图：（1）适用范围：双变量资料（2）分析目的：用点的密度程度和趋势表示两变量间的相关关系

绪论《医学统计学》的理论基础和研究对象：问题的提出：在人们的实践活动中，常常会遇到类似下面的一些问题：一种新的疫苗，如何判断它是否有效？吸烟会不会使得肺癌的机会增加？如何抽检几百或几千人来估计某种病的流行程度？某批产品中合格品究竟有多少？该不该报废？如何消耗最少的资源和人力来得到我们所需要的某种信息？某种实验方法（或饲料配方）有没有明显改进？患者分组是否具有可比性？所观察对象的数量是否足够说明其结论？试验结果的误差有多大？研究结果是否适用于观察样本以外的同类对象？……等等．其共同特点：只知道事情的不完全信息，或者是单个实验的结果有某种不确定性。例如：为了知道产品合格与否或它的使用寿命，我们常常需要对它作破坏性检验，此时显然不能把所有的产品都检验一下，而只能满足于对少数几个作品的抽检，这样获得的信息显然是不完全的；要检验疫苗的有效性，就一般来说，接种过疫苗的动物也不一定全不发病，而未接种的也不会全发病．那么发病与不发病的差别究竟到多大时我们才能认为接种是有效的呢？这些均涉及了我们如何评价一些并不确定的实验结果的问题。要从这类问题中得出科学的、可靠的结论，就必须依靠统计学．有人干脆给统计学下了这样的定义：“统计学就是从不完全的信息里取得准确知识的一系列技巧”。另外，当必须根据有限的、完全的信息作出决策时（例如决定一批产品是出厂还是报废，某种新药是否有效等等），统计学可以提供一种方法，使我们不仅能做出合理的决策，而且知道所冒风险的大小，并帮助我们把可能的损失减至最小。其次，如何花费最小代价取得所关心的信息，也是统计学的一大课题（实险设计）．不注意这一点可能使辛辛苦苦的工作全成为一种浪费．2．理论基础：“根据数理统计的原理、方法紧密结合医学实践，研究医药卫生领域中的资料收集、整理、分析和推断的一门应用学科，来分析和解释生物界各种现象和实验调查资料的科学”。随着生物医学研究的不断发展，运用统计学方法来认识、推断和解释生命过程中的各种现象也越来越广泛。运用统计学方法可以帮助人们分析占有信息，达到去伪存真，去粗取精，正确认识世界的目的。3．研究对象：人体及与人体健康有关的各种具有不确定性的医学数据（变异、数量、同质）。《医学统计学》的主要任务和作用：任务：1、结合专业知识和具体研究的要求进行统计设计2、对收集资料进行整理、做统计描述3、对资料进行统计分析和解释作用：1、保证调查或试验设计的科学性、完整性2、指标的确定应具有特异性、客观性，灵敏性和精密度高3、样本含量足够大，数据真实可靠4、选用统计分析方法正确医学统计学的主要内容：1、统计设计（design）在进行统计工作和研究之前必须有一个周密的设计，设计的内容包括资料收集、整理和分析全过程总的设想和安排。统计设计可按照在研究过程中对研究对象是否进行干预分作调查研究设计和实验研究设计。调查研究设计：研究者旨在客观地描述研究总体，未加任何干预措施，如：调查了解某地的学龄儿童缺铁性贫血的患病率，某地新生儿畸形的发生率，北京地区溃疡病患病率等，其目的在于了解某一医学现象的实际情况，疾病的危害程度，以便为防治和研究这些疾病提供依据。调查设计主要有抽样方法、调查技术、质量控制技术等。实验研究设计：研究者根据目的（研究假设），主动加以干预措施，并观察总结其结果，回答研究假设所提出的问题。如：研究脂健乳是否有降脂作用，首先假设脂健乳可以降低血脂，再将条件相似的20只大鼠先用高脂饲料喂养做成高脂血症的模型，然后将动物随机分为实验组和对照组，实验组服用脂健乳和豆奶，对照组单纯服用豆奶，喂养一个月后观察比较两组之间各项血脂指标的差别有无统计学意义，进而得出脂健乳是否具有降低血脂的保健作用的结论。实验设计主要有各种实验设计模型、分组方法、样本量估计等。由于统计设计的质量直接影响着试验结果的准确性、可靠性、严密性和代表性，一旦出现设计上的失误或缺陷，可能导致整个研究的失败。因此，专业设计是研究者对专业知识的把握能力，直接影响着实验的深度和水平，而统计设计是研究者对医学统计知识的正确运用，以保证统计描述和推断正确的基础。调查设计与实验研究设计专业设计统计设计要求运用专业知识进行设计运用统计学知识进行设计内容选题、调查（实验）、方法、材料确定设计方案、收集整理资料、确定统计指标、分析和推断方法方向探讨实验、观察结果的适用性和创造性探讨实验、观察结果的可重复性、高效性目的回答和解决科研课题，验证假说，保证科研结果的先进性减少和控制误差。保证样本的代表性和可靠性，保证实验结果的精确性和可重复性2、收集资料（collectionofdata）方式：1、统计报表2、经常性工作记录3、专题调查或实验3、整理资料（sortingdata）将原始数据进行核对、整理，使其系统化、条理化，对数据进行逻辑检查，纠正错误，提供整理和描述数据资料的科学方法，确定数据的数量特征。4、分析资料（analysisofdata）根据不同的资料类型，选择不同的统计处理方法，计算有关指标，反映数据的综合特征，阐明事物的内在联系和规律。统计分析包括：统计描述（descriptivestatistics）:用统计指标、统计表、统计图等方法，对资料的数量特征及分布规律进行测定和描述。统计推断（inferentialstatistics）:包括如何抽样，以及如何在随机变量的样本值基础上推断概率分布和总体值。统计推断中涉及的各种统计分析方法是本次授课的重点内容。医学统计学在科研中的作用：1、系统积累和表达经验临床经验的积累在于大量的临床实践。实际上这些经验都可以整理和表达为统计信息，掌握了一定的统计学知识，就可以将积累的经验，通过对资料的收集、整理和分析，转变为正规和系统的统计信息，用以报告或发表，使人类医学知识宝库不断充实和发展。2、完成科研工作生物学是一门实验科学，不管你从事的是生物学的哪一个分支，都不可能完全脱离实验，只进行逻辑推理．而实验所得到的结果几乎无例外地都带有或多或少的不确定性，即实验误差．在这种情况下，不用统计学要想得到正确的结论是不可能的，可以毫不夸张地说，作为一个实验科学工作者，离开了统计学就寸步难行，希望通过这门课程的学习，能够掌握常用的统计方法，尤其是它们的条件，适用范围、优缺点等，从而能够应用它们去解决实践中遇到的问题。否则，他将无法知道其研究结果是否具有科学意义上的可重复性。要一一回答这些问题，要求研究者必须在整个研究过程中贯穿和运用统计学的理论和方法。3、撰写研究报告和阅读书刊医学研究中往往要涉及大量的数据，但在撰写研究报告和论文时，只能使用经过整理和归纳的统计指标，并且用规范的统计表和统计图表达。此外，在阅读国外期刊时，如果不具备统计学的基础知识，则不能判断别人研究结果的可信性和局限性，更谈不上吸收和借鉴。《医学统计学》中几个重要的基本概念：(1)总体(population)、样本(sample)、个体（observedunit）a.总体：根据研究目的所确定的性质相同的所有个体的某种变量值的集合。如：调查某地1999年正常成年男子的红细胞数，则观察对象：该地1999年正常成年男子。观察单位：统计研究中的最基本单位，如：一个人、一个家庭、一个地区等。观察值（变量值）：每个人测得的红细胞数。该地1999年正常成年男子的红细胞数就构成一个总体。同质基础：同一地区、同一年份、同为正常成人、同为男性有限总体（finitepopulation）:有确定的时间、空间和有限个观察单位，如上例。无限总体（infinitepopulation）：没有确定的时间和空间限制，观察单位数为无限。如研究用某药治疗缺铁性贫血的疗效，此时，总体的同质基础是贫血患者，同时用某药治疗，该总体应包括用该药治疗的所有贫血患者的治疗结果。b.样本:从总体中随机抽取部分个体所组成的集合。（随机化原则：总体中每一个观察单位均有同等机会被抽取）（2）参数（parameter）、统计量(statistics)统计学中把总体的指标称为参数，把所得样本的平均数称为统计量。（3）误差（error）：抽样误差（samplingerror）由于总体中的个体间往往存在着变异，随机抽取的样本仅是总体中的一部分个体，因而样本测得的指标（统计量）往往与总体指标（参数）存在着差异，这种由于随机抽样而造成的样本的统计量与总体参数之间的差异，称为抽样误差，它既不定量，也不定性。系统误差:由于设计不严，测量仪器不准确，测量者水平的偏差而造成的，这种误差是定量的，可控的。（4）统计资料对每个观察单位的某项特征进行测量和观察，其特征称为变量，对变量的测值称为变量值，亦称为资料。计量资料（quantitativedata）统计资料类型计数资料(qualitativedata)等级资料(rankeddat)①、定量资料(quantitativedata)又称为计量资料:用专业仪器测量，具有计量单位的测量数据，表现为数值的大小，如身高（cm）、体重（kg）、血压（kPa）等。特点：每个观察单位的观察值间有量的区别②、定性资料(qualitativedata):其观察值是定性的，表现为互不相容的类别或属性（即将观察单位按某种属性或类别分组，所得各组的观察单位数）。特点：每个观察单位的观察值间有质的区别分两种情况：1、无序分类（unorderedcategories）又称为计数资料a.二项分类检验结果可以是阳性或阴性、治疗结果可以是治愈或未愈、性别属性等，表现为两类间互相对立。b.多项分类某种观察结果为互不相容的多个类别，如血型、职业等。2、有序分类（ordinalcategories）又称为等级资料介于定量测量和定性观察之间的半定量观察结果，如测定某人群血清反应，以人为观察单位，结果分为—、±、+、++四级，又如观察以某种药治疗某病患者的治疗结果，以每个患者为观察单位，结果分为治愈、显效、好转、无效四级，通常有两个以上等级。等级资料与计数资料的区别在于，等级资料虽然是多分类资料，但各个类别存在着大小和程度上的差别。特点：各类之间有程度的差别资料的转化和分析：根据分析问题的需要，各类变量可以互相转化。如：观察某人群成年男子的血红蛋白量（g/L）,属数值变量；若分析比较某种病人的血红蛋白水平与正常人有无差别，须按计量资料进行处理。序号正常人组病人组123456789若按血红蛋白正常与偏低分为两类，可按二项分类资料处理；正常人组病人组正常偏低合计若按贫血的诊断标准将血红蛋白含量分为五个等级：重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高，可按等级资料处理。正常人组病人组重度贫血中度贫血轻度贫血正常血红蛋白增高合计（5）频率(frequency)、概率（probability）医学研究的大多数现象是随机现象，例如用同一种治疗方法治疗某病的一群患者，可以知道治疗的结果有四种，但对于一个病人其治疗后的结果是不确定的，此时的每一种可能发生的结果都是一个随机事件（偶然事件、事件）。定义：在n次随机试验中，随机事件A发生了k次，记,则称为随机事件A在n次试验中出现的频率。实践证明，大量的试验中随机事件会呈现出频率稳定性。定义：描述随机事件A发生可能性大小的数值，称为A的概率，记作P（A），简记为P。假如临床观察中治疗200病人的样本，求得治愈率为75%，这只是一个频率。实际应用中，当概率不易求得时，常用n→∞时的频率作为概率的估计值。但当n较少时，频率的波动性是很大的，用于估计概率是不可靠的。随机事件概率的大小在0与1之间。P值越接近1，表示某事件发生的可能性越大；P值越接近0，表示某事件发生的可能性越小。严格说，P=1表示事件必然发生，P=0表示事件不可能发生，他们是确定性的，不是随机事件，但可把他们看成随机事件的特例。统计分析中的很多结论都是带有概率性的。习惯上将P≤0.05称为小概率事件，表示在一次实验或观察中该事件发生的可能性很小，可以视为很可能不发生。《医学统计学》的学习重点是：1、掌握其基本知识、基本技能、基本概念、基本方法。建立逻辑思维方法和提高分析问题的能力。2、掌握调查设计和试验设计的基本原则。培养收集、整理、分析统计资料的系统工作能力。3、掌握一套统计软件的使用方法（SAS、SPSS、STATA等）。能够达到在完成《医学统计学》课程后，独立完成科研论文和正确应用统计方法。

第二讲集中趋势举例设有A、B两名新战士，他们的射击技术可用下面的分布来表示：战士A战士B击中环数8910击中环数8910对应概率0.30.10.6对应概率0.20.50.3问哪一个战士射击技术较好？1、频数分布表1）、频数表的编制相同观察结果出现的次数称为频数。将所有观察结果的频数按一定顺序排列在一起便是频数表(frequencytable)。步骤：①找出最大和最小值，计算极差R=Xmax―Xmin②根据斯梯阶公式确定组距③扫描样本值，划记后获得频数2）、频数表的用途①大样本数据（不限于计量资料）常用的表达方式。②便于观察数据的分布类型。③便于发现资料中远离群体的某些特大或特小的可疑值，必要时经检验后舍去。④当样本含量足够大时，各组段的分布频率作为分布概率的估计值。例7．我国某地农村1995年已婚育龄妇女现有子女数的分布子女数（1）妇女数f（2）频率（%）（3）累计频数（4）累计频率（%）（5）0123456789≥10合计137512519130426285602171913695725532681513731561455259.4517.3020.9119.6214.929.414.982.250.100.260.11100.0013751389226934897908119627133322140577143845144996145369145525——9.4526.7547.6567.2882.2091.6196.6098.8599.6499.89100.00——2、集中位置的描述平均数(average)是统计中最广泛、最重要的一个指标体系。用来描述一组变量的集中趋势、中心位置或平均水平，常作为一组资料的代表值，使资料产生简明概括的印象，又便于组间的比较。常用平均数有均数、几何均数和中位数。（一）、均数（mean）的计算①直接法例1、10名7岁男童体重（kg）分别为17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5.求平均体重。=（17.3+18.0+19.4+20.6+21.2+21.8+22.5+23.2+24.0+25.5）/10=21.35(kg)②频数表法：例2：某地随机检查了140名成年男性红细胞数(1012/L)4.765.265.615.954.464.574.315.184.924.274.774.885.004.734.475.344.704.814.935.044.405.274.635.505.244.974.714.444.945.054.784.524.635.515.244.984.334.834.565.444.794.914.264.384.874.995.604.464.955.074.805.304.654.774.505.375.495.224.585.074.814.543.824.014.894.625.124.854.595.084.824.935.054.404.145.014.375.244.604.714.824.945.054.794.524.644.374.874.604.724.835.334.684.804.154.654.764.884.613.974.084.584.314.054.165.045.154.504.624.734.474.584.704.814.554.284.784.514.634.364.484.595.095.205.325.054.414.524.644.754.494.224.715.214.944.685.174.915.024.76红细胞数(1012/L)（1）频数f(2)组中值X（3）Fx(4)=(2)*(3)3.80~4.00~4.20~4.40~4.60~4.80~5.00~5.20~5.40~5.60~5.80~261125322717134213.904.104.304.504.704.905.105.305.505.705.907.824.647.3112.5150.4132.386.768.922.011.45.9合计140（∑f）669.8（∑fX）=4.78(1012/L)均数的两个重要特征：①各离均差的总和等于零证明：②各离均差的平方和小于各观察值X与任何数a之差的平方均数的应用：1.用来描述一组变量值的平均水平，具有代表性，因此变量值必须是同质的。2.适用于呈正态分布（对称分布）的资料。（2）几何均数（geometricmean）的计算1)直接法例3：5人的血清滴度为：1：2，1：4，1：8，1：16，1：32，求平均滴度。LgG=(lg2+lg4+lg8+lg16+lg32)/5=0.903G=lg-10.903=8故平均滴度为1：8。频数表法例4：40名麻疹疫苗接种麻疹疫苗后一个月，血凝抑制抗体滴度见下表，求平均滴度。抗体滴度（1）人数f(2)滴度倒数X（3）LgX(4)f*lgX(5)=(2)*(4)1：41：81：161：321：641：1281：2561：512156271045481632641282565120.60210.90311.20411.50511.80622.10722.40822.70930.60214.51557.22463.010212.643421.07209.632813.54654072.2471LgG=(åflgX/åf)=72.2471/40=1.8062G=lg-11.8062=64血凝抑制抗体滴度的平均滴度为1：64几何均数的应用：用于等比级数资料和对数正态分布资料，如：某些传染病的潜伏期、抗体滴度、细菌计数等。（3）中位数和百分位数的计算中位数（median,M）是将一组观察值从小到大按顺序排列，位次居中的数值对应的观察值就是中位数。因而全部观察值中，大于和小于中位数的观察值的个数相等。1)直接法：将原始观察值按大小顺序排列：n为奇数时，n为偶数时，例5．测得5个人的低密度脂蛋白中载体B蛋白的含量(mg/dl)分别为0.84,2.58,5.46,8.58,9.60,求其中位数.=X3=5.46mg/dl例6.8名新生儿的身长（cm）依此为50，51，52，53，54，54，55，58，求其中位数。2）频数表法例7．对某地630名50岁~60岁的正常女性检查了血清甘油三脂含量,并制成如下频数表，试求中位数及第25、75、90百分位数。甘油三脂mg/dl（1）频数，f（2）累计频数（3）累计频率（%）（4）10~40~70~100~130~160~190~220~250~280~310~合计27169167948142281443163027196363457538580608622626629630----4.331.157.672.585.492.196.598.799.499.8100.0----例8．某日大气中SO2的日平均浓度（ug/m3）见下表，分别求第25、75、95百分位数及中位数。浓度（ug/m3）（1）天数，f（2）累计频数（3）累计频率（%）（4）5~50~75~100~125~150~175~200~225~275~300~325~396764634530179765363613910617023327830832533434134735235536110.829.447.164.577.085.390.092.594.596.197.598.3100.0中位数和百分位数的应用：1．用于描述偏态分布资料的集中位置。反映位次居中的观察值的水平。2．百分位数是用于描述样本或总体观察值序列在某百分位置水平，最常用的百分位数是中位数。百分位数常用来确定医学参考值范围。

第三讲离散趋势离散程度的描述三组同性别、同年龄儿童的体重（kg）如下，分析其集中趋势与离散趋势。甲组2628303234X甲=30kgR=8S=3.16已组2427303336X乙=30kgR=12S=4.74丙组2629303134X丙=30kgR=8S=2.91哪一组数值的代表性好？（1）极差（range）一组观察值中，最大值与最小值差，反映个体差异的范围。极差大，说明变异度大，各变量值离均数越远，数据越分散；反之亦然。（2）四分位数（quartile）间距可看成是特定的百分位数，用它说明个体差异比极差稳定。Q=P75–P25一般来说，样本例数越多，四分位间距越稳定。（3）方差（variance）与标准差的计算方差：σ2=å(x-m)2/N由上式可知：方差考虑了总体中每个变量值X与总体均数之差(x-m)，称为离均差平方和（SS），因此方差近似等于离均差平方和的算数均数，故又称为均方差（MS），由于SS利用了每一个观察值的信息，因而反映一批数据的变异程度优于极差和四分位间距。（4）标准差（standarddeviation）方差开方后称为标准差，其单位与变量值单位及均数单位相同，变异度越大，则离均差平方和越大，标准差越大，说明个体差异越大，均数的代表性越差。为了简化计算，标准差的计算公式还可写为：分组资料的计算：如上例：n=110∑fx2=1584990∑fx=13194（5）变异系数（cofficientofvariation,CV）定义:标准差与算术均数之比，其描述了相对于算术均数而言标准差的大小，即描述数据的变异相对于其平均水平来说是大还是小。与前面介绍的四种离散程度指标相比，变异系数有以下两个不同之处：1：它描述的不是数据分布的绝对离散程度，而是相对离散程度；2：它不象极差、四分位数间距、方差、标准差那样具有取值单位。这两个特点决定了变异系数的应用也不同于前面四个离散程度指标。它常用于：比较度量衡单位不同的多组资料的变异度：例如：某地20岁男子100人，其身高均数为166.06cm，标准差为4.95cm；其体重均数为53.72kg，标准差为4.96kg.欲比较身高与体重的变异何者为大，由于度量单位不同，不能比较其标准差而应比较其变异系数身高体重由此可见，该地20岁男子体重的变异大于身高的变异。2.比较均数相差悬殊的多组资料的变异度：某地不同年龄组男子身高的变异程度年龄组人数均数±标准差变异系数（％）3－3.5岁10090.1±3.13.230－35岁100170.2±5.00.3表中可见，虽然30～35岁组的标准差明显大于3～3.5岁组的标准差，但事实上30～35岁组男子身高的变异并不大，而3～3．5岁组男童身高的变异却很大。这种均数相差悬殊的资料比较变异程度时，应当用变异系数说明其变异情况。小结为了解数值变量的分布规律，可将观察值编制频数表，绘制频数分布图，用于描述资料的分布特征（集中趋势和离散趋势），以及分布类型（对称分布和偏态分布）。一、平均数是描述频数分布集中位置的指标，它代表一组观察值的平均水平，常用平均数的指标下表：平均数意义应用场合均数几何均数中位数平均数量水平平均增（减）倍数位次居中的观察值水平应用甚广，最适用于对称分布，特别是正态分布等比级数资料，对数正态分布偏态分布，分布不明，分布末端无确定值百分位数描述观察序列在某百分位置的水平，是分布的百分界值，可用于医学参考值范围，适用于任何分布。二、描述频数分布离散程度的指标有：1）极差与四分位间距，后者较稳定，但均不能综合反映各观察值的变异程度；2）方差和标准差，最为常用，对正态分布尤为重要；3）变异系数常用于：不同测量单位的几组资料变异度的比较；均数相差悬殊的几组资料变异度的比较。

正态分布及其应用正态分布的概念和特征根据频数表资料绘制成直方图，可以设想，如果将观察人数逐渐增多，线段不断分细，图中直条将逐渐变窄，其顶端将逐渐接近一条光滑的曲线，这条曲线称为频数曲线或频率曲线，略呈钟型，两头低，中间高，左右对称，近似于数学上的正态分布（normaldistribution）。由于频率的总和等于100%或1，故横轴上曲线下的面积等于100%或1。正态分布是一种横重要的连续型分布，在生物统计学中，占有极其重要的地位。许多生物学现象所产生的数据，都服从正态分布。1、正态分布的图形有了正态分布的密度函数f(X)，即正态分布的方程，就可给出图形f(x)m上式中右側m为均数，s为标准差，X为自变量。当X确定后，就可由此式求得其密度函数f(X),也就是相应的纵坐标的高度。所以，已知m和s,就能绘出正态曲线的图形。2、正态分布的特征正态分布以m为中心，左右对称。（2）正态分布有两个参数，即m和s。m是位置参数，当s恒定后，m越大，则曲线沿横轴越向右移动；m越小，则曲线沿横轴越向左移动。s是变异参数，当m恒定时，s越大，表示数据越分散，曲线越“胖”；s越小，表示数据越分散，曲线越“瘦”。（3）正态分布的偏斜度g1=0，峭度g2=0为了应用方便，常将上式作如下变换，也就是将原点移到m的位置，使横轴尺度以s为单位，使m=0，s=1，则正态分布变换为标准正态分布。(standardnormaldistribution)，u称为标准正态离差（standardnormaldeviate）标准正态分布的密度函数为：一般用N（m，s2）表示均方为m，方差为s2的正态分布。于是标准正态分布用N（0，1）表示。标准正态分布有以下特征：在u=0时，j（u）达到最大值。当u无论向哪个方向远离0时，j（u）的值都减小。曲线关于Y轴对称，即j（u）=j（-u）。曲线和横轴所夹的面积等于1。二、标准正态曲线下面积的计算P(u1<½U½<u2)=j(u2)-j(u1)举例已知高梁品种“三尺三”的株高服从正态分布N（156.2,4.822）,求：（1）X<161cm的概率；（2）X>161cm的概率；(3)X在152~162cm间的概率。依题意：所以，“三尺三”的株高低于161cm的概率为0.84134。依题意得：（3）依题意得：下列一些值很重要，应予记忆：u=-1到u=1面积=0.6827u=-1.96到u=1.96面积=0.9500u=-2.58到u=2.58面积=0.9900三、小结1、正态分布是一种连续性的分布，不少医学现象服从正态分布或近似正态分布（如同性别、同年龄儿童的身高，同性别健康成人的红细胞数、血红蛋白量、脉搏数等，以及实验中的随机误差等）；或经变量变换转换为正态分布（如某些病人的潜伏期以及医院病人住院天数等），可按正态分布规律来处理，它也是许多统计方法的理论基础。2、正态分布的特征是：（1）曲线在横轴上方，均数处最高；（2）以均数为中心，左右对称；（3）确定正态分布的两个参数是均数m和标准差s。正态分布用N（m，s2）表示，为了应用的方便，常对变量x作u=(x-m)/s使m=0，s=1，则正态分布转换为标准正态分布用N（0，1）表示。3、运用正态曲线下面积的分布规律，可计算医学参考值范围和质量控制等。

第五讲总体均数的估计和假设检验医学统计学的最基本问题是研究总体与样本的关系。总体与样本的关系，可从两方面研究：由已知的总体，研究样本的分布规律，即由总体到样本的研究过程；由样本如何去推断未知的总体，属于从样本到总体的研究过程。从一个正态总体中抽取的样本统计量分布生物学中遇到最多的是正态总体。对于正态总体，可以用数学推演的方法，得出严格的样本统计量的抽样分布，有了严格的样本分布规律，就可以由样本来推断总体了。标准差已知时的样本平均数的分布——u分布平均数为m，标准差为s的正态总体中，独立随机的抽取含量为n的样本，则：样本平均数是一服从正态分布的随机变量，记为X。将平均数标准化，则：其中的分母称为平均数的标准误差（standarderrorofmean）。如果变量是正态的或近似正态的，则标准化的变量服从或近似地服从N（0，1）分布。1、标准差已知时的样本平均数的分布——t分布(t-distribution)若上式中的s是未知的，可用样本标准差代替总体标准差，标准化变量并不服从正态分布，而服从具有n-1自由度的t分布。t分布也是一种对称分布，它只有一个参数，即自由度（degreeoffreedom）t分布与标准正态分布相比有以下特征：（1）二者都是单峰分布，以0为中心，左右两侧对称。（2）t分布的峰部较矮而尾部翘得较高，说明远側t值的个数相对较多，即尾部面积（概率P）较大。自由度越小这种情况越明显。n逐渐增大时，t分布逐渐逼近标准正态分布；当n=¥时，t分布就完全成为标准正态分布了。2、统计推断统计推断是讨论如何通过样本去推断总体。由样本推断总体是以各种样本统计量的抽样分布为基础的。对总体做统计推断（statisticalinference）,可以通过两条途径进行。一是通过样本统计量估计总体参数；二是首先对所估计的总体提出一个假设，例如假设这个总体的平均数m等于某个值m0，然后，通过样本数据去推断这个假设是否可以接受，如果可以接受，样本很可能抽自这个总体；否则很可能不是抽自这个总体。前一种途径称为总体参数估计（estimationofpopulationparameter）,后一种途径称为统计假设检验（statisticaltestofhypothesis）。这两种不同的统计分析方法在实际工作中可互相参照使用。3、总体均数的估计——区间估计（internalestimation）即按一定的概率估计总体均数在哪个范围。可根据资料的条件选用不同的方法。（1）s未知时。一般用t分布的原理作区间估计。根据于是得可信度为1-a时，计算总体均数可信区间的通式为：习惯上，常取1-a=0.95，即95%可信区间；或取1-a=0.99，即99%可信区间。例题1、对某人群随机抽取20人，用某批号的结核菌素作皮试，平均侵润直径为10.9mm，标准差为3.86mm。问这批结核菌素在该人群中使用时，皮试的平均侵润直径的95%可信区间是多少？本例，n=20,n=n-1=20-1=19,a=0.05（双側）查附表，得t0.05,19=2.093所以，该人群皮试的平均侵润直径的95%可信区间为9.1~12.7mm。（2）s已知或样本例数n足够大时，按正态分布原理作区间估计。例题2由某地成年男子中抽得144人的样本，求得红细胞数的均数为5.38´1012/L,标准差为0.44´1012/L,试估计该地成年男子红细胞均数的95%可信区间。该地成年男子红细胞均数的95%可信区间为(5.31,5.45)。可信区间的涵义意思是从总体中作随机抽样，每个样本可以算出一个可信区间，如95%可信区间，意味着100次抽样，算得100个可信区间，平均有95个可信区间包括总体均数（估计正确），只有5个可信区间不包括总体均数（估计错误）。5%是小概率事件，实际发生的可能性小，因此，在实际应用中就认为总体均数在算得的可信区间内,这种估计方法会冒5%犯错的风险。可信区间的两个要素一是准确度，反映在可信度1-a的大小，即区间包含总体均数的概率的大小，当然愈接近1愈好；二是精度，反映在区间的长度，当然长度愈小愈好。在样本例数确定的情况下，二者是矛盾的。一般情况下，在可信度确定的情况下，增加样本例数，可减少区间长度，提高精度。假设检验的基本步骤：建立检验假设，确定检验水准αH0：无效假设（假定所检验的两个总体均数相等）H1：备择假设（假定所检验的两个总体均数不相等）单侧检验：推断两总体均数有无差别双侧检验：根据专业知识推断两总体均数中是否可以认为一个大于（高于）另一个选择检验方法，计算统计量根据分析目的、设计类型和资料类型，选择恰当的检验方法，计算相应的统计量（如：t、u、r、f、χ2等）。确定P值，作出统计结论用计算出的统计量，根据不同自由度查相应的界值表，确定P值。P值的定义：在H0所规定的总体中随机抽样，获得等于及大于（或等于及小于）现有样本统计量的概率。结论：①当计算的统计量≥界值表上所查到的理论值，则P≤α。此时，表示在H0成立的条件下，出现等于及大于现有样本统计量的概率是小概率，按其原理，现有信息不支持H0，因而拒绝H0。②当计算的统计量〈界值表上所查到的理论值，则P〉α。此时，表示在H0成立的条件下，出现等于及大于现有样本统计量的概率不是小概率，现有信息还不足以拒绝H0，因此不拒绝H0。

第六讲均数差异的假设检验假设检验的具体方法，通常是以选定的检验统计量来命名的，如t检验要用特定的公式计算检验统计量t值，u检验要用特定的公式计算检验统计量u值。应用时首先要了解各种检验方法的用途、应用条件和检验统计量的计算方法。单组完全随机化设计资料均数的t检验和u检验从一个总体中完全随机地抽取一部分个体进行研究，这样的设计称为单组完全随机化设计（completelyrandomizeddesignofsinglegroup）。例题1：根据大量调查，已知健康成年男子脉搏均数为72次/分，某医生在某一山区随机抽查了25名健康成年男子，求得其脉搏均数为74.2次/分，标准差为6.0次/分，能否据此认为该山区成年男子脉搏均数高于一般成年男子脉搏均数？这两个均数不等有两个可能：（1）由于抽样误差所致（2）由于环境条件的影响如何作出判断呢？在统计上是通过假设检验来回答这个问题。以下介绍建立假设检验（t检验）的思想、方法与步骤。1、建立检验假设和确定检验水准H0：m1=m0（=72次/分）H1：m1¹m0（=72次/分）a=0.05本例分析目的是比较山区成年男子脉搏样本均数与一般成年男子脉搏总体均数有无差别？m是未知的，可以假设m等于某一定值m0，m与m0的差等于零，这样的假设称为无差异假设或零假设(nullhypothesis)记为H0：m1=m0表示该山区的环境条件对脉搏数无影响，他们之间的差异是由于抽样误差所致。与零假设相对立的假设称为对立假设或备择假设(alternativehypothesis),符号为H1：m1¹m0，它是在拒绝H0的情况下而接受的假设。假设检验所用的检验统计量一般都是建立在零假设的基础上，因为H0比较单纯明确，而H1却包含着各种情况。检验水准(sizeoftest)亦称显著性水准（significancelevel）,符号为a，在实际工作中常取0.05或0.01。2、选定检验方法和计算统计量本例：n=25次/分S=6.0次/分检验统计量公式为：将以上数据代入公式，得：要根据研究类型和统计推断目的选用不同检验方法，不同检验方法有相应的检验统计量，本例的检验统计量t服从n=n-1的t分布。建设检验方法通常是以检验统计量来命名的，故，本例检验称为t检验。3、确定P值和作出推断结论查t界值表单侧，t（24，0.05）=2.064，因为t<t（24，0.05）所以P>0.05。得出结论按a=0.05水准，拒绝H0，接受H1。认为该山区的成年男子脉搏均数高于一般的成年男子脉搏均数。关于检验水准是取0.05、0.01或其他数值，要根据不同的实验而定。a取值较小，有利于提高“阳性”统计检验结果的可靠性；a取值较大，有利于发现研究总体可能存在的差异，但可靠性降低。较好的做法是精确地计算出P值，这会对人们认识你所作的实验有很大的参考价值。随机化配对设计资料均数的t检验配对设计资料分三种情况：（1）配成对子的同对受试对象分别给予两种不同的处理；（2）同一受试对象分别接受两种不同处理；（3）同一受试对象处理前后的比较。（1）与（2）结果的比较，其目的是推断两种处理的效果有无差别；（3）比较，其目的是推断某种处理有无作用。因此，应该首先计算出各对差值d的均数。当两种处理结果无差别或某种处理不起作用时，理论上差值d的总体均数md=0。故可将配对设计资料的假设检验视为样本均数与总体均数md=0的比较，配对设计资料以小样本居多，故常用t检验。其计算公式为：例题2、将大白鼠配成8对，每对分别饲以正常饲料和缺乏维生素E饲料，测得两组大白鼠肝中维生素A的含量如下表，试比较两组大白鼠中维生素A的含量有无差别。表不同饲料组大白鼠肝中维生素A的含量（U/g）大白鼠配对号正常饲料组维生素E缺乏组差数，dd213550245011001210000220002400-400160000330001800120014400004395032007505625005380032505503025006375027001050110250073450250095090250083050175013001690000合计----65007370000H0:md=0,H1:md¹0,a=0.05计算统计量3）确定P值下结论查t界值表（双側），t>t0.05,7=4.029P<0.05结论：按a＝0.05水准，拒绝H0，接受H1。结论：可以认为两种饲料喂养的大白鼠肝中维生素Ａ的含量有差别，正常饲料组比缺乏维生素Ｅ饲料组的含量要高。两组完全随机化设计资料均数的t检验与u检验1、t检验将受试对象完全随机地分配到两组中，这两组分别接受不同的处理。这样的设计称为两组完全随机化设计（completelyrandomizeddesignoftwogroups）。有些研究设计既不能作自身对比，也不便于配对。如实验中只有把受试动物杀死后才能获得所需数据，则不可能对动物在处理前后各进行一次测定；再如比较两种治疗方法对同一疾病的疗效，每个患者一般只能接受一种方法的治疗，把受试患者配成若干对在实际工作中又非常困难，这时只能进行两组间均数的比较。在两组比较的资料中，每个观察对象都应按照随机的原则进行分组，两组样本量可以相同，也可以不同，但只有在两组例数相同时检验效率才最高。统计量计算公式为：例题3、某医院研究乳酸脱氢同工酶（LDH）测定对心肌梗死的诊断价值时，曾用随机抽样方法比较了10例心肌梗死患者与10例健康人LDH测定值的差别，结果如下，试问LDH测定值在两组间有无差别？心肌梗死患者（X1）23.245.045.040.035.044.142.052.550.058.0健康人（X2）20.031.030.523.124.238.035.537.839.0131.0（1）、H0：m1=m2H1：m1¹m2a=0.05（2）、计算统计量：将上述数据代入公式，得：（3）、确定P界作出结论本例t>t0.05,18=3.197,P<0.05。结论：按a=0.05水准，拒绝H0，接受H1。可以认为乳酸脱氢同工酶测定值在心肌梗死与健康人之间有差别，心肌梗死患者的含量比健康人的要高。u检验（两大样本均数的假设检验）以两个正态或非正态总体独立地抽取含量分别为n1和n2的样本，当n1和n2均较大时，比如均大于100时，那么样本均数的和与差的分布也服从正态分布，即：故当两样本均数较多时，即使总体分布呈偏离正态，其样本均数的分布仍近似正态分布，且这时用S估计s的误差较小，故可用u检验，即用正态分布的原理作两个均数间的假设检验。例题4、某医院在心肾内科普查工作中，测得40~50岁年龄组男性193人的b脂值蛋白平均数为397.5(mg%)，标准差为104.30(mg%);女性128人的b脂蛋白平均数为357.89(mg%),标准差为89.67(mg%);问男性与女性b脂蛋白平均数有无差别？（1）H0：m1=m2H1：m1¹m2a=0.05（2）检验统计量公式为：将上述数据代入公式得：（3）u0.01=2.576，u0.05=1.96本例题中u>u0.05,P<0.05结论：按a=0.05水准，拒绝H0，接受H1。可认为男性与女性b脂蛋白平均数有差别，男性高于女性。根据P值的结果，给出题目结论。假设检验时，根据样本统计量作出的推断结论（拒绝H0或不拒绝H0）并不是百分之百的正确，可能发生两种错误：①.拒绝了实际上成立的H0，这类“弃真”的错误称为I型错误（typeIerror）②.不拒绝了实际上不成立的H0，这类“存伪”的错误称为 II型错误（typeIIerror）如图：α：表示I型错误的概率，若选定α=0.05，则犯I型错误的概率为0.05，理论上平均100次抽样有5次发生这样的错误。β：表示II型错误的概率，但β值的大小很难确切估计，只有在已知样本量（n）、两总体参数差值（δ）及α确定下，才能估计出β的大小。当n固定时，α愈小，β愈大；相反α愈大，β愈小。1-β：称为检验效能（把握度），其统计学意义为：若两总体确有差别，按α水准能检验出其差别的能力。

第七讲方差分析方差分析(analysisofvariance),简称ANOVA，由英国统计学家R.A.Fisher首先提出，后人为纪念Fisher，以F命名方差分析的统计量，故方差分析又称F检验。样本均数的差异，可能有两种原因所致。1、可能由随机误差所致随机误差包括两种成分：个体间的变异和测量误差两部分；2、可能是由于各组所接受的处理不同，不同的处理引起不同的作用和效果，导致各处理组之间均数不同。一般来说，个体之间各不相同是繁杂的生物界的特点；测量误差也是不可避免的，因此第一种原因肯定存在。而第二种原因是否存在，这正是假设检验要回答的问题。方差分析的基本思想是将所有观察值之间的变异（称总变异）按设计和需要分解成几部分。如完全随机设计资料的方差分析，将总变异分解为处理间变异和组内变异两部分，常将后者称为误差。将各部分变异除以误差部分，得到统计量F值，并根据F值确定P值作推断。由于方差分析是根据实验设计将总变异分成若干部分，因此设计时考虑的因素越多，变异划分的越精细，各部分变异的涵义越清晰明确，结论的解释也越容易，同时由于变异划分的精细，误差部分减小，提高了检验的灵敏度和结论的准确性。方差分析应用很广泛，可用于：两个或多个样本均数间的比较；分析两个或多个因素的交互作用；回归方程的假设检验；方差齐性检验等。多个样本均数间比较的方差分析应用条件为：各样本必须是相互独立的随机样本；（独立性）各样本均来自正态总体；（正态性）相互比较的各样本所来自的总体其方差相等，（方差齐性）一、完全随机设计的方差分析医学实验中，根据某一实验因素，用随机的方法将受试对象分配到各组，各组分别接受不同的处理后，观察各种处理的效果，比较各组均数之间有无差别。临床研究中，还可能常常比较几种不同疗法治疗某种疾病后某指标的变化，以评价它们的疗效；或比较某种疾病不同类型之间某一指标有无差别等。这些都是一个因素不同水平（或状态）间几个样本均数的比较，可用单因素的方差分析（one-wayANOVA）来处理此类资料。例题：某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量（L）测定，结果见下表：问三组石棉矿工的肺活量有无差别？表三组石棉矿工的用力肺活量(L)石棉肺患者可疑患者非患者1.82.32.91.42.13.21.52.12.72.12.12.8Xij1.92.62.71.72.53.01.82.33.41.92.43.01.82.43.41.83.32.03.5合计(SXij)19.120.833.974.4(SX)nj1191131(N)均数Xj1.792.313.082.4(X)(SX2ij)35.6948.34105.33189.36(SX2)从表中的测量结果可以看出，三个组31名矿工的用力肺活量测定值大小不等，这是总变异。将其分为两个部分：一是组内变异，它反映矿工用力肺活量测定值的随机误差；另一个是组间变异，它反映随机误差和石棉肺对用力肺活量的影响。计算分析步骤：(1)建立假设和和确定检验水准H0：三组矿工用力肺活量的总体均数相等，m1=m2=m3H1：三组总体均数不等或不全相等a=0.05(2)计算检验统计量F值本例：校正数C=(74.4)2/31=178.560 SS总=SX2—C=189.36–178.56=10.800df总=N-1=31-1=30SS组间df组间=k-1=3-1=2SS组内=SS总-SS组间=10.8-9.266=1.534df组内=N-k=31–3=28MS组间=SS组间/df组间=9.266/2=4.633MS组内=SS组内/df组内=1.534/28=0.0548F=MS组间/MS组内=4.633/0.054=84.544方差分析结果表变异来源SSDfMSFP总10.80030组间9.26624.633084.544<0.01组内1.534280.0548(3)、确定P值和作出推断结论查表得P<0.01，按a=0.05水准拒绝H0，接受H1，故可以认为三组矿工用力肺活量不同。（4）、结论表明，总的说来三组矿工用力肺活量有差别，但并不表明任何两组矿工的用力肺活量均有差别，只能说至少有两组矿工的用力肺活量有差别，需进一步作两两比较。

第八讲配伍组设计的方差分析配伍组设计的多个样本均数的比较可用无重复数据的两因素的方差分析（two-wayANOVA）。两个因素是指主要的研究因素和配伍组因素。按这两个因素纵横排列时，每个格子中仅有一个数据，故称无重复数据。配伍组设计在医学科研中较为常见，例如在实验研究中，将动物按窝别配伍，再随机分配到各个处理组；在观察性别研究中，按年龄、性别或地区配伍来抽取和组成研究因素的各个水平组等等。区组处理区组合计12…….kTotalsMeans1X11X21….Xk1T12X12X22…Xk2T23X13X23….Xk3T3………….…..….….…bX1bX2b…..XkbTb处理合计总计TotalsT1T2…..TkT..Means例题：某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度（mmol/L），结果见下表。问氟作业工人三个不同时间的的尿氟浓度有无差别？氟作业工人三个不同时间的的尿氟浓度（mmol/L）工人编号工前工中工后(SXij)190.53142.1287.38320.03288.43163.1765.27316.78347.3763.1668.43178.964175.80166.33210.54552.675100.01144.75194.75439.51646.32126.3365.27237.92773.69138.96200.02412.678105.27126.33100.01331.61986.23121.06105.27312.651060.0173.6958.95192.65(SXij)873.751265.901155.893295.54(SSX)均数87.38126.59115.59109.85(SX2ij)88876.98170744.12167659.81427280.91(SSX2)计算步骤：建立假设和和确定检验水准H0：工人三个不同时间的的尿氟浓度相等m1=m2=m3H1：三组总体均数不等或不全相等m1≠m2≠m3检验水准a=0.05(2)计算检验统计量F值本例：校正数C=(3295.54)2/30=362019.463SS总=SX2—C=427280.91–362019.463=65261.447df总=N-1=30-1=29不同处理间：df处理=k-1=3-1=2不同区组间：df区组=n-1=10-1=9SS误差=SS总-SS处理-SS区组=65261.447-8182.893-39712.984=17365.570df误差=29-2-9=18MS处理=SS处理/df处理=8182.893/2=4091.447MS区组=SS区组/df区组=39712.984/9=4412.554MS误差=SS误差/df误差=17365.570/18=964.754F处理=MS处理/MS误差F区组=MS区组/MS误差方差分析结果表变异来源SSdfMSFP总变异65261.44729处理间8182.89324091.4474.241<0.05区组间39712.98494412.5544.574<0.05误差17365.57018964.754(3)确定P值和作出推断结论查表得P<0.01，按a=0.05水准拒绝H0，接受H1.(4)结论：故可以认为工人尿氟浓度三个不同时间中至少两组是不同的，同时10个工人尿氟浓度有差别。例2：白菜不同部位的维生素C值（毫克/%）白菜部位白菜编号菜心菜帮130.5224.3254.8427.42230.1024.1854.2827.14318.1816.7824.9617.48415.4610.1325.5912.80521.1010.5931.6915.84115.3686.00201.362852.211672.474524.6823.0717.20总校正数：方差分析表方差来源自由度平方和均方FP总变异9470.10组间186.2086.2016.45<0.025行间4362.9490.7417.32<0.01误差420.965.24均数间的两两比较两个样本均数间的两两比较又称为多重比较（Multiplecomparison）,当经过方差分析，得出P<0.05的结果时，可认为样本所代表的总体均数存在差别，但由于涉及的对比组数大于2，若简单的使用t检验或u检验，会使犯第一类错误的概率a增大，即可能把本来无差别的总体均数认为有差别。例如有5个样本均数（K=5），对每两个样本均数间的差别都作t检验，可作次比较，若检验水准每次取0.05，则每次比较不犯犯第一类错误的概率为（1-0.05），10次比较都不犯第一类错误的概率为（1-0.05）10=0.5987，而此时犯第一类错误的概率不再是0.05，而是1-（1-0.05）10=1-0.5987=0.4013，远大于0.05，因此，多个样本均数间的两两比较不能简单的使用t检验或u检验，此时有专门的计算方法。Q（Student-Newman-Keulsmultiplerangetest<SNK>）检验,计算公式：式中：为两个对比组的样本均数，误差为方差分析中的误差均方为两个对比组的样本例数。步骤：1.H0：任两个对比组的总体均数相等，即H1：a=0.052．三个样本均数从大到小顺序排队，并编上组次：组次123均数3.08（11）2.31（9）1.79（11）组别非患者可疑患者石棉肺患者列出两两比较计算表对比组A与B（1）两均数之差（2）组数q值a（4）=(3)（2）/Aiq界值p=0.05p=0.01(5)(6)P(7)1与31.29318.273.494.45<0.011与20.77210.342.893.89<0.012与30.5226.992.893.89<0.01查表是用F0.05（组数，误差自由度），如：F0.05（2。28）=2.891与3、1与2、2与3均有显著性差别，工中的尿氟浓度各组间均有极显著差别。均数假设检验中应注意的事项]样本应有代表性，相比较的各组之间应有可比性。]选用的假设检验方法应符合其应用条件。]正确理解统计量和P值的意义。]假设检验结论的写法应有两个，即统计结论、专业结论。如：“经t检验，t=3.479，P〈0.01，两样本均数间差异有高度显著性，可认为两年病例质量不同，今年比去年得分高”。“经t检验，两年病例质量不同，今年比去年得分高（t=3.479，P〈0.01〉”。后者较为简练。

第九讲两随机样本方差分析（析因分析）析因实验设计，这是一种将两个或几个实验因素各分为几种水平，然后相互结合起来进行实验的方法。析因实验设计既可以边验每个因素各水平间的差异，又可以检验各因素间的交互作用。例抗菌素与维生素(B12)对动物体重增长的关系抗菌素抗菌素［40单位］合计B12［0］B12［5mg］B12［0］B12［5mg］B12［0］B12［5mg］1.301.261.051.521.191.211.001.561.081.191.051.55∑x3.573.663.104.636.678.297.237.7314.96∑x28.7403

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

石大医学统计学讲义

文档简介

温馨提示

最新文档

评论

石大医学统计学讲义

文档简介

温馨提示

最新文档

评论

相关文档