下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学的基本步骤和基本概念1、统计学的基本步骤:研究设计;收集资料;整理资料;分析资料;对分析结果的正确解释和表达。L 横断面研究一观察性研究T 病例对照研究队列研究厂统计设计一厂动物实验实验性研究.临床试验L社区干预试验统计学一统计描述:运用统计学指标对数据特征及其分布规律进行客观描述和表达J统计分析一统计推断:在一定的可信程度或概率保证下,根据样本信息推断总体特征厂集中趋势:平均数、几何均数、中位数统计描述T定量资料L离散程度:方差、标准差、极差、四分位间距、变异系数(参数估计:均数的标准误、总体均数的置信区间假设检验:t检验、L检验、方差分析、秩和检验统计描述:率、构成比、相对比定性资料
2、-统计推断:X2检验、秩和检验、二项分布、Poission分布2、总体和样本:总体:是根据研究目的所确定的所有同质观察单位某种观察值(变量值)的集合。样本:从研究总体中抽取的一部分满足代表性的个体观察值所组成的集合称为样本,样本包含的观察单位数称为样 本含量或样本大小。3、参数和统计量:参数:描述总体分布特征的指标,总体均数科、总体标准差C总体率兀统计量:根据样本算得的某些数值特征,样本均数X、样本标准差S、样本率p4、变量和资料变量:是观察单位的某种特征或属性,变量的观测值就是所谓的变量值。资料:变量值组成的集合称为资料。二项分类资料多项分类资料5、随机误差和系统误差误差:泛指实测值与真实值
3、之差,一般可分为随机误差和非随机误差。随机误差:即抽样误差,由于随机抽样造成的实测值与真实值之差。是不可避免的,但一般服从正态分布,可以通 过统计学方法进行分析。系统误差:最常见的非随机误差,指实测值系统偏离真实值、具有方向性的误差。6、概率、频率和小概率事件频率:若用随机事件 A发生表示观察到某个可能的结果,在n次随机试验中,随机事件 A发生了 m次,则称A发生的比例f=m/n为频率,医学上所说的患病率、病死率等都是频率。概率:描述事件发生可能性大小的一个度量。小概率事件:当某事件发生的概率小于或等于0.05时,统计学习惯上称该事件为小概率事件。7、同质性和个体变异同质性:通常指研究对象在一
4、定范畴内的各种可能影响主要观察指标的其他因素处于相同或非常相似的情况。个体变异:同质个体中同一观察指标的个体观察值之间的差异称为该观察指标的个体变异。 调查研究设计1、调查研究及其特点调查研究:又称观察性研究,指研究者在研究中没有施加任何干预措施,仅客观地观察和记录研究对象的现状及其相关特征的研究。 特点:研究过程中没有人为施加的干预措施,研究事物或现象及其相关特征(包括研究因素和非研究因素)是客观存在的;不能将研究因素随机地分配到研究对象中,也不能用随机化分组来平衡非研究因素 对调查结果的影响。2、调查研究设计的基本内容:明确调查目的和指标;确定调查对象和观察单位;确定调查方法;确定调查方式
5、;确定调查项目和调查表;制定资料整理分析计划;制定调查的组织计划。3、调查设计的常用抽样方法及其优缺点普查:即调查目标总体中全部观察对象。优:理论上没有抽样误差,可以直接得到总体参数。缺:成本较高。抽样调查:即从总体中抽取一定数量的观察单位组成样本,对样本进行调查。分为概率抽样和非概率抽样。优:节省调查成本,有助于获得较为深入、细致和准确的资料。缺:样本推断总体时存在抽样误差。概率抽样:是指总体中观察单位被抽中的概率是已知的或可以计算的。优:总体代表性较好,可以计算抽样误差,可以对总体进行统计推断。缺点或前提:目标总体和抽样框架明确。非概率抽样:是指总计中每个观察单位被抽中的概率是已知或不能计
6、算的。抽样方法定义优点缺点概 率 抽 样单纯随机抽样按等概率原则直接从含有N个观察单位的总体中抽取n个观察单位组成样本均数(或率)及标准误的计算简单当总体观察单位较多时,要对 观察单位一一编号,比较麻烦系统抽样先将总体的观察单位按某一顺序号分成 n 个部分,再从第一部分F1机抽取第 k号观 察单位,依次用相等间距,从每一部分各抽取一个观察单位组成样本易于理解,简单易行;容易得 到一个按比例分配的样本;样本 的观察单位在总体中分布均匀,其 抽样误差一般小于单纯随机误差。当总体中观察单位按顺序有 周期趋势或单调增(或减)趋 势时,将产生明显的偏性; 实际中按单纯随机抽样方法估 计误差会一般偏大。分
7、层抽样按对主要研究指标影响较大的某种特征,将总体分为若干类别,再从每一层内随机抽取一定数量的观察单位组成样本减少抽样误差;便于不同的层 采用不同的抽样方法,有利于调查 组织工作的实施;还可对不同层 进行独立分析。要求层内差异较小整群抽样将总体按照某种与主要研究指标无关的 特征划分为K个“群”,每个群包含若干 观察单位,再随机抽取 k个“群”,由抽取的各个群的全部观察单位组成样本便于组织,节省经费,容易控制调 查质量当样本含量一定时,其抽样误 差一般大于单纯随机误差(因 为样本观察单位未能广泛地散 布在总体中)非 概 率 抽 样偶遇抽样研究者根据现实情况,抽取偶然遇到的人 或选择那些距离最近的、
8、最容易找到的人 作为调查对象简单易行结果对总体代表性差立意抽样调查者根据研究目的分析判断来选择调 查对象对研究者要求较高定额抽样研究者首先依据那些可能影响研究指标的各种因素对总体进行分层, 并确定各层 样本占总体比例,再在各层中抽取样本样本代表性存在一定问题,选 择性偏倚较大雪球抽样当无法了解总体情况时,可以从总体中少 数成员入手,对他们进行调查,并请他们 介绍所认识的其他符合条件的人, 再去找 那些人进行调查,如此重复,直到达到所需的样本含量常用于缺少抽样框架、目标总体不 明、采用其他方法难以找到调查对象的情形4、调查问题安排顺序总原则:符合逻辑;一般问题在前,特殊问题在后;易答题在前,难答
9、题在后;如果采用封闭式和开放式相结合的问题,一般先设置封闭式问题;敏感问题一般放在最后。5、信度和效度效度:又称真实性或准确性,用以反映测量结果与“真实值”的接近程度。定量观察:通常用两者的 相关系数r来描述标准效度。定性或半定量观察:Kappa系数描述两个测量手段或结果的一致性。信度:又称可靠信、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。重复测量法:组内相关系数ICC评价信度高低。ICC MSA MSe MSa为组间(研究对象间)均方,MSe为组内(误差)均方,n为重复测量次数。一般MSA (n 1)MSe认为ICC0.75 ,说明测量结果的可重复性较好。实验研究设计
10、1、实验设计的3个基本原则和3个基本元素:对照、随机化、重复,受试对象、处理因素、实验效应。2、对照形式主要有:空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照。3、常用的实验设计类型及其优缺点:类型设计优点缺点完全随机设计单因素两水平或多水平效应设计简单,易于实施,出现缺失数据时仍 可进行统计分析小样本时,均衡性可能较差,与随机区 组设计相比,一般效率较低配对设计受试对象按 配对因素相同或相近配成对子可增强处理组间的均衡性,效率较高配对条件不易严格控制随机区组设计受试对象按性质相同或相近分为b个区组,每个区组中的k个 受试对象分配到k个处理组处理组之间的均衡性较好;更容易揭示处
11、理之间的差别,效率较高非处理因素(配伍条件)不易控制交叉设计按事先设计好的实验次序,在各 个时期对受试对象先后实施各种处理节约样本含量;能够控制个体差异和 时间差异对处理因素的影响,故效率较高;在临床试验中,均等地考虑了每个 患者的利益。每个处理的持续时间不能太长;当 受试对象的状态发生根本变化时, 例死 亡等,后一阶段的处理将无法进行; 受试对象一旦在某一阶段退出试验,就会造成该阶段及其以后的数据缺失析因设计两个或多个处理因素的各水平 进行组合,对所有可能的组合中 安排多个实验对象进行实验可以均衡地对各因素的不同水平进行全面组合,以最小的实验次数探讨各因素不 同水平的效应,同时可获得各因素间
12、的交 互作用,通过比较还能需求最佳组合工作量较大,析因设计的处理数等于各 因素水平数的乘积,其统计分析不但计 算复杂,而且给众多交互作用的解释带 来困难定量资料的统计描述1、频数表和频数图的制作及用途:频数表的制作:(1)求全距R, R很大值-最小值;(2)划组段:定组数,以8-15组为宜;定组距:组 距=叼组数,可适当取整;定上下限:起点为下限,终点为上限,组段下闭,上开),一般写下限,最后上下全。(3)统计频数和频率制作频数表 。频数表和频数的用途:揭示频数的分布特征:集中趋势和离散趋势;揭示频数的分布类型:对称分布和偏 态分布,集中偏小为正偏,集中偏大为负偏;可以发现某些特大或特小的可疑
13、值,提示检查核对。2、频数分布特征的描述指标及其适用条件:*对于经对数变换后呈正态分布或近似正态分布的资料,应将原始观察值取对数值后计算几何标准差。分布特征指标计算公式适用条件集中趋势平均数Xn原始资料:X = i1 i X1 X2 III Xn nnIIIfixi骊加圭洛近.Yf1X1_f2X2_III fkXk单峰对称分布资料,特 别是正态分布或近似正 态分布 flf2fkfi几何均数GgXn、正偏态分布资料,经 过对数变换呈正态分布 或近似正态分布;观 察值间呈倍数关系或近 似倍数关系;变量值 中不能有0和负数,可适当加上一个正数;原始资料:G n/X1X2X3|Xn海 C j/g lg
14、X2 | 卜“ 71gl) ig ()nn频数表资料:HlfilgXiG la /-Xif21gx2fklgXki9G lg (f f I?) lg ()f1f2IIIfkfi中位数M原始资料:M Xnj,当n为奇数时;M (Xn Xn_1)/2 ,当n为偶数时 2F频数表资料:M Lm (n 50%fL)fMLm为中位数所在组段的下限;i为组距;fM为中位数所在组段的频数;fL为中位数所在组段前一组的累计频数。不对称分布的资料,两 端无确切值或分布不明 确的资料离散趋势极差RR-最大值-最小值单峰对称分布小样本资 料四分位间 距Q QlQu Ql=P75 P25 Px = Lx 十(nx%f
15、L)f xLx为第x百分位数所在组段下限,i为第x百分位数所在组段的组距,f x为第x百分位数所在组段的频数,fL为第x百分位数所在组段前一组的累计频数偏态分布资料、两端无 确切值或分布不明确资 料方差S2n 2 nn( Xi)(Xi X)2Xi2 上原始资料:S2 口 Ln一n 1n 1(fX)2fX2 频数表资料:S2 n一n 1单峰对称分布资料标准差S变异系数CVSCV 卫 100%X比较计量单位不同或均 数相差悬殊的几组资料 的离散程度3、正态分布及其应用:概率密度曲线和正态分布曲线:对于变量的频数分布满足中间多,两边少,且左右对称的资料,以观察变量(组距)为横轴,频率密度(频率密度
16、哪率/组距)为纵轴,即可得到频率密度直方图,当观察单位逐渐增加,组段一8,频率分布图中的直条逐渐变窄,就会逐渐形成一条高峰位于中央(均数所在处)、两侧逐渐降低且左右对称、不与横轴相交的光滑曲线,即概率密度曲线,近似于数学上的正态分布曲线。若变量X的频率曲线逼近数学上的正态分布曲线,则称该变量服从正态分布。 正态分布曲线的密度函数为:f(x)1 ;2一e(x )22 2为总体均数,为总体标准差,兀为圆周率,e为自然对数的底)特点:正态曲线在横轴上方均数处最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数与标准差,决定位置,决定“胖瘦”;正态曲线在 1处各有一个拐点;正态曲线下的面积
17、分布有一定的规律:X 1.645S-90% X1.96S 95% X 2.58S 99%若X服从正态分布N,2),经Zx -变换后,则Z就服从均数为0,标准差为1的214正态分布N (0, 1),称为标准正态分布或Z分布,其餐度函数为:尹(z)二/e 2 ,-8 q ZC +8。T 2冗正态分布的应用:(1)估计总体变量值的频率分布 D :(Zx)可通过查附表2 ( Z分布界值表)获得。XD (Z1)- (Z2) Zx (可用样本均数 X和样本标准差 S作为总体均数和总体标准差的估计值)(2)制定医学参考值范围:医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理 及生化指标
18、观察值的波动范围。制定步骤及注意事项:确定观察对象和抽取足够的观察单位;测定方法统一、准确;决定是否分组制定参考值范围;确定取双侧或单侧参考值范围;选定适当的百分界限; 选择制定医学参考值范围的方法:部分指标服从对数正态分布,对观察值取对数后计算其对数值的均数和标准差,按正态分布法算出医学参考值范围 的对数值,然后取反对数求其真数。百分界限(%)正态分布法百分位数法双侧单侧双侧单侧只用卜限只有上限只有卜限只有上限95? 1.96S?- 1.64S?+ 1.64?P2.5 P97.5P5P9599?土 2.58?- 2.32?+ 2.32?R.5 P99.5P1P99总体均数的估计1、均数的抽样
19、误差与标准误:抽样误差:这种由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异称为抽样误差。均数的标准误:由于随机抽样所造成的样本均数与总体均数的差别,即为样本均数的抽样误差。样本均数的标准差称为均数的标准误(SEM),用符号0?表示,它说明各样本均数 无围绕总体均数科的离散程度,可用来描述样本均数的抽样误差大小。X、n在抽样研究中,总体标准差 b常常未知,常用样本标准差 S作为 而估计值,因而得到均数标准误的估计值?私其计算公式为:SX根据数理统计的中心极限定理:从均数为小标准差为我正态总体中进行独立随机抽样,其样本均数服从均数为科,标准差为b”?勺正态分布;即使是从非正态总体(均
20、数为科,标准差为 m中进行独立随机抽样,当样本含量逐渐增大(n50)时,其样本均数的分布逐渐逼近与均数为小 标准差为b”酌正态分布。标准差与均数的标准误的区别于联系:标准差均数的标准误区 别统计符号总体标准差用误示,样本标准差用 S表示:均数的标准误用昭表示,其估计值用??表示计算公式_、*?- ?2S=?- 1SX卡统计学意义标准差越小,个体值分布相对越集中,样本 均数对数据的代表性越好标准误越小,样本均数的分布越集中,样本 均数与总体均数的差别越小,抽样误差越 小,由样本均数估计总体均数的可靠性越大用途描述个体值的变异程度描述均数的抽样误差大小联系SX岛2、t分布产生、特征t分布的产生:从
21、正态总体中随机抽取的样本的均数的艮从总体均数为科、 总体标准差为 限的正态分布。经过Z变换,正态分布N (小??)转化为标准正态分布 N (0,1),即Z分布。由于实际研究工作中,吟未知常见,S.一 X只可匕以?代替(?,而SX 刀二中S会因为样本不同而不尽相同,即?有变异,故不再服从标准正态分、nSx布,而服从t分布,即: Z -Z Xt - 工,V n 1xSxS/ . nt分布特征:t分布是一簇单峰分布曲线。 t分布以t=0为中心,左右对称且均匀下降。其形态变化与自 由度 的大小有关。自由度 越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当二时,t分布即为
22、标准正态分布。3、总体均数的估计:点估计用样本统计量直接作为总体参数的估计值。区间估计是给出被估计参数的可能范围。区间估计:是指按照一定的概率(1- a),估计总体参数所在的范围,这个范围称为参数的置信区间,概率(1- a)称为置信度。总体均数置信区间的估计:总体均数科的双侧(1-a)置信区间的计算公式为:XP( t /2, t t /2, ) 1P( t /2,- t /2, ) 1X t /2, SXX t /2, SXS/n其余计算同下表。两总体均数差值的置信区间:假设两正态总体分布服从正态分布N(?, ?)和N(?2,?分,当?彳,?22均已知,但? = ?时,两总体均数之差(?- ?
23、)的双侧(1-a)置信区间为:(X1 x2)tsx X2其中t值的自由度Y =(ni-1)+(n 2-1)=n i+n2-2 , ?1?2称为两均数之差的标准误。SS7 Q2(ni 1)S2 (n2 1)S2SXi X2、SC () Sc-/1:nn(n1 n2 2)当m, n2均较大时,差值的可信区间为:(X1 X2) z/22ZTS1S2n1n295个置信区间包含了总体均0.05。置信区间的含义:总体均数的95%置信区间的含义是从正态总体中重复100此抽样,每次1本含量为 n,每个区别总体均数置信区间医学参考值范围意义按一定的置信度(1- a)估计总体均数所在范围绝大多数“正常人”的某项解
24、剖、生理、生物化学指标的 波动范围计算 公式b未知:(?- ?2,?纵?+ ?私2,?行抹知而n较大时:(眼??2,?, ?+ ?22,?豺 b已知:(?- ?22,?死??+ ?2,?初正态分布双侧,(?- ?2,?S, ?+ ?22,?后单侧,(??- ?2,?S, + )或(-oo, ?+ ?2 ,?S)偏态分布双侧,??00-?单侧,(? + 8)或(-8, ?00-?)用途倩计总体均数所在的范围判断观察对象的某项指标正常与否,为临床诊断提供参考样本均按? ?05?2,?十算95%置信区间,则在这100个置信区间中,理论上有数(估计正确),而有 5个置信区间未包含总体均数(估计错误),
25、即犯错误的概率是 总体均数置信区间与医学参考值范围的区别:假设检验1、假设检验的基本思想:在总体参数相等这一假设成立的前提下,计算出现等于及大于(或等于及小于)现有样本统计量的可能性(P值)。在零假设 H0成立的前提下利用小概率反证法的逻辑思维方式,先计算比现有样本检验统计量以及更极端,f#况的可能性(P值),然后根据检验水准进行判断。如果P值很小,小于或等于事先规定的检验水准”,如0.05,结论就是拒绝零假设 H。,接受Hi,认为总体参数间不同;如果 P值大于“,不才I绝Ho,尚不能 认为总体参数之间不同。2、假设检验的基本过程:建立检验假设,确定检验水准?零假设H0和备择假设Hi,检验水准
26、注明单侧或双侧。 计算检验统计量:注明自由度。确定P值,做出统计推断。3、I型错误和H型错误:当拒绝H0时,认为在零假设成立的情况下,出现现在这种样本均数以及更极端情况的概率很下(P a,不拒绝D检验及矩法检验)(KURT)时,双侧 产0.10,只有当上述两个检验都H0时,尚不能认为两总体方差不齐。能绝对化:报告假设检验结果时要给出检验水准、单双侧检验、样本量大小等。计学意义存在有实际意义、可能有实际意义、无实际意义;无统计学意义存在样本过小和可接受零假设。t检验1、t检验的应用条件:要求两样本均来自 正态分布 总体;两样本总体 方差相等。配对设计资料:配对的两个受试对象分别接受两种不同处理之
27、后的数据,如把同年龄、同种属、同窝别的动 物配成一对;同一样品用两种方法(或仪器)检验出的结果;同一受试对象处理前后的测定数据。用途公式0比较单样本:sx匚S2(较大)ddFc2q I , M R 1,V2n21S2 (较小)方差分析方差分析的基本思想:将总变异按设计和需要分解成两个或多个部分。用途:比较k个总体均数间差别有无统计学意义。应用条件:各样本是相互独立的随机样本,均服从正态分布;各样本的总体方差相等,即满足方差齐性。完全随机设计资料的方差分析 :又称单因素方差分析。完全随机设计是将同质的受试对象随机地分配到各处理组,再观察其实验效应。SS、 SS且间SS且内,V总v组间v组内变异来
28、源SSvMSF总变异一 2(X X)N 1组间变异2nC X)k 1SS且间/v组间MS组间/MS组内组内变异SS总SS且间N kSS且内/v组内随机区组设计资料的方差分析 :属于无重复数据的 两因素方差分析。随机区组设计又称配伍组设计,通常是将 受试对象按性质相同或相近者组成b个区组(又称配伍组),再将每个区组中的受试对象分别随机分配到k个处理组中。SS SSa S7组SS误差,v总v处理v区组v误差变异来源SSvMSF总变异_ 2(X X)N 1处理组_ 2ni (Xi X)k 1SSyi /v处理MS妲里/ MS误差区组2j(Xj X)2b 1SSi / v区组MS屋t / MS误差误差
29、SS、SS处理sa组v总丫处理v区组SS吴差/v误差多个均数两两之间比较:SNK法(q检验):比较每两个样本均数所代表的总体均数是否不同。Dunnett-t检验:用于多个处理组与对照组的比较。多个均数两两之间比较进行t检验会增大I型错误。交叉设计资料的方差分析:按事先设计好的 实验次序,在各个时期对受试对象先后实施各种处理。SS、 SSb里 SSh, S0 体 SS吴差 总 处理 阶段 个体 误差变异来源SSvMSF总变异一2(X X)2n 1处理2n处壬1(X处理X)1SSrn1 /1MS如里/ MS误差阶段2n阶段(X阶段X)1SS介段/1MS阶段/ MS误差个体/x7x7、2n个体(X个
30、体 X)n 1S1体 /(n 1)MS个体/ MS误差误差SS总 SS ssm SS个体n 2SS吴差/(n 2)析因设计资料的方差分析:析因设计是将两个或多个实验因素的各水平进行全面组合,对各组合都进行实验,从而探讨各实验因素的 单独效应、主效应以及各因素间的 交互效应。统计推断时先判断有无交互效应,若存在交互效应时,单纯研究某个因素的作用是没有意义的,必须在另一个因素的不同水平下研究该因素的作用大小。SS、SS处理SS吴差(SSaSSbSSab)SS吴差v总v处理v误差(vavbv误差变异来源SSvMSF总变异一2(X X)N 1处理2ni(Xi X)k 1A24(Xa X)21S$/va
31、MSa / MS误差B2(Xb X)1SSb/VbMSb / MS误差ABSSb 理 SSa SSb1SSab / VabMSab / MS误差误差SS总 S%N kSS吴差/v误差重复测量资料的方差分析:重复测量资料是同一受试对象的同一观察指标在不同时间点上进行多次测量所获得的资料,常用来分析该观察指标在不同时间点上的变化特点。前提条件:除需满足一般方差分析的条件外,还需特别满足协方差阵的球形性或复合对称性。若球对称性质不能满足,方差分析的结果会增大 I型错误的概率。 球对称性通常采用 Mauchly检验来判断。若P a,从理论上讲,应对受试对象内所有变异的自由度进行校正, 包括时间效应、处
32、理X时间的交互效应以及个体内误差三者的自由度均需乘以G-G法或H-F法的“球对称”系数e,再查F界值表获得P值。重复测量资料还可以用Mixed回归模型分析,不要求资料满足球形对称性。SS、S0试对象间SSk试对象内(SSb里S&体间误差)(SS寸间SS处理时间S1体内误差)总受试对象间受试对象内(处理个体间误差)(时间 处理时间 个体内误差)变异来源SSvMSF总变异一2(X X)N 1受试对象间_ 2nj(Xj X)k 1处理nZYYX2n处壬!(X处理X)g 1SSyi / v处理MS处壬g / MS个体间误差个体间误差SS寸象间SSak gSS个体间误差/v个体间误差受试对象内SS SS
33、寸象间N k时间vx2n时间(X时间X)P 1SS寸间/ v时间MS时间/ MS个体内误差处理X时间zvvx2n处理时间(X处理时间X)(g 1)(P 1)SSb理时间/ v处理时间MS处理时间/ MS个体内误差误差SS寸象内SS寸间-SSa时间N k-g( p 1)SS个体内误差/v个体内误差随机区组设计与完全随机设计相比,因为通过区组控制了可能的混杂因素,并将区组变异从原组内变异中分解出来,所以,当区组因素有统计学意义时,方差分析的随机误差部分更为准确,检验效能更高。随机区组设计和2X2析因设计虽然均为两因素,但随机区组设计通常为研究单因素而设计,区组因素只是一个控制因素,不能分析其交互效
34、应;2X2析因设计为两因素设计,可以分析两因素间的交互作用。对析因设计资料,应先分析交互效应。若交互效应 有统计学意义,须固定某一因素的水平, 逐一分析其他因素的 单独效应; 反之,若交互效应 无统计学意义,则因素间的作用相互独立,分析某一因素的作用只需考察该因素的主效应。定性资料的统计描述1、定性资料:在医学研究和实践中,有一类资料是按照事物的特征或属性进行分类的,这类资料称为定性资料, 也称分类资料或计数资料。定性资料的频数分布:定性资料频数分布表又称 列联表,是用两个分类变量对同一资料进行双向分类形成的表, 可用于考察两种属性的关系。常用相对数指标:(1)率:是指某现象实际发生数与某时间
35、点或某时间段可能发生该现象的观察单位数之比,用以说明该现象 发生的频率或强度。包括频率和速率两类指标。(2)构成比(proportion ):即比例,是指事物内部某一部分组成观察单位数与同一事物各组成部分的观察单 位总数之比,用以说明事物内部各组成部分所占比重。特点:分子是分母的一部分,各组成部分的构成比数值之和等于1或100%。事物内部各组成部分之间呈此消彼长关系。(3)相对比(ratio):是两个有关联的指标之比值,用以说明一个指标是另一个指标的几倍或几分之几。可 分为:关系指标:指两个有关的非同类事物的指标,如医护人员与病床数之比。 对比指标:指同类事物的 两个指标之比,以达到比较的目的
36、。如男女性别比。应用相对数的注意事项:计算相对数应有足够的观察单位数;分析时不能以构成比代替率;应将分子和 分母分别合计求合计率;相对数的比较应注意其可比性;样本率或样本构成比的比较应作假设检验;某 些情况下最好使用绝对数:传染病疫情描述和其他突发事件的描述。2、率的标准化:标准化法的 基本思想 就是采用统一的标准构成,以消除年龄、性别、病情轻重及病程长短等因素 构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率具有可比性。直接法:已知被标化组的年龄别死亡率pi时,宜用直接法计算标准化率。(1)已知标准组年龄别人口数时,,一qNi pi 标准化率p (标准化人口 Ni按照被标化组的年龄
37、别死亡率Pi去死)(2)已知标准组年龄别人口N构成比时,标准化率 p(N1) pi (标准组年龄别人口构成比x被标化组的年龄别死亡率称为分配死亡率)N间接法:当只有被标化组的年龄别人口数ni、死亡总数r和标准组的年龄别死亡率 Pi时,可采用间接法。rrp P P SMR (被标化组人口 ni按照标准组的年龄别死亡率 P去死)是被标化组的实niPniP际死亡数与预期死亡数之比,称为标准化死亡比(SMR)标准组的选择:根据研究目的选择有代表性的、较稳定的、数量较大的人群;将欲比较的两地或两组的人 口数合并作为标准组,或选择其中一组较多的人口作为标准组。应用标准化法的注意事项:标准化率并不代表真实水
38、平,选择的标准不同,计算出的标准化率也不相同。因 此标准化率仅适用于相互间的比较,实际水平应采用未标化率来反映。样本的标准化率是样本指标值,亦存 在抽样误差,若要比较其代表的总体标准化率是否不同,需作假设检验。当被标准化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合 采用标准化法,宜分层比较各年龄组率。2检验222检验时在 2分布的基础上,利用样本信息考察样本频数分布与假设成立条件下的理论频数分布之间差异的假设检验方法。由于2分布本身是一种连续型随机变量的概率分布形式,而基于频数算的的2值是离散的,不可能取0, +8)的任意
39、值,因此,PearsonX2只是近似服从X2分布,只有当样本例数或理论频数足够大时,这种近似才较好,进行X2检验才是有效的。1、独立样本率或构成比比较的X2检验2X2列联表资料的2检验:v k s p (R 1)(C 1)当n 40且所有格子的T 5时,2 (ad bc)2n(a b)(c d)(a c)(b d)(A T)2A T 0.5)亦可使用确切概率法Tt -2(lad bcl n 2)2n当n 40且有1 T 5时, 2 -(a b)(c d)(a c)(b d)当n 40或有T 1时,应选择Fisher确切概率法P (a b)!(c d)!(a c)!(b d)! p 1a!b!c
40、!d !n!四格表确切概率法的基本思想:在四格表周边合计不变的条件下,利用超几何分布直接计算发生样本事件及比样本事件更极端情形发生的概率。由于四格表的自由度为1,在周边合计不变的条件下,只需依次增减样本四格表第1个格子数据,即a由小变大,即可得到各种组合的四格表,按 a由小到大排列,然后依次计算出各种组合的概 率Pi,找出概率小于或等于原四格表概率的所有四格表,将其对应的概率相加,得出双侧概率。最后,将计算出的 概率与检验水准”比较,得出结论。RX C列联表资料的 X2检验:般要求不能有1/5以上格子的T5 ,或有1个格子的T5o b.当v=1时,可进行连续型校正,校正八卡加入 2 k (A
41、Ti 0.5)2 公式如卜:i 1T拟合优度X2检验中期望频数分布服从理论分布,为了降低犯n型错误的概率,将“提高到0.1或0.2。4、率的线性趋势 X2检验:当率按某变量自然顺序的等级分层,或连续性变量等级化后在分层时,可采用CochranArmitageq趋势检验以分析率随该分层因素变化的线性趋势。2 N(N tN T nZ)2 2T,v 1 T(N T)N nZ ( nZ)N是总人数,n是各组人数,T是总阳性数,t是各组阳性数,Z是各组评分。如果是按数量分组的资料,评分的 原则与分组间隔相适应;如果是按性质分组的资料,评分的原则是1, 2, 3,。秩和检验1、参数检验(parametri
42、c test):以特定的总体分布为前提,对未知的总体参数作推断的假设检验方法。非参数检验(nonparametric test):不以特定的总体分布为前提,也不对总体参数作推断, 故也称为任意分布检验 (distribution-freetest)。由于非参数检验没有利用观察值的具体数据,而只利用了其大小次序的信息,信息利用不够充分,故凡适合 参数检验的资料,应首选参数检验。2、秩和检验(rank sum test):是将原数据转换为秩次,比较各组秩和的一类非参数检验方法。适用范围:等级资料;总体分布类型不明的资料;非正态分布的资料;对比组间方差不齐的资料;一端或两端观察值不确 切的类型。Wi
43、lcoxon符号秩和检验 (Wilcoxon signed-rank test):可用于配对设计计量差值的比较,还可用于单一样本与 总体中位数的比较。配对设计的两样本比较:Wilcoxon配对符号秩和检验的基本思想:在配对样本中,由于随机误差的存在,其 对差值的影响不可避免。假定两种处理的效应相同,则差值的总体分布为对称分布,并且差值的总体中位数为 0。若此假设成立,样本差值为正的秩和与差值为负的秩和应相差不大,均接近 n(n+1)/4;当正负组秩和相差悬 殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝Ho0编秩过程:(1)求差值di; (2)编秩,以差值的绝对值由小到大编秩,当
44、差值为0,舍去不计,n随之减少;(3)分别计算正差值的 秩和T+与负差值的秩和;(4)确定检验统计量T,任取T+或作为检验统计量 To 查表法:附表10 (T界值表),若T值在上、下界值范围内,其P值大于相应的概率;若T值恰好等于界值,其P值一般等于相应概率;若T值在上、下界值范围外,其 P值小于相应的概率,下移一行再做比较。正态近似法:随着n的增大,T统计量的分布逐渐逼近均数为n(n+1)/4 ,方差为n(n+1)(2n+1)/24的正态分布,当n50时,近似程度较满意。T n(n 1), 4| 0.5T n(n 1) 4| 0.5-上人小卫.Z 工 Zc -1,引(当相持的情形较多时,如个
45、体数超过n(n 1)(2n 1)/24 n(n 1)(2n 1)(t: tj)244825%,可用校正的统计量 Zc, tj为第j个相同秩次的个数)单一样本与总体中位数比较 :求差值、编秩、求秩和、计算检验统计量。成组设计两样本比较的秩和检验:Wilcoxon秩和检验(Wilcoxon rank sum test)推断连续型定量资料或有序分类资料的两个独立样本代表的总体分布位置是否有差别。基本思想:假设含量为m和n2的两个样本(且n2),来自同一总体或分布相同的两个总体,则n1样本的秩和T1与其理论秩和n(N+1)/2相差不大,即T1-n1(N+1)/2仅为抽样误差所致。当两者相差悬殊,超出抽
46、样误差可解释的范围时,则有理由怀疑该假设,从 而拒绝H0O原始数据的两样本比较:原始数据为连续性定量资料,且不满足参数检验条件时编秩过程:编秩过程同上,若两样本例数相等时,取任意组的秩和作为检验统计量;若两样本例数不相等时, 取样本含量较小组的秩和作为检验统计量。(1)查表法:当样本含量较小组w10,且两样本含量之差w 10时,查附表11 (内大外小)。(2)正态近似法:当 n110或nn210时,根据中心极限定理,这时 丁的分布已接近均数为 m(N+1)/2 ,方差 为mn2(N+1)/12的正态分布。Z T J(N 1)/2 0.5 Zc -Z=,c 1 (t: tj)/(N3 N)(当相持的情形较多时,如个体数超过25%, .nn2(N 1)/12c可用校正的统计量Zc, tj为第j个相同秩次的个数)等级资料的两样本比较:编秩、求秩和、确定统计量,计算同上。成组设计多个样本比较的秩和检验:Kruskal-Wallis H 秩和检验,同于推断非正态分布定量变量或有序分类变量的多个总体分布位置有无差别。多个独立样本间的多重比较可以采用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山西省高中学业水平合格考物理试卷试题(含答案详解)
- 天车控制原理图
- 数字编程教育在小学美术课程中的创新应用研究教学研究课题报告
- 推理教学在高中数学教学中的创新实践与效果评估教学研究课题报告
- 2025年化妆品研发前沿:天然成分安全性评估报告
- 生成式AI技术在高中地理课堂多媒体资源制作中的应用与教学效果研究教学研究课题报告
- 2025年数字内容跨境创作平台技术创新路径探索报告
- 西藏自治区教材编译中心2026年度急需紧缺人才引进7人备考题库带答案详解
- 2026年某上市企业测试工程师、CV芯片验证工程师招聘备考题库及一套答案详解
- 2026年江西师范大学图书馆非事业编制聘用人员招聘备考题库(含答案详解)
- 喷绘安装合同范本
- 全反力、摩擦角、自锁现象、辅助角-习题答案
- 2026年湖南食品药品职业学院单招职业适应性测试题库带答案详解
- 《AQ 4272-2025铝镁制品机械加工粉尘防爆安全规范》专题研究报告
- 2025年度威海文旅发展集团有限公司招聘工作人员25人笔试参考题库附带答案详解(3卷)
- T-CNHC 4-2025 昌宁县低质低效茶园改造技术规程
- 2025年手术室护理实践指南试题(含答案)
- 黑龙江省哈尔滨市南岗区2024-2025学年(五四制)六年级上学期期末语文试题
- 【MOOC】英文技术写作-东南大学 中国大学慕课MOOC答案
- 国家开放大学《市场营销学》章节练习参考答案
- 综掘机技术规格书
评论
0/150
提交评论