χ2检验_第1页
χ2检验_第2页
χ2检验_第3页
χ2检验_第4页
χ2检验_第5页
已阅读5页,还剩124页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计数资料的描述和2检验,第一节 计数资料的统计描述,一、常用相对数,相对数:两个有关联的数值之比就称为相对数,用以说明事物的相对水平。,常用的相对数:强度相对数(率)、结构相对数(构成比)、相对比,二、应用相对数时的注意事项,1。结构相对数不能代替强度相对数2。计算相对数应有足够数量3。正确计算合计率 4。应注意资料的可比性 (其一:内部构成是否相同)5。对比不同时期资料应注意客观条件是否相同 6。样本率(或构成比)的抽样误差,三、率的标准化,1.标准化法的意义和基本思想,几组资料的合计率要做比较,由于某一影响因素在资料中的内部构成不同,不能直接比较。采用统一的标准构成进行调整,以消除构成不同对合计率的影响,使调整后的率具有可比性,这种方法叫率的标准化法,调整后的率叫调整率或标准化率,用p表示。,2。标准化率的计算,(1)标准化方法,常用的标准化方法:直接法和间接法,要根据资料的条件选择不同的方法计算标准化率。,以对死亡率的年龄构成标准化为例: 直接法:已知年龄别死亡率 间接法:只有总死亡数和年龄别人口数,无年龄别死亡率;或各年龄组人口数较小,年龄别死亡率不稳定,选择标准构成的方法: 几组资料任选一组资料的人口数(或人口构成)作为标准。适用于直接法 几组资料各部分人口数之和组成的人口数(或人口构成)作为标准。适用于直接法 另外选用一个通用的或者便于比较的标准作为标准,如全国、全省或全地区的数据作为标准。直接法和间接法均可,(2)计算标准化率的步骤,根据资料的条件选用直接法或间接法,选定标准构成,计算标准化率, 直接法, 间接法,例5-4 对表5-4资料,求甲、乙两种疗法标准化治愈率。, 选择直接法, 选定甲、乙两种疗法各病型治疗人数之和作为标准组,(1)用标准人口数计算, 求预期治愈人数, 计算甲、乙两种疗法的标准化治愈率,甲疗法的标准化治愈率乙疗法的标准化治愈率,(2)用标准人口构成比计算, 选择直接法, 选定甲、乙两种疗法各病型治疗人数之和的人口构成作为标准, 求分配治愈率, 计算甲、乙两种疗法的标准化治愈率,甲疗法的标准化治愈率:p=47.5%乙疗法的标准化治愈率:p=53.4%,例5-6 经研究表明,女性原发行性骨质疏松随年龄增长患病率增高。1998年某省在城市和农村分别抽样调查了50岁以上的老年妇女776例和789例,这些人中患有原发性骨质疏松症者城市为322例,农村为335例,总患病率分别为41.5%和42.5%。由于本次调查的城乡老年妇女的年龄构成不同,请对总患病率进行标准化,然后比较。, 选择间接法, 选定另一个地区某年的50岁以上老年妇女原发性骨质疏松的年龄组患病率Pi作为标准, 求预期患病人数, 计算城乡两地的SMR及标准化患病率,城市SMR:城市标准化患病率:农村SMR:农村标准化患病率:,3。应用标准化时的注意事项,(1)标准化法只适用于某因素在组内构成不同,并有可能影响各组总率比较的情况。(2)选择的标准人口不同,算出的标准化率也不同。(3)标准化率不能反映实际水平,只是表示相互比较的资料间的相对水平。 (4)标准化率是样本率,存在抽样误差。,动态数列是一系列按时间顺序排列起来的统计指标(指标可以是绝对数、相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。,四、动态数列及其分析指标,研究的初始时间称为基期,对应的指标数称为基数(a0)。,1。绝对增长量,绝对增长量是说明事物在一定时期增长的绝对值。可分为两类,逐年增长量:报告期指标与前一期指标之差。,累计增长量:报告期指标与基期指标之差。,2。发展速度和增长速度,发展速度和增长速度均为相对比,说明事物在一定时期的速度变化。,(1) 发展速度:表示报告期指标的水平相当于某一期指标水平的百分之几或若干倍。,定基比发展速度:,环比发展速度:,(2) 增长速度:发展速度-1,表示净增加速度。,定基比增长速度:,环比增长速度:,3。平均发展速度和平均增长速度,(1) 平均发展速度:是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均发展的速度。,平均发展速度:,(2) 平均增长速度:是各环比增长速度的平均数,说明某事物在一个较长时期中逐期(如逐年)平均增长的速度。,平均增长速度:,从表5-9的动态指标可以看出,该医院8年来的日门诊量每年均有增加,但发展是不平衡的,1994-1996年间日门诊递增70-80人次,每年的递增速度在4.0%-4.8%之间;而1997-1999年的每年日门诊递增为390-770人次,每年的递增速度可达21.3%-28.7%。8年间该医院年平均发展速度为114.1%,年平均增长速度为14.1%。,动态数列的分析不仅可以总结过去,而且可以进行预测,即根据平均发展速度的公式,计算几年后达到的指标值。 如:预测2001年的日门诊量,根据资料可知2001年的日门诊量为a10,平均发展速度为:,一、率的抽样误差与标准误(一)定义 在抽样研究中,由于抽样造成的样本率与总体率之间的差异或者样本率之间的差异,称为率的抽样误差。(二)计算:率的抽样误差大小用率的标准误来衡量。 一般情况下,由于我们研究的是样本,未知,所以常用p代替,得到率的标准误的估计值:,第二节 2检验,内容简介,(1)四格表资料(完全随机设计+配对设计)(2)行列表(多个率+构成比+关联性检验)(3)四格表资料的确切概率法(4)率的多重比较(5)有序分组资料的线性趋势检验(6)分层资料的M-H检验,2分布是一种连续型随机变量的概率分布设X1 X2,X是相互独立的随机变量,且均服从标准正态分布N(0,1),则随机变量的平方和称为2变量2变量服从自由度为的2分布,记为22 (),(1)2分布的定义,2分布(Chi-square distribution),(2)2分布的图形,由2分布的密度函数可以绘制出2分布曲线,从曲线可以看出,2分布的形状依赖于自由度的大小,当自由度2时,曲线呈L型;随着自由度的增加,曲线逐渐趋于对称;当自由度时,2分布趋于正态分布。,(3)2分布的基本性质,2分布的一个基本性质是可加性:如果两个独立的随机变量X1和X2分别服从自由度为1和2的2分布,则X1+X2服从自由度为(1+2)的2分布。,(4)2界值,当自由度确定后,2分布曲线下右侧尾部的面积为时,横轴上相应的2值即为2界值,表示为 。,2界值可以通过查2界值表得到,当自由度一定时,2值越大,P值越小;2值越小,P值越大。,一、四格表资料的2检验,1。四格表资料(完全随机设计),(1)当n40且所有的T5时,用2检验的基本公式或四格表资料的专用公式,当出现P时,改用四格表资料的Fisher确切概率法。(2)当n40但有1T5时,用校正公式,或者使用四格表资料的Fisher确切概率法。(3)当n40或T1时,用四格表资料的Fisher确切概率法,例7-1 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?,例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等?,表7-2 两种药物治疗脑血管疾病有效率的比较,例7-4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表7-4。问两组新生儿的HBV总体感染率有无差别?,表7-4 两组新生儿HBV感染率的比较,2。配对四格表资料(配对设计),例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别?,表7-3 两种方法的检测结果,三、行列资料的2检验,行列表:行数或列数至少有一个超过2的统计表称为行列表,也可以表示为RC表。,行列表2检验可用于: 多个样本率的比较 2个或多个样本构成比的比较 双向无序分类资料的关联性检验,行列表资料的2检验可以使用2检验的基本公式,也可以使用下面的专用公式:,1。计算公式,例7-6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三种疗法的有效率有无差别?,表7-8 三种疗法有效率的比较,例7-7 某医师在研究血管紧张素I转化酶(ACE)基因I/D多态与型糖尿病肾病(DN)的关系时,将249例型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组型糖尿病患者的ACE基因型分布有无差别?,表7-9 DN组与无DN组2型糖尿病患者ACE基因型分布的比较,2。双向无序分类资料的关联性检验,两个变量均为无序分类变量的行列表称为双向无序行列表。 对于双向无序行列表可使用2检验分析两个变量之间有无关系。,例7-8 测得某地5801人的ABO血型和MN血型结果如表7-10,问两种血型系统之间是否有关联?,表7-10 测得某地5801人的血型结果,1 建立假设并确定检验水准 H0:两种血型系统间无关联 H1:两种血型系统间有关联 =0.05,2 计算统计量,3 确定P值,作出统计推断,=(4-1)(3-1)=6,查2界值表:,按=0.05的水准,拒绝H0,接受H1,可以认为两种血型系统间有关联。,P0.005,若两变量间存在关联,可以进一步分析关联的密切程度,计算Pearson列联系数C:,列联系数C的取值范围为0-1,取值为1表示两个变量完全相关,取值为0表示两个变量无关,取值越接近1关系越密切,越接近0关系越疏远。,题中得到,拒绝H0,接受H1,可以认为两种血型系统间有关联的结论,可以进一步分析其关系的密切程度。,可以看出两种血型系统间虽然存在联系,但列联系数较小,说明其关系不密切。,3。行列表资料2检验的注意事项,(1)在对行列表资料进行2检验时,要求不能有1/5以上的格子1T5或者一个格子的T1。,当不满足该条件时,解决的办法: 增大样本容量 根据专业知识,删除理论频数太小的行或列;或者将理论频数太小的行或列与性质相近的邻行或邻列合并 使用行列表资料的确切概率法,(2)多个样本率比较,在得到拒绝H0,接受H1时,只能认为各总体率不全相等,需要进一步作多个样本率的多重比较。,(3)并不是所有的行列表都可以使用2检验进行分析。需要分类类型和研究目的选择合适的方法进行检验。,第三节 四格表资料的确切概率法,适用于四格表资料中n 40 或T0,需计算满足DiD*和PiP*的各四格表的累积概率;若D*2 =0.05,2 计算累计概率,P=P7+P8=0.0286,按=0.05的水准,拒绝H0,接受H1,可以认为胆囊腺癌P53基因表达总体阳性率高于胆囊腺瘤。,第五节 多个样本率比较的2分割法,多个样本率比较,在得到拒绝H0,接受H1时,只能认为各总体率不全相等,需要进一步作多个样本率的多重比较。 多重比较的方法有:2分割法、Scheff可信区间法、SNK法。,一、基本思想,将多个样本率比较的R2表,分割成多个独立的四格表进行两两比较。 但需要注意的是:为保证检验假设中型错误的概率不变,必须重新规定检验水准。,新检验水准的估计方法:,1。多个处理组间的两两比较,分析目的是对k个处理组间任意两个率进行比较。此时,需要将k2表分割成 个四格表分别进行检验,再加上总的k2表资料的2检验,共进行 次检验。所以新的检验水准为:,分析目的是各实验组与同一个对照组进行比较。此时,新的检验水准为:,2。实验组与同一个对照组的比较,二、多个处理组间的两两比较,例7-9 对例7-6中表7-8的资料进行两两比较,以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别?,表7-8 三种疗法有效率的比较,1 建立假设并确定检验水准 H0:A=B,任两对比组的总体有效率相等 H1:AB,任两对比组的总体有效率不等,本例k=3,当=0.05时,新的检验水准为:,2 将32表拆分为3个四格表,分别进行检验,对此表进行检验,n40,T22=11.735,可以使用四格表资料2检验的专用公式。经计算2=6.76,0.00833P40,T22=13.585,可以使用四格表资料2检验的专用公式。经计算2=21.23,P40,T22=19.445,可以使用四格表资料2检验的专用公式。经计算2=4.59,P0.0167,3 作出统计推断,按=0.0167的水准,物理疗法组与药物治疗组,拒绝H0,接受H1,可以认为两组的总体有效率不同;物理疗法组和外用膏药组,拒绝H0,接受H1,可以认为两组的总体有效率不同;而药物治疗组和外用膏药组,不拒绝H0,还不能认为两组的总体有效率不同。,三、各实验组与同一个对照组的比较,例7-10 以表7-8资料中的药物治疗组为对照组,物理疗法组和外用膏药组为实验组,分析两实验组与对照组的总体有效率有无差别。,1 建立假设并确定检验水准 H0:T=C,各实验组与对照组的总体有效率相等 H1:TC,各实验组与对照组的总体有效率不等,本例k=3,当=0.05时,新的检验水准为:,2 将32表拆分为2个四格表,分别进行检验,3 作出统计推断,按=0.0125的水准,物理疗法组与药物治疗组,拒绝H0,接受H1,可以认为两组的总体有效率不同;而药物治疗组和外用膏药组,不拒绝H0,还不能认为两组的总体有效率不同。,对此表进行检验,n40,T22=11.735,经计算: 2=6.76,0.00833P40,T22=19.445,经计算: 2=4.59, P0.0125,第六节 有序分组资料的线性趋势检验,一、行列表的分类及其检验方法的选择,行列表都可以可以分为双向无序、单向有序、双向有序属性相同、双向有序属性不同4类。,1。双向无序行列表:表中的两个变量均为无序变量。对于双向无序行列表资料可以使用2检验进行多个样本率、两个/多个样本构成比的比较或者关联性检验。, 分组变量有序,而指标变量无序,2。单向有序行列表, 分组变量有序,而指标变量无序,分组变量有序,而指标变量无序的单向有序行列表,其研究目的通常是分析不同组别的各种构成是否相同。此时可以使用行列表资料2检验进行构成比的比较。, 分组变量无序,而指标变量有序,分组变量无序,而指标变量有序的单向有序行列表,其研究目的通常是比较不同疗法的疗效(疗效的等级分布)有无差别。此时应选用非参数检验进行分析比较。,3。双向有序属性相同的行列表:表中的两个变量均为有序变量而且属性相同。它实际上是配对四格表资料的扩展,即水平数3的诊断试验配伍设计。,该资料的研究目的通常是分析两种检测方法的一致性。此时应选用一致性检验(Kappa检验),也可以使用特殊模型分析方法。,3。双向有序属性不同的行列表:表中的两个变量均为有序变量但属性不同。, 若研究目的为分析不同年龄组动脉硬化等级分布有无差别时,可以把它看作单项有序行列表资料,进行秩和检验 若研究目的为分析两变量之间的相关关系,可使用等级相关分析。 若研究目的为分析两变量间是否存在线性变化趋势,则需进行线性趋势性检验,二、有序分组资料的线性趋势性检验,(一)基本思想,首先计算行列的2值,然后将总的2值分解成线性回归分量与偏离线性回归分量。若两分量均有统计学意义,说明两分量存在相关关系,但关系不是简单的直线关系;若线性回归分量有统计学意义,偏离线性回归分量无统计学意义时,说明两分量不仅存在相关关系,而且是线性相关。,例7-11 某研究者欲研究年龄与冠状动脉粥样硬化等级之间的关系,将278例尸解资料整理成表7-13,问年龄与冠状动脉粥样硬化等级之间是否存在线性变化趋势?,(二)分析步骤,1 建立假设并确定检验水准 H0:年龄与冠状动脉粥样硬化等级之间无线性关系 H1:年龄与冠状动脉粥样硬化等级之间有线性关系 =0.05,本例T44=5.42,使用行列表2的专用公式计算2值。,2 计算统计量,(1)计算总的2值,(2)计算线性回归分量, 给两个变量分别赋值(1,2,3,),对年龄从小到大赋值为:1,2,3,4;对冠状动脉粥样硬化的等级由小到大赋值为:1,2,3,4。, 计算线性回归分量,式中:b为回归系数, 为b的方差,式中:lXX、lYY分别为X、Y变量的离均差平方和;lXY为X、Y变量的离均差积和,3 确定P值,作出统计推断,查界值表:,P回归0.005,0.25P偏0.50,按=0.05的水准,线性回归分量,拒绝H0,接受H1,有统计学意义;而偏离线性回归分量,不拒绝H0,无统计学意义。所以可以认为年龄与冠状动脉硬化之间不仅存在相关关系而且为线性相关关系。,分层四格表资料的统计分析* Mantal-Haenszel分层分析,例 某次冠心病危险因素的病例对照研究中,关于血清胆固醇增高与冠心病发病的关系资料见下表,经过分析得到2=23.092,OR=2.195,P0.005,说明胆固醇升高患冠心病的风险升高,但研究者发现年龄也与冠心病有关联,胆固醇增高与冠心病发病的关系是否受到年龄的影响,按照年龄分层得到下表资料:,对上述资料按年龄分层分别进行分析可得出:,45岁:2=20.316,P=0.000,OR=2.90345岁:2=15.098,P=0.000,OR=2.776,在病例对照研究中,各层OR的计算结果会出现三种情况,各情况的分析方法如下:各层的OR值接近,近似于未分层OR,此种情况一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论