医学统计学方法及试题分析.doc_第1页
医学统计学方法及试题分析.doc_第2页
医学统计学方法及试题分析.doc_第3页
医学统计学方法及试题分析.doc_第4页
医学统计学方法及试题分析.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新阳光执业医师考试题库第二单元医学统计学方法第一节基本概念和基本步骤(一)考什么?基本概念1.总体和样本2.同质和变异3.参数和统计量4.抽样误差5.概率6.变量和变量值基本步骤(二)最重点是什么?基本概念(三)最难点的是什么?抽样误差概率一、统计学中的几个基本概念1.总体:根据研究目的确定的、同质的全部研究对象(严格地讲,是某项观察值的集合)被称作总体。有限总体:总体中的个体数有限,如研究2008年中国60岁以上的老人血清总胆固醇含量,测定值的全部构成了一个总体。无限总体:总体中的个体数无限(或假设总体,或虚拟总体)。如研究糖尿病人的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿病人的空腹血糖测定值则是一个无限总体。2.样本:根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作样本,如从糖尿病患者中随机抽取的有代表性的一组患者构成样本。3.同质:严格地讲,除了实验因素外,影响被研究指标的非实验因素相同被称为同质。但在人群健康的研究中有些非实验因素是难以控制或未知的,如遗传、营养、心理等。因此,在实际研究工作中,对被观测指标有影响的、主要的、可控制的非实验因素达到相同或基本相同就可以认为是同质。同质是研究的前提。4.变异:在同质的基础上被观察个体之间的差异被称作变异。如同性别、同年龄、同地区、同体重儿童的肺活量有大有小,我们称之为肺活量的变异。这是统计数据的特性:变异性。5.参数:总体的统计指标称为参数,一般用希腊字母表示,如:m、s、。如通过普查得到中国25岁以上的成年人高血压患病率为参数。6.统计量:样本的统计指标称为统计量,如: s、 、p。如用随机的方法抽出一部分地区25岁以上的人进行体检,计算的患病率则为样本统计量。7.误差:观察值与实际值的差别为误差。观察过程中由于不认真仔细,造成错误地判断、记录或录入计算机所致的观察值与实际值之差为过失误差;仪器若未经校准,使观察值统一的都偏低或偏高则为系统误差;由于偶然的因素使同一个样品的测定值在不同的观察者之间、相同观察者的若干次观察值之间不完全相同。则被称作随机测量误差;从同一总体中抽样,得到某变量值的统计量和总体参数之间有差别,被称为抽样误差。8.概率:描述随机事件(如发病)发生可能性大小的度量为概率,常用P表示。P值的范围在0和1之间,P0.05的随机事件,通常称作小概率事件,即事件发生的可能性很小,统计学上可以认为在一次抽样是不可能发生的。9.变量及变量值:观察对象的特征或指标(如身高)称为变量。测量的结果被称为变量值(如身高值)。数值变量:变量值是定量的,表现为数值的大小,有度量衡单位。(计量资料)如:身高(cm)、体重(kg)分类变量:变量值是定性的,表现为互不相容的类别或属性。(计数资料)无序分类变量:各类别间无程度上的差别,如:性别分男女两类有序分类变量:各类别间有程度上的差别,如:临床疗效可分为治愈、显效、好转、无效四级二、统计工作的基本步骤医学统计工作基本步骤有四:设计、搜集资料、整理和分析资料。这四个步骤是相互联系的。1.设计:统计工作最关键的一步,整个研究工作的基础。2.搜集资料:指选择得到资料的最佳途径和获取完整、准确、可靠资料的过程。3.整理资料:资料整理的目的是将搜集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。4.分析资料:根据研究设计的目的、要求、资料的类型和分布特征选择正确的统计方法进行分析。常常从两个方面分析,一是进行统计描述,即计算平均值、发病率等;二是进行统计推断,即推断总体的特征,如推断总体均数等。【习题】1.样本是总体的A.有价值的部分B.有意义的部分C.有代表性的部分D.任意一部分E.典型部分 答疑编号500744020101正确答案C2.在统计学中,数值变量构成A.等级资料B.计数资料C.计量资料D.分类变量E.定性因素 答疑编号500744020102正确答案C3.统计学数据具有的特性A.稳定性B.可加性C.主观性D.变异性E.可靠性 答疑编号500744020103正确答案D4.统计工作的步骤不包括A.统计设计B.搜集资料C.分析资料D.整理资料E.题目的制定 答疑编号500744020104正确答案E5.(B1型题)A.获得原始资料B.统计设计C.统计归纳,进行分组和汇总D.撰写文章E.计算统计指标,选择合适的检验方法并作出恰当的结论(1)收集资料是: 答疑编号500744020105正确答案A(2)整理资料是: 答疑编号500744020106正确答案C(3)分析资料是: 答疑编号500744020107正确答案E 第二节数值变量数据的统计描述(一)考什么?(1)集中趋势指标(2)离散趋势指标(3)正态分布的特点与面积分布规律(二)最重点是什么?正态分布的集中趋势和离散趋势的指标(三)最难点的是什么?正态分布的特点与面积分布规律一、集中趋势指标平均数(average)是一类用于描述数值变量资料集中趋势(或平均水平)的指标。常用的平均数包括:算术平均数、几何平均数与中位数。1.算术平均数:简称均数,它是一组变量值之和除以变量值个数所得的商。总体均数用希腊字母(读作mu)表示,样本均数用 表示。适用条件:资料呈正态或近似正态分布。大多数正常生物的生理、生化指标都宜用均数表达集中趋势。算术平均数的计算方法有直接法和加权法。2.几何均数:几何均数用G表示,是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数)。适用条件是:当一组观察值为非对称分布、其差距较大时,用均数表示其平均水平会受少数特大或特小值影响;数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如抗体的平均滴度,药物的平均效价等。3.中位数与百分位数中位数(M)是把一组观察值,按大小顺序排列,位置居中的变量值(n为奇数)或位置居中的两个变量值的均值(n为偶数)。中位数是一个位次上的平均指标,以中位数为界,将观察值分为左右两半。适用情况有:当资料呈明显的偏态分布;资料一端或两端无确定数值(如大于或小于某数值)资料的分布情况不清楚,在这些情况下多选用中位数。例如,某些传染病或食物中毒的潜伏期、人体的某些特殊测定指标(如发汞、尿铅等),其集中趋势多用中位数来表示。百分位数(percentile,Px):是把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。取任意一个百分位数Px可以把全部数值分为左右两半。中位数是第50百分位数,用P50表示。第5,第25,第75,第95百分位数分别记为P25,P75,P95,是统计学上常用的指标。四分位数间距 :P25,P75用于确定非正态分布资料的医学参考值范围。习题:有8个某种传染病人,他们的潜伏期分别为:l2、11、21、8、12、5、4、13,其中位数是:A.12B.11.5C.10D.8E.9.5 答疑编号500744020108正确答案B答案解析从小到大排列:4、 5、 8、 11、 l2、 12、 13 、21位于中间位置的数是:11和 l2。中位数是11.5二、离散趋势指标描述资料离散程度的指标 ,用于说明一组同质资料的离散度大小。1.全距用R表示,是一组资料的最大与最小值之差。全距越大,说明资料的离散程度越大。全距仅考虑两端数值之间的差异,未考虑其他数据的变异情况,且不稳定易受极端值大小的影响,不能全面反映一组资料的离散程度。2.四分位数间距用Q表示,若将一组资料分为四等份,上四分位数Qu(P75)和下四分位数QL(P25)之差就是Q。Q值越大,说明资料的离散程度越大。通常用于描述偏态分布资料的离散程度。采用上、下四分位数,未用两端的数值,比全距稳定,但也未考虑每个观察值,也不能全面反应资料的离散趋势。 3.方差离均差平方和(Xi一)2)的均数。总体方差用2表示,样本方差用S2表示,度量单位(如cm,mmHg 等)都变为单位的平方值,公式分别为: 4.标准差将方差开平方,取平方根的正值,就是标准差。公式为: n一l和fi一1为自由度。方差和标准差都是说明资料的变异程度,其值越大,说明变异程度越大。标准差与算术均数一起使用,描述正态分布资料的集中趋势和离散趋势。标准差愈小,说明观察值的离散程度愈小,从而也说明用均数反映平均水平的代表性愈好。标准差的用途较广,概括起来有四个方面:反映一组观察值的离散程度,标准差小,离散程度小,均数的代表性好;用于计算变异系数;计算标准误;结合均值与正态分布的规律估计医学参考值的范围。5.变异系数:用CV表示,CV是将标准差转化为算术均数的倍数,以百分数的形式表示。CV常常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。公式为 例:1.全面描述正态分布资料特征的两个指标是A.均数和中位数B.均数和标准差C.均数和极差D.中位数和方差E.几何均数和标准差 答疑编号500744020201正确答案B2. 描述偏态分布资料特征的两个指标是A.均数和中位数B.均数和标准差C.均数和四分位数间距D.中位数和四分位数间距E.几何均数和标准差 答疑编号500744020202正确答案D3.两组呈正态分布的数值变量资料,但均数相差悬殊,若比较离散趋势,最好选用的指标为A.全距B.四分位数间距C.方差D.标准差E.变异系数 答疑编号500744020203正确答案E三、正态分布的特点与面积分布规律1.正态分布及其特点正态分布是一种重要的连续型分布,以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多、两侧逐渐减少、基本对称的分布。正态分布曲线,用N(,2)表示。对于任何一个均数和标准差分别为与的正态分布,都可以通过变量的标准正态变换( ,称作正态差),使之成为标准正态分布,用N(0,1)表示,即值的均数为0,标准差为1。 正态分布有以下五个特征:正态曲线在横轴上方,且均数所在处最高;正态分布以均数为中心,左右对称;正态分布有两个参数,即均数与标准差(与),标准正态分布的均数和标准差分别为0和1;正态曲线在士l.96,标准正态分布在1处各有一个拐点;正态分布的面积分布有一定的规律性。2.面积分布规律正态分布的面积规律见表9-3表93正态分布和标准正态分布曲线下面积分布规律正态分布标准正态分布面积(或概率)111168.27%1.961.961.961.9695.00%2.582.582.582.5899.00% 例:普查某市8岁正常男孩体重,发现95%的人体重在18.3929.45公斤,其标准差是:A.2.14公斤B.5.14公斤C.2.82公斤D.0.95公斤E.无法计算 答疑编号500744020204正确答案C答案解析m-1.96sm+1.96sm-1.96s=18.39m+1.96s=29.453.92s=11.06s=2.82(公斤) 第三节数值变量数据的统计推断(一)考什么?1.均数的抽样误差和标准误2.总体均数可信区间的估计3.假设检验的基本步骤4.两均数的假设检验(u检验和t检验)5.分类变量资料的统计推断(二)最重点是什么?1.均数的抽样误差和标准误3.假设检验的基本步骤3.两均数的假设检验(u检验和t检验)(三)最难点的是什么?1.均数的抽样误差和标准误2.两均数的假设检验(u检验和t检验)一、均数的抽样误差从同一总体中随机抽取若干个观察单位数相等的样本,由于抽样引起样本均数与总体均数及样本均数之间的差异称作均数的抽样误差,其大小可用均数的标准差描述,样本均数的标准差称为标准误。抽样误差在抽样研究中不可避免。标准误越大,均数的抽样误差就越大,说明样本均数与总体均数的差异越大。标准误计算公式为: 公式12公式中表示总体标准差,n为样本例数, 为标准误。实际研究中是未知的,常以样本标准差S作为的估计值计算标准误。记作为 公式13由公式13可知,当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根呈反比。增加样本含量才可减少抽样误差。标准误的用途:一是用来衡量抽样误差大小,标准误越小,样本均数与总体均数越接近,即样本均数的可信度越高;二是结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间;三是用于假设检验。例:1.反映均数抽样误差大小的指标是A.标准误B.标准差C.变异系数D.均数E.全距 答疑编号500744020205正确答案A2.从一个呈正态分布的总体中随机抽样, 该差别被称为A.系统误差B.个体差异C.过失误差D.抽样误差E.测量误差 答疑编号500744020206正确答案D二、总体均数可信区间及其估计方法统计学的核心内容,是用样本信息推断总体特征:包括(1)参数估计和(2)假设检验对总体参数估计有点(值)估计和区间估计两种方法。点(值)估计:是用样本统计量(如均数 )作为对总体参数(如均数)的估计值。总体均数可信区间:是根据选定的可信度(或可靠度,用概率表示)估计的总体均数所在区间,即总体均数可能所在范围。在估计总体均数的可信区间时,可能估计错误,其概率用表示,估计正确的概率为1-,也称为可信度,常用95%或99%。总体均数可信区间估计时根据以下三种情况选用公式:(1)已知:总体均数的95%可信区间为: 公式15(2)未知,但样本例数足够大,总体均数95%的可信区间: 公式16(3)未知、样本例数较小:按t分布原理,总体均数95%的可信区间: 公式17例7:随机抽取某地健康男子18人,测得空腹静脉血的甘油三酯,均数 为1.298mmolL,标准差S为0.663,试估计该地男子空腹静脉血甘油三酯总体均数的95%可信区间。本例 =l.298,S为0.663, 自由度n-1=18-1=17,=0.05,查t界值表,双侧t0.05/2.17=2.110,代入公式17得(1.298-2.110.1563,1.298 +2.110.1563)=(0.968,1.628)。该地健康男子甘油三酯总体均数的95%可信区间为(0.968,1.628)mmolL。总体均数95%可信区间的涵义是:从总体中随机抽样,理论上讲,进行100次抽样,可算得100个可信区间,约有95个可信区间包含总体均数,只有5个可信区间未包含总体均数。实际工作中仅得到一个样本,根据一个样本估计的总体均值的可信区间,有95%的可能性包含总体均值。三、假设检验的基本步骤假设检验亦称显著性检验,是统计推断的另一重要内容,其目的是比较总体参数之间有无差别, 具体步骤如下:1.建立检验假设和设定检验水准检验假设有两种:一种是无效假设,或称为零假设,记作H0,即假设差异是由于抽样误差所致,总体参数相同。另一种是备择假设,记作H1,即差别不是由于抽样误差所致,总体参数不同(0或0或0)。如果根据专业知识。既可能大于0。也可能小于0,则这种检验称为双侧检验(two-sided test);若认为只可能大于或等于0,而不可能小于0时(或相反情况),称这种检验为单侧检验。如果根据专业知识不能确定单侧的情况时应采用双侧检验。 检验水准亦称显著性水准,用表示。检验水准的含义就是指无效假设H0实际上成立,但样本信息不支持H0,统计上拒绝无效假设H0的可能性大小的度量。通常取0.05(或0.01)。建立检验假设、设定检验水准:双侧检验:H0:0,H1:0,a0.05单侧检验:H0:0,H1:0(或0),a0.05例:已知一般无肝肾疾患的健康人群尿素氮均值为4.882(mmolL),16名脂肪肝患者的尿素氮(mmolL)测定值为5.74,5.75,4.26,6.24,5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59,5.18,6.96。问:脂肪肝患者尿素氮测定值的均数是否高于健康人?H0:脂肪肝患者的尿素氮均值与一般无肝肾疾患的健康人群尿素氮总体均值相同 (0)H1:脂肪肝患者的尿素氮均值高于一般无肝肾疾患的健康人群尿素氮总体均值相同(0)检验水准:0.052.计算统计量根据研究设计类型、资料特征和各方法、公式的适用条件选择和计算检验统计量。3.确定概率和作出统计推断算得的统计量与相应的界值比较,确定P值。P值是从H0所规定的总体进行随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率,即在H0成立的条件下,观察到的样本差别是由于机遇所致的概率。因此,P值越小越有理由拒绝无效假设,认为总体之间有差别的统计学证据越充分。需要注意:不拒绝H0不等于支持H0成立,仅表示现有样本信息不足以拒绝H0。根据P值作出统计推断。两个均数比较时常用的判断标准如下:U检验:单侧u1.645,双侧u1.96,则P0.05,差异无统计学意义,不拒绝H0;单侧l.645,双侧1.96,则P0.05,差异有统计学意义,拒绝H0。t检验:单侧tt0.05。,双侧tt0.05/2,。P0.05,差异无统计学意义,不拒绝H0,单侧tt0.05。双侧tt0.05/2,。则P0.05,差异有统计学意义,拒绝H0。习题:假设检验是为了A.研究总体指标的变化B.研究样本指标的变化C.排除主观因素对抽样的影响D.排除抽样误差的影响E.排除系统误差的影响 答疑编号500744020301正确答案D四、u检验和t检验1.样本均数与总体均数的比较总体均数是指大量观测所得到的稳定值或理论值,记作0。样本与总体均数比较的目的是推断样本所代表的未知总体均数与已知总体均数0是否相同。(1)用上例:问脂肪肝患者尿素氮测定值的均数是否高于健康人?脂肪肝可能影响尿素氮的代谢,本例属于单侧检验。1)建立假设,确定检验水准。H0:=0,H1:0,=0.052)选定检验方法,计算检验统计量t值:本例于 =5.997,S=1.920,n=l6, 3)确定P值,判断结果。=n-1=16-1=15,查t界值表,单侧 t0.05,15=1.725,t0.025,15=2.131,t0.01,15=2.602。本例t0.01,15t(2.32) t0.0025,15,故0.01P0.025,按照=0.05的检验水准,拒绝H0,接受H1,认为脂肪肝患者的尿素氮测定值高于健康人。(2)u检验若此例,已知一般无肝肾疾患的健康人群尿素氮的标准差为l.900(mmolL),问:脂肪肝患者尿素氮测定值的均数是否高于健康人?本例因提供了总体标准差,可以进行u检验: 2.两个样本均数的比较目的:比较推断两个样本均数所代表的两个总体均数1和2有无差别。1)建立假设,确定检验水准。H0:l=2H1:l2 或12 或12=0.052)选择检验方法,两个大样本均数比较的u检验当两个样本含量较大(均50)时,自由度足够大,可用u检验: 公式19两个小样本均数比较的t检验: 3)确定P值,判断结果条件:数值变量资料(计量资料)资料服从正态分布目的:比较样本均数所代表的总体均数是否相同习题:正态分布的数值变量,两组资料的比较,检验统计量的计算用A.(X)B.(X一)xC.(x一)SxD.(d一)SdE.( xlx2)Sx1x2 答疑编号500744020302正确答案E对l0名25岁以上的山区健康男子测量脉搏次数(次分),用t检验与全国正常男子资料进行比较。按=0.05的检验水准,自由度为A.v=9B.v=19C.v=8D.v=20E.v=18 答疑编号500744020303正确答案A五、假设检验的两类错误及注意事项1.两类错误假设检验帮助回答H0是否成立,但它是建立在小概率事件原理上的判断,无论拒绝还是不拒绝H0,都有可能犯错误。拒绝了实际正确的无效假设H0称为犯了第1类错误(type I error),概率用表示,通常称之为检验水准(1evel of signifi cance),常取=0.05;不拒绝实际上错误的无效假设H0称为犯了第类错误(type II error)。概率用表示。1一称为检验效能(power of test),其意义是当两个总体存在差异时所使用的统计检验按a水准能够发现这种差异(拒绝无效假设H0)的能力。如:1-b=0.9的含义是若两总体确有差别,理论上平均每100次抽样有90次能得出有差别的结论。2.正确理解假设检验的结论。检验水准是0.05,当P0.05时,则拒绝H0,接受H0,差异统计学意义。它的含义是,在随机抽样研究中,由样本信息计算检验统计量时,获得这样大或更大的统计量的可能性很小,因而拒绝H0,但并不是H0绝对不成立。更不是两个均数相差很大。当P0.05时,则不拒绝H0,但并不是说H0绝对成立。 第四节分类变量资料的统计描述(一)考什么?1.相对数常用指标及其意义2.应用相对数时应的注意事项(二)最重点是什么?1.相对数常用指标及其意义(三)最难点的是什么?率和构成比的区别一、相对数常用指标及其意义相对数是两个有关联的数值之比。常用的指标有率(rate)、构成比(constituent ratio)和相对比(relative ratio)。1.率某现象在某时期实际发生数与可能发生某现象的总数之比,用以说明某现象发生的频率或强度,又称频率指标,常以百分率、千分率、万分率或十万分率表示。计算公式为: 如:发病率、患病率、感染率、有效率、治愈率2.构成比事物内部某一部分的观察单位数与事物内部各部分的观察单位数总和之比,以百分数表示。说明事物内部各部分所占的比重或分布。计算公式为: 构成比有两个特点:各部分构成比的合计等于100%或l;事物内部某一部分的构成比发生变化,其他部分的构成比也相应地发生变化。3.相对比两个联系指标之比,常以百分数或倍数表示。计算公式为; 说明A为B的若干倍或百分之几A、B两个指标可以是绝对数,也可以是相对数可以性质相同,也可以性质不同可以是定性资料,也可以是定量资料如:性别比、CV等都是相对比的指标B1题型A.表示某病发生严重程度B.反映两个指标的相对关系C.反映某病在各疾病中所占的位次D.反映同种病不同时间动态变化情况E.反映同种病不同地区的严重情况(1)发病率: 答疑编号500744020304正确答案A(2)构成比: 答疑编号500744020305正确答案C(3)相对比: 答疑编号500744020306正确答案B二、相对数应用注意事项1.计算相对数时,观察单位数应足够多2.分析时构成比和率不能混淆分析时常见的错误是以构成比代替率来说明问题。构成比说明事物内部各部分所占的比重或分布,不能说明某现象发生的强度或频率大小。频率指标才能说明事物发生的严重程度。3.观察单位数不等的几个率的平均率,不能将这几个率直接相加求其均值应将各个率的分子、分母分别相加后,再求总率即平均率。4.相对数的相互比较应注意可比性(1)所比较资料的内部构成要相同(2)若内部构成不同,则不能直接进行总率比较,只能分性别、分年龄别进行率的比较,或进行率的标准化后再作对比5.样本率或构成比的比较应做假设检验样本率或构成比是由抽样得到的,存在抽样误差,进行比较时须进行假设检验。 第五节分类变量资料的统计推断(一)考什么? 1.率的抽样误差 2.总体率的估计 3.率的u检验和x2检验(二)最重点是什么?率的抽样误差率的u检验和x2检验(三)最难点的是什么?率的u检验和x2检验一、率的抽样误差、总体率的可信区间及其估计方法1.率的抽样误差与标准误从同一总体中随机抽取n个观察单位的一组样本,计算得到的各个样本率,不一定都与总体率完全相同,这种由于抽样而引起的样本率与总体率之间的差别,称为率的抽样误差。率的抽样误差用率的标准误表示,计算公式如下: 当总体率未知时,则用样本率p作为 的估计值,率的标准误的估计值表示为: 率的标准误越小,说明率的抽样误差越小,用样本推论总体时,可信程度越高。2.总体率的可信区间及其估计方法(1)正态近似法:当样本含量n足够大,样本率p或(1-p)均不太小时如np和n(1一p)均大于5,样本率的分布近似正态分布,总体率可信区间的估计由下列公式估计:总体率()95%的可信区间:p1.96Sp 公式28总体率()99%的可信区间:p2.58Sp 公式29二、U检验和x2检验1.率的检验样本量n足够大,样本率p或(1- p )均不太小(如 n p和n (1- p )均大于5时),样本率的分布近似服从正态分布,样本率与总体率之间,两个样本率之间的差异可用率的u检验。(1)样本率与总体率的比较。 公式中P样本率,为总体率,p为根据总体率计算的标准误。(2)两个样本率的比较 2. X2检验X2检验(卡方检验)是用途:可用于两个及多个样本率或构成比的比较两分类变量间相关关系分析 X2检验的基本思想:假设比较样本所对应的总体率相等,即两样本率来自总体率相同的总体。若检验假设H0成立,根据X2统计量值的大小,结合自由度,可确定概率 p,并对总体做出推断例:某医生用两种疗法治疗前列腺癌,出院后随访3年。甲疗法治疗86例,存活52例,乙疗法治疗95例,存活45例。问两种疗法治疗前列腺癌患者的3年生存率是否相同?表97甲乙两种疗法治疗前列腺癌的3年生存率比较处理生存死亡合计生存率(%)甲疗法乙疗法52(46.09)45(50. 91)34(39.91)50(44.09)869560.4747.37合计978418153.59四个格子的数据 是基本数据,发生与不发生的绝对数,也称为实际数,其余的数据都是从这四个数据计算得来的,因此,该资料称四格表(fourfold table)资料。四格表资料X2检验的基本步骤(1)建立检验假设:H0:1=2 (两种疗法治疗前列腺癌患者的3年生存率相同)H1:12(两种疗法治疗前列腺癌患者的3年生存率不同)=0.05(2)计算统计量X2:1)基本公式: 式中A为实际频数,四格表中的基本数据;T为理论数,是根据无效假设推算出来的。理论频数的计算公式为: 公式34公式中TRC为第R行第C列格子的理论数,nR为第R行的合计数,nC为第C列的合计数,n为总例数。2)四格表资料专用公式:四格表资料进行X2检验还可以选用专用公式,省去计算理论数的过程,使计算简化。 公式35式中a、b,c、d分别为四格表中的四个实际频数,n为总例数。上述公式的适用条件:n40 且T5但当n40 且1 T 5,用校正公式校正X2值的公式为: n40或T1,不宜采用x2检验Fisher精确概率法(3)确定P值和判断结果:=(行数一1)(列数一1)=(2-1)(2-1)=1,根据自由度查X2界值表,X20.05(1)=3.84,本例X2=3.113.84,P0.05,按=0.05的水准不能拒绝无效假设H0,故不能认为甲乙两种疗法治疗前列腺癌的3年生存率有所不同。行列表资料的X2检验:用于多个样本率的比较、两个或多个构成比的比较。其基本数据有以下三种情况: 多个样本率比较时,有R行2列,称为R2表; 两组样本的构成比比较时,有2行C列,称2C表; 多个样本的构成比比较,有R行C列,称RC表。专用公式: 公式40公式中n为总例数,A为每个格子里的实际频数,nR和nc分别为与A值相应的行和列合计的例数。建立检验假设:H0:1 = 2 = 3 = - = k (k个总体率相等)H1: k个总体率不等或不全相等2)行列表资料X2检验的注意事项A.如假设检验的结果是拒绝无效假设,只能认为各总体率或构成比之间总的来说有差别,但并不是说它们彼此之间都有差别,如果想进一步了解彼此之间的差别,需将行列表分割,再进行X2检验(详见统计学专著)。B.对行列表资料进行X2检验,要求不能有l5以上的格子理论数小于5,或者不能有一个格子的理论数小于1,否则易导致分析偏性。出现这些情况时可采取以下措施:在可能的情况下再增加样本含量;从专业上如果允许,可将太小的理论数所在的行或列的实际数与性质相近的邻行或邻列中的实际数合并;删去理论数太小的行和列。习题:1.经过统计得到X2X20.05()结果。正确的结论是A.P=0.05,拒绝H0,差异有统计学意义B.P0.05,接受H0的可能性较大C.P=0.05,接受H0 ,差异无统计学意义D.P0.05,拒绝H0 ,差异有统计学意义E.P0.05,接受H0 ,差异无统计学意义 答疑编号500744020401正确答案D2.某医院用国产呋喃硝胺治疗十二指肠球部溃疡,用甲氰咪胍为对照,观察6周有如下结论:呋喃硝胺治疗62人,治愈44人,甲氰眯胍治疗78人,治愈38人。用什么样方法得出两种药物疗效相同或不同的结论A.计算两药物的治愈率直接比较B.进行率的标准化处理C.用四格表的2检验D用四格表的校正2检验E.用配对资料的检验 答疑编号500744020402正确答案C 第六节直线相关和回归(一)考什么?1.直线相关分析的用途,相关系数及其意义2.直线回归分析的作用,回归系数及其意义(二)最重点是什么?相关系数及其意义回归系数及其意义一、直线相关分析的用途,相关系数及其意义1.直线相关分析的用途直线相关又称简单相关,用于研究两个连续性随机变量和y之间的线性关系。如研究血压和血糖之间的线性关系,回答两者之间是否存在线性关系、关系是否密切以及是正相关还是负相关。描述二者之间的线性关系统计指标相关系数r。2.相关系数及其意义相关系数又称积差相关系数,用符号r表示。其计算公式为: 公式41r是反映两个变量线性关系的方向和密切程度的指标,r没有单位,其值为-1r1。相关方向用r的正负号表示r值为正,说明变量z和Y之间为正相关关系,即变量和y的变化趋势是同向的;r值为负,说明变量和Y为负相关关系,表明和y之间呈反方向变化;r的绝对值等于l,为完全相关;r等于0,和y之间无线性关系。密切程度用r的大小表示r的绝对值越接近于l,线性关系越密切;越接近于0,线性关系越不密切,二、直线回归分析的作用,回归系数及其意义1.直线回归分析的作用直线回归又称简单回归,用于研究两个连续性变量和y之间的线性数量依存关系。为自变量,y为依赖于的变量,称作因变量,也称反应变量,两个变量之间有数量关系,直线回归分析的主要任务是:找出最适合的直线回归方程,以确定一条最接近于各实测点的直线,描述两个变量之间的线性回归关系。考察两个随机变量之间有无线性关系,直观的方法是在普通方格纸上绘制散点图。2.直线回归方程、回归系数及其计算直线回归方程的一般表达式为: =a+bk 是给定X时Y的估计值。a为回归直线在Y轴上的截距, a0表示直线与纵轴的交点在原点的上方;a0,则交点在原点的下方;a0,则回归线通过原点。b为样本回归系数,即回归直线的斜率。表示当X变动一个单位时,Y平均变化多少个单位。b0,表示Y随X增大而增大;b0,表示Y随X增大而减少;b0,表示直线与X轴平行,即X与Y无直线关系。截距a和斜率b的估计通常采用最小二乘原则,即保证各实测点至回归直线的纵向距离平方和为最小。根据最小二乘原则导出b和口的计算公式为: 直线相关和回归的联系相关系数与回归系数的正负号相同相关系数与回归系数的假设检验是等价的可以用回归解释相关习题:1.分析胎儿不同出生体重和围产儿死亡率之间是否有关,可以选用的统计方法是A.t检验B.F检验C.X2检验D.相关分析E.秩和检验 答疑编号500744020403正确答案D 2.两个正态双变量资料,自变量记为X,因变量记为Y,进行回归分析,回归系数为0.2,经统计学检验,P=0.05,则A.X增大一个单位,Y增大0.2个单位B.X增大一个单位,Y减少0.05个单位C.X增大一个单位,Y增大0.05个单位D.X增大一个单位,Y减少0.2个单位E.X增大一个单位,Y减少或增大0.2个单位都有可能 答疑编号500744020404正确答案A 3.同一批资料对回归系数b和相关系数r作假设检验,其结论:A.是相同的B.是不同的C.不一定相同D.肯定不同E. r为负b为正 答疑编号500744020405正确答案A 4.在两变量X、Y直线相关分析中。相关系数的正负取决于A.X的取值B.Y的取值C.LxxD.LyyE.Lxy 答疑编号500744020406正确答案E 第七节统计表和统计图(一)考什么?1.统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论