南方医科大学-医学统计学-简答题总结_第1页
南方医科大学-医学统计学-简答题总结_第2页
南方医科大学-医学统计学-简答题总结_第3页
南方医科大学-医学统计学-简答题总结_第4页
南方医科大学-医学统计学-简答题总结_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章资料分布特征与描述统计量.统计描述主要从哪几个方面发现和描述数据特征?统计描述可以从样本含量 n,集中趋势(算术均数、几何均数、中位数),离散趋势(极差、四分位数间距、方差和标准差)以及通过绘制统计图,编制统计表来发现和描述数据特征。.频数表的主要用途有哪些?(1)描述频数分布的类型;(2)描述频数分布的特征;(3)便于发现一些特大或特小的可疑值;(4)便于进一步做统计分析和处理。.算数均数、几何均数和中位数各有什么适用条件?算术均数主要适合描述对称分布资料的集中位置;几何均数适合描述当资料呈倍数关系或对数正态分布时的集中趋势;当大部分观测值比较集中,少数观测值偏向一侧时,或资料分布情况

2、不清楚时,或数据的最大值(最小值)无准确测量数据时,宜用中位数来表示其平均水平。.标准差有何用途?(1)表示变量分布的离散程度。两组资料(总体或样本)均数相近,度量单位相同的条件下,标准差较大,说明变量值的变异度较大,即各变量值较分散(较远离均数),因而均数的代表性较差;反之标准差较小,说明变异度较小,即各变量值较集中在均数周围,因而均数对各变量值的代表性较好,在用数字作统计描述时常用符号x s来反映均数代表性的好坏。(2)可用来计算变异系数。当两组资料单位不同,或单位相同,均数相差较大时,不能直接用标准差比较它们的变异程度,须用变异系数进行比较。(3)结合均数描述正态分布的特征,并利用正态曲

3、线下面积分布规律,来计算医学上各种生化、生理的参考值范围。(4)在单纯随机抽样调查中,是计量资料估计样本大小的不可缺的重要依据之一。(5)可用来计算抽样误差的大小。.变异系数与标准差有何异同?同:变异系数与标准差都可反映数据的变异度大小,异:标准差是一组同质数据间变异度大小的量度指标,它带有单位,因而不同单位的数据间的变异度大小不可用标准1差作比较;而变异系数是一种不带单位的反映变异度大小的相对数值,因而它可对不同单位数据间的变异度大作比较。可以说,标准差是反映数据内部变异度大小的指标,变异系数是用来比较不同单位数据间变异度大小的一个指标,所以在应用时要注意它们的区别。.应用比例/频率/率应注

4、意些什么?应用相对数对比分析时,要考虑资料是否具有可比性。所谓可比性,通常是指两个指标的同质范围,内容、时间、条件和方法等方面的齐同性,一般要求除了被研究的因素之外,其余可能影响指标的重要因素应控制在齐同的条件 下。如一般发病率的计算,分母是某地区的平均人口数,这个数值基本上是稳定的,而分子是发病人数,它与时间 的长短有着密切关系,观察时间越长,发病的例数就积累增多。一年的发病例数就是各月发病累积的总和,因此年 发病率的水平就高于月发病率。所以计算这类相对数时,必须具体说明时期。不同时间长短的发病率就不能互相比 较。计算相对数时,分母不宜过小。一般来说观察单位足够多时,计算的相对数比较稳定,能

5、够正确反映实际情况,例如用某药治疗4个病例有3个痊愈,按此得治愈率7 5 %的结论就不合适。又如某病只有2个病例,死去1例,就此说病死率是5 0%,是不切实际的,在例数少是,还是以绝对数表示较好。对观察单位数不等的几个率,不能直接相加求其平均。由于原来计算各个率的分母和分子的绝对数值大小不同,因而它们在总体中所占的比重不同,因此要以总的绝对数值为依据来计算平均率(或总率)。例如,某医院四个科室的病死率()分别为 6.43, 2.03, 0.12, 3.79则这四个科室的平均率应为四个科室的病人总数除四个科室的病人死亡人数。而不能将(6.43+2.03+0.12+3.79 ) /4=3.09 %

6、,这样计算出的平均病死率是错误的。分析时不能以结构相对数的构成比代替强度相对数的率。率说明事物发生的频率,构成比说明某部分占总体的比 重。彼此计算不同、性质不同,说明的问题也不同,不能互相混淆,否则将导致错误的结论。样本率之间的比较由于存在着抽样误差,一定要作假设检验。.简述统计表的主要结构。(1)标题:表的标题应位于表的上方,不可过于简略,也不能过于烦琐,要用一句精练的语言表明主要内容,必要时注明资料的时间和地点。(2)标目:有横标目、纵标目及总标目之分。横标目位于表的左侧,纵标目位于表的上端,必要时,纵标目可以 冠以总标目。(3)线条:统计表中的线条应尽量减少,最基本的线有三条,即顶线、底

7、线和纵标目与表体之间的分隔线。如需 合计,各组数字与“合计”数字之间也要有分隔线。(4)数字:表内一律采用阿拉伯数字。同一指标小数位要一致,当数字暂缺或无数字时,可用“”和“一”表 示。28.简述统计图的主要结构。(1)标题:统计图都应有标题,其要求与统计表的标题一致。(2)图域:除圆图外,图域通常是个矩形,其长宽之比一般要求为7 : 5或5 : 7 ,此图形较美观。(3)标目:统计图的纵横两轴应有标目,即纵标目和横标目。(4)尺度:纵轴尺度自下而上,横轴尺度自左而右,一律由小到大,同时刻度要适中,不要过松或过密。(5)图例:表示两种或几种事物时,要用图例说明。& 变异系数的用途是什么?比较单

8、位不同或单位相同、均数相差较大的两组资料的变异程度。&常用的相对数有哪几种?简述各种相对数指标的含义,计算方法及特点。有率、构成比、相对比三种。率:含义:某现象实际发生的例数与可能发生的总例数之比,说明某现象发生的频率或强度。特点:说明某现象发生的强度。人咨八.观察结果中某现象发生 的频数 甘粉计算公式: 比例比例基数所有观测结果的频数合计构成比:含义:事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,通常以 100为比例基数,又称百分比。特点为:一组构成比的总和应等于100%即各个分子的总和等于分母;各构成部分之间是相互影响的,某一部分比重的

9、变化受到两方面因素的影响,其一是这个部分 自身数值的变化,其二是受其它部分数值变化的影响。100%(观察彳1有k个类别(k2),频数分布表妹个类别尸观察结果中第1个类别的频数观察结果中k个类别的总频数频率基座 Pi, P2, P3, P4 Pi)相对比:含义:是两个有关指标之比,说明两指标间的比例关系。特点:两个指标可以是性质相同,也可以是性质不同;两个指标可以是绝对数、相对数或平均数。A指标计算公式:相对比=A B指标&以实例说明为什么不能以构成比代替率?率和构成比所说明的问题不同,因而绝不能以构成比代率。构成比只能说明各组成部分的比重或分布,而不能说明 某现象发生的频率或强度。3例如:以男

10、性各年龄组高血压分布为例,5060岁年龄组的高血压病例占 52.24%,所占比重最大,60岁组则只占到6.74%。这是因为60岁以上受检人数少,造成患病数低于5060岁组,因而构成比相对较低。但不能认为年龄在5060岁组的高血压患病率最严重,而60岁以上反而有所减轻。若要比较高血压的患病率,应该计算患病率指标。&在统计描述中,统计表和统计图分别起着什么作用?统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要的研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。统计图将统计数据形象化,让读者更易于领会

11、统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。&统计表的制作原则和要求有哪些?统计表的制表原则:首先,重点突出,一张表一般只表达一个中心内容,不要把过多的内容放在一个庞杂的大表里,宁愿用多个表格表达不同指标和内容。其次,统计表就如完整的一句话,有其描述的对象(主语)和内容(宾语)。通常主语放在表达左边,作为横标目;宾语放在右边,作为纵标目。由左向右读,构成完整的一句话。最后,统计表应简单明了,一切文字、数字和线条都尽量从简。制表的基本要求:标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指

12、标的单位。线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两纵标目分割开。其它竖线和斜线一概省去。数字:用阿拉伯数字表示。无数字用“一”表示,缺失数字用“”表示,数值为0者记为“ 0”,不要留空项。数字按小数位对齐。表中数字区不要插入文字,也不列备注项。必须说明者标“* ”号,在表下方说明。51.统计图的制作原则和要求有哪些?&统计图的制作原则和要求有哪些?根据资料性质和分析目的正确选用适当的统计图。例如分析比较独立的、不连续的、无数量关系的多个组或多个类别的统计量(如例数、相对数和

13、均数等)宜选用直条图,分析某指标随时间或其它连续变量变化而变化的趋势宜选用线图,描述某变量的频数分布宜选用直方图,描述或比较不同事物内部构成比时用圆图或百分比条图等。与统计表相似,统计图必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题放在图的下方。统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即4原点处定为0。纵横轴的比例一般以 5:7或7:5为宜。统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或 下方中间位置。&常用的统计图有哪几种,各适用于什么类型资料?常用的统计图有直条图、直

14、方图、圆图或构成比直条图、线图和统计地图。直条图适用于:比较独立分类组的统计指标;直方图适用于:描述频数分布;圆图和构成比直条图适用于:描述构成比;线图适用于:描述某统计量随时间或另一统计量变化而变化的趋势;统计地图适用于:描述统计指标的地理分布。&统计表与统计图有何联系和区别?联系:统计表和统计图都是清晰地、有条理地展示数据,让读者易于领会统计资料的核心内容,易于做比较分析。区别:统计图将统计数据形象化,可以给读者留下深刻的印象。但统计图只能提供概略的情况,而不能获得确切数 值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。第五章概率与概率分布A出现的频率p(A)上,由于

15、p(A)是一个样本统计量,总 n.简述概率的统计定义。随机事件A在n次试验中出现f次,计算出随机事件是在其真正的概率附近摆动,当n趋于无穷大时,p(A)趋于一个常数 P,则称该常数 P为随机事件A的概率。.举例说明医学观察结果中的离散型随机变量和连续型随机变量。在医学观察中只可能取有限个或无限可列个实数值的随机变量称为离散型随机变量, 如用某药物治疗某种非传染病, 要具体数一下此药治疗的有效或无效各多少个;某一人群的四种血型 A、B O AB各多少个;某一单位有男、女各 多少人等对于无法一一列出各种可能的取值的随机变量称为连续性随机变量,如身高、体重、某一人群的年龄等。.举例说明医学现象中的先

16、验概率和后验概率。答:先验概率是人们在抽样前对某现象发生概率的认识,如欲用Bayes判别方法,通过4个指标鉴别3类疾病,首先可根据经验取这 3类疾病的概率都为 1/3,这里的1/3就为先验概率。后验概率是人们在抽样后通过计算从而 对此现象发生概率的认识。如通过计算得出这三类病的发病概率分别为0.982、0.018、0.000,这时的0.982、0.018、0.000就称为后验概率。.简述二项分布的应用条件。(1)每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和恒等于1。(2)每次试验产生某种结果(如“阳性”)的概率固定不变。(3)重复试验是互相独立的,即任何一次试验结果的出现不

17、会影响其它试验结果出现的概率。.简述Poisson分布的性质特征。(1)总体均数与总体方差 2相等;(2)当n很大,而汽很小,且n为常数时,Poisson分布可看作是二项分布的极限分布;(3)当 增大时,Poisson分布渐近正态分布。一般而言,20时,Poisson分布资料可作为正态分布处理;Poisson分布具备可加性。即对于服从Poisson分布的m个互相独立的随机变量 X,为,Xn,它们之和也服从Poisson分布,且其均数为这 m个随机变量的均数之和。.简述概率和概率分布在临床决策中的运用。在决策分析中,由于各种“处理”的结局是不确定的,或者说不同的结局出现的概率大小不同,在一般情况

18、下,决策者往往选择概率大的结局。因此,不同结局出现的概率或不同结局的概率分布,是临床决策的重要依据。第六章正态分布与医学参考值范围.如何将任一个正态分布 N( , 2)转换为标准正态分布?X 一2 通过u 的变换,即可将N ,的正态分布转换成标准正态分布。.简述正态曲线、正态分布和标准正态分布的意义。正态曲线:是一条高峰位于中央,左右两侧完全对称,两端与横轴永不相交的钟型曲线,有数学函数与之严格的对 应。正态分布:若变量 X的频率分布曲线对应于数学上的正态曲线,则称该变量服从正态分布,记为XN ,标准正态分布:将原始变量 X作u (X )/转换后,可得到均数为 0,标准差为1的标准正态分布,记

19、为 uN(0,1 )。.试述医学参考值范围的意义及计算方法。医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标范围,亦称正常值范围。6所谓“正常人”并非身体各项指标均正常,仅是相对于研究指标而言。根据不同资料的分布类型,选择不同的计算方法。正态或近似正态分布的资料:正态分布法;偏态资料:百分位数法。.标准正态分布与t分布的区别与联系?答:t分布与标准正态分布相比具有以下特点:t分布曲线顶部稍低而左右两段稍高。当自由度v较小时,与标准正态分布区别明显;随着自由度v的增大,t分布曲线越来越接近于标准正态分布曲线。当v = 8时,t分布的极限分布就是标准正态分布。.简述

20、2分布的特点。2分布是一种连续型分布,其形状依赖于自由度V的大小。当自由度 VW2时,曲线呈L型,自由度v越大,曲线越趋于对称;当自由度 v趋于无穷大时,2分布则趋于正态分布。6.简述F分布的特点。F分布是一种连续型分布,其密度曲线为单峰的偏态分布,当XW 0时,密度函数等于 0。&寸于一组近似正态分布的资料,除样本含量n外,还可计算 X,S和又 1.96S,问各说明什么?X为算术均数,说明正态分布或近似正态分布资料的集中趋势;S为标准差,说明正态分布或近似正态分布资料的离散趋势;X 1.96S可估计正态指标的 95%勺医学参考值范围,即此范围在理论上应包含总体的95%勺个体值。&试述正态分布

21、、标准正态分布及对数正态分布的联系和区别。联系:区别:(1)正态分布:原始值不需转换;属于对称分布类型;用科表示集中趋势的指标;均数与中位数的关系是后M (中位数)(2)标准正态分布:作 u转换;属于对称分布类型;集中趋势月0;均数与中位数的关系是 kM(3)对数正态分布:作对数转换;属于正偏态分布;集中趋势用G (几何均数表示);均数与中位数的关系是M7&试述正态分布的面积分布规律。(1) X轴与正态曲线所夹面积恒等于1或100% ;(2)区间的面积为68.27%,区间 1.96的面积为95.00%,区间 2.58的面积为99.00%。&简述正态分布的应用。(1)估计频数分布(2)制定参考值

22、范围(3)质量控制:为了控制实验中的检测误差,常以土 2 s 作为上、下警戒值,以土 3 s作为上、下控制值。(4)统计分析方法的基础。第七章参数估计.用什么统计指标说明样本统计量抽样误差的大小?以样本均数为例,说明抽样误差的大小主要受哪些因素的影 响?用样本统计量的标准误来说明样本统计量抽样误差的大小。当样本量n一定时,越大,即样本的个体差异越大,X就越大,样本均数的抽样误差就越大;越小,X就越小,即样本均数抽样误差就越小。当固定时,n越大,X就越小;n越小, X就越大。故影响抽样误差大小的主要因素是样本量。.什么叫做区间估计?它和医学参考值范围有什么区另1J?区间估计是利用样本信息计算出一

23、个区间,并同时给出重复试验时该区间包含总体均数或总体率的概率。与医学参考值范围的区别:筠敷的可信X间科理、生化奖项指标的技动菌国* Q按点元给冠的概善纤琥专的未知参蜿的可能范田口 实际上一次指崖翼程的可信区叵要二世含了总体姆 甑,要幺不宜含.但可以诧:雄忑个区同有多人I如 自方I Do方上而%)的可能底包玉像壶资.炉淋如:,士 2 2、V?77米知正mEQ:A ztu=5 1 4 jl4桂判斯观寒其复的其友指 标HW与否一.标准差与标准误的区别与联系是什么?区别:(1)含义不同:标准差描述个体变量值(x)之间的变异度大小,标准差越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。标准

24、误是描述样本均数之间的变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同:n增大时,标准差一 b (恒定);标准误减少并趋于0 (不存在抽样误差)。(3)用途不同:标准差:表示x的变异度大小,计算 cv,估计正常值范围,计算标准误等标准误:参数估计和假设检验。联系:二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比;标准误等于标准差除样本含量的开方即sx s/ n.可信区间的涵义是什么?对于一个给定的概率,我们可以认为该区间包含了总体参数,而不能认为总体参数以这个给定的概率落在这个区间里。因为计

25、算出的区间是变化的而总体参数值是固定的。以均数的95%T信区间为例,在同一总体中作100次抽样,可彳# 100个可信区间,平均有 95个可信区间包含总体均数科(估计正确),只有 5个可信区间不包含总体均数科(估计不正确),或对于某一个区间而言,它包含总体均数科的可能性为95%而不包含总体均数科的可能性仅为5%5.小结本章介绍了哪些统计是可信区间的估计方法。在哪些情况下,可信区间的估计采用 u界值;在哪些情况下,采用t界值?本章介绍了正态分布法和 t分布法。未知时,按t分布原理,采用t界值。已知时,按正态分布原理采用 u界值; 未知但n足够大时,用样本标准差作为估计值,采用u界值。&X S提供了

26、哪些统计信息?应用时应该注意什么问题?X S提供了资料分布的集中趋势和离散趋势信息,应用时应该注意适用条件即资料要服从或近似服从正态分布。第八章假设检验的基本概念.假设检验中a与P有什么联系与区别?和P均为概率,其中是指拒绝了实际上成立的 H0所犯错误的概率,是进行统计推断时预先设定的一个小概率事件标准。P值是由实际样本获得的,在 H 0成立的前提下出现等于及大于(或/和等于及小于)现有样本获得的9检验统计量值的概率。在假设检验中通常是将P与 对比来得出Z论,若 P V ,则拒绝H0接受H1,有统计学意义,可以认为.不同或不等;否则,若 P ,则不拒绝H0,无统计学意义,还不能认为不同或不等。

27、.设定检验假设 Ho有哪两种方式?这两种方式对假设检验的结果判定有什么影响?检验假设中有无效假设 Ho和备择假设Hi两种假设。其中,Ho尤其重要,它是假设检验计算检验统计量和P值的依据。设立Ho主要有两种方式,一是在研究设计时,通过随机抽样的方法得到研究样本,使样本统计量(如又,P )在施加干预前能代表总体均数或总体率;或者在施加干预前通过随机分组的方法使两样本数据具有相同的总体特征(如相同的分布,相同的总体参数)。二是根据反证法的思想,直接对总体参数或总体分布做出假设,如两总体均数相等、两总体方差相等、观察数据服从正态分布等,并不去考虑Ho的合理性.为什么假设检验结果 Po.o5不能下“无差

28、别”的结论?在假设检验结果 P v o.o5的时候,下“有差别”的结论时,虽然有犯错误的可能(I型错误),但犯错误的概率不大于 。而在假设检验结果 P o.o5的情况下,不能下“无差别”或“总体参数相等”的结论,因为 P 不 能证明H)就是正确的。退一步说,即使 Ho正确,接受Ho时也会犯错误(n型错误),但一般假设检验只能提供犯I型错误的概率 ,不提供犯n型错误的概率。所以,根据P 接受H,下“无差别”或“总体参数相等”的结论实际上得不到应有的概率保证。因此,假设检验结果P o.o5不能下“无差别”的结论。.怎样正确运用单侧检验和双侧检验?单双侧检验首先应根据专业知识来确定,同时也应考虑所要

29、解决的目的。若从专业知识判断一种统计方法的结果可 能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。若 研究者对低于或高于两种结果都不关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。一般认为双侧检 验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。.简述怎样用可信区间的方法分析两均数u检验的问题?可信区间用于推断总体均数的范围,而假设检验用于推断总体均数间是否相等。可信区间亦可部分回答假设检验问题,如两总体均数之差的ioo(1 )%的可信区间包含了 o,则按 水准不拒绝Ho: 12,如果该区间未包含

30、 o ,同样拒绝Ho接受Hi ,与u检验的结论相同。io |.简述假设检验对实际问题的推断能力(单双侧检验时);假设检验也称显著性检验。 它是利用小概率反证法的思想, 从问题的对立面(H0)出发间接判断要解决的问题 (H1)是否成立。然后在Ho成立的条件下计算检验统计量, 最后获得P值来判断。当P小于或等于预先规定的概率值,就是小概率事件。根据小概率事件原理:小概率事件在一次抽样中发生的可能性很小,如果它发生了,则有理由怀疑原假设Ho,认为其对立面 Hi成立,该结论可能犯大小为的错误。.简述检验效能的概念和主要影响因素以及它们之间的关系;检验效能用概率1-表示,其中为假设检验接受Ho时犯第二类

31、错误的概率。检验效能的意义是,当两总体确有差别,按检验水准,假设检验结果能发现其差别(拒绝 Ho)的能力。影响检验效能的四个因素:.总体参数的差异越大,检验效能越大。.个体差异(标准差)越小,检验效能越大。.样本量越大,检验效能越大。.检验水准(I型错误的概率)定得越宽,检验效能越大。联系:在这四个因素当中,总体参数的差异、总体标准差、检验水准 通常是相对固定的,尤其是 和,都是不可改变的的参数,只能做出比较接近的估计,但不能随意设定。可以人为调整因素的唯有样本量m、n2,而且样本量对检验效能的影响最大。. I型错误与II型错误有何区别与联系? 了解这两类错误有何实际意义?区别:当Ho为真时,

32、假设检验结论拒绝 Ho接受Hi,这类错误称为第一类错误 / I型错误/假阳性错误/ “弃真”错误。前面所说的检验水准,就是预先规定的允许犯I型错误概率的最大值,用表示。当真实情况为 Ho不成立而H成立时,假设检验结论不拒绝Ho反而拒绝Hi ,这类错误称为第二类错误/n型错误/假阴性错误/“取伪”错误。其概率大小用表示。关系: 越小, 越大;相反, 越大, 越小。若要同时减小I型错误和n型错误,唯一的方法就是增加样本量n。了解这两类错误的实际意义:若在应用中要重点减少“(如一般的假设检验),则取a=O.O5 ;若在应用中要重点减少3 (如方差齐性检验,正态性检验或想用一种方法代替另一种方法的检验

33、等),则取a =O.O1或O.O2甚至更高。.在哪些情况下容易出现多次重复检验的问题?多次重复检验有哪些不良后果?如何避免多次重复检验问题?多次重复检验多在以下两种情况下出现:一是有多个观察指标,如肝功能检查项目、心功能检查项目等,对每个指11 |标都进行试验组和对照组有无差别的假设检验。但是,对多个观察指标进行多次重复检验,必定会增加假阳性率。因此,如果是科研目的明确的临床试验,为了避免多次重复检验问题,应在研究计划书中确定12个反映疗效的主要观察指标;二是对同一个指标的多次重复测量,如高血压患者的血压测量值,对多个时间点(如每周)进行 组间差别检验。这样的话,假设检验的次数要成倍的增加。因

34、此,为了避免一个观察指标多次测量的重复检验问题,使疗效判定有一个非常明确的判断标准,需要在研究设计时预先确定主要研究目的和主要疗效评价指标。&a设检验时,一般当 p0.05时,则拒绝H),理论根据是什么?P值系由H所规定的总体做随机抽样,获得等于及大于(或等于及小于)依据现有样本信息所计算得的检验统计量 的概率。当PW 0.05时,说明在H成立的条件下,得到现有检验结果的概率小于a ,因为小概率事件几乎不可能在一次试验中发生, 所以拒绝H0。同时,下“有差别”的结论的同时,我们能够知道可能犯错误的概率不会大于a , 也就是说,有了概率的保证。& 可信区间与假设检验有何联系与区别?区别:可信区间

35、用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不等。可信区间亦可回答假设检验的问题,算得的可信区间若包含了H,则按a水准,不拒绝 如不包含H0,则按a水准,拒绝H0,接受Hi。联系:1)可信区间不但能回答差别是否有统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专 业意义。2)可信区间不能够完全代替假设检验,可信区间只能在预先规定的概率一一检验水准a的前提下进行计算,而假 设检验能够获得一个较为确切的概率P值。故将二者结合起来,才是完整的分析。&为什么假设检验的结论不能绝对化?假设检验的结论是概率性的。拒绝H),可能产生I型错误;不拒绝可

36、能产生II型错误。还与单、双侧检验有关,报告结果是应注明,以便读者与同类研究比较,正确评价结果的参考价值; 另外,还与检验水准a的高低有关。有时对于同一问题, 按a =0.01时可能不拒绝 Hd,而按a =0.05时可能拒绝 H;统计结论还与样本大小有关,有时随着样本含量n的增加,即使取同一检验水准,由于抽样误差的减小,结论有可能从不拒绝H到拒绝H。&为什么在报告统计假设检3结果时,提倡使用P确切数值并给出95%CI?报告统计假设检验结果时,P确切数值能够提供抽样误差造成总体和样本差别的确切概率,便于下结论时对具体问题作具体分析,还便于对同类研究结果进行综合.如meta分析使用的Fisher法

37、。总体参数(如总体均数)差别的95 %CI不仅能提供总体参数有无差别的信息,还能提供其差别大小的可能范围。12 |创民设检验的统计“显著”与专业意义上“显著”有何联系和区别?统计“显著”对应于统计结论,专业“显著”对应于专业结论.P值大小只能说明统计学意义的“显著”,不说明实际效果 的“显著”。若统计结论和专业结论一致,则最终结论也一致;若统计结论和专业结论不一致,则最终结论需根据实际情 况而定。以临床试验为例,临床疗效“显著”的处理,当观察例数很少时,P值可能很大(统计“不显著”);反之,临床疗效“不显著”的处理(如新药比对照药有效率仅提高了 0. 1% ,当观察例数很大时,P值可能很小(统

38、计“显著”)。 因此.对于P值的解释一定要结合专业知识,并且用两均数(率)之差的可信区间反映出实际差别的大小。创民设检验的理论依据是什么?请简述假设检验的基本步骤。假设检验的理论依据:小概率事件原理步骤:(1)根据研究目的建立假设,确定检验水准(2)根据样本统计量的抽样分布规律,选择适当的统计方法,计算检验统计量(3) 确定P值,做出推断结论第九章x 据b+c40时,需做连续性校正,其公式为13检验1、简述 2检验的基本思想。.ccA T 2在 2检验的理论公式2中,A为实际频数,T为理论频数。根据检3假设 H):兀1=兀2,右H)成立,则四个格子的实际频数 A与理论频数T相差不应很大,即2统

39、计量不应很大。若2值很大,即相对应的P值很小, 比如Pw a,则反过来推断 A与T相差太大,超出了抽样误差允许的范围,从而怀疑 H的正确性,继而拒绝 H0,接 受其对立假设H,即兀1 w兀2。2、四格表 2检验有哪两种类型?各自在运用上有何注意事项?四格表2 .检验,2检验分为两独立样本率检验和两相关样本率检验。两独立样本率检验应当首先区分其属于非连续性校正22 .2AT,专用计算公式T为:22ad bc nabacbdcd。连续性校正 2检验的理论计算公式为:A T 0.5J1,专用T2计算公式为(2|ad bc n 2 na b a c b d c d两相关样本率检验的理论计算公式为:22

40、 b c ,当样本数b c或是连续性校正检验。非连续性校正检验的理论计算公式为:3、什么情况下使用 Fisher确切概率检验两个率的差别?当样本量n和理论频数T太小时,如n40而且Tv 5,或Tv 1,或n40且所有的T5时,用非连续性校正值理论计算公式或四格表专用计算公式2n40,且任一理论频数 T有1WTV 5,用连续性校正值理论计算公式或四格表专用计算公式;当n40,使用未经校正的公式;(b+c) 0时,Y随X上升而上升;当b0时,Y随X上升而上升;当b0时,Y随X上升而上升,先快后慢;当 b0时,Y随X上升而下降;当 b0时,Y随X上升而上升。 a bX1 e&式总结从样本数据判断总体

41、回归关系是否成立的统计方法有哪些?用tb、tr作t检验;用F对b和R2作方差分析;直接查相关系数r界值表。&现有据10对数据算出的直线回归方程:Y?=2.1+0.8 X,只有X和Y的均数、标准差,而原始数据丢失时如何判定回归方程是否成立?例如可以利用r=bxS/SY,求得相关系数,然后查相关系数界值表对回归方程作假设检验。&直线回归分析中应注意哪些问题?(1)两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析,其中哪一个作为应变量主要是根据专业上的要求而定,同时直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非

42、随机变量。(2)进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现异常点并进行进一步处理。(3)对结果应有正确解释。反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。直线回归用于预测时应尽量避免不合理的外延。结果中的决定系数可表示两变量关系的实际效果。20 |第十三章线性相关分析1,简述相关系数与回归系数的区别和联系。区别:(1)资料要求:线性相关要求两个变量X、Y服从双变量正态分布,此时若进行回归分析,称为n型回归;线性回归要求应变量Y服从正态分布,X可以是精确测量

43、或严格控制的变量,此时若进行回归分析,称为I型回归。(2)应用情况:相关系数是说明两变量之间的相关关系;回归系数是说明两变量之间的依存关系。(3)意义:r说明具有线性关系的两个变量间关系的密切程度与相关方向;b表示X每增加(减)一个单位时,Y平均改变b个单位。(4)计算:r l XX /XX IyY ; b l XY /l XX 取值范围: 1 r 1; b 。(6)单位:b受X、Y计量单位的影响,r不受X、Y计量单位的影响。联系:(1)二者方向一致;对一组数据若能同时计算b和r,它们的符号一致。(2)假设检验等价:又同一样本,r和b的假设检验得到的t值相等。 2 SS 回归 一 .2(3)用

44、回归解释相关:决定系数r ,回归平方和越接近总平方和,则 r越接近1,说明引入相关的效果SS总越好。.简述相关系数的概念和应用。概念:相关系数又称积差相关系数(coefficient of product-moment correlation),以符号r表示样本相关系数,表示总体相关系数。它是说明具有直系关系的两个变量间,相关关系的密切程度与相关方向的指标。应用:相关系数用于描述两个变量间线性相关关系的密切程度与方向,它没有单位,其取值在-1和1之间波动。r值为正表示正相关,r值为负表示负相关,r值为零为零相关。r值等于1为完全正相关。r值等于-1表示完全负相关。.简述应用相关系数时应注意的问

45、题。(1)做相关与回归分析时要有实际意义,不能把毫无关联的两个变量作相关、回归分析,必须对两个变量的内在联 系有所认识。(2)在进行相关与回归分析之前,应先绘制散点图。当观察点的分布有直线趋势时,才适宜作相关、回归分析。如散点图呈明显的曲线趋势,应使之直线化再进行分析。散点图还能提示资料有无异常点。(3)直线回归方程的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量取值范围外还是直线, 应避免外延。21 |(4)双变量的小样本的r经t检验后,只能推断总体两变量间有无直线关系,而不能推断相关的紧密程度,要推断 相关的紧密程度,样本量必须较大。(5)相关关系不一定是因果关系,也可能是

46、伴随关系,有相关关系不能证明事物间确有内在联系。4.简述组间相关系数与组内相关系数的联系与区别。组间相关系数用以描述两个随机变量间线性相关关系的密切程度与相关方向的统计指标,也称为两个变量的的组间相关系数。若X、丫为两个含义相同的观察指标,或者是相同观察指标的前后两次重复测量结果,这样的相关系数 表示的是同一变量内部的相关系数,称为组内相关系数。&简述直线回归与直线相关的区别。(1)资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析 适用于服从双变量正态分布的资料。(2)两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示 应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关 联程度越大。&简述直线相关与秩相关的区别与联系。联系:(1)两者所解决的应用问题相同,都可用来表示两个数值变量之间关系的方向和密切程度。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论