卫生统计学6版重点总结_第1页
卫生统计学6版重点总结_第2页
卫生统计学6版重点总结_第3页
卫生统计学6版重点总结_第4页
卫生统计学6版重点总结_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 绪论一,名词解释参数:根据总体分布的特征而计算的总体统计指标。总体:研究目的确定的同质观察单位的全体。同质:总体中个体具有相同的性质。变异:同质基础上的个体差异。样本:从总体中随机抽取的有代表性的一部分观察单位,其实测值的集合。统计量:由总体中随机抽取样本而计算的相应样本指标。概率:描述随机事件发生的可能性大小的数值。(概率的统计定义:在一定条件下,重复做n次试验,na为n次试验中事件a发生的次数,如果随着n逐渐增大,频率na/n逐渐稳定在某一数值p附件,则数值p称为事件a在该条件下发生的概率。)抽样误差:由个体变异的存在和抽样引起样本统计量与相应的总体参数间以及各样本统计量之间的差别

2、。二,问答题。统计学的基本步骤有哪些?答:统计学是一门处理数据中变异性的科学与艺术,它包括收集数据、分析数据、解释数据,以及表达数据。总体与样本的区别与关系?答:区别:样本是总体的一部分,联系:如果样本的均衡性较好,就能够代表总体的特征。抽样误差产生的原因有哪些?可以避免抽样误差吗?答:一,个体差异引起;二,抽样方法引起。抽样误差不能避免,但可以随着样本含量的增大而减小。何为概率及小概率事件?答:概率是指在一定条件下,重复做n次试验,na为n次试验中事件a发生的次数,如果随着n逐渐增大,频率na/n逐渐稳定在某一数值p附件,则数值p称为事件a在该条件下发生的概率。小概率事件是指习惯上将p=0.

3、05或p=0.01称为小概率事件,表示某事件发生的可能性很小。第二章 定量资料的统计描述一、名词解释频数:对一个随机事件进行反复观察,其中某变量值出现的次数被称为频数。方差:用来度量随机变量和数学期望(即均值)之间的偏离程度。标准差:也称均方差,是各数据偏离平均数的距离的平均数。中位数:是指将原始观察值从小到大或从大到小排序后,位次局中的那个数。几何均数:变量对数值的算数均数的反对数。四分位数间距:百分位数p75和百分位数p25之差。正偏态分布:偏态分布是相对于正态分布而言的,如果频数分布的高峰向左偏移,长尾向右侧延伸为正偏态分布也叫右偏态分布。负偏态分布:偏态分布是相对于正态分布而言的,如果

4、频数分布的高峰向右偏移,长尾向左延伸则成负偏态分布,也叫左偏态分布。变异系数:是衡量资料中各观测值变异程度的一个统计量,用标准差与平均数的比值来表示。二、问答题。描述数值变量资料集中趋势的指标有哪些?其适用范围有哪些?答:常见的包括算术均数、几何均数、中位数。相同点:算数均数和中位数都适用于正态分布的资料。不同点:几何均数适用于可经对数转换为对称分布的资料;中位数适用于各种分布的资料,常用于描述偏峰分布的资料。描述数值变量资料离散趋势的指标有哪些?其适用范围有何异同?答:常见的包括:极差、四分位数间距、方差、标准差和变异系数。适用范围相同点:极差和四分位数间距可用于各种资料的分布;方差和标准差

5、适用于对称分布,特别是正态分布的资料。不同点:极差易受样本含量的影响,很不稳定;四分位数间距特别适用偏峰分布资料;变异系数适用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。第三章 定性资料的统计描述一,名词解释率:指某现象实际发生观察单位数与可能发生该现象的观察单位总数之比,用以说明某现象发生的频率或强度。构成比:是指事物内部某一组成部分观察单位数与该事物内部各组成部分观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布,常用百分数表示。相对比:是指两个有关联的指标之比,用以说明一个指标是另一个指标的几倍或几分之几。人口金字塔:是将人口的性别和年龄资料结合起来,以图形的

6、方式表达人口的性别和年龄构成。它以年龄为纵轴,人口数构成为横轴,左侧为男,右侧为女而绘制的两个相对应的直方图,可以分析过去人口的出生死亡情况以及今后人口的发展趋势。标准化率:寻找一个统一的分布作为标准组,然后每个比较组均按该分布标准计算相应的率,所得到的率是相对于标准组的,故称为标准化率。标准化死亡比(smr):实际死亡人数与期望死亡人数之比。期望寿命:指0岁时的预期寿命。一般用“岁”表示。即在某一死亡水平下,已经活到x岁年龄的人们平均还有可能继续存活的年岁数。动态数列:按时间顺序将一系列统计指标(可以为绝对数,相对数或平均数)排列起来,用以观察和比较该事物在时间上的变化和发展趋势。二、问答题

7、请说明频率型指标与强度型指标的主要区别?答:主要区别:指标的解释不同,频率型指标是表示事物内部某个组成部分所占的比重或分布,或指某现象发生的频率。强度型指标是指单位时间内某现象发生的频率。标准化法的基本思想?答:采用统一的标准,以消除重要因素的构成不同对粗率的影响,使通过标准化后的标准化率具有可比性。请比较发病率和患病率的不同。答:发病率表示一定时期内,在可能发生某病的一定人群活过的总人年数中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总

8、人数。在一定的人群和时间内,发病率和患病率有密切关系,两者与病程(d)的关系是:pr=ird。请比较死亡率与病死率的不同。答:死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。应用相对数应注意的事项。答:1.分析时不能以构成比代替率;2.应用相对数对比分析时,要考虑资料是否具有可比性;3.计算相对数时分母应有足够数量;4.对观察单位数不等的几个率,不能直接相加求其平均;5.样本率要检验。应用标准化的注意事项。答:1.标准化的应用范围很广,适用于“某事件的发生率”可以是治愈率

9、,也可以是患病率,还可以是发病率、病死率等。当某个分类变量在两组中分布不同时,这个分类变量就成为两组频率比较的混杂因素,标准化法的目的就是消除这个混杂因素的影响。2.标准化后的标准化率,已经不再反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。3.标准化法的实质是找一个“标准“,使两组得以在一个共同的”平台“上进行比较。4.两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,当样本含量较小时,还应作假设检验。第四章 统计表与统计图一、问答题依次写出箱式图中涉及到的各个取值。答:由大到小的次序为:极大值、p75、中位数、p25和极小值。直方图中各矩形的高度等于频数(或频数),

10、对吗?答:对于各组距相等的情形,该说发是对的。若某些组段的组距与多数阻段所取组距不同时,例如前者是后者的k倍,则该不等距组段的高度为频数(频率)除以k。确切地说,组段对应的面积等于频数(频率)。统计表的列表原则是什么?答:一是重点突出,简单明了;二是主谓分明,层次清楚,符合逻辑。线图和半对数线图的主要区别是什么?答:线图的纵轴尺度为算术尺度,用以表示某指标随时间的变化趋势;半对数线图的纵轴尺度为对数尺度,用以表示某指标随时间的增长或减少速度。第五章 常用概率分布一、名词解释正态分布:是一种很重要的连续型分布,以均数为中心,左右两侧对称,靠均数两侧的频数较多,离均数越远,频数越少,形成钟形分布。

11、poisson分布:是一种离散型分布,用以在单位时间、空间、面积等的罕见时间发生次数的概率分布。二项分布:对只有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。医学参考值范围:是指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。人们习惯用该人群中95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。二、问答题医学参考值范围确定的方法是什么?答:百分位数法和正态分布法。简述二项分布、poisson分布、正态分布的区别与联系。答:区别:二项分布、poisson分布是离散型概率分布

12、,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。联系:poisson分布可以视为n很大而很小的二项分布。当n很大而和1都不是很小的时候二项分布渐近正态分布,当=20的时候poisson分布渐近正态分布。控制图的基本原理。答:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布;依据标准正态分布曲线下面积的分布规律性,确定出现概率非常小的若干情况作为异常标准;如果出现相应结果则判为异常。二项分布的特征?答:二项分布图的高峰在=n处或附近;为0.5时,图形是对称的;当不等于0.5时,分布不对称,且对同一n,离0.5愈远,对称性愈差。对同

13、一,随着n的增大,分布趋于对称。当n时,只要不太靠近0或1,二项分布趋于对称。poisson分布的特征?答:(1)poisson分布的总体均数与总体方差相等,均为。(2)当较小时,图形呈偏态分布;当较大时,图形呈正态分布。(3)poisson分布的观察结果具有可加性。正态分布曲线的位置与形状的特点? 答:(1)关于=对称。(2)在=处取得该概率密度函数最大值,在=处有拐点。(3)曲线下面积为1。(4)决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,减小,曲线沿横轴向左移。(5)决定曲线的形状,当恒定时,越大,数据越分散,曲线越“矮胖”; 越小,数据越集中,曲线越“瘦高”。第六章 参数估计

14、基础一、名词解释统计推断:抽样研究的目的是用样本信息来推断相应总体的特征,这一过程称为统计推断。参数估计:如何由样本统计指标来推断总体相应指标。假设检验:如何由样本差异来推断总体之间是否可能存在差异。标准误sem:样本均数的标准差,即均数的标准误。置信区间ci:将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为总体参数的置信区间。t分布:在实际的工作中,往往是未知的,常用s作为的估计值,为了与变换区别,称为t变换,统计量t值的分布称为t分布。二、问答题t分布图形的特征?答:(1)单峰分布,以0为中心,左右对称;(2)越小,t值越分散,曲线的峰部越矮,尾部越高;

15、(3)随着逐渐增大,t分布逐渐接近标准正态分布;当趋向时,t分布趋近标准正态分布。总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?答:无论原始数据的总体分布形态如何,即对于任意分布而言,在样本含量足够大时,其样本均数的分布近似于正态分布,且样本均数的均数等于原分布的均数,样本均数的标准误有公式(6-1)计算。样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系?答:样本均数的标准误可以反映样本均数之间的离散程度及抽样误差的大小。标准误与标准差的区别:(1)概念不同,标准差表示样本个体间的变异程度,标准误表示样本均数间的变异程度。(2)用途不同,标准差常用于表示变量值对均数波

16、动的大小,当资料呈正态分布时,与均数结合可估计医学参考值范围,计算变异系数等;标准误常用于表示样本统计值(样本均数、样本率)对总体参数(总体均数、总体率)的波动情况,可估计参数的可信区间,进行假设检验等。(3)它们与样本含量n的关系不同,当样本含量n增大时,标准差趋近于,而标准误随n的增大而减小,趋近于0。联系:均是变异指标;当样本量n一定时,标准误与标准差呈正比。用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精度更好?为什么?答:95%置信区间的精度要好于99%置信区间。因为置信度或置信水平有95%提高到99%时,置信区间由窄变宽,估计的精度下降。满足什么条

17、件时可以采取正态近似法估计总体概率的置信区间?答:当n足够大,且样本频率p和1p均不太小时,如np与n(1p)均大于5时,可用正态近似法求总体概率的置信区间。参考值范围与置信区间有何区别?答:区别:(1)意义不同:参考值范围是指通知总体中包括一定数量(如95%或99%)个体值的估计范围。可信区间是指按一定的可信度来估计总体参数所在范围。(2)计算方法不同。第七章 假设检验基础一、名词解释检验效能:当所研究的总体与h0确有差别时,按检验水平能够发现它(拒绝h0)的概率。(当两总体确有差异,按规定检验水准所能发现该差异的能力。)变量变换:对资料数据进行数学变换,使得变换后的资料符合参数方法条件的一

18、种方法。第型错误:如果实际情况与h0一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝原本正确的h0,导致推断结论错误,称为第型错误。第型错误:如果实际情况与h0不一致,仅仅由于抽样的原因,使得统计量的观察值落到接受域,不能拒绝原本错误的h0,导致推断结论错误,称为第型错误。二、问答题假设检验的理论依据是什么?(或者问基本思想)答:采用逻辑上的反证法,利用“小概率思想”。小概率思想是是指概率事件(p0.05或p10或n2n110时用z检验,这时检验是属于参数检验还是非参数检验,为什么?答:属于非参数检验,因为这时的z检验是比较例数较小组秩和与其总体均数n(n+1)/2的差别。第十一章

19、 两变量关联性分析一,名词解释自变量:指实验中由于实验者所操纵的因素或条件。因变量:指实验中由于实验变量而引起的变化和结果。线性相关系数:又称pearson积距相关系数,是定量描述两个变量间线性关系密切程度和相关方向的统计指标。线性相关:两个变量间呈现线性变化趋势的关系称为线性相关。二、问答题线性相关中应注意的问题?答:(1)样本相关系数接近0并不意味着两变量间一定无相关性;(2)变量的数值不能人为选定;(3)出现异常值时慎用相关;(4)相关未必真存在内在联系;(5)分层资料盲目合并易出假象。pearson积距相关与spearman等级相关有何异同?答:pearson积距相关与spearman

20、等级相关的应用条件不同,前者要求数据服从二元正态分布,属于参数方法;而后者可不满足正态分布条件,为非参数法;相同点都是用来解决两变量间的线性相关程度的大小,相关系数的含义、单位、取值范围一致,且计算公式相同,不过一个直接用原始的定量数据,另一个则要用等级数据。比较分类变量的两个样本或多个样本的频数分布所采用的2检验与关联性分析的2检验有何异同?答:分类变量的两样本与多个样本频数分布比较的2检验是对两样本或多个样本比较,而关联性分析的2检验却是探讨一份样本的两种属性所对应的两个变量间的关系,研究的问题不同、设计不同、检验假设不同、意义不同、结论不同;相同的仅是计算统计量的工具。分类变量配对的22

21、资料在什么情况下用mcnemer2检验,什么情况下用pearson 2检验?答:分类变量配对设计的22频数资料若是作两组频数比较,则用mcnemer2检验,若是作两变量间关联性分析则用pearson 2检验?第十二章 简单回归分析一,名词解释1. 线性回归:是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一。2. 决定系数:回归平方和与总离均差平方和之比称为决定系数。二,问答题1. 线性回归模型的适用条件:线性、独立、正态、等方差。2. 型回归和型回归的区别与联系? 答:前者要求y为随机变量,服从正态分布,x可人为取值;后者x,y均为随机变量,均服从

22、正态分布。3. 置信带的意义是什么? 答:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,其置信度为1。4. 线性回归分析中应该注意哪些问题? 答:(1)作简单线性回归分析要有实际意义,不要把豪无关联的两种现象强加在一起作回归分析。在理论上,任何成对的两组数据都可以获得一个唯一的线性回归方程,并有可能作回归系数的假设检验有统计学意义。(2)在作线性回归分析前,一定要绘制散点图,观察全部数据点的分布趋势,只有存在线性趋势时,才可以进行线性回归分析。(3)线性回归方程的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量取值范围仍是直线,应该避免外延。(

23、4)作线性回归分析有统计学意义不等于有实际意义,考察线性回归方程的实际效果用决定系数r2的大小,而不是线性回归分析的假设检验的概率p值。5. 简述线性相关与线性回归的区别与联系? 答:联系:r(相关系数)与b(回归系数)可相互换算;r与b的假设检验等价;r与b正负号一致;回归可解释相关,相关系数的平方r(对称决定系数)是回归平方与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分tr=tb=。区别:资料要求上相关x,y正态分布,回归y正态分布;应用上:相关说明相关关系,回归说明依存关系。意义上:r说明两变量关系程度与方向b表示x增或改变,使y改变b个单位;计算上:b=ly/l

24、x, r=lxy/;取值范围:-b,-1r1;单位:b有单位,r无单位。第十四章 实验设计一,名词解释1. 处理因素:研究者根据研究目的而施加的特定的实验措施,又称受试因素。2. 实验效应:处理因素作用于受试对象长生的反应或结局。3. 完全随机设计:4. 配对设计: 5.交叉设计:6. 区组设计: 7.析因设计:课后习题答案1. 答:实验研究和调查研究的根本目的在于研究者是否人为地设置处理因素,即是否对研究对象施加了干预措施。试验研究中研究者可以主动施加干预措施,控制非试验因素的干扰,而调查研究则知识客观地放映事物的实际情况,未给予任何的干预措施。2. 实验设计的三个基本原则是:对照,随机化,

25、重复。3. 使用安慰剂的目的在于消除受试对象和试验观察者由于主观因素造成的偏倚,以及对试验结果的人为干扰,保证试验的可靠性。一般在临床双盲试验中使用。4. 随机化使非处理因素在实验组和对照组中的影响相当,因此提高了对比组间的可比性,使试验结论的外推具有科学性和可靠性。随机化是对资料进行统计推断的前提。5. 实验设计的基本要素有哦:受试对象、处理因素和实验效应。6. 实验设计样本含量估计的四要素是:欲比较的两总体参数的差值、有关总体变异的信息、第类错误概率的大小以及第类错误概率的大小或检验功效1。7. 配对设计按可能影响结果的主要混杂因素将受试对象一一组成对子,然后随机分配到实验组和对照组。因此

26、能够保证对比组间具有更高的可比性,与完全随机设计相比提高了检验功效,节约了样本含量。8. 为避免医生和患者主观因素对实验效应观察造成的影响,应采用盲法、安慰剂和模拟技术,使医生和患者都不清楚处理措施的分配,以真正显示出处理因素的效应。思考题1. 析因设计是一种多因素多水平交叉分组的全面实验设计方案,它是将两个或多个处理因素的水平进行组合,对所有肯呢个的组合都进行实验,从而探讨各处理因素各水平的差异,同时检验各因素间的交互作用。析因设计的特点在于其全面性,可探讨各处理因素不同水平的效应,同时可获得各处理因素间的交互效应;通过比较各种组合的效应还能寻求最佳组合。但析因设计的工作量较大,设计和统计分

27、析复杂,众多交互效应的解释困难。2. 交叉设计是一种特殊的自身对照设计。其中22交叉设计首先是将同质个体随机分为两组,每组接受了两种处理。当然阶段数和处理数都可以扩展,成为多种处理多重交叉实验。交叉设计一般用于有自愈倾向或病程较长的疾病研究。 交叉设计的优点:一是节约样本含量,二是能够控制个体差异和时间对处理因素的影响;三是在临床试验中同等地考虑了每个患者的利益。其缺点,一是处理时间不能太长,二是当受试对象的状态发生根本变化时,后一阶段的处理将无法进行;三是受试对象一旦在某一阶段退出试验,就会造成数据缺失。第十五章 调查设计一,名解略(简单随机抽样,分层抽样,整群抽样,系统抽样名词解释)二,问答题1。它们是两种主要的研究方法,其方法步骤基本相同。主要区别在于调查研究不能人为设置处理因素,也难以进行完全随机化,而实验研究则可以。二者可以结合使用,可起到取长补短的作用。2. 调查研究主要有普查、抽样调查、典型调查等,每类还可以细分为多种方法。普查能得到全面的信息,但是费时费力;抽样调查能尽快得到结果,省时省力,但存在抽样误差;典型调查能突出代表性并尽快得到结果,但不能进行统计推断。3. 对于无限总体只能采取抽样调查,对于有限总体常常没有足够人力、物力、财力,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论