统计学知识点整理贺佳_第1页
统计学知识点整理贺佳_第2页
统计学知识点整理贺佳_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、同质:医学研究对象具有的某种共性称为同质。2、变异:对于同质的研究对象,其变量之间的差异称为变异。3、个体:无论用何种方式收集资料,都要根据研究的目的确定观察单位,又成个体,4、总体:根据研究目的,所有同质的观察单位某项观察值得全体成为总体。5、样本:来自于总体的部分观察单位的观测值称为样本。6、样本含量:抽取的观察值的个数称为样本含量。7、参数:总体中全部观测值所得的特征值称为参数。8、统计量:由样本获得的统计指标称为统计量。9、抽样误差:统计学中,这种由抽样与变异引起的样本统计量与总体参数的差异,或者不同的样本的样本 统计量之间的差别,称为抽样误差。10、观察单位的研究特征称为变量,变

2、量的观察结果称为变量值,多个变量值汇成资料。11、随机变量:随机试验结果的所有取值称为随机变量或变量。12、频率:在相同的条件下,独立的重复n 次试验,随机试验的某一结果 A 出现 f 次,则称 f/n 为结果 A出现的频率。13、概率:当 n 逐渐增大时,频率 f/n 始终在一个常数左右微小摆动,称该常数为 A 出现的概率。14、频数:当汇总大量的原始数据时,把数据按类型分组(组段),其中每个组的数据个数,称为该组的频数。15、正偏态:集中位置偏向小的一侧叫正偏态,又叫右偏态16、负偏态:集中位置偏大的一侧叫负偏态,又叫左偏态17、医学参考值:医学参考值又称临床参考值,指绝大多数“正常人 ”

3、的各种生理、生化指标、组织代谢产物及人体对各种实验的反应值等测量值的分布范围。18、结构相对数,又称构成比:表示事物内部某一部分的观察单位数与该事物各组成部分的观察单位总数 之比,用以说明各构成部分在总体中所占的比重或分布。19、相对比简称比( ratio ),是两个有关指标之比,说明两指标间的比例关系。20、强度相对数,又称为率:说明单位时间内某现象发生的频率或强度。21、定基比:报告期指标与基线期指标之比。22、环比:报告期指标与前一期指标之比。23、标准化法:要正确比较两种疗法的合计治愈率,必须先将两组治疗对象的病型构成按照统一标准进行 校正,然后计算出校正后的标准化病死率再进行比较。

4、这种用统一的内部构成, 然后计算标准化率的方法, 称为标准化法24、辛普森悖论( Simpson paradox):在某种条件下,在分组比较中都占优势的一方,在总体评价中却并不 占优势。25、动态数列:是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。26、平均发展速度,是各环比发展速度的几何平均数,说明某事物在一个较长时期中逐期(如逐年)平均 发展的程度。27、平均增长速度,是各环比增长速度的平均数,说明某事物在一个较长时期中逐期平均增长的程度。28、抽样误差:在总体中随机抽样,由于个体间存在差异,抽得的样本计算出的指标不太可

5、能恰好等于总 体指标,因此通过样本推断总体总会有误差。这种由个体差异产生、随机抽样造成的样本统计量与总体参 数间的差异以及样本统计量间的差异,称为抽样误差。29、标准误:即样本均数的标准差,可用于衡量抽样误差的大小。30、均数的标准误:样本均数的标准差也称为均数的标准误31、参数估计:是指由样本统计量估计总体参数,包括点估计和区间估计两种方法。32、置信区间,通常由两个数值即可信限构成。其中较小的值称可信下限,较大的值称可信上限,一般表示为 L U。33、可信区间:根据样本均数,按照预先给定的概率(1 ) 称为置信度所确定的包含未知总体参数的一个数值范围,这个范围称为总体均数的可信区间。34、

6、P 的含义是指从 H0 规定的总体随机抽样, 抽得等于及大于 (或/和等于及小于 )现有样本获得的检验统计 量(如 t、u 等)值的概率。35、检验效能( power ):1- ,当两总体确有差别,按检验水准 所能发现这种差别的能力36、I 型错误:当假设检验结论为拒绝 H0 时,有可能拒绝了事实上成立的 H0,此类错误称为 I 型错误37、II 型错误:当假设检验不拒绝 H0 时,有可能没有拒绝了事实上不成立的H0,此类错误称为 II 型错误38、组间变异:各组的均数与总均数间的差异, 反映处理因素不同水平之间的作用,以及随机误差。39、组内变异:每组的各个原始数据与该组均数的差异,反映了观

7、察值的随机误差。40、方差齐性:各样本的总体方差相等。41、参数检验:假定随机样本来自某已知分布(如正态分布 )的总体 ,推断两个或两个以上总体参数是否相同的方法。42、单变量统计:用于比较某一定量变量 (平均值 )在两组或多组之间的差别如: t 检验、方差分析43、双变量关系的统计:在医学科研中 ,人们经常要研究两个变量之间的相互联系和相互依存关系。44、简单回归:双变量直线回归是回归分析中最基本、最简单的一种,故又称简单回归45、相关系数又称 Pearson积差相关系数, 用来说明具有直线关系的两变量间相关的密切程度与相关方向。46、残差 (residual)或剩余值,即实测值 Y 与假定

8、回归线上的估计值 Y 的纵向距离。47、I 型回归:一是其中一变量为选定变量,另一变量为随机变量,要求选定变量在取值范围内取某值时, 另一变量的取值是随机的,这类回归称为 I 型回归。48、II 型回归:两个变量都是随机变量,要求两变量中任一变量在某一取值时,另一变量取值是随机的, 并且成正态分布,称双随机变量正态分布,这类回归称为 II 型回归。49、b 为回归系数,即直线的斜率。 *b 的统计学意义是: X 每增加 (或减少 ) 一个单位, Y 平均改变的单位 数。50、决定系数:定义为回归平方和与总平方和之比46、实验研究:是指研究者根据研究目的认为地对实验单位设置干预措施,按照对照、重

9、复、随机化的基 本原则,控制非干预措施的影响,通过对实验结果的分析,评价干预措施的效果47、实验设计包括专业设计和统计设计两部分48、处理因素: 根据研究的目的而确定欲施加或欲观察的, 并能引起受试对象产生直接或间接效应的因素。49、实验效应:是处理因素作用于受试的反应,是研究结果的最终体现,也是实验研究的核心内容。50、标准对照:是对照组采用现有标准方法或常规方法,或不专门设立对照组,而以标准值或正常值作为 对照。51、相互对照:是不专门设立对照组,而是实验组之间互为对照。52、重复测量资料:是指不同处理条件下同一受试对象的同一观察指标在不同时间点上进行多次测量所得 的资料。53、滞留效应:

10、前面的处理效应有可能滞留到下一次的处理。54、潜隐效应:前面的处理效应有可能激活原本以前不活跃的效应。55、学习效应:由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高。56、协方差:是用来度量两个变量之间“协同变异”大小的总体参数,即两个变量相互影响大小的参数, 协方差的绝对值越大,两个变量相互影响越大。57、修正均数:假定协变量取值固定在其总均数时的观察变量Y 的均数。58、协方差分析:将回归分析与方差分析相结合的一种分析方法。59、多重线性回归: 用回归方程定量的刻画一个因变量Y 与多个自变量 X1,X2,X3.Xn 间的线性依存关系,称为多重线性回归。60、哑变量:就是把定性资料

11、(如多分类变量和等级变量)数量化后转化为定量资料的一种方法。61、生存分析:是用来分析生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。62、生存时间:是指临床随访研究中,从某起点事件到某终点事件所经历的时间跨度,常用符号t 表示。63、起点事件:也称起始事件,是反映生存时间起始特征的事件64、终点事件:也称失效事件 ,指研究者所关心的研究对象的特定结局,65、完全数据:指在整个随访研究期间能够观察到终点事件,即从起点至终点事件发生(如死于所研究疾 病)所经历的时间数据,它提供的时间信息是完整准确的。66、截尾数据:指在随访过程中,由于某种原因未能观察到终点事件,即从起点至截

12、尾点所经历的时间数 据,是一种不完整数据。删失原因主要包括:失访、退出、终止(观察期结束时病人仍未出现结局)等。67、生存概率:记作 p,表示某单位时段开始时存活的个体,到该时段结束时仍存活的可能性。68、生存率又称累积生存率,指观察对象经历t 个时段后仍存活的概率,69、死亡概率:某单位时段期初的观察对象在该单位时段内死亡的可能性大小。70、死亡率:单位时间内研究对象的死亡频率或强度。71、死亡函数:记作 F(t),指观察对象的生存时间 T 小于等于某时刻 t 的概率。72、死亡密度函数记作 f(t) ,指观察对象在某时刻 t 的瞬时死亡率。73、风险函数( hazard function

13、):表示已生存到时刻 t 的观察对象在时刻 t 的瞬时死亡率。74、中位生存期又称半数生存期,表示恰好有50的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;中位生存期越短,预后越差。75、诊断试验:临床上为给病人作出诊断(即确定或排除疾病)所应用的各种试验或检查方法。76、灵敏度: 真阳性率, 是指患者中诊断为阳性的概率, 反映真实情况为有病时诊断试验发现疾病的能力。77、特异度: 真阴性率, 指非患者中诊断为阴性的概率, 反映真实情况为无病时诊断试验排除疾病的能力。78、假阳性率:亦称误诊率,指非患者错判为阳性的概率。79、假阴性率:亦称漏诊率,指患者错判为阴性的概率。80、似然比:

14、患者人群中试验结果的概率与无病人群中试验结果概率之比。81、阳性似然比:即真阳性率与假阳性率之比值。是说明病人中出现某种检测结果阳性的概率是非病人的 多少倍82、阴性似然比: 假阴性率与真阴性率之比值。 说明病人中出现某种 检测结果为阴性的概率是非病人的多 少倍。83、约登指数是反映诊断试验真实性的综合评价指标。YI=Se+Sp-1=1- 漏诊率 -误诊率 YI 越大说明诊断试验真实性越好, YI 小于或等于 0,表示诊断试验无任何临床应用价值。84、一致率又称符合率、真实度,是样本的诊断结果与实际情况相符合的概率。85、Kappa 值表示两种试验结果的一致性的程度。86、预测值是根据诊断试验

15、的结果来估计个体患病和不患病的可能性大小。87、阳性预测值:表示阳性结果中真正患病的概率。88、阴性预测值:表示阴性结果中真正未患病的概率。89、平行(并联)试验:同时多个试验进行诊断,有一个结果为阳性则判为患者。可提高Se,但 Sp 会下降,误判率增加。90、系列(串联)试验:同时多个试验进行诊断,所有结果为阳性者才能判为患者,可提高Sp,但 Se 会下降,漏判率增加。一般先简单后复杂。91、ROC 曲线:以假阳性率为横坐标,以真阳性率为纵坐标绘制而成的曲线,其曲线下面积的大小表明了 诊断实验准确度的大小。简答:1、医学统计学的研究步骤 四个步骤:统计设计、收集资料、整理资料、分析资料。2、

16、频数分布表的用途 描述频数分布的类型、描述计量资料分布的集中趋势和离散趋势、便于发现一些特大或特小的可疑值、便 于进一步做统计分析和处理3、正态分布的应用 制定医学参考值范围、统计质量控制、正态分布具有很多良好的性质4、标准差的主要意义和用途(1)描述资料的离散趋势( 2)用于计算变异系数( 3)用于计算标准误( 4)结合均值与正态分布的规律 估计参考值范围5、应用相对数的注意事项 计算相对数应有足够数量即分母不宜太小、不能以构成比代替率、正确计算合计率、注意资料的可比性、 对比不同时期资料应注意客观条件是否相同、样本率(或构成比)的比较应做样本率(或构成比)假设检 验。6、应用相对数的注意事

17、项(1)计算相对数应有足够数量即分母不宜太小(2)不能以构成比代替率( 3)正确计算合计率( 4)注意资料的可比性( 5)对比不同时期资料应注意客观条件是否相同(6)样本率(或构成比)的比较应做样本率(或构成比)假设检验。7、标准化法的基本思想是: 采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可 比性。8、统计表的结构( 1 )标题。概括表的主要内容 ,位于表的上方 ,通常需注明研究的时间与地点。 ( 2 )标目。包括横标目和纵 标目 ,分别相当于表格的主语和谓语 ,有单位时要标明。横标目位于表的左侧 ,说明每一行数字的特征 ;纵标目 位于表的右侧

18、 ,说明每一列数字的含义。 编制正确的统计表 ,横标目和纵标目连起来通常是一句通顺的话。 ( 3) 线条。简单的统计表通常采用三条或四条线表示 ,即顶线、 底线、纵标目下的横线 ,若有合计项则应在合计项 上面加一横线。复杂的统计表可再增加横线把多重纵标目分隔开。( 4)数字。表中一律采用阿拉伯数字表示。无数字用 “-”表示 ,数字缺失用 “” 表示 ,数字为 0 时一定要填写为 “ 0”,同一指标小数点位数要一致、 位次要对齐。 (5)备注 在表内需说明处用“ ?”号标记 ,并在表的下方用备注说明。9、编制统计表的注意事项(1) . 标题应概括表的主要内容 ,标题前面通常应加以编号 ,若表中的

19、数值单位都一样时可把单位统一写在 标题后面。(2). 标目应文字简明 ,层次清楚。(3). 线条不宜过多 ,特别是不能有竖线和斜线。 (4) . 表中 不宜留空格。 (5) . 备注不为表的必备内容。10、统计图的结构(1)标题 简明扼要地说明图的主要内容 ,置于图的正下方并加以编号 ,一般需注明时间、地点。 ( 2)图域 即制图空间 ,一般用直角坐标系第一象限的位置表示图域(圆图除外 ),纵横比例一般以 5 7 为宜。纵轴和横轴一般要有刻度 ,横轴尺度由左向右、 纵轴尺度自下而上。 ( 3)标目 包括纵标目和横标目 ,分别表示纵轴和 横轴代表的指标 ,有度量衡单位时要标明。 (4)图例 对图

20、中不同颜色或图案代表的事物进行说明。图例通 常置于图的右上角或图的正下方。11、绘制统计图的注意事项(1)首先应根据资料的性质和研究目的 ,选择合适的统计图。 (2)比较不同事物时 , 要用不同的线条、图案 或颜色表示 ,并用图例说明。 ( 3)同一个统计图中 ,线条和图案不宜过多。 (4)条图、直方图的纵轴坐标应从 0 开始。( 5)绘制直方图时组距应相等。12、t 分布的图形与特征 以 0 为中心,左右对称的单峰分布; t 分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则 t 值越分散, t 分布曲线的峰部越矮而尾部翘得越高;说明尾部面积(概率P)就越大;与u 分布曲线相比

21、, t 分布低平;自由度逐渐增大时, t 分布逐渐逼近 u 分布 (标准正态分布 ) ;当趋于时, t 分布即为 u 分布。 13、15、假设检验与置信区间的关系(1)、置信区间可用于回答假设检验的问题(2)假设检验可提供置信区间不能提供的信息。16、方差分析的基本思想和应用条件 根据资料的设计类型,即变异的不同来源,将全部观察值总的离均差平方和和自由度分解为两个或多个部 分,除随机误差外, 其余每个部分的变异可由某个因素的作用加以解释, 通过比较不同来源变异的均方 (MS, 方差),借助 F 分布做出统计推断,从而了解该因素对观察指标有无影响。应用条件:各样本是相互独立的随机样本;各样本来自

22、正态分布;各样本方差相等,即方差齐。28、 R×C 表2 检验的应用注意事项(1)行×列表的 2 检验要求理论频数不宜太小,要求不宜有1/5 以上的格子的理论频数小于 5,或有一个理论频数小于 1。(2).如果以上条件不能满足,可采用:增加样本含量、删去某行或某列、合理地合并部分行或列、用精 确概率法(3)多个率或构成比比较的 2 检验,结论为拒绝 H0时,仅表示几组有差别, 并非任 2 组之间都有差别。 若要了解之,可进行 2 表的分割。(4)单向有序列联表,若效应有强弱的等级,如+,+,+ ,最好采用后面的秩和检验。 2 检验只能反映其构成比有无差异,不能比较效应的平均

23、水平。(5)行列两种属性皆有序时,可考虑趋势检验或等级相关分析。29、2 检验的用途(1)推断两个或多个总体率之间有无差别( 2)推断两个或多个总体构成比之间有无差别(3)两个变量之间有无关联性( 4)频数分布的拟合优度检验31、参数检验的特点主要有 :对总体参数 (如 或 )进行估计或检验是统计推断的主要目的 ; 要求总体分布已知。如连续性资料符合正态分布,计数资料符合二项分布或 Poisson 分布等; 统计量有明确的理论依据 (如 t分布、 u分布); 有严格的使用条件。参数检验要求总体分布符合正态分布、总体方差齐和数据间相互独立。32、非参数检验的主要优点:适用范围广受限条件少具有稳健

24、性方法简便,易于理解和掌握。33、秩和检验的应用范围很广 ,主要用于 :样本所代表的总体分布不易确定 ; 分布呈非正态而又无适当的数据转换方法 ; 观察指标不能或未加精 确测量 ,如有序分类资料等样本的假设检验问题 ,均可用非参数统计方法。43、最小二乘法原则:即保证各实测点至直线的纵向距离的平方和最小。44、线性回归资料的要求(1)直线相关分析要求 X 与 Y 服从双变量正态分布;(2)直线回归要求至少对于每个X 相应的 Y 要服从正态分布, X 可以是服从正态分布的随机变量,也可以是能精确测量和严格控制的非随机变量;(3)对于双变量正态分布资料,根据研究目的可选择由X 估计 Y 或者由 Y

25、 估计 X ,一般情况下两个回归方程不相同) 。45、相关与回归的区别与联系区别:在资料要求上 ,回归分析要求应变量 (Y 变量)服从正态分布的随机变量 ,自变量 (X 变量)可以是固定的 非随机变量 ,一般称为型回归模型。当两个变量X、 Y 为服从双变量正态分布的随机变量时 ,这种资料若要进行回归分析 ,一般称为型回归模型。联系 1. 对一组数据若同时计算 r 和 b,它们的正负号是一致的 ,r 为正 ,说明两变量间的相互关系是同向变化的。 b 为正,说明 X 增加一个单位 ,Y 平均增加 b 个单位。 2.r 和 b 的假设检验是等价的 ,即对同一样本 ,二 者的 t 值相等。由于 r 的

26、假设检验既可直接查表 ,计算又比较方便 ,而 b 的假设检验计算较繁 ,故在实际应用 中常以 r 的假设检验代替对 II 型回归模型中 b 的假设检验。45、实验设计的基本要素( 1)处理因素( 2)受试对象( 3)实验效应46、实验对象分为四类: ( 1)动物实验( 2)临床试验( 3)现场试验( 4)社区试验47、实验效应指标选择要求( 1)客观性:主观指标和客观指标。 (2)灵敏性和特异性: (3)精确性:48、实验设计的基本原则:对照原则;随机化原则;重复原则49、完全随机设计 优点:(1)设计简单;(2)易于实施;( 3)出现缺失值时,仍可进行统计分析。缺点:( 1)受试对象随机化后

27、,因个体变异的客观存在,小样本完全随机分组后,可能会出现两组间不均衡;(2)试验检验效率不高(如与随机区组设计相比),且只能分析单因素。50、配对设计和完全随机设计相比 优点:抽样误差较小,实验效率较高,所需样本量也较小。缺点:当配对条件未能严格控制造成配对失败或配对欠佳时,反而会降低效率。51、常见的对照有:空白对照、实验对照、标准对照、自身对照、相互对照和历史对照等。52、随机化通常借助计算机产生的随机数字或用随机数字表实现。随机化包括:随机化抽样、随机分组和 随机实验顺序。53、重复是指在相同实验条件下对同一观测指标进行多次重复观测,以提高实验的可靠性和科学性,重复 的作用是估计实验误差

28、和降低实验误差。54、影响样本量估计的因素有: (1)I 型错误 ;(2)II 型错误 ;(3)容许误差 ;(4)总体标准差 ; (5)资料类型和单双侧检验。55、前后测量设计与配对设计的区别56、重复测量资料方差分析的应用条件: (1)正态性:处理因素的各处理水平的样本个体之间是相互独立的随机样本,其总体均数服从正态分布; (2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同。(3)“球对称”:各时间点组成的协方差阵 (covariance matrix) 具有球形性 (sphericity) 特征,即“球对称” 。57、重复测量设计的优缺点 优点:每一个个体作为自身的对照,克

29、服了个体间的变异。分析时可更好地集中于处理效应。因重复测量 设计的每一个个体作为自身的对照,所以研究所需的个体相对较少,因此更加经济。缺点:滞留效应 (Carry-over effect) :前面的处理效应有可能滞留到下一次的处理。潜隐效应 (Latent effect): 前面的处理效应有可能激活原本以前不活跃的效应。学习效应 (Learning effect) :由于逐步熟悉实验,研究 对象的反应能力有可能逐步得到了提高。58、协方差分析的基本思想将那些对观察指标 Y (应变量)有影响的定量变量 X 作为协变量,建立应变量 Y 随协变量 X 变化的线性 回归关系,并利用这种回归关系把 X 值化为相等后再进行各组 Y 的修正均数( adjusted mean)间比较的假 设检验。59、应用协方差分析的条件一是与方差分析的应用条件相同: ( 1)各样本必须是相互独立的随即样本 ( 2)各样本来自正态分布总体 ( 3) 各总体方差相等,即方差齐性。二是回归系数有统计学意义且回归系数相同。60、多重线性回归的应用( 1)统计预测与估计( 2)统计控制( 3)影响因素分析61、多重线性回归应用条件(1)Y 与 X1,X2 Xm 之间具有线性关系。 ( 2)各观测值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论