协和研究生统计总复习课件_第1页
协和研究生统计总复习课件_第2页
协和研究生统计总复习课件_第3页
协和研究生统计总复习课件_第4页
协和研究生统计总复习课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、总 复 习薛 芳流行病与统计学系北京协和医学院 .基础学院basicstat_ , password: 65296408 医 学 统 计 学 颜 虹 主 编1考试要求闭卷、笔试 独立完成 150分钟只允许带有基本统计功能的计算器。 (请不要携带其他书本资料、笔记、电脑等物品)。2考试题型 (20122013第一学期)一、选择题(10题,20分)二、填空(10+1 题,28=22+6分)三、案例分析(4题,28分)四、计算题(2题,24分)3统计学中的几个基本概念个体、总体与样本个体:可以是一个人、一个动物、一个家庭、一个地区、一份样品等,是基本观察单位。总体:是根据研究目的所确定的、性质相同的

2、所有观察单位的某种变量值的集合。样本:是从总体中随机抽取的部分观察单位的某个变量的测量值所组成的集合。抽样的目的:是用样本信息来推断总体特征,因此要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。4 随机变量和研究资料的类型定量变量、数值变量计量资料定量变量是用仪器、工具或其它定量方法进行测定或衡量所取得的数据。由一组同质的定量变量所组成的资料称为计量资料;计量资料的各个观察值之间有量的区别,没有性质的不同。 顺序变量、有序分类变量等级资料顺序变量可以体现程度上的不同,但是不能精确地测量相邻的两个变量值之间的差别。由同质的顺序变量组成的资料称为等级资料。5误差误差:是指观察值(实

3、际值)与真实值(理论值)之差。误差按其产生的原因和性质可分为系统误差和随机误差,不同的误差应采取不同的方法进行处理。系统误差一般是恒向、恒量的,且有其特定的变化规律,故可以通过严格、科学的实验设计将其减小或控制在最小范围之内。随机误差是排除过失误差、系统误差之后尚存在的误差,它由多种无法控制的因素引起的,大小和方向是随机变化的。7随机误差尽管随机误差是不可避免的,但其以零为中心呈正态分布,所以可以利用概率统计学的方法对随机误差进行估计。随机误差包括抽样误差和随机测量误差两类。抽样误差是在随机抽样研究中,由于抽样而引起的样本统计量和总体参数之间的差异。抽样误差的大小主要取决于个体之间变异程度的大

4、小和样本含量的多少,变异程度越大,样本含量越小,抽样误差就越大;反之亦然。8统计工作的基本步骤 研究设计搜集资料整理资料分析资料10研究设计研究设计是对整个研究过程的总体设想和安排,是统计工作和医学科研工作的基础。统计设计可按照在研究过程中是否对研究对象进行干预分为调查研究设计和实验研究设计。调查设计是指研究者通过客观地观察、描述调查对象来搜集资料,未加任何的干预措施;实验设计是指研究者根据研究假设主动地对研究对象加以干预措施,并观察总结其结果,回答研究假设所提出的问题。11实验设计的分类动物实验研究:以动物或标本(如细胞、组织等)为研究对象,因此在研究中,研究者可以主动施加干预措施。临床试验

5、:以人为研究对象。多中心、随机、盲法、平行对照临床试验(RCT)社区干预试验:以社区人群为研究对象,接受某种处理或干预措施的基本单位是整个社区或某一人群的亚群。其主要目的是通过干扰某些危险因素或施加某些保护性措施,观察其对人群产生的预防效果。12分析资料分析资料统计描述:统计指标、统计表、统计图等方法,对资料的数量特征及分布规律进行测定和描述。统计推断:根据概率分布和抽样的原理,在随机变量的样本信息基础上推断总体特征。统计推断包括参数估计和假设检验。14调查方法简介普查: 典型调查:亦称案例调查。抽样调查:是医学研究中最常用的方法,是通过随机抽样方法从总体中随机抽取一定数量具代表性的观察单位组

6、成的样本进行调查,然后根据样本信息来推断总体特征。单纯随机抽样;系统抽样;整群抽样;分层抽样。15常用的抽样方法系统抽样(systematic sampling)又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距,从每一部分各抽取一个观察单位组成样本。优点:易于理解、简便易行。缺点:总体有周期或增减趋势时,易产生偏性。17常用的抽样方法整群抽样(cluster sampling)总体分群,再随机抽取几个群组成样本,群内全部调查。 优点:便于组织、节省经费。 缺点:抽样误差大于单纯随机抽样。18常用的抽样方法分层抽样(stra

7、tified sampling)先按对观察指标影响较大的某种特征,将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。优点:样本代表性好,抽样误差减少。以上四种基本抽样方法都属单阶段抽样,实际应用中常根据实际情况将整个抽样过程分为若干阶段来进行,称为多阶段抽样(multi-stage sampling)。19频数分布的特征和类型集中趋势和离散趋势是频数分布的两个重要特征,测定其集中趋势和离散趋势就可较全面地分析所研究的事物。频数分布分对称分布和偏态分布。对称分布是指集中位置在正中,左右两侧频数分布大体对称,如正态分布;偏态分布指集中位置

8、偏向一侧,频数分布不对称。20集中趋势指标平均数是描述频数分布集中位置的指标,它代表一组观察值的平均水平。均数:描述对称分布,特别是正态或近似正态分布的平均数量水平。几何均数:反映等比级数资料或对数正态分布资料的平均增(减)倍数。中位数:常用于反映偏态分布、分布不明或分布末端无确定值的资料的位次居中的观察值水平 。21百分位数百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。22第四章 正态分布正态分布的概念和特征;正态分布的检验标准正态分布的概念和标准化变换;正态分布的应用:估计频数分布;医学参考值范围

9、。24正态分布的特征, XN(m,s) 正态曲线在横轴上方均数处最高。标准正态分布在u=0时,(u)达到最大值。 正态分布以为中心,左右对称。 正态分布有两个参数,即和。总体均数是位置参数,用以描述正态分布的集中位置,当恒定后,改变 ,则正态分布曲线沿x轴平移,其曲线形状不变, 越大,则曲线沿横轴越向右移动; 越小,则曲线沿横轴越向左移动。是变异度参数,用以描述曲线的离散程度,当 恒定时,改变 ,则正态分布曲线的形状会发生变化,而曲线的中心位置不变,越大,表示数据越分散,曲线越扁平,变异越大;越小,表示数据越集中,曲线越陡峭,变异越小。25例3.2 某年某地150名12岁健康男孩体重的均数36

10、.3,标准差6.19,试估计体重在3040kg 者占该地12岁健康男孩总数的比例;解:根据正态分布的性质 P(x1Xx2) = P(u1Uu2)= (u2)- (u1) = (0.5977)- (-1.018) = 1- (-0.5977) - (-1.018)=1-0.2743-0.1539=0.5718 即理论上体重在3040kg 者占该地12岁健康男孩总数的比例是57.18%。27医学参考值范围参考值范围是指同质总体中大多数个体变量值的分布范围。95%参考值范围指同质总体中95%的个体值分布在此范围内。它与标准差有关,各个体值变异越大,该范围越宽,分布也越分散。正态近似法是根据正态分布曲

11、线下面积分布规律进行参考值范围估计的方法,该法得到结果稳定。百分位数法 当资料不能满足正态性要求时,可用百分位数法按照下式估计参考值范围。28第五、六章 参数估计、假设检验抽样误差、标准误、可信区间、假设检验、检验效能、单双侧检验、第类错误和第类错误;标准差与均数标准误的区别、t分布的特征、假设检验与区间估计的关系;均数标准误的计算、总体均数的可信区间及其适用条件;假设检验的基本原理和步骤、t检验及应用条件;应用假设检验需要注意的问题。29均数的标准误由于抽样而造成的样本均数和总体均数之差称为均数的抽样误差,这是抽样研究固有的特点。 是样本均数的标准差也称为标准误,它反映了样本均数与总体均数之

12、间的离散程度,常用以说明均数抽样误差的大小。标准误的计算公式如下:在实际工作中,总体标准差常是未知的,而是用样本标准差s来代替, 的估计值记作 。30t分布 t分布也是一种对称分布,它只有一个参数,即自由度。t 分布与标准正态分布相比有以下特征: 二者都是单峰分布,以0为中心,左右两侧对称。 t分布的峰部较矮而尾部翘得较高,说明远侧t 值的个数相对较多,即尾部面积(概率P)较大。自由度越小这种情况越明显。 t分布不是一条曲线,而是由一簇随自由度改变而变化的曲线所组成。当逐渐增大时,t分布逐渐逼近标准正态分布;当 = 时,t分布就完全成为标准正态分布了。31总体均数的估计 参数估计是通过样本指标

13、(统计量)来估计总体指标(参数)。它包括两种方法:点(值)估计(point estimation):即把样本统计量直接作为总体参数的估计值,如用样本均数来估计总体均数。这种方法虽然很简单,但是未涉及随机误差,而随机误差在抽样研究中是不可忽视的。区间估计(interval estimation)即按一定的概率估计总体均数在哪个范围,它把抽样误差引入估计量,确定具有特定概率意义的区间。32均数的区间估计(95%的可信区间)未知时。一般用t分布的原理作区间估计。 已知未知,但n足够大33总体均数差的可信区间则两总体均数之差的1-可信区间为:34假设检验的步骤 建立检验假设和确定检验水准 选定检验方法

14、和计算检验统计量 确定P值和做出推断结论 35建立检验假设和确定检验水准 在均数的比较中,检验假设是针对总体特征而言,包括相互对立的两个方面,即两种假设: 一种是无效假设或称原假设、零假设,符号为H0,它是要否定的假设;另一种是备择假设,记为H1,它是H0的对立面。二者是从反证法的思想提出的,H1和H0是相互联系、又相互对立的假设。检验水准也称显著性水准,它指无效假设H0为真,但被错误地拒绝的一个小概率值。 一般取 =0.05。36t 检验样本均数与总体均数的比较;配对设计资料的t检验;成组设计资料的t检验。37样本均数与总体均数的比较 样本均数与总体均数的比较的t检验,即单样本t检验。比较的

15、目的是推断样本所代表的未知总体均数与已知的总体均数0有无差别。 首先对所估计的总体提出一个假设,如: 假设这个总体的平均数等于某个值0 ,然后通过样本均数去推断这个假设是否可以接受,如果可以接受,样本很可能来自这个总体;否则很可能不是来自这个总体。38配对设计定量资料的t 检验配对设计资料分三种情况:配成对子的同对受试对象分别给予两种不同的处理,其目的是推断两种处理的效果有无差别;同一受试对象分别接受两种不同处理,其目的是推断两种处理的效果有无差别;同一受试对象处理前后的比较,其目的是推断某种处理有无作用。 配对设计的t检验研究的是差值均数(样本均数)与理论上的差值总体均数的比较。39两组完全

16、随机化设计资料样本均数的比较正态化、总体方差相等两独立样本t检验(两组完全随机化设计资料样本均数的t检验)非正态化、总体方差不等近似t检验或Wilcoxon秩和检验40总体方差相等的两独立样本t检验当两总体方差相等时,可将两样本方差合并为 。41假设检验的两类错误结论真实情况H0 正确H0 错误不拒绝 H0正确II型错误拒绝 H0型错误正确42检验效能1-即指在备择假设正确的前提下,拒绝了实际上不成立的H0而做出正确推断的概率,又称为检验效能。其意义为当两总体确有差别,按规定的假设检验水准所能发现该差别的能力。43第八、十八、二十章 方差分析方差分析的基本思想、不同设计类型方差分析变异和自由度

17、的分解。完全随机设计、随机区组设计方差分析 结果的解释, 多重比较结果的解释;析因设计方差分析中交互作用的意义与解释;重复测量数据的特点与分析;SPSS结果的解读。44方差分析(ANOVA ) 方差分析的基本思想:将所有观察值之间的变异(称总变异)按设计和需要分解成几部分,每一部分变异都反映了研究工作中某种特定的内容,通过对平均变异的比较,做出相应的统计判断。 方差分析应用条件为:各样本必须是相互独立的随机样本(独立性),各样本均来自正态总体(正态性),相互比较的各样本的总体方差相等(方差齐性)。45方差分析 完全随机设计是将随机抽取的受试对象,随机地分配到两个或多个水平(处理)组中,观察和比

18、较不同处理所产生的效应。 总变异=组间变异 + 组内变异方差分析也能代替t检验进行两样本均数的比较,F=t2。 46方差分析完全随机设计的方差分析总变异=组内变异 + 组间变异随机区组设计的方差分析总变异=误差项 + 处理组间+区组间两因素析因设计的方差分析总变异=误差项 + 交互项 + A因素主效应 + B因素主效应47表5-2 完全随机设计方差分析计算公式变异来源离均差平方和 SS自由度v 均方 MSF组 间 (处理组间)k-1SS组间/v组间MS组间/MS组内组 内 (误差)SS总-SS组间n-kSS组内/v组内总变异n-148表5-9 随机区组设计方差分析计算公式变异来源离均差平方和

19、SS自由度v 均方 MSF处理组间b-1SS处理/ v处理MS处理/ MS误差区组间a-1SS区组/ v区组MS区组/ MS误差误差SS总-SS处理-SS区组 v总-v处理-v区组SS误差/ v误差总变异n-1SSASSBSSESST49变异来源处理组间vMSF 处理组间SS处理 ab1主效应ASSA a1 MSAMSA / MS误差主效应BSSB b1 MSBMSB / MS误差交互效应 ABSSAB = SS处理- SSA - SSB (a1)(b1) MSABMSAB / MS误差 试验误差SS误差 = SS总- SS处理 ab(n1) MS误差 总 变 异SS总 abn1表5-11 析

20、因设计的方差分析公式 50多个样本均数间的多重比较LSD-t检验:最小显著差法容易获得P1,说明某因素存在与不存在相比之下有优势,即该因素容易导致结果阳性,或该因素与结果为阳性有关联;OR值1,说明某因素存在与不存在相比之下缺乏优势;优势与优势比一般用于病例-对照研究。55第四章 二项分布、 Poisson分布二项分布、 Poisson分布的基本概念与适用条件;二项分布、 Poisson分布资料分析的参数区间估计和假设检验。56二项分布的概率 设总体中的每一观察单位具有相互对立的一种结果,如有效或无效、阴性或阳性、男婴或女婴等。已知发生某一结果(如阳性)的概率为,此概率对于每一个个体是相同的;

21、其对立结果(阴性)发生的概率为1-,各单位的观察结果相互独立。则从该总体中随机抽取n例,其中恰有X例是某一结果(阳性)的概率为:X=0,1,2,n。57二项分布的应用条件每次试验只会发生相互对立的两种结果之一,如阳性或阴性,生存或死亡;每次试验产生某种结果的概率固定不变,已知发生某一结果(如阳性)的概率为,其对立结果的概率则为1-;重复试验是相互独立的,即每次试验的观察结果不会影响到其它试验的结果,也不会受其它试验的结果的影响。58二项分布的均数与标准差若XB(n,),则 X的总体均数 =n X的总体方差 2=n(1-) X的总体标准差 若以率表示样本率p的总体均数 p=样本率p的总体方差 样

22、本率p的总体标准差 当总体率未知时,以样本率p作为的估计值,则p的估计用59总体率的区间估计正态近似法:当n较大,且np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布的原理估计总体率的1-可信区间。 (P - uSp , P + u Sp) 查表法: n 50P85,例为了解某医院剖宫产情况,在该院随机抽查了106人,其中有62人实施剖宫产,试估计该医院剖宫产率。60Poisson分布Poisson分布的概率函数 其中:=n为Poisson分布的总体均数,为总体中每单位中的平均阳性数;X为单位时间或单位空间内某事件的发生数(阳性数);Poisson分布主要用于研究单位时间 或单位空

23、间内某事件的发生数;Poisson分布是二项分布的极限形式, Poisson分布可看成二项分布的特例; 二项分布中,当很小而n很大,n时,二项分布趋于Poisson分布。 k=1, 2, 3 61第九章 2 检验2 检验的基本思想;完全随机设计和配对设计四格表资料的2 检验的步骤及应用条件;行列表资料的2 检验,及其应用中应注意的问题;SPSS结果的解读。622 检验的基本思想实际数和理论数差异的大小可以用值的大小来说明。同一总体中随机抽出的样本所算得的值分布近似于分布。值的计算公式如下:式中A代表实际频数,T代表理论频数。 =(R-1)(C-1)63四格表资料的2 检验当n40,且T5时,不

24、需要进行校正。当 n40, 但有1T5时,需对上述公式进行连续性校正。当n40,或T1时,应采用四格表精确概率法。64 配对设计资料的2检验配对设计的计数资料特点:对同一样本的每一对象分别用两种方法处理,观察其阳性或阴性结果,调查或实验设计数据等。常用于: 比较两种处理方法的阳性率的差别等。 检验两种方法的结果的相关性。配对计数资料和前面所讲的配对计量资料有共同之处,都是把两种处理分别施于条件相似的两个受试对象,或先后施于同一受试对象,逐个记录其试验结果。 65配对设计资料的2检验两种处理方法的阳性率比较当b+c40时 =1当b+c40时,其理论分布具有偏性,故须计算校正值。=166属性变量的

25、关联性分析两种处理结果的关联性分析当n40,且T5时,不需要进行校正。当 n40, 但有1T5时,需对上述公式进行连续性校正。当n40,或T50mg”等 );受限少;稳健性好。缺点:方法比较粗糙,没能充分利用数据信息,但比较稳健;对于符合参数检验条件者,采用非参数检验其检验效能较低,不如参数检验方法灵敏;样本含量较大时,两者结论常相同。第十一、十二章 简单线性回归和相关线性回归与相关分析的基本概念、统计学意义与计算;回归方程、回归系数、决定系数、相关系数的假设检验;Spearman秩相关分析意义与适用范围;线性回归与相关分析中应注意的问题;SPSS软件结果解释。73直线回归分析的一般步骤 1、

26、将 n 个观察单位的变量对(x,y)在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。2、求回归方程的回归系数和截矩3、写出回归方程 ,画出回归直线4、对回归方程进行假设检验74 b 为回归系数(coefficient of regression) 即直线的斜率。 b0,表示随x增加,y亦增加; b0,表示随x增加,y值减少; b=0,表示回归直线与x轴平行,意为y与x无关。回归系数 b 的统计意义是当 x 每增(减)一个单位,y平均改变 b 个单位。 称为Xi取值时,一组yi的平均值,也称为y的估计值。 b :回归系数75回归系数的假设检验 H0: 0,即自变量x对因变量y的作用不显著 H1: 0,即自变量x对因变量y的作用显著检验统计量 注意:对同一资料作一元线性回归,F检验与t检验的结论是一致的,且有 即一元线性回归中,回归方程的显著性检验与回归系数的显著性检验等价。76样本决定系数决定系数r2 :回归平方和与总的离差平方和之比,即决定系数r2是一个回归直线与样本观测值拟合优

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论