下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、医学统计方法(二)复习要点抽样研究的目的就是通过样本的信息了解总体的情况。个体是统计分析根据研究目的所确定的最基本的研究对象单位,所以个体又称为观察单位。同质具有相同性质的观察单位称为同质的,否则,称为异质的。变量 就是观察指标。变量取值表示观察值(或测量值)或对应的观察结果,亦称资料(data)。资料分为计量资料和计数资料。有些计数资料可以认为是分类资料:分类资料又分为有序分类和无序分类。 计量资料:亦称连续型资料。在测量精度无限制的情况下,一个区间中的任意值都可以是可能的观察值,并且通常计量资料含有测量单位。无序分类资料:表示互不相容的类别或属性。包括(a)二分类资料(b)多分类资料。显然
2、X的取值仅是起指示分类的作用,其数值大小并无实际意义。无序分类资料的分析应先按类统计汇总,统计每一类的观察单位数,并将按类汇总的统计结果编制成表格形式的资料,这种汇总后的资料又可称为计数资料。有序分类资料:资料不仅表示互不相容的类别而且表示各类在研究背景意义下的等级顺序,因此具有“半定量”意义。所以观察有序分类变量所得资料又称为等级资料。有些观察指标,例如白细胞计数,其取值虽然是离散的,但不具有分类的性质,因此通常把这类观察指标的资料作为较为特殊的计量资料。总体(population) 是根据研究目的确定同质个体的全体。总体分为有限总体(finite population)和无限总体(infi
3、nite population)。样本 在一个较大范围的研究对象中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集合称为样本(sample),样本中的个体总数称为样本量(sample size)。频率(frequency):考察某个可能的结果,若在n次观察中,有m次观察到这种可能的结果,则称这种可能的结果发生的比例为频率,m称为频数。显然有。频率f是一个随机抽样观察的结果,因此频率f呈一定的随机波动。概率(probability):概率刻画随机事件发生可能性大小,其取值界于0和1之间。随机事件发生的可能性越小,概率越接近0;随机事件发生的可能性越大,概率越接近1。特别,不可能事件发生
4、的概率等于0,必然事件发生的概率等于1。概率与频率的关系:A是一个随机事件,进行了n次随机试验,随机事件A发生了m次,则随机事件A发生的频率为,当时,随机事件A发生的频率趋向一个常数p,这个常数p就是随机事件A发生的概率。记为P(A)。在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是统计推断的基础。如果资料近似呈对称分布,则用 均数±标准差 描述如果资料呈偏态分布,则用 中位数(P25P75)其中P25,P75为百分位数中的第25百分位数和第7
5、5百分位数。正态分布的两个参数m 与 s ,参数m 是正态总体的均数,它描述了正态分布的集中趋势位置。参数s 是正态总体的标准差,它描述正态分布的离散程度,s 越小,分布越集中, s 越大,分布越离散。不同的、不同的,对应于不同的正态分布。通常用记号表示均数为,标准差为的正态分布。若m0,s1的正态分布称为标准正态分布。记为N(0,1)。标准正态分布是一种特殊的正态分布,其均数为0,标准差为1。常用u或z表示标准正态分布变量。变换: (2.19)被称为是标准化变换,因为若变量X服从正态分布,则就服从标准正态分布。样本均数与总体均数之间的差异被称为均数的抽样误差(sampling error)。
6、抽样误差是由个体变异和抽样引起的,因此,只要有个体变异,抽样就必将导致抽样误差,即抽样误差是不可避免的。抽样误差有两种表现形式,其一是样本统计量与总体参数间的差异,其二是样本统计量间的差异。随着样本含量的增大,样本均数的频数图范围越来越窄。样本均数的总体标准差。为了区分样本所在总体的标准差,通常称样本均数的标准差为样本均数的标准误(简称均数标准误),记为。故样本均数与个体资料所在的总体变异程度有如下规律:用样本标准差S估计总体标准差s,利用上述公式得到均数标准误的估计式 为了叙述方便,常称为标准误,称为理论标准误。小样本时,t统计量和U统计量的分布是有明显差别的,但在大样本时,t统计量和U统计
7、量的分布非常接近。t分布与正态分布的关系:自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积。当自由度时,t分布逼近于标准正态分布。从频数图(图3.4)也可以看出,当样本量较大时,同样可以发现统计量t的频数图与标准正态分布曲线非常接近,而当样本含量较小时,统计量t的分布与标准正态分布则有所区别:即t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大。t统计量并记为由于t分布仅与总体均数有关,与总体标准差无关,因此在统计检验中得到广泛应用。样本均数随机地出现总体均数两侧附近,样本均数的离散程度与样本量有关,也与原始资料的离散程
8、度有关可信区间的涵义如果重复在同一总体随机抽样100次,样本含量相同,每个样本均按同一方法构建95可信区间,则理论上平均有95个可信区间包含了总体均数,还有5个可信区间未包含总体均数。总体参数是未知参数,但它是一个固定的值,而不是随机变量值。因此区间估计中,不能理解为:总体参数有95的可能落在该区间内;也不能理解为:有95的总体参数在该区间内,而5的参数不在该区间内,因为相应的总体参数只有一个。对于同一样本,当然还可以构造99%的可信区间或可信度更大的可信区间,但是随着可信度增大,而区间的宽度增大,即:区间估计的精确性下降。事实上,可信度可以理解为区间估计的准确度,对于同一样本而言,准确度越高
9、,可信度就越低;反之准确度越低,可信度就可以越高。所以在实际应用中,一般用95%的可信区间进行参数区间估计。考察抽样结果在假设成立的情况下是否为小概率事件。在假设检验中,若H0是真实的,拒绝H0是错误的统计推断,并称犯I型错误(typeerror)或称第一类错误,犯I类错误的概率就是检验水平a,而不拒绝H0是正确的统计推断;若H0不是真实的,拒绝H0是正确的统计推断,而不拒绝H0是错误的统计推断,并称为犯II型错误(typeIerror)或称犯第二类错误,犯II类错误的概率记为b。综述第一类错误的概率与第二类错误的概率关系为:在同样的情况下,第一类错误a减小会导致第二类错误b增大;第一类错误的
10、概率增大可以使第二类错误的概率减小。因此在一般的情况下,a通常取0.05,但根据一些特殊的研究需要和目的,a可以取更大一些或更小一些。如果即要减小第一类错误a又要增大检验效能1b,则可以通过增大样本量来实现。符号秩检验的基本思想:当H0(差值的总体中位数)成立时,任一配对的差值出现正号与出现负号的机会均等,因此他们的秩和与的理论数 (期望值)也应相等,由T+T-=可知,与的理论数。可以证明:当H0真时,秩统计量T是对称分布,对称轴为T=(如图8.1),在大多数情况下T与的差值较小(纯属抽样误差)。当n很大时,T近似服从均数mT为,方差为的正态分布。H0非真时,统计量T呈偏态分布(如图8.2),
11、并且在大多数情况下T远离。因此在H0成立的情况下T远离为小概率事件,可认为在一次抽样中是不会发生的,故当出现这种情况时推断拒绝H0。T检验与秩和检验的比较:在H0成立的情况下,配对和成组t检验和秩和检验拒绝H0的机会均为a(第一类错误的概率)。在H0不成立的情况下,配对t检验拒绝H0的概率要高于配对符号秩检验拒绝H0的概率(即:配对t检验的第二类错误的概率b要小)。在H0不成立的情况下,成组的t检验拒绝H0的概率要高于成组秩和检验拒绝H0的概率(即:t检验的第二类错误的概率b要小)。但在H0不成立的情况下,并不是每份计量资料的t检验的P值低于秩和检验的P值。综合上述,资料若能满足t检验的条件,
12、尽可能用t检验,不能满足的情况下,只好用秩和检验。方差分析只能得出均数之间是否相同的结论,如果结论是均数不全相同的结论,还不能具体说明哪两个均数之间的差异是否有统计学意义。因此需用进一步组间两两比较,以确定那些组之间确有差异。两两比较有许多方法,此处近介绍两种方法:lsd方法和Bonferroni方法方差分析与t检验的关系对于成组设计的两组均数比较,可以用成组t检验,也可以用完全随机设计的方差分析,可以证明t2=F,t的自由度正好为方差分析中的组内自由度,结果和结论完全是一致的,但是t检验可以做单侧假设检验,也可以做双侧假设检验;而方差分析只能做双侧假设检验。对于1:1配对设计的均数比较问题,
13、可以用配对t检验,也可以用随机区组设计的方差分析,同样可以证明t2=F,t的自由度正好为方差分析中的组内自由度,结果和结论完全是一致的,同理配对t检验可以做单侧假设检验,也可以做双侧假设检验;但方差分析只能做双侧假设检验。方差分析的基本思想是按照研究设计类型,将所有观察值的离均差平方和分解成几个部分,总的自由度也分解成相应的几个部分,其中有一个部分表示随机误差,其他部分表示处理或区组因素的变异。每个部分的离均差平方和除以自由度就是均方,将处理或区组因素的均方除以误差的均方,就得到检验统计量F。根据F分布的特性,如果F<F,1,2,就有理由接受H0,说明各组均数的差异无统计学意义;反之,若
14、FF,1,2,则拒绝H0,说明各组均数的差异有统计学意义。方差分析可用于多种实验设计类型的数据分析,本章只介绍了方差分析在完全随机设计资料和随即区组设计资料中的应用,主要检验各样本均数是否来自同一总体。通过Stata软件来完成运算分析时,可用oneway命令进行完全随机设计资料的方差分析,用anova命令进行随机区组设计资料的方差分析。用t检验进行多组均数的比较会增大犯第一类错误的概率。直线相关系数(linear correlation coeffiecient)又称积差相关系数(coefficient of product moment correlation),简称相关系数(correla
15、tion coeffiecient),是描述两个变量之间线性相关的程度和相关方向的统计指标。描述全体研究对象的两个变量之间线性相关性(即相关程度和相关方向)的相关系数称为总体相关系数,用符号r(读作ru)表示;描述样本资料的两个变量之间的线性相关性的相关系数为样本相关系数,用符号r表示。分别是变量X、Y的离均差平方和。r的符号由确定,相关系数r是一个没有单位的统计指标,其取值范围为1£ r £ 1,同样,总体相关系数r也是没有单位的,并且取值范围也为1£ r £ 1。相关系数大于0表示正相关;小于0表示负相关;等于0表示零相关。相关系数的绝对值越接近1,
16、两个变量的线性相关程度越密切;相关系数越接近0,两个变量的线性相关越不密切。b为回归系数(regression coefficient),或称为斜率(slope);a称为常数项(constant),或称为截距(intercept)。回归系数b表示X变化一个单位Y平均变化b个单位。因此b>0时,大多数的Y随着X增大而增大;b<0时,大多数的Y随着X增大而减小;对于Y是随机变量,其均数mY|X满足公式(9.6)的回归方程并且b¹0,则称Y与X有直线回归关系。若b0,则称X与Y没有直线回归关系。直线相关与回归小结:1、 Pearson相关系数r的假设检验要求资料服从双变量正态分布;2、 相关系数的假设检验为H0:r0 vs H1:r¹0,对应的研究问题是两个变量的线性相关问题;3、 不满足双变量正态分布的资料可以进行spearman秩相关分析;4、 直线回归的基本思想是找一条直线方程估计Y的总体均数与X之间的线性变化关系;5、 直线回归
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理礼仪考核标准
- 护理教学:护理伦理与法律
- 护理课件:护理质量管理与持续改进
- 护理带教继续教育
- 2007年7月国开电大行政管理本科《城市管理学》期末纸质考试试题及答案
- 护理课件学习效果评估方法
- 护理实践分享:患者翻身拍背技巧
- 同济内科危重症护理
- 急症科介入治疗快速响应护理措施
- 快消品行业销售与客户服务岗位的面试全解
- IT软件开发述职报告
- T-JSXX 016-2023 热固改性聚苯复合保温板建筑构造
- 医学影像学-呼吸系统
- 水果价格指数编制方法-洞察分析
- 2024年工业厂房水电工程及消防施工协议模板版
- 经济学系《经济学原理》课程教学大纲 (一)
- 紫菜养殖常见病虫害防治方法
- 2024年浙江丽水松阳县事业单位招聘工作人员23人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 防爆安全知识培训
- 机器人控制技术与实践 课程标准-教学大纲
- 桑树坪煤矿12 Mta新井设计
评论
0/150
提交评论