Meta分析.doc_第1页
Meta分析.doc_第2页
Meta分析.doc_第3页
Meta分析.doc_第4页
Meta分析.doc_第5页
免费预览已结束,剩余7页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基本概念复习Meta分析是以统计量为观察单位进行统计分析,因此需要了解统计量的规律性和一些基本统计概念。教学目的:复习总体、抽样分布概念、随机现象的规律性概率分布,特别正态分布,介绍统计量的定义、分布和统计量的总体平均值。效应差异度量(Effect Size)总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体(population),或更严谨地称为该观察指标(变量)的总体。总体中所有观察值的平均数称为总体均数。例如:研究某地区7岁健康男孩身高,如果该地区共有10000个7岁健康男孩,则这10000个7岁健康男孩的身高测量值构成的集合就是这个研究目的所确定的总体。这10000个7岁男孩的身高平均值就是这个研究问题的总体均数。个体变异:在同一研究目的下确定的相同特征的研究对象(称为同质个体)中,研究对象之间的观察值相互不同,称为个体变异(严格地说研究对象观察值与总体均数的差值称为个体变异)。个体变异是随机的。随机现象的规律性:对某一种随机现象进行大量重复观察,可以发现其规律性。同种随机现象的规律性是相同,但是单个随机现象是无法考察其规律性。例如,观察某地区7岁健康男孩身高的分布情况,把身高分为3段:第一段为身高小于125cm;第二段为身高在125cm135cm;第三段为身高高于135cm。对于在该地区随机抽一个7岁健康男孩并测量他的身高而言,该男孩的身高在这3个身高范围中的任何一个都是可能,所以在抽样前不能断定所抽到的健康男孩身高在哪个范围中。但如果在该地区抽了10000个7岁健康男孩并测量其身高,结果为身高小于125cm共有720人占总数的7.2%;身高在125cm135cm范围中共有8950人占总数的89.5%;身高大于135cm共有330人占总数的3.3,因此可以断定大多数男孩的身高在125cm135cm范围中,这就是大量重复观察时所呈现的规律性。从另一角度上分析,对于随机考察一个7岁健康男孩身高而言,虽因为随机性而不能断定其身高在哪个范围中,但可以肯定身高在125cm135cm范围中的机会要远高于其它身高两个范围。本例只是一种较简单的概率分布。任何随机现象或随机变异在大量重复观察的意义下都会呈现一定的随机特征的规律性,即这种随机特征的规律性就是指观察值出现在可能的不同范围对应有不同的机会(概率),这就是所谓的“概率分布”。统计量:样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量(statistic)并且要求统计量的样本表达式中不含有未知参数。例如:样本均数、样本OR、样本RR等。样本均数的抽样误差:总体均数与样本均数的差称为样本均数的抽样误差。由于通常总体均数是未知的,故用样本均数的标准误大小刻划样本均数的抽样误差的平均度量。由于个体变异是随机的,所以样本均数也是随机的。即:抽样前是无法确切知道样本均数将是多大。由于样本均数的抽样误差=样本均数总体均数,总体均数是确切的常数,故样本均数的抽样误差是随机的。下面将举例说明:例如,已知某地高中三年级男生的平均身高为168.15厘米,这里,将该地高中三年级男生的身高视为一个总体,其总体均数,总体标准差。现从该总体中反复抽取5个样本,每个样本中有9个高中三年级男生的身高测量值,每个样本计算样本均数(在每个样本中,对9个身高测量值计算平均数),因此共得到5个样本均数如下:样本号样本观测值(n=9)样本均数()抽样误差1161.1173.7173.7167.3162.2162.2166.6166.6157.4165.64 -2.51 2166.8159.1159.1166.1173.3173.3169.1169.1165.2166.79 -1.36 3157.4174172.3175.8166.6182.1163.1159.4159.4167.79 -0.36 4174.5182.1168.5171.3174.1165.6173.7171.9167.5172.13 3.98 5164.1166.6169.6169.6173.8173.2164.3166.6182.1169.99 1.84 由上表可知,由于个体变异的存在,而抽样又是随机进行的,因此,各样本均数与总体均数之间一般说来是有差异的。这种由个体变异和随机抽样所引起的样本均数与总体均数(本例为)之间的差异就是抽样误差,并且是随机的。由于任何的随机变异都是有其随机特征的规律性,只是单个随机变异往往无法考察其规律性,如果大量重复观察同一种随机变异,就可以发现其随机特征的规律性。下面考察如果资料X服从正态分布N(m,s2),它的样本均数的随机特征规律性(概率分布)是什么?由于在实际研究中,同一特征的研究对象往往只有一个样本,因此只能得到一个样本均数,故往往无法依据样本资料考察样本均数的分布情况。如果我们对同一总体随机抽了许多样本,并且对每个样本计算其样本均数,因此可以得到许多样本均数,然后作这些样本均数(视为新的样本资料)的频数图,就可以得到样本均数的规律性。因此我们以下将借助计算机随机模拟抽样,在同一正态分布的总体中随机抽许多样本,对每一个样本计算样本均数,因此可以得到许多样本均数,这样可以考察样本均数的随机特征的规律性。正态分布样本的样本均数分布为了给读者关于样本均数分布的直观认识,下面做3个抽样试验,仍以某地高三男生的身高为例。设身高变量为X,假定X服从正态分布,记为XN(168.15, 62)。从总体X中反复随机抽样,样本含量分别为n=4,n=16和n=36,分别随机抽10000个样本并计算样本均数,把同一样本含量的10000个样本均数视为一个新的样本资料作频数图(见图3.1),并且表3.2分别给出同一样本含量的前20个样本均数。读者不难从频数图和表3.2可以发现样本均数的变异有如下特点:样本含量n=4样本含量n=16样本含量n=36的平均数168.198的标准差2.9995的平均数168.185的标准差1.4868的平均数168.135的标准差0.9997图3.1 从正态分布总体N(168.15,62)中随机抽样的结果曲线是正态总体N(168.15,62)的分布密度曲线组距直方图为正态分布总体N(168.15,62)的样本均数的频数图(纵坐标为频率) 表3.2 从正态总体N(168.15,62)随机抽样,样本含量分别为4,16和36分别对应的前20个样本的样本均数n=4n=16n=36样本号均数样本号均数样本号均数样本号均数样本号均数样本号均数1169.22 11166.82 1167.91 11168.10 1168.37 11166.71 2169.61 12162.47 2170.19 12166.45 2167.47 12167.76 3165.73 13170.02 3168.60 13168.85 3170.36 13169.46 4166.60 14171.53 4165.48 14169.72 4167.16 14168.31 5169.99 15168.16 5168.95 15168.74 5168.68 15167.90 6166.43 16164.25 6168.54 16172.50 6168.78 16168.43 7171.77 17164.63 7167.87 17168.52 7169.54 17167.60 8166.65 18164.72 8168.66 18167.15 8168.77 18167.17 9170.71 19165.83 9170.01 19166.19 9167.61 19168.94 10170.84 20169.83 10167.19 20166.15 10168.95 20169.29 1)大多数的样本均数相互之间存在差异,绝大多数的样本均数不等于X的总体均数,但都离X的总体均数比较近。2)无论样本含量n多大,在每个抽样试验中,的均数都接近于X的总体均数,即样本均数的集中趋势位置与个体资料X的集中趋势位置较为接近,样本均数的频数图(图3.1)均呈现出中间多、两边少且基本对称的正态分布特征。随着样本含量的增大,样本均数的频数图范围越来越窄。3) 图3.1所给出的3种样本含量的10000个样本均数的频数图及其统计描述可以发现:每种样本量的10000个样本均数值所计算出的标准差都非常接近(s为个体资料X的总体标准差)。理论上可以证明:从正态分布N(m,s2)的总体中随机抽取样本含量为n的一个样本X1,X2,Xn,其样本均数有如下性质:1)样本均数服从正态分布N(m,s2/n)。2)样本均数的总体标准差。为了区分样本所在总体的标准差,通常称样本均数的标准差为样本均数的标准误(简称均数标准误),记为。故样本均数与个体资料所在的总体变异程度有如下规律: (3.1)由于在实际研究中,我们往往只有一个样本,不能利用样本均数直接估计均数标准误,但可以用样本标准差S估计总体标准差s,利用公式(3.1)得到均数标准误的估计式 (3.2)为了叙述方便,常称为标准误,称为理论标准误。二、非正态总体的样本均数分布在非正态总体中随机抽样,样本均数在抽样前也是不能确定的,任意二次随机抽样的样本均数往往也是不同的,所以无论正态总体抽样还是非正态总体抽样,样本均数都是随机的,同样在概率意义下是有一定规律的。为了帮助读者比较直观地了解从非正态总体抽样的样本均数分布规律,下面给出总体均数为1的指数分布(密度)曲线图和一个样本含量n=1000的样本资料(个体观察值)频数图(图3.2)。并且做3个抽样试验,在这个总体中大量重复随机抽样,样本量为n=4,n=9和n100,分别抽10000个样本并作其样本均数的频数图(图3.3)和统计描述。总体均数m1(可以证明:总体标准差s=1)在m1的指数分布总体随机抽取一个样本 a:指数分布(密度曲线)图b:个体观察值频数图(样本含量n=1000)。,S= 0.9672,中位数M=0.7417图3.2 指数分布的密度曲线和个体观察值频数图n=4n=9n=100(a)的均数0.9903的标准差0.4891的中位数0.9087(b)的均数1.0068的标准差0.3313的中位数0.9696(c)的均数0.9995的标准差0.1002的中位数0.9976图3.3 从总体均数为1的指数分布总体中随机抽10000个样本的样本均数频数图从上述抽样结果可以看出:从非正态的指数分布总体X中抽样所得到的样本均数,在样本含量较小时呈偏态分布但也有别于指数分布,而在大样本时的频数分布图接近正态分布。的均数始终在X的总体均数m1两侧附近,的标准差。事实上,无论样本来自什么总体,理论上可以证明:1. 样本均数的总体标准差是个体资料X的总体标准差的(,即样本均数的理论标准误) ,理论标准误的样本估计式为。2.样本均数与个体资料X的集中趋势位置相同,即样本均数与个体资料X的总体均数相同。3.若个体资料所属总体X呈正态分布,则由前面所述可知,样本均数的分布规律仍为正态分布;作标准化变换 (3.3)则U服从标准正态分布。也就是说,若资料服从正态分布N(m,s2),样本含量为n的样本均数出现在的概率为0.95,由此可见样本含量越大,这个范围就越小。4.若被抽样总体X呈偏态分布且样本量n较大时(如n40),由上述结果可知样本均数近似地服从正态分布,作标准化变换,则可以证明:U近似服从标准正态分布。例3.2 已知7岁正常发育男孩的身高服从正态分布,在某地的正常7岁男孩中随机抽一个样本,样本含量为110,得到样本均数为121.92,样本标准差为4.527,则相应的标准误为。例3.3 已知在某地7岁正常发育男孩的身高服从正态分布N(121,52),则正常发育7岁男孩身高的95%范围为(111.2,130.8)。若在该地正常7岁男孩中随机抽一个样本,样本含量为100,则样本均数的95范围为=(120.2,121.98),样本含量为100的样本均数的变异范围要比个体的变异范围小得多。其他统计量的抽样误差问题:抽样误差:总体统计指标与其样本统计指标的差值称为抽样误差。例如,总体均数与样本均数的差值称为样本均数的抽样误差。由于个体变异的原因,任何随机抽样的样本所构造的统计量都有抽样误差并且这个抽样误差都呈随机变化的。即:抽样前,抽样误差是不知道的。标准误:总体参数往往是未知参数,通常用统计量的标准差估计抽样误差,为了区分资料的标准差,故称统计量的标准差为标准误。例如:样本均数的标准差称为样本均数的标准误。所有的统计量都是有其概率分布的,常用的统计量其概率分布如下:统计量取变换相应的分布两个样本均数的差值服从(或近似服从)正态分布OR取对数ln(OR)近似服从正态分布RR取对数ln(RR)近似服从正态分布相关系数r近似服从正态分布线性回归b服从正态分布两个率的差值RD=P1P2要求P1和P2都较大时RD近似服从正态分布模拟两个样本均数的差值设:第一组:样本来自正态总体,样本量n1=25,总体均数为10,总体标准差为2;设:第二组:样本来自正态总体,样本量n2=25,总体均数为12,总体标准差为2,两个总体均数的差值均数1均数20.2随机在上述总体中抽10000个样本,每个样本计算两个组的样本均数及其两个样本均数的差值,因此得到10000个两个样本均数的差值RD,视这10000个样本均数的差值为新指标的观察资料,统计描述如下:平均数为-1.999112,标准差为0.5658609,中位数为 -1.997535 视这10000个样本均数的差值为新指标的观察数据,作频数图:由于原始资料来自正态总体,故其样本均数的差值也称正态分布,总体均数为-2。以下通过模拟抽样说明样本OR、样本RR、样本对数OR、样本对数RR和两个样本率的差值的分布情况下列抽了10000个样本,A组的样本量为30,发生率pA=0.4,B组的样本量为40,pB0.3,每个样本计算一个OR值、RR值以及相应的对数OR和对数RR以及两个率的差值,因此共有10000个样本OR值、10000个样本RR值、10000个对数OR值、10000个样本RR值以及10000个两个率的差值RD。则总体,总体总体对数OR=0.44183275 总体对数RR=0.2877把这些10000个样本统计量视为新的指标资料,统计如下OR对数ORRR对数RR两个率的差值平均值1.8070.44859491.4210490.28915040.0993442中位数1.55555560.44183281.3333330.28768210.1几何均数1.566110.48584391.3352930.31416090.1075269从上述估计可见,中位数比较接近总体值,估计的精度相对比较高。视10000个样本OR作为新指标的数据作频数图视10000个样本对数OR作为新指标的数据作频数图视10000个样本RR作为新指标的数据作频数图视10000个样本对数RR作为新指标的数据作频数图视10000个样本率的差值作为新指标的数据作频数图Effect Size(效应差异度量):在Meta分析中,两组总体效应指标的差异。由于在Meta分析中,通常要求Effect Size的对应样本统计量近似服从正态分布,所以常见的Effect Size选择如下:l 效应指标为均数,则Effect Size=m2m1l 效应指标为率,则Effect Size可以为对数相对危险度ln(RR)=ln(p1/p2)l 效应指标为比较大的率,则Effect Size可以为两个率的差值=p1p2l 效应指标为率或Odds,则Effect Size可以为对数Odds Ratio,ln(OR)l 效应指标为回归系数,Effect Size即为回归系数l 效应指标为相关系数,Effect Size=Meta分析是把多个研究的统计分析结果进行综合分析,Meta分析分为确定性模型和随机模型,一般而言,确定性模型的检验效能比随机模型中的检验效能要高一些,但确定性模型要求各个研究的Effect Size齐性。Effect Size齐性是指各个研究的总体Effect Size相同。对于两个总体均数差值为Effect Size,则有如下性质:1) 各个研究的每一组总体均数相同,则Effect Size齐性。2) 各个研究的每一组总体均数可能不同,但各个研究两组总体均数的差值相同,则Effect Size齐性。例如:第一种情况的Effect Size齐性第二种情况的Effect Size齐性noA组总体均数B组总体均数Effect Size

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论