误差棒标准差标准误差_第1页
误差棒标准差标准误差_第2页
误差棒标准差标准误差_第3页
误差棒标准差标准误差_第4页
误差棒标准差标准误差_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、页眉标准差 (Standard Deviation)和 标准误差 (Standard Error)本文摘自Streiner DL.Maintaining standards: differencesbetween the standarddeviation andstandarderror, and when to use each. Can J Psychiatry 1996; 41: 498 502.标准差 (Standard Deviation)标准差,缩写为 S.D., SD, 或者 s ( 就是为了把人给弄晕? ) ,是描述数据点在均值( mean)周围聚集程度的指标。如果把单个数据

2、点称为“ Xi , ” 因此 “X1 ” 是第一个值,“ X2 ” 是第二个值,以此类推。均值称为“ M”。初看上去 (Xi - M) 就可以作为描述数据点散布情况的指标,也就是把每个 Xi 与 M的偏差求和。换句话讲,是(单个数据点数据点的平均)的总和。看上去挺有逻辑性的,但是它有两个缺点。第一个困难是 :上述定义的结果永远是 0。根据定义,高出均值的和永远等于低于均值的和,因此它们相互抵消。可以取差值的绝对值来解决(也就是说,忽略负值的符号),但是由于各种神秘兮兮的原因,统计学家不喜欢绝对值。另外一个剔除负号的方法是取平方,因为任何数的平方肯定是正的。所以,我们就有 (Xi - M) 2。

3、另外一个问题 是当我们增加数据点后此等式的结果会随之增大。 比如我们手头有 25 个值的样本,根据前面公式计算出 SD是 10。如果再加 25 个一模一样的样本,直觉上 50 个大样本的数据点分布情况应该不变。但是我们的公式会产生更大的SD值。好在我们可以通过除以数据点数量 N来弥补这个漏洞。所以等式就变成 (Xi - M) 2/ N.根据墨菲定律,我们解决了两个问题,就会随之产生两个新问题。第一个问题(或者我们应该称为第三个问题, 这样能与前面的相衔接) 是用平方表达偏差。假设我们测量自闭症儿童的 IQ。也许会发现 IQ 均值是 75, 散布程度是 100 个 IQ 点平方。这 IQ 点平方

4、又是什么东西?不过这容易处理:用结果的平方根替代,这样结果就与原来的测量单位一致。 所以上面的例子中的散布程度就是 10 个 IQ 点,变得更加容易理解。最后一个问题是目前的公式是一个有偏估计, 也就是说,结果总是高于或者低于真实的值。解释稍微有点复杂, 先要绕个弯。在多数情况下, 我们做研究的时候,更感兴趣样本来自的总体( population )。比如,我们探查有年轻男性精神分裂症患者的家庭中的外现情绪( expressed emotion ,EE)水平时,我们的兴趣点是所有满足此条件的家庭(总体),而不单单是哪些受研究的家庭。我们的工作便是从样本中估计出总体的均值(mean)和 SD。因

5、为研究使用的只是样本,所以1 / 5页眉这些估计会与总体的值未知程度的偏差。理想情况下,计算 SD的时候我们应当知道每个家庭的分值 (score) 偏离总体均值的程度,但是我们手头只有样本的均值。根据定义,分值样本偏离样本均值的程度要小于偏离其他值, 因此使用样本均值减去分值得到的结果总是比用总体均值 (还不知道) 减去分值要小, 公式产生的结果也就偏小(当然 N 很大的时候,这个偏差就可以忽略) 。为了纠正这个问题,我们会用 N-1 除,而不是 N。总之,最后我们得到了修正的标准差的(估计)公式(称为样本标准差):顺带一下,不要直接使用此公式计算SD,会产生很多舍入误差 (roundinge

6、rror)。统计学书一般会提供另外一个等同的公式,能获得更加精确的值。现在我们完成了所有推导工作,这意味着什么呢?假设数据是正态分布的,一旦知道了均值和SD,我们便知道了分值分布的所有情况。对于任一个正态分布, 大概 2/3(精确的是 68.2%)的分值会落在均值 -1 SD 和均值 +1 SD之间, 95.4%的在均值 -2 SD 和均值 +2 SD之间。比如,大部分研究生或者职业院校的入学考试( GRE,MCAT,LSAT和其他折磨人的手段)的分数分布(正态)就设计成均值 500,SD 100。这意味 68%的人得分在 400 到 600 之间,略超过 95%的人在 300 到 700 之

7、间。使用正态曲线的概率表,我们就能准确指出低于或者高于某个分数的比例是多少。相反的,如果我们想让 5%的人淘汰掉,如果知道当年测试的均值和 SD,依靠概率表,我们就能准确划出最低分数线。总结一下, SD告诉我们分值围绕均值的分布情况。现在我们转向标准误差( standard error)。标准误差 (Standard Error)前面我提到过大部分研究的目的是估计某个总体(population)的参数,比如均值和 SD(标准方差)。一旦有了估计值,另外一个问题随之而来:这个估计的精确程度如何?这问题看上去无解。 我们实际上不知道确切的总体参数值, 所以怎么能评价估计值的接近程度呢?挺符合逻辑的

8、推理。 但是以前的统计学家们没有被吓倒,我们也不会。我们可以求助于概率: (问题转化成)真实总体均值处于某个范围内的概率有多大?(格言: 统计意味着你不需要把话给说绝了 。)回答这个疑问的一种方法重复研究(实验)几百次,获得很多均值估计。然后取这些均值估计的均值,同时也得出它的标准方差(估计)。然后用前面提到的概率表,我们可估计出一个范围,包括 90%或者 95%的这些均值估计。如果每个样2 / 5页眉本是随机的,我们就可以安心地说真实的(总体)均值90%或者 95%会落在这个范围内。我们给这些均值估计的标准差取一个新名字:均值的标准误差(thestandard error of the me

9、an ),缩写是 SEM,或者,如果不存在混淆,直接用SE代表。但是首先得处理一个小纰漏:重复研究(实验)几百次。现今做一次研究已经很困难了,不要说几百次了(即使你能花费整个余生来做这些实验)。好在一向给力的统计学家们已经想出了基于单项研究(实验)确定SE的方法 。让我们先从直观的角度来讲:是哪些因素影响了我们对估计精确性的判断?一个明显的因素是研究的规模。 样本规模 N越大,反常数据对结果的影响就越小,我们的估计就越接近总体的均值。所以,N应该出现在计算SE公式的分母中:因为N越大,SE越小。类似的,第二因素是:数据的波动越小,我们越相信均值估计能精确反映它们。所以, SD应该出现在计算公式

10、的分子上: SD越大, SE越大。因此我们得出以下公式:2( 为什么不是 N? 因为实际是我们是在用 N除方差 SD,我们实际不想再用平方值,所以就又采用平方根了。 )所以, SD实际上反映的是数据点的波动情况,而SE则是均值的波动情况。置信区间 (Confidence Interval)前面一节,针对SE,我们提到了某个值范围。我们有或者的信心认为真95%99%实值就处在当中。我们称这个值范围为“置信区间”,缩写是CI。让我们看看它是如何计算的。看正态分布表,你会发现95%的区域处在 -1.96 SD 和+1.96SD之间。回顾到前面的GRE和 MCAT的例子,分数均值是500,SD是100

11、,这样 95%的分数处在 304 和 696 之间。如何得到这两个值呢?首先,我们把 SD 乘上 1.96 ,然后从均值中减去这部分,便得到下限 304。如果加到均值上我们便得到上限 696。CI 也是这样计算的,不同的地方是我们用 SE替代 SD。所以计算 95%的 CI 的公式是: 95%CI= 均值 ( 1.96 xSE) 。选择 SD, SE 和 CI好了,现在我们有SD,SE和 CI。问题也随之而来:什么时候用?选择哪个指标呢?很明显, 当我们描述研究结果时, SD是必须报告的。 根据 SD和样本大小,读者很快就能获知 SE和任意的 CI 。如果我们再添加上 SE和 CI,是不是有重

12、复之嫌?回答是:“ YES”和“ NO”兼有。3 / 5页眉本质上,我们是想告之读者通常数据在不同样本上是存在波动的 。某一次研究上获得的数据不会与另外一次重复研究的结果一模一样。 我们想告之的是期望的差异到底有多大:可能波动存在,但是没有大到会修改结论,或者波动足够大,下次重复研究可能会得出相反的结论。某种程度上来讲, 这就是检验的显著程度, P level 越低,结果的偶然性就越低,下次能重复出类似结果的可能性越高。 但是显著性检验, 通常是黑白分明的: 结果要么是显著的,要么不是。如果两个实验组的均值差别只是勉强通过了P 0.05 的红线,也经常被当成一个很稳定的结果。如果我们在图表中加

13、上CI,读者就很容易确定样本和样本间的数据波动会有多大,但是我们选择哪个CI 呢?我们会在图表上加上 error bar (误差条,很难听),通常等同于 1 个 SE。好处是不用选择 SE或者 CI 了(它们指向的是一样的东西),也无过多的计算。不幸的这种方法传递了很少有用信息。一个 error bar (-1 SE,+1 SE )等同于 68%的 CI;代表我们有 68%的信心真的均值(或者 2 个实验组的均值的差别)会落在这个范围内。糟糕的是,我们习惯用 95%,99% 而不是 68%。所以让忘记加上SE吧,传递的信息量太少了,它的主要用途是计算 CI。那么把 error bar 加长吧,

14、用 2 个 SE如何?这好像有点意思, 2 是 1.96 的不错估计。有两方面的好处。首先这个方法能显示 95%的 CI ,比 68%更有意义。其次能让我们用眼睛检验差别的显著性 (至少在 2 个实验组的情况下是如此) 。如果下面 bar 的顶部和上面 bar 的底部没有重叠,两个实验组的差异必定是显著的 (5%的显著水平)。因此我们会说,这 2 个组间存在显著差别。如果我们做 t-test ,结果会验证这个发现。 这种方法对超过 2 个组的情况就不那么精确了。 因为需要多次比较(比如,组 1 和组 2,组 2 和组 3,组 1 和组 3),但是至少能给出差别的粗略指示。在表格中展示 CI 的时候,你应该给出确切的数值(乘以 1.96 而不是 2)。总结SD反映的是数据点围绕均值的分布状况,是数据报告中必须有的指标。SE则反映了均值波动的情况,是研究重复多次后,期望得到的差异程度。 SE自身不传递很多有用的信息, 主要功能是计算 95%和 99%的 CI。 CI 是显著性检验的补充,反映的是真实的均值或者均值差别的范围。一些期刊已把显著性检验抛弃了, CI 取而代之。这可能走过头了。因为这两种方法各有优点, 也均会被误用。 比如,一项小样本研究可能发现控制组和实验组间的差别显著( 0.05 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论