




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
sd Std Dev Standard Deviation 标准偏差 Std Dev Standard Deviation 一 种量度数据分布的分散程度之标准 用以衡量数据值偏离算术平均值的程度 标准偏差越小 这些值偏离平均值就越少 反之亦然 标准偏差的大小可通过 标准偏差与平均值的倍率关系来衡量 标准偏差公式 S Sqr xn x 拨 2 n 1 公式中 代表总和 x 拨代表 x 的算术平均值 2 代表二次方 Sqr 代表平方根 例子 有一组数字分别是 200 50 100 200 求它们的标准偏 差 Java 代码 1 x 拨 200 50 100 200 4 550 4 137 5 2 S 2 200 137 5 2 50 137 5 2 100 137 5 2 200 137 5 2 4 1 62 5 2 87 5 2 37 5 2 62 5 2 3 3906 25 7656 25 1406 25 3906 25 3 16875 3 5625 3 标准偏差 S Sqr 5625 75 cv 变异系数 coefficient of variation 亦称离散系数 coefficient of dispersion 或相对偏差 rsd 是标准偏差与平均值之比 用百分数表示 计 算公式为 cv sd mean 100 200 50 100 200 的 cv 55 在我用于本科毕业论文答辩的 ppt 里的某页赫然写着这么一行 标准误 标准差除以样本量的平方根 这是我对 数据处理 部分特地作出的一条说明 前些 天打开看到的时候 我不禁有些囧 当年我们的 生物统计学 是一门选修课 授课的是生科院生物信息学方向的一个牛人 长得像藏人 不过一听口音就知 道他家和我家肯定离不太远 不论生物还是药学 这门课历来就是门选修课 而且学的内容很浅 考试是开卷 我学得不咋地 学完的时候感觉 统计学说来就一句话 有没有显著 性差异 你说这话啥意思 我也不太懂 能套公式把结果算出来就成 要说起来 有关统计学的基本知识 早在大一上分析化学的时候就专门讲过 很多实 验报告也都要算平均数和标准差 等到做完毕设写论文要处理数据的时候 我突然就发现了一个问题 为什么我看的那么多 paper 里面 在算样本平均数的时候 有的附的是标准差 有的 附的是标准误呢 而且国外的 paper 都是用的标准误 我又不懂 但是搜到有篇专门讲两者区别的文章说要用标准误 我也就用了 两者啥区别呢 标准差除 以样本量的平方根就等于标准误 可这数学关系反映了什么实质 我还是不懂 只是记得上生物统计学的课的时候 老师特别强调说国内生命科学和医学方面 的大部分 paper 都存在统计学错误 我就生怕我这么 正确地 使用标准误反而显得 错误 了 于是有了 ppt 上多此一举的那句话 其实统计学是很多学科都需要用到的 而且重要性不言而喻 可就我所了解的 如我们这些生 化 医 药专业出身的学生有多少真的理解了统计学呢 大部分都是停留在机械用软件 套公式 填结果的层面吧 当然了 这里存在一个学科差异的问题 也不是谁刻意地不想去理解统计学 比方说 去年国家就 三聚氰胺出台了一个最低检测限的标准的时候 很多没有科学素养的记者就开始疯狂质疑了 其实对 检测限 这个概念我们就很理解 我想心理学专业的学生 倒不见得认同 而 检测限 的本质同属统计学中的 概率 和 误差 的范畴 不过总的说来 我们的统计学训练比起心理学实在差得太多 终于进入正题了 因为统计学是心理学的基本功 所以我正儿八经地看起了考纲版的那本国内最经典的 现代心理与教育统计学 等把第八章假设检验 看完之后 我暂停了 我的基本感受是 一路看下来 条理是清晰的 逻辑是明白的 我也是理解的 如果说单纯应试的话 看到这样没问题 可这门课程当 然不止是应试之用的 那么 我在想 我看了这么多 它讲的这些东西到底是在干嘛呢 对 我的意思很明白 这本书是在讲鱼不是在讲渔 我纵使把计算标 准误的公式及其意义理解得化成灰也认识 可它到底是干嘛的呢 我暂停是为了找些 paper 来自己体会统计学的用处 这时发现了手头正读着的 行为科学统计 如获至宝地读完第一章我就恨不得骂脏话了 差距怎么 能这么大 为什么一本国内最经典的心理统计学教材和美国的一本也许还不是最经典的心理统计学教材差了这么远 所以等读完第一部分的时候 我想哭了 呃 当作形容词看待吧 不是真的要哭 昨晚读完第二部分的时候 我又想哭 因为 我终于理解了 标准误 到底是用来干嘛的 明白了当 paper 中出现 它的时候是说明了什么实质问题 索性抓几个点来比较这两本教材 1 现代 在讲中数的时候就讲到了内插法 讲百分位数的时候又讲了 可是它这两处都没有提 内插法 仨字儿 到后来好几个章节计算概率的时候却冒 出来 内插法 仨字儿让人不知所云 这也就罢了 关键是 同样讲内插法 原理和方法都是一样的 现代 用了个形式巨复杂的公式来套用 看着就不敢用了 行为 没用公式 直接画个小表就可以口算了 2 类似于上面的情况 在针对很多不同类型的概念和方法时 现代 的很多习题我在做的时候都不得不翻到正文中按例题的步骤来套用 行为 的习 题基本上都是口算 也不用回顾前面的例题 我忍不住举一个实例对比 现代 版某例题 有 10 道正误题 问答题者答对几题才能认为他是真会 或者说答对几题 才能认为不是出于猜测因素 行为 版某例题 假设你正在用请人预测从整副牌中抽出的牌的花色来测试人的特异功能 在 48 次实验中 一个人能正确预测多于 20 次的概率是多少 这两道题的解法是一致的 考察的点也差不多 可是 前面那题纠结的提问方式我每次读到都抽搐 恨不得转换几次才能理解题意 现代 中类似的绕 心令比比皆是 难道把话说明白些就这么困难吗 更不用说 现代 版在讲解题步骤时的死板了 逼得我只能依葫芦画瓢呀 3 现代 版太瞧得起我们学生了 很多概念突然就冒出来了 也不告诉你怎么回事 比如 自由度 有些概念稍微讲解了几句也没讲明白 比如 有偏统 计量 它怎么就有偏了呢 再有就是我前面说的 讲了那么多讲到最后 我也搞不清楚它到底是可以用到心理学什么地方去 书中举例清一色的是学生测验之 类的 而 行为 对于很多概念都是用基本属于 一加一等于二 的方式一板一眼告诉你它的含义 还真别说它的讲法像是对待傻子 在一门新学问面前 我们 不就和幼儿园接触到 一加一等于二 之前一样无知么 受的教育再高也不保证您就触类旁通呀 同时 它的举例涉及心理学各分支 这才是学以致用呀 4 再从章节设置的顺序上 我不否认 现代 版有它的内在逻辑 但那种逻辑基本上是站在一个已经掌握了统计学的人的角度展开的 对于初学者 越 往后越觉得章节之间的关系诡异 而 行为 则是完全从学习者的视角设置章节 完全让人能够体会到循序渐进的快乐 比如 全书四部分 第一部分讲描述 统计 第二部分讲推论统计基础 而实际上 这部分的三章共就讲了三个概念 z 分数 概率和标准误 放到 现代 里才三节的篇幅 可人家就是咬文嚼字 地把这三个对于推论统计超级无敌关键的概念给讲通透了 我现在一点疑问都没有了 5 现代 我看完一章脑细胞就基本上耗尽了 因为时不时就要停下来揣摩 而 行为 一口气看三章也没问题 就像在读小说 掌握同样多的知识 后 者用的时间大概还短一些 毕竟统计学在心理学里是拿来实用的 不是要我费劲去培养数学的逻辑思维能力的吧 6 另外 我不太清楚原版 行为 会有多少排版错误 但至少 行为 译本的排版错误比 现代 要少得多 另外的另外 行为 每章的 SPSS 讲解 比 现代 清楚太多 另外的另外的另外 行为 的每节小测验都附有答案 每章习题的奇数题都附有答案 说到最后 我想引申一下 现代 代表了国内某类优秀教材的风格 学术至上 用语严谨 条理分明 言简意赅 同时也严肃 枯燥和死板 行为 代表了国外某类优秀教材的风格 学生至上 用语亲切 行文流畅 点到方止 同时也失去少许严密性 简明性和学术性 实际上国外还有一类优秀教材 或者我更愿意称其为优秀读物 拿统计学来说有大名鼎鼎的 统计学的世界 这类教材之所以优秀 是因为能被学院之 外的大众所接受 也正是为了吸引更广泛的读者 它放开了学术门槛 我这么说并不是存在某种 歧视 而是当其学术品质泛化后 对于专业领域的学习者而 言就相当程度的失去了教材的功能 看看好玩儿罢了 既对付不了考试 更应付不了研究 而我无疑是相当认可 行为 这类既保证了学术水准又满足 教 材 功用的教材的 以上仅代表个人口味 就如同文言文和白话文和网络语各有所爱 最后的最后 热情地向所有需要在今后的学术研究中运用或理解统计学知识的各专业同学推荐此教材 第六章标准误与可信区间第六章标准误与可信区间 第一节抽样第一节抽样 误差与标准误误差与标准误 第六章 标准误与可信区间 第一节 抽样误差与标准误 一 抽样误差的意义 在第一章第二节曾提到过样本与总体以及抽样误差的概念 那里谈到 由于存在人与人之间的个体差异 即使从同一总体用同样方法随机抽取例数相同的 一些样本 各样本算得的某种指标 如平均数 或率 通常也参差不齐存在一定的差异 样本指标与相应的总体指标之间有或多或少的相差 这一点是不难 理解的 如某医生从某地抽了 120 名 12 岁男孩 测量其身高 计算出均数为 143 10cm 若再从该地抽 120 名 12 岁男孩 其平均身高未必仍等于 143 10cm 也不一定恰好等于某市 12 岁男孩身高的总体均数 这种差异 即由于抽样而带来的样本与总体间的误差 统计上叫抽样波动或抽样误差 抽样误差和系统误差不一样 关系系统误差 当人们一旦发现它之后 是可能找到产生原因而采取一定措施加以纠正的 抽样误差则无法避免 因为客观 上既然存在个体差异 那么刚巧这一样本中多抽到几例数值大些的 所求样本均数就会稍大 另一样本多抽到几例数值小些 该样本均数就会稍小 这是不言 而喻的 抽样误差既是样本指标与总体指标之间的误差 那么抽样误差小就表示从样本算得的平均数或率与总体的较接近 有样本代表总体说明其特征的可靠性亦 大 但是 通常总体均数或总体率我们并不知道 所以抽样误差的数量大小 不能直观地加以说明 只能通过抽样实验来了解抽样误差的规律性 二 标准误及其计算 为了表示个体差异的大小 或者说表示某一变量变异程度的大小 可计算标准差等变异指标来说明 现在我们要表示抽样误差的大小 如要问 从同一总 体抽取类似的许多样本 各样本均数 或各率 之间的变异程度如何 也可用变异指标来说明 这种指标是 一 均数的标准误 为了表示均数的抽样误差大小如何 用的一种指标称为均数的标准误 我们以样本均数为变量 求出它们的标准差即可表示其变异 程度 所以将样本均数这 标准差 定名为均数的标准误 简称标准误 以区别于通常所说的标准差 标准差表示个体值的散布情形 而标准误则说明样本均数 的参差情况 两者不能混淆 下面用抽样实验进一步说明之 将 100 名正常人的红细胞数 万 mm3 写在 100 颗大小均匀的豌豆上 这些红细胞数见表 6 1 其均数为 500 标准差为 43 把这些豌豆放在一个口袋 里 彻底混匀后取出一颗 记下红细胞数 放回袋内 混匀后再取出一颗 记下数字后再放回去 如此继续下去 这是一个取不完的总体 这样每取 10 个数 字作为一个样本 共抽取了一百个样本 并计算每一样本的均数与标准差 例见表 6 2 表 6 1 红细胞数抽样实验用的正态总体 500 43 单位 万 立方厘米 383410422429430431435442442444 445449450452455456459461462463 465466468469470471472473476477 478479480481482484485486487488 489491492493494495496497498499 500501502503504505506507508509 511512513514515516518519520521 522523524527528529530531532534 535537538539541544545548550551 555556558565569578590599600617 表 6 2 红细胞数抽样实验中的样本举例 样本号红细胞数 万 立方毫米 XXS 1383599534442435486478476509544488 661 65 2503506520503489410528488509527498 333 97 3478463617544498485496462482569509 450 96 4529465535473531532556521459383498 452 63 5442493462527520519521512482471494 929 51 第一号样本均数与标准差的计算 X 4 886 10 488 6 将一百个样本均数加总 得到的数值为 50 096 7 又这一百个样本均数平方之和为 25 114 830 91 于是代入标准差的计算公式 求得一百个样本均数的 标准差又称标准误为 当总体标准差已知时 可计算理论的标准误 公式是 6 1 表 6 1 抽样实验用的总体标准差是 43 每个样本的例数是 10 代入公式得 可见由一百个样本均数求得的标准误 13 50 与理论的标准误 13 60 比较接近 在实际工作中 总体标准差往往并不知道 也不象抽样实验那样从同一总体随机抽取 n 相等的许多样本 而是只有手头一个样本 在此情况下 只能以样 本标准差 S 作为总体标准差 的估计值 这样 公式 6 1 中的 就要用 S 代替 改为 S 以资区别 6 2 将第 1 号样本的标准差及例数代入式 6 2 得 再若将第 2 号样本的数字代入 S 将成为 10 74 余类推 由于不同样本的标准差并不相等 可见 S 也有抽样波动 这一点是值得注意的 但它仍不失 为 的较好估计值 以上介绍了求标准误的三种方法 其实我们平常用的只是式 6 2 而通过前两种方法的对比则可使我们明瞭标准误的含义 标准误是描述样本均数变异情 况的一个指标 它的大小与总体标准差 一般只能用 S 估计 成正比 而与样本含量 n 的平方根成反比 因此若标准差小或样本含量大时 求出的标准误就 小 标准误小表示样本均数与总体均数较接近 X 代表 较可靠 所以假若手头资料中观察值的变异程度较大 S 大 时 为了保 证样本代表总体比较可靠 就得适当增大样本含量 n 二 率的标准误 若总体包括某事件的发生数与未发生数两类 所化成的比例或成数即为总体发生率 符号 与未发生率 从总体中随机抽 取许多样本 n 相等 算出各个样本率 用 P 表示 会是或大或小有波动的 为了表示样本率之间或样本率与总体率之间的差异程度 当总体率 已知时 可计算理论的标误 p 其公式是 6 3 实际工作中往往不知道总体率 这时只能以样本率 P 作为总体率 的估计值 求得率的标准误 并用 SP表示 计算公式为 6 4 现举例说明其求法 例 6 1 某医生检测了 110 名成年健康人的尿紫质 发现阳性者 11 人 阴性者 99 人 于是算得阳性率 P 及率的标准误 SP如下 P 11 110 100 10 用小数表示为 0 10 若要进一步增强样本率估计总体率的可靠性 可加大样本含量 三 样本均数的分布 从同一总体里随机抽取 n 相同的许多样本 这些样本均数吴正态分布 如前面所述正常人红细胞数的抽样实验中已求得 100 个样本均数 其中多数与总 体均数 比较接近而集中分布在其周围 且左右基本对称 见表 6 3 此表由表 6 4 中的 100 个均数划记归组而得 表 6 3 红细胞抽样实验中 100 个样本均数的分布 组 段460 470 480 490 500 510 520 530 540 合计 样本数1318282813711100 表 6 4 一百个样本的均数 标准差 95 可信区间 样本号均数标准差95 可信区间样本号均数标准差95 可信区间 1488 661 65444 49 532 712498 333 97474 01 522 59 3509 450 96472 96 545 844498 452 63460 76 536 04 5494 929 51473 80 516 006 546 743 23515 78 577 62 7524 533 60500 45 548 55 8488 341 04458 94 517 66 9485 355 14445 85 524 7510502 648 55467 88 537 32 11495 140 63466 03 524 1712524 737 81497 65 551 75 13512 753 18474 65 550 7514494 837 24468 15 521 45 15493 639 94465 03 522 1716495 329 47474 22 516 38 17491 019 32477 18 504 8218506 553 83468 00 545 00 19487 539 39461 32 517 6820495 932 70472 51 519 29 21504 834 76479 94 529 6622512 244 76483 17 547 23 23496 540 65467 41 525 5924499 837 04473 31 526 29 25505 737 21479 08 532 3226487 734 50463 02 512 38 27501 537 35474 79 528 2128476 129 64454 91 497 29 29523 251 57486 31 560 0930509 533 61485 45 533 55 31494 228 60473 75 514 6532506 225 29483 10 524 30 33501 127 88481 15 521 0534520 630 23498 98 542 22 35492 042 18461 82 522 1836509 619 17495 89 523 31 37488 642 29458 36 518 8438510 947 55476 88 544 92 39516 439 96487 81 544 9940518 846 43485 59 552 01 41495 936 89469 53 522 2742 526 442 78495 80 557 00 43505 853 84467 30 544 3044503 047 33469 14 536 86 45504 847 77470 62 538 9846492 429 20471 52 513 28 47505 538 32478 08 532 9248486 552 98448 59 524 41 49515 238 69487 51 542 8950487 053 75448 55 525 45 51503 351 54466 43 540 1752491 058 47449 18 532 82 53522 365 01475 79 568 8154490 349 92454 58 526 02 55516 737 26490 05 543 3556489 631 41467 14 512 06 57490 062 90445 01 534 9958489 230 91467 09 511 31 59509 140 51480 12 538 0860513 529 18492 62 534 38 61476 442 06446 32 506 4862511 528 46491 14 531 86 63480 744 83448 62 512 7864501 429 00480 66 522 14 65481 150 65444 86 517 3466496 036 53469 87 522 13 67489 244 20457 58 520 8268494 829 73473 54 516 06 69497 268 49448 21 546 1970504 135 13478 95 529 25 71507 934 35483 33 532 4772 465 325 56447 02 483 58 73502 645 54470 03 535 1774486 448 51451 70 521 10 75 526 632 68503 10 550 10 76503 247 18
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电子竞技行业电竞赛事与电竞全球化研究报告
- 2025年生物科技行业生产技术革新及产品应用分析报告
- 2025年教育科技行业在线教育AI辅助教学研究报告
- 2025年中医学中医诊断治疗常识考核模拟试卷答案及解析
- 2025年儿科常见疾病护理要点考察模拟测试卷答案及解析
- 2025国家电投集团吉电股份招聘11人笔试备考试题及答案解析
- 2025湖南高速工程咨询有限公司招聘劳务派遣员工12人笔试模拟试题及答案解析
- 2026国家管网集团福建公司秋季校园招聘10人笔试备考题库及答案解析
- 2025甘肃省“带编入企”引进高层次人才257人(第二批)笔试参考题库附答案解析
- 校园安全防骗培训课件
- 消防队伍管酒治酒课件
- 医学继续教育管理办法
- 夜间驾驶知识课件
- 动荡变化中的春秋时期
- 陕西省西工大附中2022-2023学年七年级上学期第一次月考英语试卷(含答案)
- 2025辅警考试题库(含答案)
- QGDW10212-2019电力系统无功补偿技术导则
- 牛奶面包食品配送服务 投标方案(技术方案)
- 菜鸟驿站运营管理制度
- 风管安装协议书
- 个人车位租赁合同(含充电桩安装)
评论
0/150
提交评论