高等生物统计学 课件1.ppt_第1页
高等生物统计学 课件1.ppt_第2页
高等生物统计学 课件1.ppt_第3页
高等生物统计学 课件1.ppt_第4页
高等生物统计学 课件1.ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高等生物统计 Advanced Biostatistics,关于高等生物统计课程的说明,本课程是为满足生物科学各专业研究生学习和研究 的需要而开设的一门工具类课程。课程主要介绍生物学 研究中常用的现代统计分析方法,课程注重统计思想和 方法应用、计算机实现的介绍。内容包括均值比较、回 归分析、数据缩减、聚类与模式识别等。要求学生具有 初等概率统计或初等生物统计的基础和计算机基础。,课程的内容分为两部分 1.思想方法讲授,大约用42课时; 2.统计方法的计算机实现,大约18课时。,主要参考资料: 1.高级生物统计,明道绪主编,中国农业出版社,2006 2.试验设计与分析,袁志发主编,中国农业出版社

2、,2007 3.多元统计分析,袁志发主编,科学出版社,1999 4.非参数统计方法,吴喜之主编,高等教育出版社,1996 5.SPSS实用教程,阮贵海主编,高等教育出版社,2000,高等生物统计学的概述,一、生物统计学科性质与任务,生物学领域中所涉及的大多数学科是实验科学,这些学科研 究的共同特点是通过缜密设计的实验探索新知识,发现客观 世界规律。而实验方法主要有两类:一类是试验,另一类是 抽样调查。这些学科研究的基本过程一般包括: 1.由经验和已有的知识对所研究新问题提出一种假设; 2.根据假设内容科学的安排实验(包括试验与抽样调查); 3.根据实验数据进行分析推段,形成结论。 生物统计(B

3、iometrics or Biostatistics)为实现这一基本过程 中2,3环节而产生的一个学科。合理设计试验和调查,科学 地整理分析试验数据,揭示和发现新知识是其根本任务。,生物统计学是运用数理统计的原理和方法研究生物现象的 数量特征及其变异规律的应用学科,属于交叉学科。 生物统计对生物科学的作用 1.提供试验设计、抽样调查的方法,即解决生物科学研究 中科学制订实验方案,合理收集有代表性的数据问题; 2.提供整理、分析数据的科学方法,即解决从数据中提取 有效信息获得结论的方法问题。,二、生物统计学发展简史,生物统计学是以门较为年轻的一个学科,从诞生到现 在大约经历了140年左右,她是数

4、理统计学最早的应用分 支之一,并为推动数理统计学的发展做出了突出贡献。生 物统计学发展大致可分为两个阶段: 1.萌芽阶段 18世纪到19世纪初,拉普拉斯(1749-1827)和高斯(17,77-1855)各自独立地导出了正态曲线,还创立了最小二 乘法,并被广泛地应用于生物学,英国优生学派创始人高 尔顿(达尔文的堂弟,博物学家,生物统计学之父 )和他的 继承人皮尔森在遗传学研究中发展了相关与回归的概念, 皮尔森还发展了著名的卡方检验法,并于1901年创办了 Biometrika杂志,使数理统计学的研究与发展进入一个新 的阶段。 2.蓬勃发展阶段 进入20世纪后,数理统计理论和方法得到了蓬勃发展。

5、 英国统计学家哥色特提出了学生氏t分布,并将其用于平均 数的比较;英国生物学家费希尔提出了试验设计的基本原 则和方差分析法;英国计算机科学家叶茨也作了大量工作。 许多多元分析方法被建立和应用。特别是20世纪后期由于 计算机的快算发展,使得许多统计方法在解决生物科学领 域内问题时,发挥出巨大作用。,3.国内的发展情况 在我国,现代生物统计学的起步较晚。在30年代首次由著名生物统计学家、植物育种学家王绶教授(1876-1972)将生物统计学引入我国,撰写的实用生物统计法是我国出版最早的生物统计专著之一。之后南京中央农业试验厅邀请美国专家.Love来我国讲学,讲授 Statistical Metho

6、d in Agricultural Research,后来这本讲义由沈骊英翻译为生物统计之理论与实际,范福仁出版了田间试验技术等,这些对推动我国农业生物统计和田间试验方法的应用都产生了很大影响。 解放初期,由于生物统计学的理论与方法与当时所推行的苏联米丘林遗传学相悖,使这门学科的研究、应用与发展受到很大影响,直到60年代初,随着农业科学研究的需要,才又重新被重视并得以迅速发展。党的十一届三中全会的春风使我国生物统计学的研究与应用进,三、生物统计基本概念 总体:根据研究目的确定的研究对象的全体。 样本:按照一定方法从总体中抽取的一部分单元的全体。 统计量:样本决定的不含任何参数的函数。 准确度:

7、指在调查或试验中某一试验指标或性状的观测 值与其真值接近的程度。 精确度:指调查或试验中同一试验指标或性状的重复观 测值彼此接近的程度。,进入到对一个新的历史时期,在农业部领导下,于1977年 着手编写了田间试验与统计方法教学大纲,并由南京 农业大学著名统计遗传学专家马育华教授编写了田间试 验与统计方法全国统编教材。20世纪80年代后,我国各 大农业院校陆续开设了生物统计课程,部分综合院校设立 了生物统计硕士点,生物统计在我国进入一个崭新的时期。,1.科学试验数据的特征 试验数据不可能测量的绝对准确,必然存在着测定误差。 误差是测量结果与真值的接近程度。 真值是未知的,随认识水平和科学技术水平

8、的提高而 逐步逼近于真值。 在试验过程中尽量减少误差,在测量和处理数据中采用 数理统计的方法。,四、误差理论和测定结果表达,生物观测数据的类型:,2.试验数据误差分类 系统误差:是由较确定的原因引起的,可校正和消除; 随机误差:是由不确定原 因引起的,不可避免和消除; 过失误差:是指一种显然与事实不符的误差,必须避免 和剔除。 3.试验数据误差的来源 试验材料的固有差异:生物学研究对象一般是生物有机 体。自然界不同的生物体具有不同的遗传性质,同一生物 的不同种具有不同的特征,同一品种生物在生长发育过程 中不同个体也有差异,这都能导致研究指标的变化。 环境条件的差异:生物学试验一般都要在外界环境

9、中进 行,而外界环境是多变样的,且地域性很强有较难控制, 这就会导致研究指标的差异。 管理不一致所引起的差异:生物学试验是以生物个体为对 象研究问题,生物个体在发育和生长过程需要管理,而对,每个生物个体的管理很难做到完全一致,这就合造成观测 结果的差异。 观测不一致造成的差异:生物试验在观察和测定时,由 于人员不同、时间不同也会导致试验结果的差异。 4.随机误差的统计规律 最大正误差、最大负误差的“有界性”; 绝对值小的误差出现的次数比绝对值大的误差出现的次 数多,“单峰性”; 正负误差出现次数大致相等,“对称性”; 测量次数增加,误差减小,“补偿性”; 正常的随机误差服从均值为零的正态分布。

10、 五、样本异常值的判断与处理 1.异常值的概念:样本异常值是指样本中的个别值,其数 值明显偏离它所在样本的其余观测值。,2.样本异常值的形成原因: 异常值可能仅仅是数据中固有的随机误差的极端表现,也 可能是过失误差。 3.样本异常值的判定: 如果某个测量值d的离差d满足Ud 3S ,其中S为样本 方差,则认为d是含有过失误差的异常值。 4.样本异常值的处理原则 异常值保留在样本中参加其后的数据统计计算; 允许剔除异常值,即把异常值从样本中排除; 允许剔除异常值并追加适宜的观测值代入样本。 在找到实际原因时修正异常值。处理规则为: (1)对于任何异常值,若无充分的技术上的原因,则不得剔 除或修正

11、; (2)异常值中除有充分的技术上的或实验上的理由外,在统 计上表现为高异常,才允许剔除或修正。,第1章 均值比较 (Comparing means ),1.1 一个样本的均值比较,1.3 两个样本的均值比较,1.4 多个样本的均值比较,1.2 统计比较结果表达,一个样本均值比较,生物科学研究与生产实践中一种方法,一种药及处理,一 种生境下植物生长状态与给定理论之比较等,这种实际问题都 可以归为一个样本均值比较统计问题下。下面分不同条件讨论 这类问题解法。,一个样本均值与给定的标准比较时,针对样本所满足的不 同条件,可以选用Z-检验或T-检验。,Z-检验,T-检验,一个样本的符号检验,一个样本

12、的符号检验主要用来解决非正态总体中位数与 指定值得比较问题,是一种非参数检验法。这种检验方 法是利用样本实现与指定值差的符号分不来判断总体中 位数与指定值关系。,这种检验的一般做法是: 首先,将样本实现与指定值比较大小,转化样本实现为 符号(大于记“+”,小于记“-”,等于记“0”),数样本中 “+”的个数n+,“-”的个数n-。,符号检验:总体分布未限制,样本量较小(小于30)。,18 43 40 16 22 30 29 32 37 36 39 34 39 45 28 36 40 34 39 52,符号检验当样本容量n30时,检验统计量可以用近似服从 正态分布的Z统计量检验:,统计比较结果的

13、表达,统计比较是一小概率原理为依据,应用归纳推理的比较 方法,其比较结果是概率意义上的结论。比较结果表达通常 有两种形式,即临界值表示法和P-Value表示法。,临界值表示法,所谓临界值表示法是指:在统计比较时把检验统计量的 样本实现与零假设拒绝域的分界点比较,从而得出拒绝还是 接受零假设结论的表示方法。,例如一个样本均值比较的Z-检验,就是临界值表示法,其中 是零假设拒绝域的分界点,可以 通过标准正态分布分为数表查得。,P-Value表示法,所谓P-Value表示法是指:在统计比较时把检验统计量大 于检验统计量样本实现的概率与检验水平比较,从而得出拒 绝还是接受零假设结论的表示方法。,下面以

14、一个样本均值比较的Z-检验说明这种表示法。,例如前面对昆虫平均身长比较的Z-检验,由于z0=-2.47, 由正态分布N(100,122)计算P-Value得,生物科学研究与生产实践中两种方法,两种药及处理,两 种生境下植物生长状态比较等,这种实际问题都可以归为两总 体平均值比较统计问题下。下面分不同条件讨论其解法。,配对样本的符号检验,在进行配对样本均值是否相等的比较时,如果样本不服 从正态分布,T-检验就不再适用。而符号检验恰好可以 解决这一问题。,这种检验的一般做法是: 首先,将配对样本实现比较大小,转化样本实现为符号 (大于记“+”,小于记“-”,等于记“0”),数样本中“+” 的个数n

15、+,“-”的个数n-。,符号检验:总体分布未限制,样本量较小(小于30)。,多个样本均值比较 方差分析(Analysis Of Variance),一、方差分析的概念与基本思想 1.问题的提出 例题8.1 在饲料养鸡增肥研究中,某饲料研究所提出三 种配方: A1以鱼粉为添加料, A2以槐树粉为添加料, A3 以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似 的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其 体重,获得数据如下表,比较三种饲料的增重效果是否一致,可以转化为利用样本 比较三个总体均值是否相等。直观上看该问题可以用两个 总体均值差异显著性检验解决,但细想想还是存在一定问 题,

16、因为这样的比较能增大犯错误的概率。为解决这类问 题,英国统计学家R.A.Fisher于1924年提出了解决此类问题 的通用方法-方差分析法。,2.方差分析的概念 因素:影响试验指标变化的原因。 水平:因素所划分成不同等级,每个等级称为该因素的一 个水平。 条件变差:能反映控制因素不同水平对试验指标的作用的 量,又称为处理效应或组间效应。 随机误差:能反映控制因素以外因素对试验指标作用的量。,3.方差分析的基本思想 试验指标的变化可以用指标值的方差反映,导致指标值 发生变化的原因有两方面:一是可控因素,二是不可控因 素或未加控制因素。方差分析就是将指标值的方差分解成 条件变差与随机误差,然后依据

17、概率原理比较条件变差与 随机误差大小关系,决定引起指标值的变化的主要原因。 4.方差分析的基本假定 不同因素对试验指标值的影响作用是加性效应,即试验 指标值的变化是各种因素所起作用的累加; 试验指标服从正态分布; 试验数据是随机的,并且可控因素不同水平的试验数据 方差齐性。,二、单因素方差分析,单因素方差分析的数据结构 单因素方差分析的试验数据应具有下列结构模式。,单因素方差分析的统计模型,该形式称为单因素方差分析的统计模型。 在方差分析统计模型下,方差分析要解决的问题转化为 下列假设检验问题:,三、单因素方差分析的原理,试验数据离差平方和分解,离差平方和分解式,在实际应用中,方差分析结果以方

18、差分析表形式给出。,单因素方差分析表,例题 在饲料养鸡增肥研究中,某饲料研究所提出三种配方: A1以鱼粉为添加料, A2以槐树粉为添加料, A3以苜蓿粉添 加料。为比较三种饲料的效果,特选24只相似的雏鸡随机分 为三组,每组用一种饲料喂养,60天后测其体重,获数据如 下表,试以此数据判定不同饲料是否有差异?,方差分析表,例 以A,B,C,D4种药剂处理水稻种子,其中A为对照,每处理各得4个苗高观察值(cm),试由此试验数据判定药剂处理对水稻苗高声有无影响。,因此误差平方和可以采用简单的办法计算 SSe=SST-SSB=602-504=98 进而可得均方:,查附表在f1=3,f2=12时, F0

19、.05=3.49,F0.01=5.95 实得 F F0.01或 P0.01,说明药剂处理有统计意义。,四、单因素方差分析模型参数的估计,当方差分析结果为否定原假设时,就需要估计模型的有关参数 ,下面就讨论方差分析模型参数的估计。,四、秩和单因素方差分析 (KruskalWallis one-way analysis of variance ),在生物学研究中,经常会遇到多种处理试验数据差异分 析,而这种试验数据有严重偏离正态分布,这时传统的 方差分析已无法解决这类问题。为解决这种问题,一般 是把差异比较转化为分布齐一性检验,利用秩和检验法 解决。,单因素方差分析的试验数据应具有下列结构模式。,

20、首先,将个水平数据放在一起确定每个数据的秩,从而 数据转化为秩数据,并对秩数据整理如下表,可以证明,在各处理水平数据同分布,且 ni5,n15 情况下,统计量R成立以下结论:,于是当ni5,n15时,可以用该结论检验分布同质性,也 可以在分布形状和尺度相同下,检验不同总体中位数差异 显著性,即方差分析。秩和单因素方差以下列步骤实施:,例 以A,B,C,D表示4种海拔水平,为掌握某植物生长受海拔影响,研究人员分别在每个海拔水平实测该植物生长量,数据如下所示(单位g ),试由此试验数据判定该植物生长是否受海拔影响。,A B C D,解,五、多重比较法,拒绝H0,接受H1, 表示总体均数不全相等 哪

21、两两均数之间相等? 哪两两均数之间不等? 需要进一步作多重比较。,方差分析结果 不拒绝H0,表示拒绝总体均数相等的证据不足, 分析终止。,常用多重比较法,最小显著差数法(Least significant difference,简称LSD法),q法(又称SNK (student-Newman-Keuls)检验法),q测验方法是将r个平均数由大到小排列后,根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差LSR值的。,Tukey法(又称honestly significant difference,简称HSD ),Bonferroni法,Bonferroni法是根据所比较的

22、两个处理平均数的个数k,将检验水平 缩小k倍祖为真实比较水平 ,确定是几个平均数间的极差分别确定最小显著差数LSD值的。,多重比较法选择,1.试验事先确定比较的标准,凡是与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法LSDa法; 2.根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。 参考以下观点: 根据试验的侧重点选择。三种方法的显著尺度不相同,LSD法最低,HSD法次之,SNK法最高。故对于试验结论事关重大或有严格要求时,用SNK法,一般试验可采用HSD法。当比较次数不多时,Bonferroni法的效果较好;但当比较次数较多(例如在10次以上)时,则由于其检验水准选择得过低,结论偏于保守。,双因素方差分析背景,双因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论