生物统计学复习资料_第1页
生物统计学复习资料_第2页
生物统计学复习资料_第3页
生物统计学复习资料_第4页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学复习资料(宁肯‘错杀"一切"!)一、选择与填空1、总体(研究的全部对象)分为无限总体和有限总体;构成总体的每个成员称为个体。2、从总体中获得样品的过程称为抽样,抽样可以分为放回式抽样和非放回式抽样。3、常见的连续性数据(与某种标准作比较所得到的数据)有:理度、胭、厦星、0D值、血压值等。这类数据通常是非整数。4、常见的离散型数据(由记录不同类别个体的数目所得到的的数据)如:动物的头数、种子的粒数、血液中不同类型的细胞的数目。这类数据全部是整数。5、样本的几个特征数:平均数、标准差、偏斜度和峭度。6、度量数据的变异程度的常用方法:范围(极差卜平均离差、标准离差(标准差)。7、总体的特征数有:数学期望(对随机变量进行长期观测所得数据的平均数\方差、各阶矩。8、/分布中样本标准误差的公式为8、/分布中样本标准误差的公式为y/nr分布类似于正态分布,也是一种对称分布,它只有一个参数,即自由度,f分布同样要求总体是正态的。9、点估计(用由样本数据所计算出来的单个数值对总体参数所做的估计),一个好的估计量应该满足三个条件:无偏性、有效性、相容性。10、无重复实验时的两因素方差分析的条件:两因素间是否有交互作用。11、在一元线性回归检验中,七片称为误差平方和或剩余平方和,用SS〃表示。

12、实验设计的两个基本原则:重复和随机化(重复的两个意义:①只有设置重复才能得到实验误差的估计;②只有设置重复才能推断出处理效应)13、上尾检验的条件:拒绝”0之后,接受"A:〃>〃()14、下尾检验的条件:拒绝%之后,接受15、双侧检验的条件:无充分的依据断言〃不可能大于〃。或〃不可能小于〃016、实际上,一般情况是随机变量丫服从为了能够使用附表2求其分布函数值,必须经过标准化,即:经此变换后,丫的分布函数P(Y<y)=P(JJ<aaLSD法检验的公式:lL-.IM.05二、名词解释.标准差:样本中各数值与其平均数离差平方和的算术平均数的平方根,它反映X(y,-y)2了各数据的离散程度。其公式为S=[上 oIn-l.变异系数:衡量样本中各个观测值变异程度的一个统计量。其公式为cv=2。y变异系数可以说是用平均数标准化了的标准差,在比较两个平均数不同的样本时所得结果更可靠。.互不相容事件:如果两个事件A和B的交是不可能事件,则称A和8为互不相容事件。.自由度:独立观测值的个数。因为计算s时所使用的〃个观测值受到平均数的

约束,这就等于有一个观测值不能独立取值,因此自由度少=〃-1。.零假设:总体平均数是未知的,为了得到对总体平均数的推断,可以假设总体平均数〃等于某个给定的值〃0,记为:”°:〃=为.备择假设:与零假设相对立的假设,记为Ha所做的估计称为区间估计。.区间估计:只要标准化的样本平均数落在-〃°。”双丽和a。”双侧)区间内,所有的〃。都将被接受,于是得到一个包含总体平均数的区间,用这种方法对总体参数所做的估计称为区间估计。y-1.96称为置信下限;y+1.96称为置信上yjn yjn限。.方差分析:是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引申。.线性统计模型(单因素):%=〃+/+%(i=1,2,3, ,a;j=1,2,3其中:为是在第,水平下的第/次观测值;〃是对所有观测值得一个参数,称为总平均数;a,是仅限于对第i次处理的一个参数,称为第i次处理效应。与是随机误差成分。.线性统计模型(两因素):%*=〃+4+/)+(。0)"+£湫(i=1>2, ,a;J,1,2,...,b;k—1,2,...,n)其中,〃是总平均效应,%是A因素第,・水平的处理效应,4是8因素第,水平的处理效应,(皿)〃是在A因素第i水平和8因素第,水平的处理效应,£,*是随机误差成分。.相关:设有两个随机变量X和丫,对于任一随机变量的每一个可能的值,另一个随机变量都有一个确定的分布与之对应,则称这两个随机变量间存在相关关系。如果对于变量x的每一个可能的值七,都有随机变量丫的一个分布相对应,则称随机变量y对变量x存在回归关系,称x自变量,称丫因变量。.变换:将曲线化为直线,再按直线回归处理。.概率论:研究偶然现象本身规律性的学科。.统计学:基于实际观测结果,利用概率论得出规律,揭示偶然性中所寄予的必然性的学科。.生物统计学:一门探讨如何从不完整的信息中获取科学可靠的结论,从而进一步进行生物学实验研究的设计、取样、分析、资料整理与推论的学科。.交互作用:一因子对另一因子的不同水准有不同的效果。.偏斜度(不考名词解释,但不代表不考):度量数据围绕众数呈不对称的程度。三、解答题.简述编制连续性数据的频数表的一般步骤。答:(1)从原始数据中找出最大值和最小值,并求出极差;(2)决定划分的组数(50-100个数一般为7-10组;数据较多时一般为15-20组)O(3)根据极差与划分的组数确定组限。(4)在频数表中列出全部组限、组界及中值。(5)将原始数据填入表中,计算各组的频数和频率。.几种常见的概率分布律答:(1)二项分布)概念:描述随机现象的一种常用概率分布形式,因与二项式展开式相同而得名。)应用条件(特点):每一种结果在每次试验中都有恒定的概率,试验之间是独立的。(2)泊松分布1)概念:在二项分布中,当某事件出现的概率特别小"fO),而样本含量又特别大(〃-8)且〃时,二项分布就变成泊松分布了。2)特点:在概率函数内的〃,不但是它的平均数,而且是它的方差。(3)正态分布1)概念:两头少,中间多,两侧对称,数据的这种分布规律称为正态分布。一般将〃=0,<7=1的正态分布称为标准正态分布,可表示为N(〃,cr?).2)特点(密度曲线):①在〃=0时,9(”)达到最大值。②当〃不论向那个方向远离。时,e的指数都变成一个绝对值越来越来大的负数,因此0(“)的值都减小。③曲线两侧对称,即以〃)=例-〃)。④曲线在〃=-1和”=1处有两个拐点。⑤曲线下的面积等于1o⑥对于标准正态分布的累积分布函数。(“)的值,有编好的数值表。从表中方可以查出0(”)的值。其值等于标准正态曲线从-8到〃的一段曲线面积。该曲线下的面积表示随机变量。落入区间(-8,0)的概率。⑦累积分布函数图形的特点:曲线在a处从0平稳上升,它关于点(0,0.5)中心对称。⑧="-1.960到“=1.960面积=0.9500;U=-2.576到“=2.576面积=0.99003.中心极限定理(1)概念:研究随机变量的极限分布是正态分布的一类定理,称为中心极限定理。简单叙述如下:假设被研究的随机变量丫可以表示为许多相互独立的随机变量工的和,如果匕的数量很大,而且每一个别的匕对于丫所起的作用又很小,则y可以被认为服从或近似服从正态分布。(2)重要推论:若已知总体平均数为〃,标准差为0,那么不论该总体是否正态分布,对于从该总体所抽取的含量为〃的样本,当〃充分大时,其平均数渐近服从正态分布N(〃,J)。n.总体和样本的关系可以从两个方面研究:(1)由已知的总体,研究样本的分布规律,即由总体到样本的研究过程;(2)由样本去推断未知的总体,属于从样本到总体的研究过程。.对总体做统计推断的两条途径:①首先对所估计的总体提出一个假设,然后通过样本数据去推断这个假设是否可以接受。如果可以接受,样本很可能抽自这个总体;否则很可能不是抽自这个样本;②通过样本统计量估计总体参数。.小概率原理:小概率事件在一次试验中几乎是不会发生的。若根据一定的假设条件算出来该事件发生的概率很小,而在一次试验中发生了,则可以认为假设的条件不正确,从而否定假设。.配对比较法与成组比较法有何不同?在什么情况下使用配对法?答:配对比较法:将独立获得的若干份实验材料各分成两部分或独立获得的若干对遗传上基本同质的个体,分别接受两种不同的处理;或者同一个实验对象先后接受两种不同处理,比较不同的处理效应,这种安排称为配对实验设计。成组比较法:将独立获得的若干实验材料随机分成两组,分别接受不同的处理,这种安排称为成组比较法。在生物统计学中,只有遗传背景一致的成对材料才能使用配对比较法。.方差分析的直观理解:在方差分析中,随机误差的方差可以由这a个样本内重复之间的方差获得。由重复之间计算得到的方差称为组内方差。用组内方差对组间方差做尸检验,若产值落在拒绝域内,则样本平均数之间的差异是显著的,样本间存在不同的处理效应。.固定效应答:(1)概念:由固定因素所引起的效应.(2)例子:实验者认为选定的几种不同实验温度,几种不同化学药物或一种药物的几种不同浓度等(因素的水平是认为选定的卜处理固定因素所用的模型称为固定效应模型。.随机效应:由随机因素所引起的效应;处理随机因素所用的模型称为随机模型。.SST(总平方和)=SSA(处理平方和或处理间平方和)+SSe(误差平方和或处理内平方和)其中 SS产(元-- sSa=〃£s-斤TOC\o"1-5"\h\z(=1 <=1mse=sSe msa=an-a a-\在实际计算时,357='£(几.-〉)2=2£%_二j=\ i=\j=inaa 1a,,2ssa=〃£(%-y.)2=_Xy;--Zi 〃普〃a其中的£通常称为校正项,用C表示。na.方差分析应满足三个条件:①可加性:每个处理效应与误差效应是可加的;②正态性:实验误差应当是服从正态分布N(0q2)的独立随机变量。因此,被检验的每一个总体也应该是正态的;③方差齐性(影响最大):各处理的误差方差应具备齐性,只有在具备齐性条件下才可做方差分析。.一元正态线性回归模型:若X是可控制的变量,在实验无限重复后,则可以得到在各七上的Y的条件平均数…,这些平均数构成一条直线〃y.x=。+像.参数a和£的估计:一般情况下,只能通过实验和调查获得有限对数据。因此,得不到真正的a和£。只能求出它们的估计值”和〃,从而得到一条估计直线y=a-^-hX.一元回归分析的意义:①预报;②减少实验误差。.试验计划书的内容:①封面:写明实验名称,计划书编制者或编制小组名称以及设计时间等;②国内外研究动态;③实验目的;④预期结果;⑤实验设计的选择;⑥试验方法的确定;⑦田间规划;⑧实验记录。.单个样本显著性检验程序:①假设:零假设是假设检验的基础(根据以往的经验、根据某种理论或模型、根据预先的规定),与零假设对立的是备择假设(除零假设以外的所有值、担心会出现的值、希望出现的值、有重要意义的值);②显著性水平(根据问题的要求规定显著性水平,一般情况下a取0.05,如果极显著则取0.01);③两种类型的错误(在规定显著性水平时,就应该考虑这两种错误中的哪一种对实验有更严重的影响。一般a不宜定得太严,否则必然增加月,条件允许下,尽量增加样本的含量);④确定检验方法(4已知时用“检验、(T2未知时用/检验、标准差用/检验);⑤建立在0水平上的〃。拒绝域(若统计量的值落在拒绝域内,则拒绝,。而接受““工⑥对推断的解释(若统计量的值落在接受域内,绝不是说总体参数一定等于零假设的值)。四、计算题(典型例题)一、0未知时平均数的显著性检验-检验(例5.5)已知玉米单交种群“单105”的平均穗重=300g。喷药后,随机抽取9个果穗,其穗中分别为308,305,311,298,315,300,321,294,320.问喷药后与喷药前的果穗重差异是否显著?解(1)已知玉米穗中是服从正态分布的,。未知(2)假设:/:〃=40(300g)“a:〃H(300g)(3)显著性水平:a=0.05(显著)(4)统计量的值t=2

s

y[n,9 (i>)2_i 1》y;_-其中y=,Zy=308,s=\-id 9 =9.62于是r-飞厂-2.49V9(5)建立“0的拒绝域:因"A:〃 ,所以是双侧检验。当1八>%,05(双黝时拒绝名。a=0.05的双侧临界值kw“双⑼=2306.(6)结论:由III〉%。。“双财可知产<°05,所以拒绝〃。,接受〃a。故喷药前后果穗重的差异是显著的。二、单因素方差分析1.调查了五个小麦品系的株高,结果见下表(每一个数都减去65)品系

序号IIIIIIIVV总和1-0.4-0.52.86.84.220.30.31.37.13.23-0.2-0.42.15.04.841.0-1.31.84.13.350.8-1.13.56.02.51.5-3.011.529.018.057.0X-2.259.00132.25841.00324.001308.501.933.429.43174.4668.06277.28/_572na⑸⑸=129.96/_572na⑸⑸=129.96再计算S5y=支名片S5y=支名片-<=17=1=277.28-129.96=147.32naw1V

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论