生物统计学笔记_第1页
生物统计学笔记_第2页
生物统计学笔记_第3页
生物统计学笔记_第4页
生物统计学笔记_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物统计学Statistics is the introduction of mathematical language into specific fields of scienc.It is an art and science for collecting, analyzing, showing and interpreting data.Sources of randomnessThe problem involves a large number of data, can not be fully studied, can only be used in a certain way to investigate part of it.The random error of the experiment, that is, the error caused by the uncontrolled, unrecongnized factors in the test process.Two major factionsClassicalThe probability of an event can be explained by a large number of repeated experiments, and this explanation does not depend on the cognitive body.BayesAny inference of the parameters is necessary and can only be based on the posterior distribution of parameters.Common statistical termsPopulation: Individual:Sample: a set of individuals drawn from a population is called a sample.Each individual that makes up a sample is called a sample unit.The number of individuals included in the sample is called sample size or sample sizes, and the sample capacity is often recorded as n.Generally in biological research, n=30 samples are usually called small samples.the calculation and analysis of some statics between small and big samples are different.The basic characterstic of statistical analysis is to infer the whole by sample.Variables and constantsDeviation and errorDeviation: random error: sampling errorsystematic error: lopsoded error生物统计学教学大纲2018年3月5日18:26第一章 绪论 (2学时) 主要内容:介绍课程的性质、内容和考核方式;了解生物统计学的发展历史和基本概念;通过具体实例说明生物体中随机现象的普遍性。 重点和难点:让学生认识到随机性在生命系统中具有普遍性。1. 生物统计发展历史2. 生物体中随机现象的普遍性第二章:试验与特征数的计算 (2学时)主要内容:试验资料的类型、收集与整理,层次分布表、直方图等收集和显示数据方式;特征数的计算,包括平均数、众数、方差、极差等。重点和难点:特征数的计算,平均数、众数、方差和极差的含义1. 试验材料的收集与整理2. 特征数的计算第三章:概率和概率分布(4学时)主要内容:大数定理;几种常见的理论分布,二项分布、泊松分布和正态分布;统计数的分布,t分布、2分布、F分布。 重点和难点:几种常见的理论分布和统计数的分布 1. 概率基础知识 2. 几种常见的理论分布 3. 统计数的分布第四章:统计推断 (8学时)主要内容:假设检验的原理和方法,具体假设检验方法,包括u检验、t检验和方差的同质性检验;参数估计和点估计,非参数检验。 重点和难点:假设检验的原理和方法,具体假设检验方法 1. 假设检验的原理和方法 2. 样本平均数的假设检验 3. 样本频率的假设检验 4. 方差的同质性检验第五章:卡方检验(2学时)主要内容:卡方检验的原理和方法,Pearson定理;卡方检验的应用,适合性检验和独立性检验。重点和难点:卡方检验的原理和方法1. 卡方检验的原理和方法2. 适合性检验3. 独立性检验第六章:方差分析(4学时)主要内容:方差分析、协方差分析的原理和方法,单因素、多因素方差分析,单因素、多因素协方差分析。 重点和难点:方差分析、协方差分析的原理和方法 1. 方差分析的基本原理 2. 单因素方差分析 3. 二因素方差分析第七章:直线回归与相关分析(4学时)主要内容:直线回归的原理和方法,曲线拟合的原理和方法,相关分析的原理和方法。 重点和难点:重点是直线回归的原理和方法,相关分析的原理和方法 1. 直线回归分析2. 直线相关第八章:试验设计及其统计分析(2学时)主要内容:试验设计的基本原理,常用试验设计和分析方法。 重点和难点:重点是试验设计的基本原理,难点是每个原理的具体实现方式和相关分析方法。 1. 试验设计的基本原则:重复、随机和局部控制 2. 局部控制的方法:比对设计、随机区组设计和拉丁方设计等第九章:扩展知识 (4学时, 理论课)主要内容:课程项目实践相关知识,包括统计学和生物学相关基础知识,如多重检验和小样本检验等统计学知识,以及DNA突变和单核苷酸多态性、基因型与表型、转录因子结合等生物学知识。 重点和难点:生物学和统计学之间的内在逻辑关系 1. DNA突变、转录因子结合、表型之间的联系 2. 课程项目实践和统计学在各个环节的衔接关系实践环节:课程项目实践 (16学时,上机操作)主要内容:根据生物统计学基本原理约设置4个生物学问题,在教师提供数据和具体解析待解决生物学问题的前提下,学生自行完成项目。项目结果以书面报告形式和课堂展示两种方式进行。 重点和难点:通过课程项目实践使学生初步具备应用统计学基本概念和方法分析并解决具体生物问题的能力。 1. 模式生物基因组GC含量特征或基因突变方向特征2. 基因型和表型关联分析 3. 转录因子结合位点 4. 自由选题来自 生物统计学概念及主要内容2018年3月9日19:54The concept and main content of biostatisticsConcept:Biostatistics is the application of mathematical statistics in biological researchSources of biological randomnessVariability, uncertainty, complexityCollation of data & caculation of the characteristic number2018年3月9日20:03Type of test data:Collection and collation of test dataQuantitative character is a character which could be counted or measured, the data get in this way is called data of quantitative characteristicsThe quantitative trait data is divided into two kinds, discrete type and continous.Qualitative character means the character which could be measured directly.The data obtained from the observation of quality traits is the quality character data. This type of trait can not be direcyly used as a numerical value, to obtain data on such traits, it is necessary to quantify the results of their observations.Collection of test data:Overall, samples Random samping must meet 2 conditions :Equal opportunity of each individual being drawn in the wholeIndependent of each other in the whole, whether being drawn is not affected by other individual.Finishing of test data:The formulation of the distribution tableThe caculation of the characteristic number2018年3月11日16:47The distribution of variables has two distinct basic characteristics: centealization and dispersionArithmetic mean: the sum means the numberMedian: the number standing at the middle of the lineMode: the value that has the most occurrences of the observed valueGeometric: Application scope:the geometrical mean numberis applicable to the logarithmic normal distribution of variable x, and the data of normal distribution after logarithmic transformation.Harmonic mean: The reciprocal of the arithmetic mean of the reciprocal of the observations in the dataThe important nature of arithemetic averages:The sum of the deviations is equal to zeroThe square sum of the deviation is minimumRange: the difference between the maximum value and the minimum value of a sample variableVariance: Standard deviation: The characteristics of standard deviation:The size of the standard deviation, affected by multiple observations, if the observation number of large differences between the difference is also large, and vise versa is smallCoefficient of variabilit:CV=s / x 100%The degree of relative variability of different samples can be comparedProbabity and probility distribution2018年3月12日12:40The concept:Wheather or not something happensFrequency: the number of occurrences of the event dicided by the total timesProbability: the frequency obtained after extensive testings, which is an approximate value.Classocal probabilty: the probablity is calculated directy from the characteristics of the event.Geometric probablity is considered as a random experiment with an infinite number of possible basic eventsThe axiomatic definition of probablity:Caculation of probability:Plot & and events, mutex events, opposing events, independent events, complete event systemThe law of probability caculation:the addition theorem of mutex events.定理: 若事件A与B互斥,则 P(A+B)=P(A)+P(B)推理1 P(A1+A2+An)=P(A1)+P(A2)+P(An)推理2 P(A)=1-P(A)推理3 完全事件系的和事件的概率为1。Probability distribution of discrete variablesProbability distribution of continuous type variablesThe probability depend on the distribution density functionLaw of large numbers:Chebyshev inequalities:Berrnoullis law of large numbers:Sinchin law of large numbers:第二节:几种常见的理论分布:二项分布:实验只有两个对立结果,具有重复性和独立性二项分布的形状和参数:p值较小且n不大时,分布是偏倚的,随着n的增大,分布趋于对称;当p趋于0.5时,分布趋于对称当n足够大时,符合泊松分布泊松分布函数的推导:正态分布:特征:分布曲线由,决定,前者确定曲线中心位置,后者确定正太分布的变异度他方分布:特征:(1)2分布于区间0,+ )。(2)2分布的偏斜度随自由度降低而增大,当自由度df=1时,曲线以纵轴为渐近线。(3)随自由度df的增大, 2分布曲线渐趋左右对称,当df30时,卡方分布已接近正态分布。t分布()t分布曲线是左右对称的,围绕平均数t =0 向两侧递降。(2)t分布受自由度制约,每个自由度都有一条t分布曲线。(3)和正态分布相比,t分布顶端偏低,尾部偏高,自由度df30时,其曲线接近正态分布曲线,n时则和正态分布曲线重合。F分布:(1)分布的平均数F=1 ,的取值区间为0,+)(2)分布曲线的形状仅决定于n1和n2。在n11或2时,分布曲线呈严重倾斜的反向型,当n1 3时,转为左偏曲线。统计数的分布如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。现有一N=3总体,具有变量3,4,5,可以求出=4, 20.6667, 0.8165。现以n=2作独立的有放回式抽样。中心极限定理:样本平均数差数分布:(1)样本平均数差数的平均数 = 总体平均数的差数.(2)样本平均数差数的方差 = 两样本平均数方差之和.样本平均数差数的标准误差(3)从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。统计推断2018年4月16日21:39假设检验的原理与方法一 概念 : 假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。小概率原理 概率很小的事件在一次抽样试验中实际是几乎不可能发生的。小概率事件在一次抽样中基本上不会发生。二 、假设检验的步骤例:设矽肺病患者的血红蛋白含量具平均数m0126(mg/L), s2 240 (mg/L)2的正态分布。现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。问:该药物治疗是否有效?治疗后 n 6 x 136 那么 mxm0 ? 即克矽平对治疗矽肺是否有效?1 、提出假设例:克矽平治疗矽肺病是否能提高血红蛋白含量?x-m0136-12610(mg/L)这一差数是由于治疗造成的,还是抽样误差所致。平均数的假设检验检验治疗后的总体平均数m是否还是治疗前的126(mg/L)?本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。2 、 确定显著水平能否定H0的人为规定的概率标准称为显著水平,记作a。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理基础上建立的假设检验也常取a=0.05和a=0.01两个显著水平 。3、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选择使用不同的检验方法。4、作出推断结论:是否接受假设小概率原理P0.11420.05所以不能拒绝H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。三 、双尾检验与单尾检验四 、两类错误1、当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加。2、n , s2 可使两类错误的概率都减小.如果从正态总体N(,2)进行抽样,其样本平均数 N(,2/n)。辛钦大数定律方差的同质性检验一、一个样本方差的检验-正态总体例: 已知某农田受到重金属的污染,经抽样测定其铅浓度为4.2,4.5,3.6,4.7,4.0,3.8,3.7,4.2gg-1,样本方差为0.150( gg-1)2,试检验受到污染的农田铅浓度的方差是否与正常农田铅浓度的方差0.065 ( gg-1)2相同。1、此题为一个样本方差与给定方差的同质性检验,使用 检验 。2、样本方差S2、给定方差和自由度已知3、双尾检验二、两个样本方差的检验-正态总体例:两个小麦品种千粒重(g)调查结果品种甲:50,47,42,43,39,51,43,38,44,37品种乙:36,38,37,38,36,39,37,35,33,37即sX222.933,sY22.933,nX=nY=10,检验两种结果方差是否有显著差异1、此题为通过两个样本检验总体方差的同质性,使用F检验。2、两个样本方差S2和自由度已知3、双尾检验样本平均数的假设检验一、一个样本平均数的检验1、总体方差2已知,采用u检验法-正态总体例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,(标准差为1.58cm)现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,其平均体长为7.65cm,标准差为1.58cm,问新育苗方法与常规方法有无显著差异?()这是一个样本平均数的假设检验,因总体2已知 ,采用u检验;()新育苗方法的鱼苗体长 或常规方法鱼苗体长,应进行双尾检验。2、总体方差2未知例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。()这是一个样本平均数的假设检验,因总体2未知,n=10 或30mm才符合纺织品的生产要求,因此进行单尾检验。二、两个样本平均数的假设检验X2 与Y2 未知且不等nX =nY=n,配对试验的t检验方差未知,单个平均数的假设检验,t检验例:某杂交黑麦从播种到开花的天数的标准差为6.9dA法:调查400株,平均天数为69.5dB法:调查200株,平均天数为70.3d试比较两种方法所得黑麦从播种到开花天数有无显著差别。()这是两个样本平均数比较的假设检验,A2=B2=(6.9d)2, 用u检验()因事先不知A、B两方法得到的天数孰高孰低,用双尾检验。例:用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在三个月时,测定两组大白鼠的增重(g)高蛋白组:134, 146, 106, 119, 124, 161, 107, 83, 113, 129, 97, 123低蛋白组:70, 118, 101, 85, 107, 132, 94试问两种饲料饲养的大白鼠增重量是否有差别?()这是两个样本平均数的检验,X2和Y2未知且不知是否相等, nX=12且nY =7,统计量的构造依赖方差是否相等。()事先不知两种饲料饲养大白鼠增重量孰高孰低,用双尾检验。品种甲:50,47,42,43,39,51,43,38,44,37品种乙:36,38,37,38,36,39,37,35,33,37例:两个小麦品种千粒重(g)调查结果检验两品种的千粒重有无差异。()12和22未知,且不知是否相等,但是nX=nY ,用t检验,但是统计量的构造依赖方差是否相等。()事先不知道两个品种千粒重孰高孰低,故而用双尾检验。例:动物饮食配对实验,测定肝中维生素A含量如下:动物配对正常饲料维生素E缺乏差数(d)1355024501100220002400-400330001800120043950320075053800325055063750270010507345025009508305017501300问:两组实验肝中维生素A含量是否有显著性差异?非正态总体的假设检验二项分布(单个样本)洞察力 某人随机抽取25张牌,并且确定每张牌的花色,答对的次数记为X。我们想通过X的观测值确定此人是否具有洞察力。检测假设假设 无洞察力(仅仅靠猜) p=1/4 具有洞察力 p1/4统计量(或随机变量)的确定 X:此人答对的次数统计量的分布: X服从二项分布,PX=k=Cnkpk(1-p)n-k n=25,k是观察值,p未知且需要检验零假设的确定: H0: p=1/4; H1: p1/4;单尾检验显著性检验水平的确定 通常:由0.01 或0.05。计算统计量 根据试验者的答对的次数,计算其随机猜中的概率。推断 由小概率事件原理进行推断 例:有一批蔬菜种子的平均发芽率为0.85,现随机抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽,检验种衣剂对种子发芽有无效果?(1)一个样本频率(二项分布)的假设检验;(2) np 和 nq 30 ,无需连续矫正,用u检验;(3)不知使用种衣剂的发芽率是高是低,用双尾检验。例:研究地势对小麦锈病发病的影响低洼地麦田378株,其中锈病株342株;高坡地麦田396株,其中锈病株313株比较两块麦田锈病发病率是否有显著性差异。(1)2个样本频率的假设检验,二项分布;(2) np 和 nq 30 ,无需连续矫正,用t检验(或u检验来近似);(3)事先不知两块麦田的锈病发病率孰高孰低,用双尾检验。例:某鱼场发生了药物中毒,抽查甲池中的29尾鱼,有20尾死亡,抽查乙池中的28尾鱼,有21尾死亡鱼的死亡率是否有显著性差异。(1)2个样本频率的假设检验,二项分布;(2) 5 np 和 nq 30 ,需进行连续矫正,因n130,n2 TA - GA - CTT - AT - GT - CGG - AG - TG - CCC - AC - TC - G建议合并,如G-A和C-T合并成GC-AT1、不同突变方向在基因序列和基因间序列是否具有显著差异?2、不同突变方向是否有显著性差异(可以不区分基因和基因间序列)?SNPRecently, numerous genome analyses revealed the existence of a universal DNA mutation bias in bacteria, fungi, plants and animals, namely, G:CA:T mutations are more frequent than A:TG:C counterparts.Evidence for the mutation biasEvidence for the mutation biasFigure. Relative rates of the six nucleotide pair mutations in human genomesWell-known DNA mutation modelsCpG hypermutation modelOxidative damage modelUV-radiation damage modelBUT Cant provide a sufficient explanation to the universal mutation biasFigure. DNA mutation caused by spontaneous deamination of 5-methylcytosine vs. spontaneous deamination of cytimidineDarwinian evolutionMendelian genetics课程项目二2018年4月15日19:02课程项目2背景简介1:ChIP-SeqChromatin Immunoprecipitation (ChIP) Chromatin Immunoprecipitation is a technique for assaying protein-DNA binding in vivo Antibodies are used to select specific proteins which enriches for DNA-fragments that are bound to these proteinsSelected fragments can be sequenced on modern NGS platform (ChIP-seq). Methods for Peak detection ChIP-Seq Peak Finder: Genome-wide mapping of in vivo protein-DNA interactions. Science-Johnson2007-1441.pdfModel-based Analysis of ChIP-Seq (MACS). GB-Zhang2008-r137.pdfDesign and analysis of ChIP-seq experiments for DNA-binding proteins. NBT-Kharchenko2008-1351.pdfCisGenome: An integrated software system for analyzing ChIP-chip and ChIP-seq data. NBT-Ji2008-1293.pdfPeakSeq enables systematic scoring of ChIP-seq experiments relative to controls. NBT-Rozowsky2009-66.pdf背景简介2:多重比较Multiple testing problem: suppose we have a number m of nul

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论