泊松分布与WGS组装问题_第1页
泊松分布与WGS组装问题_第2页
泊松分布与WGS组装问题_第3页
泊松分布与WGS组装问题_第4页
泊松分布与WGS组装问题_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、泊松分布与,WGS,组装问题,樊伟,二项分布,(Binomial Distribution),?,在每一次试验中,都有两种互斥的结果,,如成功和失败。每一种结果在每次试验中,都有恒定的概率,设成功的概率为,?,。每次,试验之间是独立的,互不影响的。求在,n,次,试验中一种结果,(,如成功,),出现,x,次的概率?,?,?,k,n,k,n,k,k,X,P,?,?,?,?,),1,(,),(,?,?,?,?,!,)!,(,!,k,k,n,n,C,k,n,n,k,?,?,?,X,的均数,?,= n,?,X,的方差,?,2,= n,?,(1-,?,),泊松分布,?,二项分布中,如果,?,非常小,并且,

2、n,非常大,,则成为泊松分布。,u,X,e,X,P,X,X,?,?,?,!,),(,?,Piosson,分布的总体均数为,?,Piosson,分布的均数和方差相等,?,?,2,Possion distribution,0,0.05,0.1,0.15,0.2,0.25,0,10,20,30,40,50,60,Depth,F,r,a,c,t,i,o,n,?,为从,1,到,60,的,Possion distribution,曲线,,当,?,较大时,将接近于正态分布。,Comparison of possion and random,0.00,0.02,0.04,0.06,0.08,0,20,40,6

3、0,80,100,Depth,F,r,a,c,t,i,o,n,Possion,Random,用,C/C+,中,random,函数,模拟产生随机,reads,察看,depth,分布。,结果证明,random,函数足够随机,其产生的,reads,符合泊松分布。,WGS,测序,?,WGS (Whole Genome Shotgun),测序,就,是一个天然的泊松分布过程,包括碱基深,度分布,,Kmer,深度分布,以及,reads,duplication rate,等问题,均可以用泊松分布,来解释。,?,组装过程中的,contig,个数,,contig,平均长度,等问题,亦可根据泊松分布来进行推导,,这

4、就是,Lander-Waterman model,理论。,碱基深度问题,?,符合二项分布:,设基因组大小为,G,假定每次试验可从基因组任何,位置上随机产生一个碱基。对于基因组上某一个,固定碱基位置,在一次试验中,该位置被命中的,概率为,?,(,?,=1/G),。我们将试验重复,n,次,相当于,产生了,n,个碱基,(n=c*G, c,为,coverage),。碱基的深,度分布,相当于求该位置被命中,0,次,,1,次,,n,次的概率各是多少,?,?,符合泊松分布:,1/G,非常小,,c*G,非常大。,拓展开来,?,Kmer,的,mapping,,符合泊松分布。理解,Kmer,分布,是理解,Kmer

5、 de brujin graph,组,装的关键。,Kmer depth (d_k),是,de bruijn,graph,组装的核心参数。,?,整条,reads,的,mapping,亦符合泊松分布。这,可用来计算理论上的,reads duplication rate,问题。,Control the d_k, which equals to,(L-K)/L*c,d_k = (L-K)/L*c,P(X=0, e,-c,),c (d_b) when K=31, L=100,1.0,3.68E-01,1.4,2.0,1.35E-01,2.9,3.0,4.98E-02,4.3,4.0,1.83E-02,5

6、.8,4.6,1.01E-02,6.7,5.0,6.74E-03,7.2,10.0,4.54E-05,14.5,15.0,3.06E-07,21.7,20.0,2.06E-09,29.0,20.7,1.02E-09,30.0,25.0,1.39E-11,36.2,30.0,9.36E-14,43.5,每一个文库测序,duplication rate,理论值计算,Table. Ratio of duplicated reads (Possion P(X=2) ), let read length L=100bp.,Base depth (X),Read depth(X), Possion mea

7、n,value,Reads duplicate ratio,1,0.01,0.00%,2,0.02,0.02%,3,0.05,0.12%,10,0.1,0.47%,20,0.2,1.75%,50,0.5,9.02%,100,1,26.42%,200,2,59.40%,500,5,95.96%,Lander-Waterman model,理想组装模型,?,一定区间内落入,reads,问题,(Probability some read hits an,interval ),,是计算,Lander-Waterman model,的关键。,?,设基因组大小为,G,假定每次试验可从基因组任何位置上,随机产生一条长度为,L,的,reads,。对于某一长度为,L,的固定,区间,该,reads,的头部落入该区间的概率为,?,(,?,=L/G),。将,该试验重复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论