




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、泊松分布与,WGS,组装问题,樊伟,二项分布,(Binomial Distribution),?,在每一次试验中,都有两种互斥的结果,,如成功和失败。每一种结果在每次试验中,都有恒定的概率,设成功的概率为,?,。每次,试验之间是独立的,互不影响的。求在,n,次,试验中一种结果,(,如成功,),出现,x,次的概率?,?,?,k,n,k,n,k,k,X,P,?,?,?,?,),1,(,),(,?,?,?,?,!,)!,(,!,k,k,n,n,C,k,n,n,k,?,?,?,X,的均数,?,= n,?,X,的方差,?,2,= n,?,(1-,?,),泊松分布,?,二项分布中,如果,?,非常小,并且,
2、n,非常大,,则成为泊松分布。,u,X,e,X,P,X,X,?,?,?,!,),(,?,Piosson,分布的总体均数为,?,Piosson,分布的均数和方差相等,?,?,2,Possion distribution,0,0.05,0.1,0.15,0.2,0.25,0,10,20,30,40,50,60,Depth,F,r,a,c,t,i,o,n,?,为从,1,到,60,的,Possion distribution,曲线,,当,?,较大时,将接近于正态分布。,Comparison of possion and random,0.00,0.02,0.04,0.06,0.08,0,20,40,6
3、0,80,100,Depth,F,r,a,c,t,i,o,n,Possion,Random,用,C/C+,中,random,函数,模拟产生随机,reads,察看,depth,分布。,结果证明,random,函数足够随机,其产生的,reads,符合泊松分布。,WGS,测序,?,WGS (Whole Genome Shotgun),测序,就,是一个天然的泊松分布过程,包括碱基深,度分布,,Kmer,深度分布,以及,reads,duplication rate,等问题,均可以用泊松分布,来解释。,?,组装过程中的,contig,个数,,contig,平均长度,等问题,亦可根据泊松分布来进行推导,,这
4、就是,Lander-Waterman model,理论。,碱基深度问题,?,符合二项分布:,设基因组大小为,G,假定每次试验可从基因组任何,位置上随机产生一个碱基。对于基因组上某一个,固定碱基位置,在一次试验中,该位置被命中的,概率为,?,(,?,=1/G),。我们将试验重复,n,次,相当于,产生了,n,个碱基,(n=c*G, c,为,coverage),。碱基的深,度分布,相当于求该位置被命中,0,次,,1,次,,n,次的概率各是多少,?,?,符合泊松分布:,1/G,非常小,,c*G,非常大。,拓展开来,?,Kmer,的,mapping,,符合泊松分布。理解,Kmer,分布,是理解,Kmer
5、 de brujin graph,组,装的关键。,Kmer depth (d_k),是,de bruijn,graph,组装的核心参数。,?,整条,reads,的,mapping,亦符合泊松分布。这,可用来计算理论上的,reads duplication rate,问题。,Control the d_k, which equals to,(L-K)/L*c,d_k = (L-K)/L*c,P(X=0, e,-c,),c (d_b) when K=31, L=100,1.0,3.68E-01,1.4,2.0,1.35E-01,2.9,3.0,4.98E-02,4.3,4.0,1.83E-02,5
6、.8,4.6,1.01E-02,6.7,5.0,6.74E-03,7.2,10.0,4.54E-05,14.5,15.0,3.06E-07,21.7,20.0,2.06E-09,29.0,20.7,1.02E-09,30.0,25.0,1.39E-11,36.2,30.0,9.36E-14,43.5,每一个文库测序,duplication rate,理论值计算,Table. Ratio of duplicated reads (Possion P(X=2) ), let read length L=100bp.,Base depth (X),Read depth(X), Possion mea
7、n,value,Reads duplicate ratio,1,0.01,0.00%,2,0.02,0.02%,3,0.05,0.12%,10,0.1,0.47%,20,0.2,1.75%,50,0.5,9.02%,100,1,26.42%,200,2,59.40%,500,5,95.96%,Lander-Waterman model,理想组装模型,?,一定区间内落入,reads,问题,(Probability some read hits an,interval ),,是计算,Lander-Waterman model,的关键。,?,设基因组大小为,G,假定每次试验可从基因组任何位置上,随机产生一条长度为,L,的,reads,。对于某一长度为,L,的固定,区间,该,reads,的头部落入该区间的概率为,?,(,?,=L/G),。将,该试验重复
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年快时尚行业品牌故事与品牌价值研究报告
- 2025年农业产业集群农业产业链金融产品创新报告
- 生态环境与社会变迁的互动试题及答案
- 制作圆管用工协议书
- 商场使用安全协议书
- 合伙人入资金协议书
- 员工公司转让协议书
- 劳务清理卫生协议书
- 协作安全生产协议书
- 厂外住宿安全协议书
- 2025年初级消防员试题及答案
- 2025年四川省成都市锦江区中考数学二诊试卷(含部分答案)
- 气道净化护理解读
- 建筑工程质量通病防治手册(含图)
- 第12课+明朝的兴亡-【中职专用】《中国历史》以图证史教学课件(高教版2023•基础模块)
- 泵房设备维保操作
- 民事起诉状(机动车交通事故责任纠纷)
- 2025年广东江门公用水务环境股份有限公司招聘笔试参考题库含答案解析
- 《重大隐患判定标准解读》
- 认知障碍患者进食问题评估及处理
- 2024年中华医学会招聘真题
评论
0/150
提交评论