




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
组学分析(一 组研究概 组数据质 组组 预 组物种注 组功能注 组研究概 组数据质 组组 预 组概AntonivanLeeuwenhoekLouisPasteur RobertKoch 组学(Metagenomics,又称 组),最早由 组学(Metagenomics,又称 组),最早由 研究对象:环境样品中的微生物群 研 :高通 和功 筛研究目的:微生物多样性、种群结构、进化关系 功能性、相互协作关系 表达与环境之间的关 Q20、N50、诺禾 组实验上机流 组研究概 组数据质 组组 预 组数据质基本概
质控结•常用格
去Ns碱去宿 read GCcontent:GC Removehost在NCBI中搜索宿主(或近缘物种) 在NCBI中搜索宿主(或近缘物种) 目 组序质量值<=20的含量较数据优碱基含量分布正常,AT%,GC%,N 样品名插入片段大策下机始数(M)有效数据(M)Q20百分Q30百分比GC含量有效百分比FASTX-NGSQC
组研究概 组数据质 组组 预 组组基本概
基本
基本…
基本ContigScaffold
基本概念具有指定长度为K(suchasK=15)的DNAKmer种类:假设K=15,共有4种碱基型,则共有415种Kmer个数:沿着read每走1bp取1个Kmer。可以得到Kmer的总数:N=L-假设read长为31bp,K=15,一共可以产生31-15+1=17个 基本概念基本概念基本概念Scaffold:通过使用具有paired-end关系的reads对Contig进行Gap:序列中未确定的区域,通常用N或n表示 基本概念将组装得到的scaffold从N连接处打断,得到不含N的序列片段称为 组组装简单示意 DeBrujin图算法(DeBrujingraph ::DeBrujin图算法deBrujinAssembly 2222
••Clippedtheshorttipsthathadlengthslessthan2Kmers(50bpKmers=25)inthegraph.Filteredlow-coverageUsingreadpathinformation,resolvedtinyMerge••• a e e StoreStorethekmersofcontiginahash,usekmeraskey,contigidandpositionasvalues.
PEreadsmappedtoFInsertF
PEreadsmappedtotwocontigsonthesamestandRR
Mapsdirectlyonthereferencesequence,denoteasMapsreverselyandcomplementarilyonthereferencedenoteas1、read1与参考序列直接匹配2、F表示上游;R表示下 read1
read1 read11
2
read11
2Note:contig1andcontig2aretheoriginalcontigs,contig1’andcontig2’arereverseandcomplementaryAreliablelinkwillbebuiltbetweentwocontigs,whenthereare>=3pair-endreadssupport.Besidescontigorderanddirection,thegapsizecanalsobeestimatedfromtheinsertsizeandmap positionofeachreadpair.SmallGapFillFillthesmallgapbysingleLongGapFillFillthelonggapbypair-end样品名称Scaftigs总长Scaftigs总条数Scaftigs平均长度N50N90Scaftigs最长值 常用组基于OLC原理构建Contig:
基于DBG原理构建 其它 Reads,Length100UsethesamewaytogetKmers,onereadcangenerateL-K+1Kmers(100-69+1=32).如果总 条数为N,read的长度为L,kmer的总个数为那么:n=(L-当,k6(-6)NN;当,k6(-6)NN;因此,增加read的长度,能够有效提升kmer利用率以及的深度,更利于组装;还能减少gap数量,使组装结果更完 组研究概 组数据质 组组 预 预•…
基本原基本常用
预测结Gff文结果展基本概念有遗传效应的 段,控制生物性状的 位结基本概念2:CDSVSCDS(Codingsequence):编码一段蛋白产物的序ORF(OpenReadingFrame)由编码氨基酸的三。组成的连续DNA序列,由起 子开始,终 子终。-Usuallydeterminedfrom andthusareknowntobecodingfor-ThebasesequenceisdetermineddirectlyfromDNA,not Theyarepotentiallycodingforsomething,butnoconfirmedthatactuallydooraretranscribed translationtranscription是事实存在基本概念3:其 组组rRNA(ribosomalsRNA(small串联重复序列:小DNA,微•同源预测: 常 预测软MetaGeneandGeneMarkand 基本原理一:同源预测(Similaritybasedmethods,evidenced-method,homologybasedusehomologysearchestofindgenessimilartothoseobserved 能够预测出在referencedatabases预测依赖于已知 信不能发现novelor 基本原理二:从头预测(AbBasedonintrinsicfeaturesoftheDNAsequencetodifferentiatebetweencodingregionsofasequencefromnon-codingregions.(statisticalmodels)采用的features包括:codonusagestart/stopcodonpatternsandso 基本原理二:从头预测(AbThehiddenMarkovmodelsSupportvectorGlimmer-Artificialneuralnetworks(ANN): 预测软件—MetaGeneandStatisticalmodelsofbacterial,archaeaandprophageFeatures:GCcontentandthedi-codonVerysensitivemethod(overOnlyworkswithreadsthatareofatleast100MetaGeneAnnotator(MGA)AnextensionofFeatures:AddingribosomalbindingsiteSlightlymoreaccuratethanMetaGeneonfragmented 预测软件—BasedonFeatures:integratescodonusagebias,sequencingerrormethodsandstart/stopcodonpatterns.Takesintoaccountsequencingerrors,showntoimprovethetruegenepredictionRhoM,TangH,YeY.FragGeneScan:predictinggenesinshortanderror-pronereads[J].Nucleicacidsresearch,2010,38(20):e191-e191.,CDSORFMetaGeneandGeneMarkand 预 是Sanger 行描述的一种数据格式,已经成为序列注释的通用格式,比如序列的哪里到哪里是已经成为序列注释的通用格式,GFF格式举例如下:.-0.-03.+0.+0.-0.+0“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-,- 0.95)进行聚类,选取代表性序列作为UniqueGenes ,然后统计各个UniqueGene比对上的reads数目,并计算得到UniqueGenes在各统计各样品中,UniqueScaftigs比对上的reads综合得到各样品 丰度信息 丰度统0600000000000000000000预测基本概预测基本原预测常用软预测基本过程及结软件安组装测ovo2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西方国家的经济政策与政治考量试题及答案
- 教育政策中的公平与效率问题探讨试题及答案
- 探讨西方国家的科技与治理关系试题及答案
- 机电系统集成考题及答案
- 西方国家意识形态的变迁分析试题及答案
- 机电工程加工工艺试题及答案
- 软考网络工程师综合素质试题及答案分析
- 项目收尾与总结阶段试题及答案
- 如何促进政府决策的透明与开放试题及答案
- 社会保障政策考试试题及答案
- 国际档案日宣传教育课件(带内容)
- 基于PLC的药房取药系统设计
- 安徽省汽车维修行业车辆维修合同
- GB/T 16447-2004烟草及烟草制品调节和测试的大气环境
- 公司劳务派遣人员工资薪酬发放暂行规定
- 建筑大师伊东丰雄简介及作品集课件
- 公司二次经营创效管理实施细则
- BRCGS食品安全全球标准第9版全套程序文件
- 2023年福建省高一数学竞赛试题参考答案
- 2023年最新的马季吹牛相声台词
- 一年级英语下册素材-Unit 1 Lets count!课文翻译 译林版(一起)
评论
0/150
提交评论