mega操作过程多序列比对进化树ppt课件.ppt_第1页
mega操作过程多序列比对进化树ppt课件.ppt_第2页
mega操作过程多序列比对进化树ppt课件.ppt_第3页
mega操作过程多序列比对进化树ppt课件.ppt_第4页
mega操作过程多序列比对进化树ppt课件.ppt_第5页
已阅读5页,还剩169页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 基础生物信息学及应用 2 多序列比对分子进化分析 系统发生树构建核酸序列的预测与鉴定酶切图谱制作引物设计 内容 3 多序列比对 4 内容 多序列比对多序列比对程序及应用 5 第一节 多序列比对 Multiplesequencealignment 概念多序列比对的意义多序列比对的打分函数多序列比对的方法 6 1 概念 多序列比对 Multiplesequencealignment alignmultiplerelatedsequencestoachieveoptimalmatchingofthesequences 为了便于描述 对多序列比对过程可以给出下面的定义 把多序列比对看作一张二维表 表中每一行代表一个序列 每一列代表一个残基的位置 将序列依照下列规则填入表中 a 一个序列所有残基的相对位置保持不变 b 将不同序列间相同或相似的残基放入同一列 即尽可能将序列间相同或相似残基上下对齐 下表 7 表1多序列比对的定义 表示五个短序列 I V 的比对结果 通过插入空位 使5个序列中大多数相同或相似残基放入同一列 并保持每个序列残基顺序不变 8 2 多序列比对的意义 用于描述一组序列之间的相似性关系 以便了解一个分子家族的基本特征 寻找motif 保守区域等 用于描述一组同源序列之间的亲缘关系的远近 应用到分子进化分析中 序列同源性分析 是将待研究序列加入到一组与之同源 但来自不同物种的序列中进行多序列同时比较 以确定该序列与其它序列间的同源性大小 其他应用 如构建profile 打分矩阵等 9 手工比对在运行经过测试并具有比较高的可信度的计算机程序 辅助编辑软件如bioedit seaview Genedoc等 基础上 结合实验结果或文献资料 对多序列比对结果进行手工修饰 应该说是非常必要的 为了便于进行交互式手工比对 通常使用不同颜色表示具有不同特性的残基 以帮助判别序列之间的相似性 计算机程序自动比对通过特定的算法 如穷举法 启发式算法等 由计算机程序自动搜索最佳的多序列比对状态 3 多序列比对的方法 10 穷举法 穷举法 exhaustivealignmentmethod 将序列两两比对时的二维动态规划矩阵扩展到多维矩阵 即用矩阵的维数来反映比对的序列数目 这种方法的计算量很大 对于计算机系统的资源要求比较高 一般只有在进行少数的较短的序列的比对的时候才会用到这个方法DCA Divide and ConquerAlignment aweb basedprogramthatissemiexhaustivehttp bibiserv techfak uni bielefeld de dca 11 启发式算法 启发式算法 heuristicalgorithms 大多数实用的多序列比对程序采用启发式算法 heuristicalgorithms 以降低运算复杂度 随着序列数量的增加 算法复杂性也不断增加 用O m1m2m3 mn 表示对n个序列进行比对时的算法复杂性 其中mn是最后一条序列的长度 若序列长度相差不大 则可简化成O mn 其中n表示序列的数目 m表示序列的长度 显然 随着序列数量的增加 序列比对的算法复杂性按指数规律增长 12 第二节多序列比对程序及应用 ProgressiveAlignmentMethodIterativeAlignmentBlock BasedAlignmentDNASTARDNAMAN 13 1 ProgressiveAlignmentMethod Clustal Clustal 是由Feng和Doolittle于1987年提出的 Clustal程序有许多版本ClustalW Thompson等 1994 是目前使用最广泛的多序列比对程序它的PC版本是ClustalX作为程序的一部分 Clustal可以输出用于构建进化树的数据 14 ClustalW程序 ClustalW程序可以自由使用在NCBI EBI的FTP服务器上可以找到下载的软件包 ClustalW程序用选项单逐步指导用户进行操作 用户可根据需要选择打分矩阵 设置空位罚分等 ftp ftp ebi ac uk pub software EBI的主页还提供了基于Web的ClustalW服务 用户可以把序列和各种要求通过表单提交到服务器上 服务器把计算的结果用Email返回用户 或在线交互使用 http www ebi ac uk clustalw ProgressiveAlignmentMethod 15 ClustalW程序ClustalW对输入序列的格式比较灵活 可以是FASTA格式 还可以是PIR SWISS PROT GDE Clustal GCG MSF RSF等格式 输出格式也可以选择 有ALN GCG PHYLIP和GDE等 用户可以根据自己的需要选择合适的输出格式 用ClustalW得到的多序列比对结果中 所有序列排列在一起 并以特定的符号代表各个位点上残基的保守性 号表示保守性极高的残基位点 号代表保守性略低的残基位点 ProgressiveAlignmentMethod 16 ClustalW使用输入地址 http www ebi ac uk clustalw 设置选项 next ProgressiveAlignmentMethod 17 ClustalW使用一些选项说明PHYLOGENETICTREE有三个选项TREETYPE 构建系统发育树的算法 有四个个选择none nj neighbourjoining phylip distCORRECTDIST 决定是否做距离修正 对于小的序列歧异 10 选择与否不会产生差异 对于大的序列歧异 需做出修正 因为观察到的距离要比真实的进化距离低 IGNOREGAPS 选择on 序列中的任何空位将被忽视 详细说明参见http www ebi ac uk clustalw clustalw frame html ProgressiveAlignmentMethod 18 ClustalW使用输入5个16SRNA基因序列AF310602AF308147AF283499AF012090AF447394点击 RUN ProgressiveAlignmentMethod 19 ProgressiveAlignmentMethod T Coffee Tree basedConsistencyObjectiveFunctionforalignmentEvaluation Progressivealignmentmethodwww ch embnet org software TCoffee htmlInprocessingaquery T Coffeeperformsbothglobalandlocalpairwisealignmentforallpossiblepairsinvolved Adistancematrixisbuilttoderiveaguidetree whichisthenusedtodirectafullmultiplealignmentusingtheprogressiveapproach OutperformsClustalwhenaligningmoderatelydivergentsequencesSlowerthanClustal 20 ProgressiveAlignmentMethod PRALINE web based http ibivu cs vu nl programs pralinewww FirstbuildprofilesforeachsequenceusingPSI BLASTdatabasesearching Eachprofileisthenusedformultiplealignmentusingtheprogressiveapproach theclosestneighbortobejoinedtoalargeralignmentbycomparingtheprofilescoresdoesnotuseaguidetreeIncorporateproteinsecondarystructureinformationtomodifytheprofilescores Perhapsthemostsophisticatedandaccuratealignmentprogramavailable Extremelyslowcomputation 21 ProgressiveAlignmentMethod DbClustal http igbmc u strasbg fr 8080 DbClustal dbclustal htmlPoa Partialorderalignments http www bioinformatics ucla edu poa 22 2 IterativeAlignment PRRN web basedprogramhttp prrn ims u tokyo ac jp Usesadoublenestediterativestrategyformultiplealignment Basedontheideathatanoptimalsolutioncanbefoundbyrepeatedlymodifyingexistingsuboptimalsolutions 23 Block BasedAlignment DIALIGN2 awebbasedprogramhttp bioweb pasteur fr seqanal interfaces dialign2 htmlItplacesemphasisonblock to blockcomparisonratherthanresidue to residuecomparison Thesequenceregionsbetweentheblocksareleftunaligned Theprogramhasbeenshowntobeespeciallysuitableforaligningdivergentsequenceswithonlylocalsimilarity 24 Block BasedAlignment Match Box web basedserverhttp www fundp ac be sciences biologie bms matchbox submit shtmlAimstoidentifyconservedblocks orboxes amongsequences TheserverrequirestheusertosubmitasetofsequencesintheFASTAformatandtheresultsarereturnedbye mail 25 DNASTARDNAMAN 软件 26 分子进化分析 系统发生树构建 27 本章内容 分子进化分析介绍系统发生树构建方法系统发生树构建实例 28 第一节分子进化分析介绍 基本概念 系统发生 phylogeny 是指生物形成或进化的历史系统发生学 phylogenetics 研究物种之间的进化关系系统发生树 phylogenetictree 表示形式 描述物种之间进化关系 29 分子进化研究的目的从物种的一些分子特性出发 从而了解物种之间的生物系统发生的关系 蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律 分子进化分析介绍 30 分子进化分析介绍 分子进化研究的基础基本理论 在各种不同的发育谱系及足够大的进化时间尺度中 许多序列的进化速率几乎是恒定不变的 分子钟理论 Molecularclock1965 实际情况 虽然很多时候仍然存在争议 但是分子进化确实能阐述一些生物系统发生的内在规律 31 分子进化分析介绍 直系同源与旁系同源Orthologs 直系同源 Homologoussequencesindifferentspeciesthatarosefromacommonancestralgeneduringspeciation mayormaynotberesponsibleforasimilarfunction Paralogs 旁系同源 Homologoussequenceswithinasinglespeciesthatarosebygeneduplication 以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列必须是直系同源的 才能真实反映进化过程 32 分子进化分析介绍 33 分子进化分析介绍 系统发生树 phylogenetictree 又名进化树 evolutionarytree 已发展成为多学科交叉形成的一个边缘领域 包括生命科学中的进化论 遗传学 分类学 分子生物学 生物化学 生物物理学和生态学 又包括数学中的概率统计 图论 计算机科学和群论 闻名国际生物学界的美国冷泉港定量生物学会议于1987年特辟出 进化树 专栏进行学术讨论 标志着该领域已成为现代生物学的前沿之一 迄今仍很活跃 34 分子进化分析介绍 35 分子进化分析介绍 系统发生树结构Thelinesinthetreearecalledbranches 分支 Atthetipsofthebranchesarepresent dayspeciesorsequencesknownastaxa 分类 thesingularformistaxon oroperationaltaxonomicunits 运筹分类单位 Theconnectingpointwheretwoadjacentbranchesjoiniscalledanode 节点 whichrepresentsaninferredancestorofextanttaxa Thebifurcatingpointattheverybottomofthetreeistherootnode 根节 whichrepresentsthecommonancestorofallmembersofthetree Agroupoftaxadescendedfromasinglecommonancestorisdefinedasacladeormonophyleticgroup 单源群 Thebranchingpatterninatreeiscalledtreetopology 拓扑结构 36 分子进化分析介绍 有根树与无根树树根代表一组分类的共同祖先 37 分子进化分析介绍 如何确定树根根据外围群 Oneistouseanoutgroup 外围群 whichisasequencethatishomologoustothesequencesunderconsideration butseparatedfromthosesequencesatanearlyevolutionarytime 根据中点 Intheabsenceofagoodoutgroup atreecanberootedusingthemidpointrootingapproach inwhichthemidpointofthetwomostdivergentgroupsjudgedbyoverallbranchlengthsisassignedastheroot 38 Rootedbyoutgroup 分子进化分析介绍 39 分子进化分析介绍 树形系统发生图 Phylograms 有分支和支长信息分支图 Cladograms 只有分支信息 无支长信息 40 第二节系统发生树构建方法 Molecularphylogenetictreeconstructioncanbedividedintofivesteps 1 choosingmolecularmarkers 2 performingmultiplesequencealignment 3 choosingamodelofevolution 4 determiningatreebuildingmethod 5 assessingtreereliability 41 42 第三节系统发生树构建实例 系统发生分析常用软件 1 PHYLIP 2 PAUP 3 TREE PUZZLE 4 MEGA 5 PAML 6 TreeView 7 VOSTORG 8 Fitchprograms 9 Phylo win 10 ARB 11 DAMBE 12 PAL 13 Bionumerics 其它程序见 http evolution genetics washington edu phylip software html 43 系统发生树构建实例 Mega3下载地址 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 离散特征数据 discretecharacterdata 即所获得的是2个或更多的离散的值 如 DNA序列某一位置是或者不是剪切位点 二态特征 序列中某一位置 可能的碱基有A T G C共4种 多态特征 相似性和距离数据 similarityanddistancedata 是用彼此间的相似性或距离所表示出来的各分类单位间的相互关系 66 核酸序列的预测和鉴定 67 内容 序列概率信息的统计模型核酸序列的预测与鉴定 68 第一节 序列概率信息的统计模型 Oneoftheapplicationsofmultiplesequencealignmentsinidentifyingrelatedsequencesindatabasesisbyconstructionofsomestatisticalmodels Position specificscoringmatrices PSSMs ProfilesHiddenMarkovmodels HMMs 69 收集已知的功能序列和非功能序列实例 这些序列之间是非相关的 训练集 trainingset 测试集或控制集 controlset 建立完成识别任务的模型 检验所建模型的正确性 对预测模型进行训练 使之通过学习后具有正确处理和辨别能力 进行 功能 与 非功能 的判断 根据判断结果计算模识别的准确性 识别 功能序列 和 非功能序列 的过程 70 多序列比对 相关序列选取 模型构建 模型训练 参数调整 应用 确立模型ProfileHMM Hmmcalibrate ClustalX Hmmbuild Hmmt HiddenMarkovModel 71 HiddenMarkovModel 应用HMMshasmorepredictivepowerthanProfiles HMMisabletodifferentiatebetweeninsertionanddeletionstatesInprofilecalculation asinglegappenaltyscorethatisoftensubjectivelydeterminedrepresentseitheraninsertionordeletion 72 HiddenMarkovModel 应用OnceanHMMisestablishedbasedonthetrainingsequences Itcanbeusedtodeterminehowwellanunknownsequencematchesthemodel Itcanbeusedfortheconstructionofmultiplealignmentofrelatedsequences HMMscanbeusedfordatabasesearchingtodetectdistantsequencehomologs HMMsarealsousedinProteinfamilyclassificationthroughmotifandpatternidentificationAdvancedgeneandpromoterprediction Transmembraneproteinprediction Proteinfoldrecognition 73 第二节核酸序列的预测与鉴定 本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计 74 1 核酸序列预测概念 指利用一些计算方式 计算机程序 从基因组序列中发现基因及其表达调控元件的位置和结构的过程 包括 基因预测 GenePrediction 基因表达调控元件预测 PromoterandRegulatoryElementPrediction 75 StructureofEukaryoticGenes 76 AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC 77 第二节核酸序列的预测与鉴定 本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计 78 基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理 2 基因预测 79 概念 GenePrediction GivenanuncharacterizedDNAsequence findout Wheredoesthegenestartsandends detectionofthelocationofopenreadingframes ORFs Whichregionscodeforaprotein delineationofthestructuresofintronsaswellasexons eukaryotic 2 1基因预测的概念及意义 80 基因预测的概念及意义 意义 ComputationalGeneFinding GenePrediction isoneofthemostchallengingandinterestingproblemsinbioinformaticsatthemoment ComputationalGeneFindingisimportantbecauseSomanygenomeshavebeenbeingsequencedsorapidly Purebiologicalmeansaretimeconsumingandcostly FindinggenesinDNAsequencesisthefoundationforallfurtherinvestigation Knowledgeoftheprotein codingregionsunderpinsfunctionalgenomics 81 基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理 2 基因预测 82 2 2 原核基因识别 原核基因识别任务的重点是识别开放阅读框 或者说识别长的编码区域 一个开放阅读框 ORF openreadingframe 是一个没有终止编码的密码子序列 83 原核基因预测工具介绍ORFFinderHMM basedgenefindingprogramsGeneMarkGlimmerFGENESBRBSfinder 原核基因识别 84 ORFFinder OpenReadingFrameFinder http www ncbi nlm nih gov gorf gorf html 原核基因识别 85 zinc bindingalcoholdehydrogenase novicida 弗朗西丝菌 86 87 88 89 90 HMM basedgenefindingprogramsGeneMark Trainedonanumberofcompletemicrobialgenomeshttp opal biology gatech edu GeneMark 原核基因识别 91 HMM basedgenefindingprogramsGlimmer GeneLocatorandInterpolatedMarkovModeler AUNIXprogramwww tigr org softlab glimmer glimmer html 原核基因识别 92 HMM basedgenefindingprogramsFGENESB Web basedprogramT 原核基因识别 93 HMM basedgenefindingprogramsRBSfinder UNIXprogramPredictedstartsitesftp ftp tigr org pub software RBSfinder 原核基因识别 94 基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理 2 基因预测 95 WhyisGenePredictionChallenging Codingdensity asthecoding non codinglengthratiodecreases exonpredictionbecomesmorecomplex SomefactsabouthumangenomeCodingregionscompriselessthan3 ofthegenomeThereisageneof2400000bps only14000bpsareCDS 1 2 3真核基因预测的困难性 96 worm E coli Splicingofgenes findingmultiple short exonsisharderthanfindingasingle long exon SomefactsabouthumangenomeAverageof5 6exons geneAverageexonlength 200bpAverageintronlength 2000bp 8 geneshaveasingleexonSomeexonscanbeassmallas3bp Alternatesplicingareverydifficulttopredict next 真核基因预测的困难性 97 真核基因预测的困难性 98 基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理 2 基因预测 99 真核基因预测的依据 功能位点Splicingsitesignals剪切供体位点和受体位点 Donor Acceptor thesplicejunctionsofintronsandexonsfollowtheGT AGruleinwhichanintronatthe5splicejunctionhasaconsensusmotifofGTAAGT Donor andatthe3splicejunctionisaconsensusmotifof Py 12NCAG Acceptor 100 NucleotideDistributionProbabilitiesaroundDonorSites 真核基因预测的依据 101 NucleotideDistributionProbabilitiesaroundnonDonorSites 真核基因预测的依据 102 NucleotideDistributionaroundSplicingSites 103 功能位点Translationinitiationsitesignaltranslationstartcodon MostvertebrategenesuseATGasthetranslationstartcodonandhaveauniquelyconservedflankingsequencecallaKozaksequence CCGCCATGG Translationterminationsitesignaltranslationstopcodon TGA 真核基因预测的依据 104 功能位点TranscriptionstartsignalsTranscriptionstartsignals CpGisland toidentifythetranscriptioninitiationsiteofaeukaryoticgenemostofthesegeneshaveahighdensityofCGdinucleotidesnearthetranscriptionstartsite ThisregionisreferredtoasaCpGisland 真核基因预测的依据 105 酵母基因组两联核苷酸频率表 仅为随机概率的20 但在真核基因启动子区 CpG出现密度达到随机预测水平 长度几百bp 人类基于组中大约有45000个CpG岛 其中一半与管家基因有关 其余与组织特异性基于启动子关联 106 功能位点TranscriptionstopsignalsTranscriptionstopsignals Thepoly Asignalcanalsohelplocatethefinalcodingsequence 真核基因预测的依据 107 编码区与非编码区基因组成特征密码子使用偏好外显子长度等值区 isochore 真核基因预测的依据 108 编码区与非编码区基因组成特征CodonUsagePreference 密码子使用偏好 Statisticalresultsshowthatsomecodonsareusedwithdifferentfrequenciesincodingandnon codingregions e g hexamerfrequenciesCodonUsageFrequency 真核基因预测的依据 109 Forcodingregion Fornon codingregion 编码区与非编码区基因组成特征CodonUsagePreferenceHexamer Di codonUsage 双连密码子 frequencies hexamerfrequencies 连续6核苷酸 出现频率的比对是确定一个窗口是否属于编码区或非编码区的最好单个指标 真核基因预测的依据 110 编码区与非编码区基因组成特征CodonUsagePreferenceCodonUsageFrequency 密码子的使用频率 由于密码子的简并性 degeneracy 每个氨基酸至少对应1种密码子 最多有6种对应的密码子 在基因中 同义密码子的使用并不是完全一致的 不同物种 不同生物体的基因密码子使用存在着很大的差异在不同物种中 类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小 真核基因预测的依据 111 CodonUsageFrequency Forcodingregion 112 113 LengthDistributionofInternalExonsofHumanGenes 编码区与非编码区基因组成特征外显子长度 真核基因预测的依据 114 编码区与非编码区基因组成特征等值区定义 具有一致碱基组成的长区域长度超过1000000bp同一等值区GC含量相对均衡 但不同等值区GC含量差异显著人类基因组划分为5个等值区L1 GC39 L2 GC42 L1和L2包含80 的组织特异性基因H1 GC46 H2 GC49 H3 GC54 包含80 的管家基因 真核基因预测的依据 115 TheDependenceofCodonUsageScoreonCGContent 116 基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理 2 基因预测 117 2 5真核基因预测的步骤和策略 Themainissueinpredictionofeukaryoticgenesistheidentificationofexons introns andsplicingsites 118 真核基因预测的步骤和策略 119 真核基因预测的步骤和策略 基本步骤判定序列中的载体污染屏蔽重复序列发现基因结果评估 120 真核基因预测的步骤和策略 序列中的污染和重复元件必须首先去除 序列污染 sequencecontamination 的来源 载体接头和PCR引物转座子和插入序列DNA RNA样品纯度不高重复元件 repetitiveelement 散在重复元件 卫星DNA 简单重复序列 低复杂度序列等 121 基因发现策略 Thecurrentgenepredictionmethodscanbeclassifiedintotwomajorcategories从头计算法或基于统计的方法 abinitio basedapproachesorStatisticallybasedmethod predictsgenesbasedonthegivensequencealone基于同源序列比对的方法 homology basedapproachesorSequencealignmentbasedmethod makespredictionsbasedonsignificantmatchesofthequerysequencewithsequencesofknowngenes 真核基因预测的步骤和策略 122 基因发现的策略选择 真核基因预测的步骤和策略 123 基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理 2 基因预测 124 载体污染判定方法重复序列分析程序基因预测程序 Eukaryotic 2 6 真核基因预测方法及其基本原理 125 载体污染判定载体污染判定方法载体数据库相似性搜索搜索序列中的限制酶切位点工具 VecScreen NCBIBlast2EVEC EMBLwww ebi ac uk blastall vectors html 真核基因预测方法及其基本原理 126 真核基因预测方法及其基本原理 屏蔽重复序列重复序列分析程序RepeatMasker 针对灵长类 啮齿类 拟南芥 草本植物 果蝇ftp genome washington edu cgi bin RepeatMaskerXBLAST 适用于任何物种bioweb pasteur fr seqanal interfaces xblast html data 127 真核基因预测方法及其基本原理 GenePredictionPrograms Eukaryotic AbInitio BasedProgramsHomology BasedProgramsConsensus BasedProgramsPerformanceEvaluation 128 真核基因预测方法及其基本原理 AbInitio BasedProgramsThegoaloftheabinitiogenepredictionprogramsistodiscriminateexonsfromnoncodingsequencesandsubsequentlyjointheexonstogetherinthecorrectorder Thealgorithmsrelyontwofeatures genesignalsgenecontentToderiveanassessmentforthisfeature HMMsorneuralnetwork basedalgorithmscanbeusedThefrequentlyusedabinitioprogramsaredescribednext 129 AbInitio BasedProgramsGENSCAN Webbased http genes mit edu GENSCAN htmlmakespredictionsbasedonfifth orderHMMs Itcombineshexamerfrequencieswithcodingsignals initiationcodons TATAbox capsite poly A etc inprediction Putativeexonsareassignedaprobabilityscore P ofbeingatrueexon OnlypredictionswithP 0 5aredeemedreliable Thisprogramistrainedforsequencesfromvertebrates Arabidopsis andmaize Ithasbeenusedextensivelyinannotatingthehumangenome 真核基因预测方法及其基本原理 130 AbInitio BasedProgramsGRAIL GeneRecognitionandAssemblyInternetLink aweb basedprogram http compbio ornl gov public tools basedonaneuralnetworkalgorithm Theprogramistrainedonseveralstatisticalfeaturessuchassplicejunctions startandstopcodons poly Asites promoters andCpGislands Theprogramscansthequerysequencewithwindowsofvariablelengthsandscoresforcodingpotentialsandfinallyproducesanoutputthatistheresultofexoncandidates Theprogramiscurrentlytrainedforhuman mouse Arabidopsis Drosophila andEscherichiacolisequences 真核基因预测方法及其基本原理 131 132 133 134 AbInitio BasedProgramsFGENES FindGenes Web basedprogram 真核基因预测方法及其基本原理 135 AbInitio BasedProgramsMZEF MichaelZhang sExonFinder Webbased http argon cshl org genefinder UsesQDAforexonprediction Hasnotbeenobviousinactualgeneprediction 真核基因预测方法及其基本原理 136 AbInitio BasedProgramsHMMgene Webbased www cbs dtu dk services HMMgeneHMM basedprogram Theuniquefeatureoftheprogramisthatitusesacriterioncalledtheconditionalmaximumlikelihoodtodiscriminatecodingfromnoncodingfeatures Ifasequencealreadyhasasubregionidentifiedascodingregion whichmaybebasedonsimilaritywithcDNAsorproteinsinadatabase theseregionsarelockedascodingregions AnHMMpredictionissubsequentlymadewithabiastowardthelockedregionandisextendedfromthelockedregiontopredicttherestofthegenecodingregionsandevenneighboringgenes Theprogramisinawayahybridalgorithmthatusesbothabinitio basedandhomology basedcriteria 真核基因预测方法及其基本原理 137 真核基因预测方法及其基本原理 Homology BasedProgramsHomology basedprogramsarebasedonthefactthatexonstructuresandexonsequencesofrelatedspeciesarehighlyconserved Whenpotentialcodingframesinaquerysequencearetranslatedandusedtoalignwithclosestproteinhomologsfoundindatabases nearperfectlymatchedregionscanbeusedtorevealtheexonboundariesinthequery Thisapproachassumesthatthedatabasesequencesarecorrect ItisareasonableassumptioninlightofthefactthatmanyhomologoussequencestobecomparedwitharederivedfromcDNAorexpressedsequencetags ESTs ofthesamespecies 138 Homology Ba

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论