mega操作过程-多序列比对、进化树、_第1页
mega操作过程-多序列比对、进化树、_第2页
mega操作过程-多序列比对、进化树、_第3页
mega操作过程-多序列比对、进化树、_第4页
mega操作过程-多序列比对、进化树、_第5页
已阅读5页,还剩168页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,基础生物信息学及应用,王兴平,多序列比对分子进化分析系统发生树构建核酸序列的预测与鉴定酶切图谱制作引物设计,内容,多序列比对,内容:多序列比对多序列比对程序及应用,第一节、多序列比对(Multiplesequencealignment),概念多序列比对的意义多序列比对的打分函数多序列比对的方法,1、概念,多序列比对(Multiplesequencealignment)alignmultiplerelatedsequencestoachieveoptimalmatchingofthesequences.为了便于描述,对多序列比对过程可以给出下面的定义:把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(下表)。,表1多序列比对的定义,表示五个短序列(I-V)的比对结果。通过插入空位,使5个序列中大多数相同或相似残基放入同一列,并保持每个序列残基顺序不变,2、多序列比对的意义,用于描述一组序列之间的相似性关系,以便了解一个分子家族的基本特征,寻找motif,保守区域等。用于描述一组同源序列之间的亲缘关系的远近,应用到分子进化分析中。序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。其他应用,如构建profile,打分矩阵等,手工比对在运行经过测试并具有比较高的可信度的计算机程序(辅助编辑软件如bioedit,seaview,Genedoc等)基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。计算机程序自动比对通过特定的算法(如穷举法,启发式算法等),由计算机程序自动搜索最佳的多序列比对状态。,3、多序列比对的方法,穷举法,穷举法(exhaustivealignmentmethod)将序列两两比对时的二维动态规划矩阵扩展到多维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法DCA(Divide-and-ConquerAlignment):aweb-basedprogramthatissemiexhaustivehttp:/bibiserv.techfak.uni-bielefeld.de/dca/,启发式算法,启发式算法(heuristicalgorithms):大多数实用的多序列比对程序采用启发式算法(heuristicalgorithms),以降低运算复杂度。随着序列数量的增加,算法复杂性也不断增加。用O(m1m2m3mn)表示对n个序列进行比对时的算法复杂性,其中mn是最后一条序列的长度。若序列长度相差不大,则可简化成O(mn),其中n表示序列的数目,m表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。,第二节多序列比对程序及应用,ProgressiveAlignmentMethodIterativeAlignmentBlock-BasedAlignmentDNASTARDNAMAN,1、ProgressiveAlignmentMethod,Clustal:Clustal,是由Feng和Doolittle于1987年提出的。Clustal程序有许多版本ClustalW(Thompson等,1994)是目前使用最广泛的多序列比对程序它的PC版本是ClustalX作为程序的一部分,Clustal可以输出用于构建进化树的数据。,ClustalW程序:ClustalW程序可以自由使用在NCBI/EBI的FTP服务器上可以找到下载的软件包。ClustalW程序用选项单逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。ftp:/ftp.ebi.ac.uk/pub/software/EBI的主页还提供了基于Web的ClustalW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户(或在线交互使用)。http:/www.ebi.ac.uk/clustalw/,ProgressiveAlignmentMethod,ClustalW程序ClustalW对输入序列的格式比较灵活,可以是FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和GDE等,用户可以根据自己的需要选择合适的输出格式。用ClustalW得到的多序列比对结果中,所有序列排列在一起,并以特定的符号代表各个位点上残基的保守性,“*”号表示保守性极高的残基位点;“.”号代表保守性略低的残基位点。,ProgressiveAlignmentMethod,ClustalW使用输入地址:http:/www.ebi.ac.uk/clustalw/设置选项(next),ProgressiveAlignmentMethod,ClustalW使用一些选项说明PHYLOGENETICTREE有三个选项TREETYPE:构建系统发育树的算法,有四个个选择none、nj(neighbourjoining)、phylip、distCORRECTDIST:决定是否做距离修正。对于小的序列歧异(10),选择与否不会产生差异;对于大的序列歧异,需做出修正。因为观察到的距离要比真实的进化距离低。IGNOREGAPS:选择on,序列中的任何空位将被忽视。详细说明参见http:/www.ebi.ac.uk/clustalw/clustalw_frame.html,ProgressiveAlignmentMethod,ClustalW使用输入5个16SRNA基因序列AF310602AF308147AF283499AF012090AF447394点击“RUN”,ProgressiveAlignmentMethod,ProgressiveAlignmentMethod,T-Coffee(Tree-basedConsistencyObjectiveFunctionforalignmentEvaluation):P/software/TCoffee.htmlInprocessingaquery,T-Coffeeperformsbothglobalandlocalpairwisealignmentforallpossiblepairsinvolved.Adistancematrixisbuilttoderiveaguidetree,whichisthenusedtodirectafullmultiplealignmentusingtheprogressiveapproach.OutperformsClustalwhenaligningmoderatelydivergentsequencesSlowerthanClustal,ProgressiveAlignmentMethod,PRALINE:web-based:http:/ibivu.cs.vu.nl/programs/pralinewww/FirstbuildprofilesforeachsequenceusingPSI-BLASTdatabasesearching.Eachprofileisthenusedformultiplealignmentusingtheprogressiveapproach.theclosestneighbortobejoinedtoalargeralignmentbycomparingtheprofilescoresdoesnotuseaguidetreeIncorporateproteinsecondarystructureinformationtomodifytheprofilescores.Perhapsthemostsophisticatedandaccuratealignmentprogramavailable.Extremelyslowcomputation.,ProgressiveAlignmentMethod,DbClustal:http:/igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.htmlPoa(Partialorderalignments):/poa/,2、IterativeAlignment,PRRN:web-basedprogramhttp:/prrn.ims.u-tokyo.ac.jp/Usesadoublenestediterativestrategyformultiplealignment.Basedontheideathatanoptimalsolutioncanbefoundbyrepeatedlymodifyingexistingsuboptimalsolutions,Block-BasedAlignment,DIALIGN2:awebbasedprogramhttp:/bioweb.pasteur.fr/seqanal/interfaces/dialign2.htmlItplacesemphasisonblock-to-blockcomparisonratherthanresidue-to-residuecomparison.Thesequenceregionsbetweentheblocksareleftunaligned.Theprogramhasbeenshowntobeespeciallysuitableforaligningdivergentsequenceswithonlylocalsimilarity.,Block-BasedAlignment,Match-Box:web-basedserverhttp:/www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.shtmlAimstoidentifyconservedblocks(orboxes)amongsequences.TheserverrequirestheusertosubmitasetofsequencesintheFASTAformatandtheresultsarereturnedbye-mail.,DNASTARDNAMAN,软件:,分子进化分析系统发生树构建,本章内容:分子进化分析介绍系统发生树构建方法系统发生树构建实例,第一节分子进化分析介绍,基本概念:系统发生(phylogeny)是指生物形成或进化的历史系统发生学(phylogenetics)研究物种之间的进化关系系统发生树(phylogenetictree)表示形式,描述物种之间进化关系,分子进化研究的目的从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律,分子进化分析介绍,分子进化分析介绍,分子进化研究的基础基本理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,Molecularclock1965),实际情况:虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律,分子进化分析介绍,直系同源与旁系同源Orthologs(直系同源):Homologoussequencesindifferentspeciesthatarosefromacommonancestralgeneduringspeciation;mayormaynotberesponsibleforasimilarfunction.Paralogs(旁系同源):Homologoussequenceswithinasinglespeciesthatarosebygeneduplication.。以上两个概念代表了两个不同的进化事件。用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。,分子进化分析介绍,分子进化分析介绍,系统发生树(phylogenetictree):又名进化树(evolutionarytree)已发展成为多学科交叉形成的一个边缘领域。包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论。闻名国际生物学界的美国冷泉港定量生物学会议于1987年特辟出进化树专栏进行学术讨论,标志着该领域已成为现代生物学的前沿之一,迄今仍很活跃。,分子进化分析介绍,分子进化分析介绍,系统发生树结构Thelinesinthetreearecalledbranches(分支).Atthetipsofthebranchesarepresent-dayspeciesorsequencesknownastaxa(分类,thesingularformistaxon)oroperationaltaxonomicunits(运筹分类单位).Theconnectingpointwheretwoadjacentbranchesjoiniscalledanode(节点),whichrepresentsaninferredancestorofextanttaxa.Thebifurcatingpointattheverybottomofthetreeistherootnode(根节),whichrepresentsthecommonancestorofallmembersofthetree.Agroupoftaxadescendedfromasinglecommonancestorisdefinedasacladeormonophyleticgroup(单源群).Thebranchingpatterninatreeiscalledtreetopology(拓扑结构).,分子进化分析介绍,有根树与无根树树根代表一组分类的共同祖先,分子进化分析介绍,如何确定树根根据外围群:Oneistouseanoutgroup(外围群),whichisasequencethatishomologoustothesequencesunderconsideration,butseparatedfromthosesequencesatanearlyevolutionarytime.根据中点:Intheabsenceofagoodoutgroup,atreecanberootedusingthemidpointrootingapproach,inwhichthemidpointofthetwomostdivergentgroupsjudgedbyoverallbranchlengthsisassignedastheroot.,Rootedbyoutgroup,分子进化分析介绍,分子进化分析介绍,树形系统发生图(Phylograms):有分支和支长信息分支图(Cladograms)只有分支信息,无支长信息,第二节系统发生树构建方法,Molecularphylogenetictreeconstructioncanbedividedintofivesteps:(1)choosingmolecularmarkers;(2)performingmultiplesequencealignment;(3)choosingamodelofevolution;(4)determiningatreebuildingmethod;(5)assessingtreereliability.,第三节系统发生树构建实例,系统发生分析常用软件(1)PHYLIP(2)PAUP(3)TREE-PUZZLE(4)MEGA(5)PAML(6)TreeView,(7)VOSTORG(8)Fitchprograms(9)Phylo_win(10)ARB(11)DAMBE(12)PAL(13)Bionumerics,其它程序见:/phylip/software.html,系统发生树构建实例,Mega3下载地址,离散特征数据(discretecharacterdata):即所获得的是2个或更多的离散的值。如:DNA序列某一位置是或者不是剪切位点(二态特征);序列中某一位置,可能的碱基有A、T、G、C共4种(多态特征);相似性和距离数据(similarityanddistancedata):是用彼此间的相似性或距离所表示出来的各分类单位间的相互关系。,核酸序列的预测和鉴定,内容:序列概率信息的统计模型核酸序列的预测与鉴定,第一节、序列概率信息的统计模型,Oneoftheapplicationsofmultiplesequencealignmentsinidentifyingrelatedsequencesindatabasesisbyconstructionofsomestatisticalmodels.Position-specificscoringmatrices(PSSMs)ProfilesHiddenMarkovmodels(HMMs).,收集已知的功能序列和非功能序列实例(这些序列之间是非相关的),训练集(trainingset),测试集或控制集(controlset),建立完成识别任务的模型,检验所建模型的正确性,对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。,进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,识别“功能序列”和“非功能序列”的过程,多序列比对,相关序列选取,模型构建,模型训练,参数调整,应用,确立模型ProfileHMM,Hmmcalibrate,ClustalX,Hmmbuild,Hmmt,HiddenMarkovModel,HiddenMarkovModel,应用HMMshasmorepredictivepowerthanProfiles.HMMisabletodifferentiatebetweeninsertionanddeletionstatesInprofilecalculation,asinglegappenaltyscorethatisoftensubjectivelydeterminedrepresentseitheraninsertionordeletion.,HiddenMarkovModel,应用OnceanHMMisestablishedbasedonthetrainingsequences,Itcanbeusedtodeterminehowwellanunknownsequencematchesthemodel.Itcanbeusedfortheconstructionofmultiplealignmentofrelatedsequences.HMMscanbeusedfordatabasesearchingtodetectdistantsequencehomologs.HMMsarealsousedinProteinfamilyclassificationthroughmotifandpatternidentificationAdvancedgeneandpromoterprediction,Transmembraneproteinprediction,Proteinfoldrecognition.,第二节核酸序列的预测与鉴定,本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计,1、核酸序列预测概念,指利用一些计算方式(计算机程序)从基因组序列中发现基因及其表达调控元件的位置和结构的过程。包括:基因预测(GenePrediction)基因表达调控元件预测(PromoterandRegulatoryElementPrediction),StructureofEukaryoticGenes,AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC,第二节核酸序列的预测与鉴定,本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计,基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理,2、基因预测,概念:GenePrediction:GivenanuncharacterizedDNAsequence,findout:Wheredoesthegenestartsandends?detectionofthelocationofopenreadingframes(ORFs)Whichregionscodeforaprotein?delineationofthestructuresofintronsaswellasexons(eukaryotic),2.1基因预测的概念及意义,基因预测的概念及意义,意义:ComputationalGeneFinding(GenePrediction)isoneofthemostchallengingandinterestingproblemsinbioinformaticsatthemoment.ComputationalGeneFindingisimportantbecauseSomanygenomeshavebeenbeingsequencedsorapidly.Purebiologicalmeansaretimeconsumingandcostly.FindinggenesinDNAsequencesisthefoundationforallfurtherinvestigation(Knowledgeoftheprotein-codingregionsunderpinsfunctionalgenomics).,基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理,2、基因预测,2.2、原核基因识别,原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。,原核基因预测工具介绍ORFFinderHMM-basedgenefindingprogramsGeneMarkGlimmerFGENESBRBSfinder,原核基因识别,ORFFinder(OpenReadingFrameFinder)/gorf/gorf.html,原核基因识别,zinc-bindingalcoholdehydrogenase,novicida(弗朗西丝菌),HMM-basedgenefindingprogramsGeneMark:Trainedonanumberofcompletemicrobialgenomes/GeneMark/,原核基因识别,HMM-basedgenefindingprogramsGlimmer(GeneLocatorandInterpolatedMarkovModeler):AUNIX/softlab/glimmer/glimmer.html,原核基因识别,HMM-basedgenefindingprogramsFGENESB:Web-basedprogramT,原核基因识别,HMM-basedgenefindingprogramsRBSfinder:UNIXprogramPredictedstartsites/pub/software/RBSfinder/,原核基因识别,基因预测的概念及意义原核基因识别真核基因预测的困难性真核基因预测的依据真核基因预测的基本步骤及策略真核基因预测方法及其基本原理,2、基因预测,WhyisGenePredictionChallenging?Codingdensity:asthecoding/non-codinglengthratiodecreases,exonpredictionbecomesmorecomplex.SomefactsabouthumangenomeCodingregionscompriselessthan3%ofthegenomeThereisageneof2400000bps,only14000bpsareCDS(0.5aredeemedreliable.Thisprogramistrainedforsequencesfromvertebrates,Arabidopsis,andmaize.Ithasbeenusedextensivelyinannotatingthehumangenome.,真核基因预测方法及其基本原理,AbInitioBasedProgramsGRAIL(GeneRecognitionandAssemblyInternetLink):aweb-basedprogram:/public/tools/basedonaneuralnetworkalgorithm.Theprogramistrainedonseveralstatisticalfeaturessuchassplicejunctions,startandstopcodons,poly-Asites,promoters,andCpGislands.Theprogramscansthequerysequencewithwindowsofvariablelengthsandscoresforcodingpotentialsandfinallyproducesanoutputthatistheresultofexoncandidates.Theprogramiscurrentlytrainedforhuman,mouse,Arabidopsis,Drosophila,andEscherichiacolisequences.,真核基因预测方法及其基本原理,AbInitioBasedProgramsFGENES(FindGenes)Web-basedprogram:,真核基因预测方法及其基本原理,AbInitioBasedProgramsMZEF(MichaelZhangsExonFinder)Webbased:/genefinder/UsesQDAforexonprediction.Hasnotbeenobviousinactualgeneprediction.,真核基因预测方法及其基本原理,AbInitioBasedProgramsHMMgene:Webbased:www.cbs.dtu.dk/services/HMMgeneHMM-basedprogram.Theuniquefeatureoftheprogramisthatitusesacriterioncalledtheconditionalmaximumlikelihoodtodiscriminatecodingfromnoncodingfeatures.Ifasequencealreadyhasasubregionidentifiedascodingregion,whichmaybebasedonsimilaritywithcDNAsorproteinsinadatabase,theseregionsarelockedascodingregions.AnHMMpredictionissubsequentlymadewithabiastowardthelockedregionandisextendedfromthelockedregiontopredicttherestofthegenecodingregionsandevenneighboringgenes.Theprogramisinawayahybridalgorithmthatusesbothabinitio-basedandhomology-basedcriteria.,真核基因预测方法及其基本原理,真核基因预测方法及其基本原理,Homology-BasedProgramsHomology-basedprogramsarebasedonthefactthatexonstructuresandexonsequencesofrelatedspeciesarehighlyconserved.Whenpotentialcodingframesinaquerysequencearetranslatedandusedtoalignwithclosestproteinhomologsfoundindatabases,nearperfectlymatchedregionscanbeusedtorevealtheexonboundariesinthequery.Thisapproachassumesthatthedatabasesequencesarecorrect.ItisareasonableassumptioninlightofthefactthatmanyhomologoussequencestobecomparedwitharederivedfromcDNAorexpressedsequencetags(ESTs)ofthesamespecies.,Homology-BasedPrograms:优势:Withthesupportofexperimentalevidence,thismethodbecomesratherefficientinfindinggenesinanunknowngenomicDNA.不足:Thedrawbackofthisapproachisitsrelianceonthepresenceofhomologsindatabases.Ifthehomologsarenotavailableinthedatabase,themethodcannotbeused.Novelgenesinanewspeciescannotbediscoveredwithoutmatchesinthedatabase.,真核基因预测方法及其基本原理,Homology-BasedProgramsGenomeScanweb-basedserver:/genomescan.htmlCombinesGENSCANpredictionresultswithBLASTXsimilaritysearches.TheuserprovidesgenomicDNAandproteinsequencesfromrelatedspecies.ThegenomicDNAistranslatedinallsixframestocoverallpossibleexons.Thetranslatedexonsarethenusedtocomparewiththeuser-suppliedproteinsequences.Translatedgenomicregionshavinghighsimilarityattheproteinlevelreceivehigherscores.ThesamesequenceisalsopredictedwithaGENSCANalgorithm,whichgivesexonsprobabilityscores.Finalexonsareassignedbasedoncombinedscoreinformationfrombothanalyses.,真核基因预测方法及其基本原理,Homology-BasedProgramsEST2Genome:web-basedprogram:http:/bioweb.pasteur.fr/seqanal/interfaces/est2genome.htmlTodefineintronexonboundaries.PurelybasedonthesequencealignmentapproachTheprogramcomparesanEST(orcDNA)sequencewithagenomicDNAsequencecontainingthecorrespondinggene.Thealignmentisdoneusingadynamicprogrammingbasedalgorithm.,真核基因预测方法及其基本原理,Homology-BasedProgramsTwinScan/Asimilarity-basedgene-findingserver.PredictexonsHowtoworks:itusesGenScantopredictallpossibleexonsfromthegenomicsequence.TheputativeexonsareusedforBLASTsearchingtofindclosesthomologs.TheputativeexonsandhomologsfromBLASTsearchingarealignedtoidentifythebestmatch.Onlytheclosestmatchfromagenomedatabaseisusedasatemplateforrefiningthepreviousexonselectionandexonboundaries.,真核基因预测方法及其基本原理,真核基因预测方法及其基本原理,Consensus-BasedProgramsTheseprogramsworkbyretainingcommonpredictionsagreedbymostprogramsandremovinginconsistentpredictions.Suchanintegratedapproachmayimprovethespecificitybycorrectingthefalsepositivesandtheproblemofoverprediction.However,sincethisprocedurepunishesnovelpredictions,itmayleadtoloweredsensitivityandmissedpredictions.Twoexamplesofconsensus-basedprogramsaregivennext.,Consensus-BasedProgramsGeneComber:awebserver:www.bioinformatics.ubc.ca/genecomber/index.phpCombinesHMMgeneandGenScanpredictionresults.Theconsistencyofbothpredictionmethodsiscalculated.Ifthetwopredictionsmatch,theexonscoreisreinforced.Ifnot,exonsareproposedbasedonseparatethresholdscores.,真核基因预测方法及其基本原理,Consensus-BasedProgramsDIGIT:webserver:http:/digit.gsc.riken.go.jp/cgi-bin/index.cgiFirst,existinggene-finders(FGENESH,GENSCAN,andHMMgene)areappliedtoanuncharacterizedgenomesequence(inputsequence).Next,DIGITproducesallpossibleexonsfromtheresultsofgene-finders,andassignsthemtheirreadingframesandscores.Finally,DIGITsearchesasetofexonswhoseadditivescoreismaximizedundertheirreadingframeconstraints.,真核基因预测方法及其基本原理,真核基因预测方法及其基本原理,PerformanceEvaluationBecauseofextralayersofcomplexityforeukaryoticgeneprediction,thesensitivityandspecificityhavetobedefinedonthelevelsofnucleotides,exons,andentiregenes.Thesensitivity(Sn)attheexonandgenelevelistheproportionofcorrectlypredictedexonsorgenesamongactualexonsorgenes.Thespecificity(Sp)atthetwolevelsistheproportionofcorrectlypredictedexonsorgenesamongallpredictionsmade.,真核基因预测方法及其基本原理,PerformanceEvaluationAtpresent,nosinglesoftwareprogramisabletoproduceconsistentsuperiorresults.Someprogramsmayperformwelloncertaintypesofexons(e.g.,internalorsingleexons)butnotothers(e.g.,initialandterminalexons).SomearesensitivetotheG-Ccontentoftheinputsequencesortothelengthsofintronsandexons.Mostprogramsmakeoverpredictionswhengenescontainlongintrons.Insum,theyallsufferfromtheproblemofgeneratingahighnumberoffalsepositivesandfalsenegatives.Thisisespeciallytrueforabinitiobasedalgorithms.Forcomplexgenomessuchasthehumangenome,mostpopularprogramscanpredictnomorethan40%ofthegenesexactlyright.Drawingconsensusfromresultsbymultiplepredictionprogramsmayenhanceperformancetosomeextent.,第二节核酸序列的预测与鉴定,本节内容核酸序列预测概念基因预测启动子和调控元件预测酶切位点分析与引物设计,PromoterandRegulatoryElementPredictionThecomputationalapproachtoidentifypromotersandregulatoryelementsofgenes.PromotersDNAelementslocatedinthevicinityofgenestartsites(whichshouldnotbeconfusedwiththetranslationstartsites)andserveasbindingsitesforthegenetranscriptionmachinery,consistingofRNApolymerasesandtranscriptionfactors.,3、PromoterandRegulatoryElementPrediction,程序:AbInitioBasedAlgorithmsBPROMCpGProD(CpG岛)EponineCluster-BusterFirstEF(FirstExonFinder)McPromoter,PromoterandRegulatoryElementPrediction,AbInitioBasedAlgorithmsBPROM:Web-basedprogram:,PromoterandRegulatoryElementPrediction,AbInitioBasedAlgorithmsCpGProD:Web-basedprogram:http:/pbil.univ-lyon1.fr/so

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论