科学前沿 生物信息学_第1页
科学前沿 生物信息学_第2页
科学前沿 生物信息学_第3页
科学前沿 生物信息学_第4页
科学前沿 生物信息学_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学现状和重要研究方向,一.什么是生物信息学?Genomeinformaticsisascientificdisciplinethatencompassesallaspectsofgenomeinformationacquisition,processing,storage,distribution,analysis,andinterpretation.它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。(TheU.S.HumanGenomeProject:TheFirstFiveYearsFY1991-1995,byNIHandDOE)从美国的三个国家计划说起:曼哈顿计划;阿婆罗计划;人类基因组计划。破译人类遗传密码就要读懂由30亿符号组成的100万页的“天书”,计算机运算速度:18个月增长一倍;DNA序列数据:14个月增长一倍;,近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿,它们来自47000种生物。2000年4月DNA碱基数目是60亿。现在,2001年初这一数目已达110亿。各种生物的EST序列已达600多万条,其中人类的EST序列已超过300万条,估计覆盖人类基因90以上;UniGene的数目约达7万个;自1999年初单核苷酸多态性(SNPs,SingleNucleotidePolymorphisms)数据库出现以来,到2000年3月20日SNP的总数是26569,现在已超过350万;自全长1.8Mb的嗜血流感杆菌(HaemophilusinfluenzaeRd)基因组序列于1995年发表(Fleischmannetal.,1995)以来,已有54个模式生物的完整基因组被测序完成,它们中有9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中;,果蝇基因组包括1.2亿碱基对的编码区已于2000年2月测序并组装完成;人类基因组研究的标志性工作,包含三千三百万碱基对的人第22号染色体已于1999年11月完成测序,其结果发表在1999年12月2日的Nature杂志上。从第22号染色体已鉴定出679个基因,其中55的基因是未知的。有35种疾病与该染色体突变相关,象免疫系统疾病、先天性心脏病和精神分裂症。作为人类基因组研究的里程碑性的工作,覆盖率为90的人完整基因组的“工作草图”已经在2000年4月底完成,到2003年将获得覆盖率为99的人类基因组全部序列。对人的大约3万个基因,到目前为止已定位在染色体上的基因数目有14015个(见/LocusLink/statistics.html);,分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据有关PubMed数据整理)。,美国的核酸数据库GenBankBanson,D.A.etal.(1998)NucleicAcidsRes.26,1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,Howmanycharactersareinthe“HeavenBook”?3*10910,000books1book100pages1page3,000charactersCCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG(1250characters)关键是先要从一个个序列片段中得到这本天书,FROMSEQUENCEDATAOFDNATO3D-STRUCTUREOFPROTEIN,gene(codingregions,exons),primarysequenceofprotein,3D-structureofprotein,biologicalfunction,“JunkDNA”,(uncodingregions,95%ofhumangenome)Oneofthelargestchallengesisidentifyingtheunknownfunctionsthatalmostcertainlyexistinmuchofthe“junk”DNA.,?,生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。,生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至下一世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。,二、若干重要科学研究内容(一)、大规模基因组测序中的信息分析大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。,大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组(约1300万bp)所包含的6千多个基因,大约60是通过信息分析得到的。a)、利用EST数据库(dbEST)发现新基因和新SNPs国际上现已出现了几个基于EST的基因索引如UniGene(/pub/schuler/unigene),Merck-Geneindex(/est/esthmpg.html),GenExpress-index(),这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。超大规模计算b)、从基因组DNA序列中预测新ORF,(二)、新基因和新SNPs的发现与鉴定,(三)、比较基因组学研究研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。这又为什么?完整基因组序列的比较研究是解决这些问题的重要途径。,Thedistributionofmousehomologygenesinthehumanchromosome(DatafromGenBank,CoordinatebyR.S.Chen),*genesinthisNo.chromosomeofdistributionofmousehomologygenesmouseinhumanchromosome11、2、5、6、8、13、1822、7、9、10、11、15、2031、3、4、841、6、8、951、4、7、12、13、18、2262、3、7、10、1276、10、11、15、16、1981、4、8、13、16、1993、6、11、15、19106、10、12、19、21、22112、5、7、16、17、22122、7、14131、5、6、7、9、15、17143、8、10、13、14、X155、8、12、22163、8、16、21、22176、16、19、21185、10、18199、10、11、XXX*,Studyonconservationofgeneorderincompletegenomes,.Weanalyzedthegeneorderof70ribosomalproteinsin16completegenomes.Thesegeneswouldform9-14operonsineachgenome.Theresultsshowthat:(1)therearemorethat20ribosomalproteinscontainedinrpL3andrpL4operons,thegeneorderofthesegenesareveryconservedinbothEu-bacteriaandArchae-bacteria;(2)someoperonsstructurearespecialtoEu-bacteriaandArchae-bacteriarespectively;(3)ineachkingdom,somedifferenceofgeneorderindifferencespeciescouldbeusedtoinfertheevolutionaryrelationshipofthesespecies.Thismethodprovidesanewwaytostudytheevolutionaryrelationshipofthoseoldspecies.,*chromosome13arerelativelystable,forinstance,whereaschromosome12inmenandchromosome16inwomenareenormouslyfickle.*whyvertebrateshavefourtimesasmanyHOXgenes,agroupofkeydevelopmentalgenes,asdofruitflies.,(四)、基于完整基因组数据的生物进化研究自1859年Darwin的物种起源(OriginofSpecies)发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。完整的理论分析过程必须包含以下步骤:,序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;l序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;l构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;l稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。,进化分析相关软件的因特网地址*序列分析和多序列比较#BLASTWebsite/BLAST/#FASTAatEBIhttp:/www2.ebi.ac.uk/fasta3/#CLUSTALWsoftwareftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalW#HMMERsoftware/#SAMprofilesoftware/research/compbio/sam.html#BCMSearchLauncher:8088/searchlauncher/launcher.html系统进化树构建和稳定性分析#PHYLIP/phylip.html#Hennig86/mes/hennig/software.html#MEGA/METREE/faculty/nei/imeg#GAMBIT/mcdbio/Faculty/Lake/Research/Programs/#MacClade/macclade/macclade.html#PAUP/PAUP/#GCGsoftwarepackage,humangenomeshares223geneswithbacteria-genesthatdonotexistintheworm,fly,oryeast.Areticulatedtree,ornet,whichmightmoreappropriatelyrepresentlifeshistory.,MoreandmoreLGT(LateralGeneTransfer)werediscoveredandreported.Somepeopleguess1.5%14.5%ofgenesinagenomearerelatedwithLGT,evenrRNAmoleculesareinvolvedinLGT;Garcia-VallvS,RomeuA,PalauJ.,GenomeRes,2000,11,17191725YapWH,ZhangZ,WangY.,J.Bacteriol.1999,181:52015209Somepeopleargueitisimpossibletoreconstructauniversallifetree;PennisiE.,Science,1999,284:13051307DoolittleRF.,Nature,1998,392:339342Asmoreandmorewholegenomesequenceandtherelateddatabecomeavailable,itispossibletore-considerthephylogenyandclusteringpropertiesofspeciesinmorebroadmeasurements,eveninlevelofwholegenome.,PhylogenyBasedonWholeGenomeasinferredfromCompleteInformationSetAnalysis(CISA),wepresentanewmethodbasedoninformationtheorytocalculatethephylogenicdistancebetweenbiologicalsequences,including16sRibosomalRNA,whichisusedformethodproof-test,24completelysequencedgenomes,aswellasallpredictedORFproductsofthem,creatingPhylogenyofgenomeandproteomeusingneighboring-joiningalgorithm.Scientistshavealreadybeenconsciousofthatnootherbiologicalsequencecanbringmorephylogeneticinformationthanthegenome.However,previousalgorithmsdonthavetheabilitytohandlesuchmegabaselevelnucleicacidoraminoacidsequences,whoselengthsizesareinmostcasesunequal.,Phylogenyof23completelysequencedBacteriaandArchaeaspeciesonthebasisof16srRNA.A)Phylogenetictreebuiltbyournewmethod.B)PhylogenetictreebuiltbyClustalwprogram.,Phylogenyof24completelysequencedBacteria,ArchaeaandEukaryaspecies.A)genomictree.,PhylogenyofT.tengcongensisbasedonWholeGenome,(五)、大规模基因功能表达谱的分析随着人类基因组测序逐渐接近完成,人们自然会提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?人们进一步提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的定量程度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲除(knock-out)或基因过度表达的影响是什么;多基因差异表达与表现型关系如何等等。概括这些问题,其实质应该是:知道了核酸序列和基因,我们依然不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。,很多实验表明,在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有34万个转录子。有的组织中只有几十或几百个基因表达。不确切知道每种组织中表达基因的数目,以及每个基因的表达量,就无法从分子水平上了解这一组织在生命活动中的功能。研究工作也表明,同一组织在不同的个体生长发育阶段表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达;不考虑伴随着生物的生长发育,基因表达状况的变更,也无法确切地说明生命的过程。因此不少科学家认为基因组研究应当进入一个内函更丰富、更深刻的阶段。这一阶段的核心是获得基因的功能表达谱。,按物理学家的观点是应将存在于人类基因组上的静的基因图谱,向时间、空间维上展开。为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质谱技术和蛋白质组研究。,(六)、非编码区功能研究Whatisthetotalnumberofhumangenes?28,0004,000Only1.1%ofthegenomeisspannedbyexons,whereas24%isinintrons,with75%ofthegenomebeingintergenicDNA.Oneofthelargestchallengesisidentifyingtheunknownfunctionsthatalmostcertainlyexistinmuchofthe“junk”DNA.,OrganismYearMillionsTotalPredictedNumberofgenesofbasescoveragenumberpermillionbasessequenced(%)ofgenessequencedHumangenomeroughdraft20012,6938431,78012(publicsequence)Humangenomeroughdraft20012,6548339,11415(Celerasequence)Humanchromosome21200034752257Humanchromosome221999347054516Arabidopsisthaliana20001159225,498221Drosophilametanogaster20001166413,601117Caenorhabditiselegans1998979919,099197Saccharomycescerevisiae199612935,800483,NoncodingDNA:intron24%intergenicDNA75%promotertelomeresrepetitive45%LINE21850,000(拷贝数)SINE131,500,000LTR8450,000Transposons3%300,000LINEplayacrucialroleinXinactivation,theprocessbywhichoneofthetwoXchromosomesinafemaleisturnedoffearlyindevelopment.,重复序列在基因组中的比例Human45%Arabidopsis11%C.elegans7%D.melanogaster3%,IsthetripletuniqueinDNAsequences?,Asweregardthecodelengthofproteinencodingregionsas3,whichalwaysiscalledtripletcode,thencouldweregardthatofstructuralRNAencodingregionsas1?Furthermore,isthereanykindofcodonwithcodelengthotherthan3and1in“junk”DNA?Thisisaveryinterestquestion.,Dvalue(unevenPositionalBaseFrequencesMethod),(periodicityindexofasequences),PeriodicityIndex,WordLengthP,Fig1.Periodicityindexplotofintron,Fig2.Periodicityindexplotofexon,PeriodicityIndex,WordLengthP,Studyonpossibleperiodicityinintrons,StudyonpossibleperiodicityinAluelement,Aluelementsareverycommoninprimategenomes.Totallythereareabout500,000to1,000,000copynumbersofAluinahumangenome.WestudieditspossibleperiodicitieswithVosssmappingmethodandpowerandcross-powerspectradensitymethod.Itshowsthatthereexistsaperiodicity8withsignificantstatisticsinAlus.Besides,initsrightmonomer,therealsoexistperiodicity6.ThisresultstronglysupportsthatAluelementmightberelatedwithgeneregulation.,PossiblePeriodicityonAluSequences,Periodicityof32AluSequences,表一、基因组信息学相关数据库、服务器和中心*Databases#GenBank#EMBLhttp:/www.ebi.ac.uk#GDB#PDB#PIR/Dan/proteins/pir.html#ExPASyMolecularBiologyhttp:/expasy.hcuge.ch#GenomeSequenceDatabase(GSDB):80/gsdb#NucleicAcidDatabase(NDB)#DNADataBankofJapan(DDBJ)http:/www.nig.ac.jp#StructuralClassificationofProteins(SCoP)/scop*HumanGenomeCenter#BaylorCollegeofMedicineHumanGenomeCenter:8088/home.html#CooperativeHumanLinkageCenter(CHLC)#LawrenceBerkeleyLaboratoryHumanGenomeCenter(LBL)/GenomeHome.html#LawrenceLivermoreNationalLaboratoryBiologyandBiotechnologyRese-archProgram(LLNL)/bbrp/genome/genome.html#LosAlamosNationalLaboratoryBiosciences(LANL)/LSwelcome.html#ResourceforMolecularCytogenetics(UCSF/LBL)#StanfordHumanGenomeCenter#TheInstituteforGenomicResearch(TIGR)#UnversityofMichiganHumanGenomeCenter/Home.html#UniversityofTexasHealthScienceCenteratSanAntonioGenomeCenter#WashingtonUniversityCenterforGeneticsinMedicine:70/1/CGM,#WhiteheadInstituteCenterforGenomeResearch(atMIT)#YaleUniversity,AlbertEinsteinCenter#SangerCentre(UK)http:/www.sanger.ac.uk#Genethon(Frace)http:/www.genethon.fr/genethon_en.html#HGMPResourceCentre(UK)http:/www.hgmp.mrc.ac.uk#GenomeNet(Japan)http:/www.genome.ad.jp*HumanChromosome-SpecificWWWServers#Chromosome3(UniversityofTexas,SanAntonio)/DB#Chromosome8(Baylor):8088/chr8/home.html#Chromosome9(London)http:/diamond.gene.ucl.ac.uk/chr9home.html#Chromosome12(Yale)/chr12/Home.html#Chromosome16(LANL)/data/map16.txt#Chromosome19(LLNL)/bbrp/genome.html#Chromosome21(USDA):8300/cgi-bin/dbrun/hch21?c#Chromosome22(UniversityofPenn.)/cbil/chr22db#ChromosomeX(USDA):8300/cgi-bin/nph-3.sh/hchx/hchx?c#MitochondrialChromosome(Emory)/mitomap.html*SomeModelOrganismServers#C.elegansGenomeDatabase(ACeDB)http:/moulon.inra.fr/acedb/acedb.html#DrosophilaFlyBase(Harvard)#MouseGenomeDatabase(MGD)/mgd.html#DogGenomeProject(Berkeley)/dog.html#SheepGenomeMappingProject(USDA)/genome/sheep/sheep.html#CattleCytogeneticMap(Japan)http:/ws4.niai.affrc.go.jp/dbsearch2/cmap/cmap.html#PigMap(RoslinInstitute,UK)http:/rio3.ri.bbsrc.ac.uk/pigmap/pigmap.html#ChickenMap(RoslinInstitute,UK)http:/rio3.ri.bbsrc.ac.uk/chickmap/ChickMapHomePage.html#ZebrafishSite(UniversityofOregon)#SaccharomycesGenomicInformationResource,#ArabidopsisGenomeDatabase(AAtDB)#MaizeGenomeDatabasehttp:/teosinte.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论