




免费预览已结束,剩余20页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学在新基因克隆中的应用2OOO年第4期(总第48期)大理师专NO.42000(ThCeneralserialNO.48)2OOO年12月JOUILNALOFDALITEACHERSCOLLEGEDec.2000鐾僭回网程滨苏鸿雁(1.淮南师专,安徽淮南,232001,2.大理师范高等专科学校生化系,云南大理,671000)【摘要】计算机技术的日益发展,使生物学的研究越来越离不开计算机及网络技术.本文从数据库,数据库查询,网络搜索工具等方面分析了计算机及网络技术在基因克隆中的应用.【关键词】生物信息学基因克隆计算机网络【中图分类号】Q一332【文献标识码】B【文章编号】1008-9748(2000)04008106,I1leRoleofBiologicalInformationStudyinOoningofNewGeneAbstract:Thedevelopment0fcomputertechnologyis既dcingstudiesinbiologyincreasinglyinseparablefromcomputersandcybertechnolo-gY.nlispaperanalysestheapplicationofcomputersandcybertechnologyincloninggenefromtheperspective0fdatabank.data?hankinquiry,andinternetbrowser.keywords:biologicalinformationstudy;genecloning;computerandinternet随着计算机科学,物理学,数学等与生命科学的相互渗透和交叉,生物信息学愈来愈显示出其重要性.这其中计算机科学尤其是网络技术的广泛应用,使得世界各国的生物学研究者所获得的数据,成果能够共享.数据库的建立,软件的开发及各种服务工具的发展让研究者了解和使用共享信息.这些资源每日都在更新,我们需要对它们有一定的了解,这了解对自身研究工作的进展可能有意想不到的帮助.在这里分以下几个方面介绍生物信息学的一些概况,同时对生物学信息学在新基因克隆中的应用作初步的探讨.一.数据库目前为止,数据库已经发展得比较成熟.大的分类明确,有核酸,蛋白各类数据库,还有物种特异性数据库,组织特异性数据库,基因/蛋白质数据库等.这些数据库有专门的实验室维护,相关的实验数据可以注册到相应的数据库中.这一点是非常重要的.如果不更新数据,扩充信息量,那么数据库的功能等于零.主要的数据库:1.三大数据库:GenBank(US)8,EMBL(Europe)9,DDBJ(Japan)10.2.蛋白数据库:PDB11,swISsPROT12.3.基因组数据库:GDB(human),MGB(nlouse),SGB(yeast).4.特殊数据库:dbEST(expressedsequencetags)13,dhSIS(sequencetaggedsites)14,abSNP(SieNucleotidePolymorphism)15,OMIM(OnCeMendelianInheritanceinMan)16,AceDb(Caenorhabditiselegansdb)17).GenBank,EMBL,DDBJ是生物学三大数据库(图1).这里主要介绍一下这三个数据库的情况.它们三者组成国际联合序列数据库(internationalcollaborationofscxtuendaabase).三个数据库之间每天交换数据,.以保证三个站点都能最大限度的涵盖序列信息.用户可以免费从Intemet上获得序列信息,通过下载或直接浏览.大理师专Internati0naINucleotideDat强BanksEMBLEU.DDpeu.1tM0kcu竹BiC,i(gVLab0ralnEBI.EtLropeanBiolnfol-fflatlf:3Irn九JNLI,:lan0na】LlbofedcmeN0BI.NaoonCeli塘JforBiotechnoic,gYInfol”ffJa+donNIG:l-IamIn村InstltuteofGe?ic3C【B:eenterf(ldormaW_,nBiologyDDBJ:Di-】ADa协B8a-dofJap;ytGenBank1是一个公共数据库,含有核酸,蛋白序列,由NCBI(TheNationalCenterforBiotechnologyInfor.marion)维护.它的序列来源有两个渠道:1.由研究者直接注册;2.大批量注册,这主要指EST和largegenomierecords.注册方式有两种.一为用Bankit直接从网上注册,或用NCBI开发的软件Sequin操作.注册后,GenBank会给每个序列一个认证号(gi),同时有一登记号(Accessionnumber),这个编号对某个特定序列来说是不变的,唯一的.许多杂志要求作者将序列登记到数据库中,这是文章刊登的先决条件,而Acces.sionnumber就可作为序列登记的标志.NCBI每两个月公布一次,最近一次是1998年12月15日,为releasellO.O.大约每15个月GenBank的信息量就增加一倍,如此的发展速度是惊人的.下面的表1.反映了GenBank数据量的发展.ReleaseDateBasePairsEntries58Dec882469O8763Dec8268o3386O65914Nov83227402924276020May84300208836656124Sep84332327041356225Oct84336876541756326Nov84368975243936432May85421193149546536Sep855204420570o6640Fleb865925.42966426742May86676547674166844Aug86844235788236946Nov86961537199787048Fleb87109I613801O9137150May8713048473125347252Aug8714855145140207353Sep8715514776145847454Dec8716752872154657555Mar8819156002170477656Jun8820795279182267757Sep8822019698190447857.1Oct882380o0oO2O57979Mar89Jun89Sep89Dec89Mar90Jun90Sep90Dec90Mar91Jun91Sep91Dec91Mar92Jun92Sep92Dec92Fleb93Apr93Jun93Aug93Oct9326382491318O878434762585371839504O1277524249589349179285513O6092551692766586879971947426773376788389465292160761101o0848612O2422341262l2259129968355138904393147215633157152442212482247926317287913122933377351003953341O57439035141855627589526510o712807860897O841O5684l11911120134131328143492程滨苏鸿雁生物信息学在新基因克隆中的应用Dec93Feb94Apr94Jun94Aug94Oct94Dec94Feb95Apr95Jun95Aug95Oct95Dec95Feb96Apr96Jun961638025971732615oo1805894551913939392018158022171O246223O48592824849l214286l455631862456835371349038493948542586o95846375883349912774155175()92015ar7441629461698961827531967032152732377752694783524144252l1492483555694620765685693744295835487Aug96Oct96Dec96Feb97Apr97Jun97Aug97Oct97Dec97Feb98Apr98Jun98Aug98Oct98Dec986020723546519729847305529387868981388428643099669930871053474516l16o30o6871258290513137236891315023423061622O41465179713771320087617842162O6787192O5881021211l114581119250512747471491069161084817658471891953204232522092322355928253235928378973O43729表1.GenBank的构成可按分类学依据划分,分成17个分区.其中特别要提到的是EST库.截至1999/3/21为止,dbEST有序列2231673,HumanEST为1296455,MouseEST为433014.由此可见,GenBank的70%左右是EST.也正是EST,在新基因克隆中为我们提供了有用的参考资料.在下文将述及这一问题.EMBL即111eEMBLNucleotideSrueneeDatabase2,由欧洲生物信息学研究所(EuropeanBioinformaticsInstitute,EBI)维护.EMBL是欧洲分子生物学实验室数据的延续和扩展.现在24个国家有EMBL的站点,中国建立在北京大学183.DDBJ(DNADataBankofJapan)33从1984年开始进行DNA数据搜集,是日本唯一的DNA数据库,由国立遗传学研究所(NationalInstituteofGenetics,NIG)下的生物信息中心(CenterforInformationBiology,CIB)维护.DDBJ将研究者的DNA序列汇集,并发放登记号.主要收集日本研究者的数据,当然也接受其他国家的序列.二.数据库查询生物信息可谓是日新月异,我们需要有效的手段进行查询.主要有三个查询系统:SrueneeRetrievalSystem(SRs),Entrez,DBGET.它们与众多的分子生物学数据库链接,可以搜索到符合条件的信息.SrueneeRetrievalSystem(SaS)193与超过80个生物数据库有连接,它属于EBI开发的.在它的网址上有对各个数据库的介绍,搜寻是可选择一个或多个数据库.较之其他搜索系统,SRS是最完善的一个.Entrez203是NCBI提供的,而DBGET21由东京大学(UniversityfoTokyo)开发.后两者搜索的信息范围较前者小.三.搜索工具进行数据库搜索的目的可能有以下几个方面:1.当获得了一个新的DNA序列后,需要知道它是否是一个全新的序列,还是在数据库中已经存在.2.通过查询发现同源序列,即有相近功能的蛋白质.3.查找一些非编码信息,如重复序列,调控序列.Btasq223和23是主要的搜索工具.1985年,FastA由Lipman&Pearson,43提出,后来1988年作了改进5.这个程序是将一条DNA或者是一条蛋白序列与某个DNA或蛋白质数据库比较.实际上,它由一组程序构成:FastA,TFastA,FastY,FaSD(.FaStA一条DNA序列与一个DNA数据库比较,或一条蛋白序列与一个蛋白库比较,寻找同源序列.25;2仇:兮潞_ll舳踞舛大理师专目前已有版本3.Fastx一条DNA序列与一个蛋白库的比较.只能在密码子之间加人空格.FastY-一条DNA序列与一个蛋白库的比较.可以在密码子内加人空格.tA一条蛋白序列与一个DNA数据库比较.FastA的算法如下:1.定义一个整数参数ktup(krespectivetuples),以ktup为单位对两个序列进行比较.对DNA序列,ktup的缺省长度是6;对蛋白质序列来说,缺省长度是2.如果长度为ktup的亚序列完全匹配,则将其称之为热点(h0tspot).具体方法是建立一个搜索表格,存贮其中一个序列的所有长度为ktup的亚序列,而后用另一个序列搜索此表格.2.重新计算热点附近区域.每个热点给予一个正值,而连续的热点间的空格(space,即不匹配处)给予一负值.这一区域被称为”初始区域”(initialregion),得到的分值是热点分数和热点间空格分数的总和,记为initl.期望通过这个步骤得到lO个”初始区域”.在计算中过滤掉低于阈值的热点区.3.将不属于同一对角线但邻近的”初始区”连接起来.在前面的计算中不允许加人gap,但这时需要将不同对角线的区域连接,就不可避免的会加人一些gap,算分时作为负值.最后得出的值记为inim.4.计算另一个局部配比的分值.计算时考虑所有位于一条带中的配比(alignment),此条带以分值最高的”初始区”为中心.通过一般动态程序算法(ordinarydynamicpr0gr8栅illgalgorithm)计算最佳配比.条带中的热点区域在连接起来时允许插入(inde1).计算所得的最佳局部配比称为opt.5.最后把搜索得到的结果按inim或opt的值排列出来.1990年,Altschul等人(6开发了BI.AST(BasicLocalAlignmentSearchToo1)算法.BLAST的结点在NCBI,但网上许多站点都提供BL工具.它包含5个程序.BIAs1一一条DNA序列与一个DNA数据库比较.BIAsI一条蛋白序列与一个蛋白质数据库比较.BLAs1X_一用一条DNA序列去搜索一个蛋白质数据库,把查询序列根据6个读框翻译成蛋白质,然后与数据库中的蛋白序列比较.rIBIAsIN.一一条蛋白序列与一个DNA数据库比较,将库中的核酸序列根据6个读框翻译成蛋白质.ribI.AsT卜将查询序列的6框翻译与DNA数据库的6框翻译进行比较.BLAST与FastA比较明显的提高了速度,它能够找出更好,更少的热点.BLAST中引入了两个概念:l0一,alymaximalpair指一个片段比较其分值不能因片段比较的伸长或缩短而增加,maximalsegmentpair(MSP)指所有片段比较中分值最高的一个.B的算法如下:I.定义一个长度参数W,和一个阈值参数t.长度为W片段称为word.将查询序列的word与数据库中序列比较,过滤出所有分值超过t的长度为W的亚序列.匹配的热点在BLAST中被称为hit.2.定义一个MSP的截止值S(cutoffso).把每个hit延伸,找出分值超过S的片段比较.MSP的特征是将值最大化,所以对完全匹配的比较来说,没有长度限制,MSP可以是任何长度.BLAST的旧版本不允许有gap,而Altschui等人7改进的BLAST2.0允许在延伸hit时加人gap,即将不同对角线通过加入gap连接成一个新的局部配比,这与FastA相似.所不同的是,FastA的合并被局限在一条带中,而BLAST2.0则没有此限制,只需合并后分值大于某个阈值.BLAST之所以比FastA的速度快,是因为通过t值的过滤它只保留有可能增加分值的区域.BLAST同FastA相比,效率高,但灵敏度没有FastA好.不过BLAST2.0的灵敏度较旧版本有所提高.在运行BLAST时,参数的设置比较重要.如果设置不恰当,有可能得不到结果,或得到大量无用信息.四.生物信息学在新基因克隆中的应用公共数据库的丰富信息为克隆新基因提供了很好的材料.尤其是dbEST的迅速扩增,为我们开辟了程滨苏鸿雁生物信息学在新基因克隆中的应用一个新的思路.利用EST序列可以缩短实验的进程,甚而降低实验难度.而且各种工具,如BLAST,GCG等为分析序列信息提供了有效的手段.克隆基因的思路大致如下:1.由已知的CDNA片段出发,搜索dbEST.可以采用BLAST或FastA,因为速度和操作繁易的关系,一般使用BLAST.找出与出发片段重叠(overlap)的EST.2.利用Entrez或SRS获取F_ST序列.最快捷的方法是用登记号查询,直接得到EST序列报告.3.利用GCG,DNAstar等软件拼接(assembly)有重叠区域的EST,得到重叠克隆群(contig).通过这个方法把已有的cDNA片段延伸了,这等于代替了实验中一部分cDNA步移(walking)的工作.4.重复步骤l3,直至无法延伸为止.5.进行实验,PCR得到拼接的片段.继续步移,最后得到新基因的全长cDNA克隆.6.将新基因对非冗余库no.一redundantdatabase)进行搜索,以证明这是一个全新的基因.非冗余库是GenBank+EMBL+DDBJ+PDB数据的综合,截至1999年3月21El,非冗余库中共有410681个序列,其中包含全长cDNA序列,基因的cDNA片段,基因组序列等.7.将新基因注册.获取注册号.这些步骤中最关键的是F_ST的拼接.现在有许多软件包都有这一功能,如GCG,DNAstar,Staden等.不同的软件采用不同的算法,得到的结果也不同.虽然差别并非很显着,但对以后的实验有影响.GCG作为一个目前比较流行的软件,功能十分强大.它具有序列拼接的程序,即FragmentAssembly.这里大致介绍一下它的算法.实际拼接序列的程序是Gelmerge,它找出两个contig之间的重叠部分,然后比较另外两个contig,找到重叠部分.如此类推.寻找重叠部分时,采用了非精确的配比算法.首先定义一个长度单位(block),然后以block为单位进行配比.允许在两个block之间加入gap.规定一个阈值,即完全相匹配的序列(1ongblock)长度的最小值.由此过滤掉一些无意义的微小重叠.Gelmerge计算两个序列所有可能产生的配比,然后对分值最高的配比统计完全相同的配对数,一般来说不小于8o%.如果符合要求,则记下重叠的位置.当找到所有contig的重叠部分后,将这些contig拼接成一个新的contig.下面的示意图是由GCG拼接得到的结果的一部分.GELSEMBLEPrettyOutofContigMarch5,199910:4oFrom:lTo:798abl7lo6.rl>yh54fO1.rl>CONSENSUS>zw71g05.rl>yx42g10.rl>r48c09.rl>abl7lo6.rl>yh54f01.rl>CONSENSUS>tcatggctgcaatgga42tgcaatgga60删C翻+gatc铲tc.204142l02l2oGA1,口ACAGCC(CAaCA(AAGATATAAAGGACGA(A1GAACG1GAAGCCAGAGAl2O+至0|囊誊蓦舅一-一蔓1鬻篓麓蔫等麓囊:善一麓l1一_.冀鬻鬻瓣蕊誊;赣麓黛蠹羹大理师专yx42g10.rl>yx48c09.rl>abl7i06.rl>yh54fO1.rl>CONSENSUS>aaaaaa101lO2l62AAATGtgAaGAGagaGATGaGGCcTATCGCCTrtCACTtGaGGCTGACaGAgC180+【参考文献】:1.DennisA.Benson,MarkS.Boguski,DavidJ.Lipman,eta1.GenBank.NucleicAcidsRes.,26(1):17,1998.2.GuenterStoesser,MarynMoseley,JoanneSleep,eta1.TheEMBLNucleotideSluenceDatabase.Nuc1eicAcidsRes.,26(1):815.1998.3?YoshioTateno,KaomFukamiKobayashi,SatomMiy,eta1.DNADataBankofJapanatworkonsequencedata.NucleicAcidsRes.,26(1):l620,1998.4?DavidJ.Lipman,WilliamR.Pearson.Rapidandsensitiveproteinsimilaritysearch
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省2025年上半年四川广安市前锋区“小平故里英才”引进急需紧缺专业人才公笔试历年参考题库附带答案详解
- 南京市2025江苏南京科技职业学院招聘工作人员18人(第一批)笔试历年参考题库附带答案详解
- 会昌县2025江西赣州市会昌县住房保障安置服务中心招聘1人笔试历年参考题库附带答案详解
- 中山市2025广东中山市小榄镇高级专业人才招聘4人笔试历年参考题库附带答案详解
- 2025陕西电子信息集团光电科技有限公司招聘笔试参考题库附带答案详解
- 2025辽宁沈阳市浑南区森工林业集团有限公司招聘65人笔试参考题库附带答案详解
- 2025福建福州市建筑设计院有限责任公司招聘22人笔试参考题库附带答案详解
- 2025湖南省低空经济发展集团有限公司招聘11人笔试参考题库附带答案详解
- 2025浙江宁波市象山县水务集团有限公司第二期招聘4名笔试参考题库附带答案详解
- 2025年滁州定远县城乡发展投资集团有限公司招聘3人笔试参考题库附带答案详解
- 半导体semi F81 中文版
- 《电力建设工程施工安全管理导则》(NB∕T 10096-2018)
- 生猪标准化规模养殖场建设项目实施方案
- 广东开心学英语三年级下册Unit3-My-room
- JJG 425-2003水准仪
- 自动驾驶汽车-课件
- 2023年安康市交通建设投资集团有限公司招聘笔试题库及答案解析
- 学生学习力评价量表
- 藏餐培训教学计划5篇
- 技术需求征集表
- 三年级上册美术课件-第1课 五星红旗我为你骄傲|辽海版
评论
0/150
提交评论