论文资料-生物信息学原理与方法-第八讲DNA序列分析与预测_第1页
论文资料-生物信息学原理与方法-第八讲DNA序列分析与预测_第2页
论文资料-生物信息学原理与方法-第八讲DNA序列分析与预测_第3页
论文资料-生物信息学原理与方法-第八讲DNA序列分析与预测_第4页
论文资料-生物信息学原理与方法-第八讲DNA序列分析与预测_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学生物信息学 原理与方法原理与方法第一讲第一讲 DNA序列分析与预测序列分析与预测 BiologyProteinPhenotypeDNA(Genotype)基因结构(内含子和外显子交界区符合内含子和外显子交界区符合gt-ag 规则规则)目录一、定义一、定义二、软件资源二、软件资源三、基本步骤三、基本步骤四、电子克隆四、电子克隆cDNA全长序列全长序列五、重复序列分析五、重复序列分析数据库同源搜索数据库同源搜索六、基因电子定位与预测六、基因电子定位与预测七、基因结构预测七、基因结构预测八、八、ORF预测预测九、内含子九、内含子 / 外显子剪接位点外显子剪接位点十、十、tRNA 基因识别基

2、因识别一、一、DNA序列分析与预测的定义序列分析与预测的定义就是在核酸序列中寻找基因,找出基因的位置就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置等过程。和功能位点的位置等过程。在此过程中,确认一段在此过程中,确认一段DNA序列是一个基因需序列是一个基因需要有多个证据的支持。要有多个证据的支持。一般而言,确定基因的位置和结构需要多个方一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;重复序列分析,把重复序

3、列标记出来并除去;选用预测程序时要注意程序的物种特异性;要选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是弄清程序适用的是基因组序列还是cDNA序列。序列。二、软件资源二、软件资源在在上找有关生物信息学的上找有关生物信息学的网站或网页网站或网页核酸序列数据库 Genbank,美国国家生物技术信息中心的数据库( )。 EMBL,建立在欧洲分子生物实验室的数据库 (http:/www.embl.de/)。DDBJ,是DNA Data Bank of Japan的简称,又叫日本的DNA数据库银行(available at http:/

4、www.nig.ac.jp )。第一步:获取第一步:获取DNA DNA 目标序列目标序列 如果你已有目标序列,可直接进入第如果你已有目标序列,可直接进入第2 2 步;步; 可通过可通过PubMedPubMed查找你感兴趣的资料;通过查找你感兴趣的资料;通过GenBankGenBank 或或EMBL EMBL 等数据库查找目标序列。等数据库查找目标序列。第二步:查找第二步:查找ORF ORF 并将目标序列翻译成蛋白质序列并将目标序列翻译成蛋白质序列利用相应工具,如利用相应工具,如ORF Finder ORF Finder 、Gene feature(Baylor Gene feature(Bay

5、lor College of Medicine)College of Medicine)、GenLang(UniversityGenLang(University of of Pennsylvania)Pennsylvania)等,查找等,查找ORFORF并将并将DNADNA序列翻译成蛋白质序列翻译成蛋白质序列。序列。三、三、DNA序列分析与预测基本步骤序列分析与预测基本步骤第三步:在数据库中进行序列搜索第三步:在数据库中进行序列搜索可以利用可以利用BLAST BLAST 进行进行ORF ORF 核苷酸序列和核苷酸序列和ORF ORF 翻译的蛋白质序列搜索。翻译的蛋白质序列搜索。第四步:进行目

6、标序列与搜索得到的相似序第四步:进行目标序列与搜索得到的相似序列的全局配对列的全局配对(global alignment)(global alignment)虽然第三步已进行局部配对虽然第三步已进行局部配对(local (local lignmentlignment) )分析,但全局配对有助于进一步分析,但全局配对有助于进一步加深目标序列的认识。加深目标序列的认识。第五步:查找基因家族第五步:查找基因家族进行多序列比对进行多序列比对(multiple sequence alignment)(multiple sequence alignment)和获得配对区段的可视信息。可分别在和获得配对区段

7、的可视信息。可分别在AMAS(Oxford AMAS(Oxford University)University)和和BOXSHADE (ISREC,Switzerland)BOXSHADE (ISREC,Switzerland)等等服务器上进行。服务器上进行。第六步:查找目标序列中的特定模序第六步:查找目标序列中的特定模序 分别在分别在ProciteProcite 、BLOCK BLOCK 、Motif Motif 数据库进行数据库进行profile profile 、模块、模块(block)(block)、模序、模序(motif)(motif)检索;检索; 对蛋白质序列进行统计分析和有关预测

8、对蛋白质序列进行统计分析和有关预测第七步:预测目标序列结构第七步:预测目标序列结构可以利用可以利用PredictProtein(EMBLPredictProtein(EMBL) )、NNPREDICT NNPREDICT (University of California)(University of California)等预测目标序列等预测目标序列的蛋白质二级结构。的蛋白质二级结构。第八步:获取相关蛋白质的功能信息第八步:获取相关蛋白质的功能信息为了了解目标序列的功能,收集与目标序列和为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用结构相似蛋白质的功能信息非

9、常必要。可利用PubMedPubMed 进行搜索。进行搜索。四、电子克隆四、电子克隆cDNA全长序列全长序列电子克隆技术以数学为核心,以计算机和互联电子克隆技术以数学为核心,以计算机和互联网为工具,利用现有的表达序列标签(网为工具,利用现有的表达序列标签(EST)和生物信息数据库,和生物信息数据库, 可以加速对人类基因组未可以加速对人类基因组未知功能新基因的发掘,为人类功能基因组学与知功能新基因的发掘,为人类功能基因组学与蛋白质组学研究提供新的线索和基础。蛋白质组学研究提供新的线索和基础。基本原理基本原理获得未知基因的获得未知基因的c DNA部分序列后部分序列后 ,采用生物信采用生物信息学的方

10、法延伸息学的方法延伸EST序列序列 ,以获得基因的部分乃以获得基因的部分乃至全长至全长 c DNA序列序列 。53最初的EST在 EST database中搜索用重叠群再在 dbEST 中搜索53完整的 cDNA序列 拼接EST再次拼接重复过程直到重叠簇不能延伸基本步骤基本步骤电子克隆的技巧电子克隆的技巧1.如何鉴定片段重叠和筛选最佳目的如何鉴定片段重叠和筛选最佳目的EST2.选择合适的片段用于检索选择合适的片段用于检索EST数据库数据库种子序列BB351715BG083616 BY764174 AAAAABG083616BB351715BY764174AC116557ATGTAAattata

11、ccacAAAAAA流程示意图匹配度9553匹配度100匹配度100AAAAA4个EST簇拼接成的重叠群(2117bp)在dbEST中搜索 AC116557( genome DNA genome DNA )该被检序列5在dbEST中不能继续延伸用基因组草图搜索法在mouse genome中搜索Length=3218bp AAAAAA对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。常见的重复序列分析程序有CENSOR(/)和Repeat

12、Masker(/)等,可以在Web界面上使用这些程序,或者用Email来进行。如果有大量序列需要处理,可以使用如果有大量序列需要处理,可以使用XBLAST程序,它可以从程序,它可以从Internet上下载上下载得到。得到。XBLAST中以及包含了由程序作中以及包含了由程序作者收集整理的一些重复序列,此外还可者收集整理的一些重复序列,此外还可以从以从Repbase中找到更多的重复序列。还中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这可以把克隆载体也加入重复序列中,这样就可以在处理重复序列时顺便把克隆样就可以在处理重复序列时顺便把克隆

13、载体也一同除去。经处理的序列中重复载体也一同除去。经处理的序列中重复序列所在位置会一律由序列所在位置会一律由“X”代替。代替。六、基因电子定位或预测六、基因电子定位或预测方法:1.e-PCR2.LocusLink查询3.数据库同源搜索 4.基因组BLAST搜索七、基因结构预测七、基因结构预测 所谓基因所谓基因结构结构预测,一般是指预测预测,一般是指预测DNA DNA 序列中编码蛋白质的部分,即外显子部分。序列中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预预测发展到整个基因结构的预测。这些预测综合各种

14、外显子预测的算法和人们对基测综合各种外显子预测的算法和人们对基因结构信号因结构信号( (如如TATA TATA 盒等盒等) )的认识,预测的认识,预测出可能的完整基因。出可能的完整基因。基因识别的方法利用同源比对利用同源比对(blast)(blast)。基于基因中编码序列和非编码序基于基因中编码序列和非编码序列区域碱基的统计差异性。列区域碱基的统计差异性。根据真核基因的生物结构,建立根据真核基因的生物结构,建立整体的基因预测模型整体的基因预测模型.(Genscan).(Genscan)。预测程序GRAIL /tools/index.shtmlFGEN

15、EH http:/genomic.sanger.ac.uk/gf/gf.shtmlMZEF /genefinderGENSCAN /GENSCAN.htmlBanbury Cross http:/igs-rs-mrs.fr/igs/banburyGeneID http:/www1.imim.es/geneid.htmlGeneMachine /genemachineGeneParser /eesnyder/GenePar

16、ser.htlGenotator /nomi/genotator/HMMgene http:/www.cbs.dtu.dk/services/HMMgene/PROCRUSTES /software/procrustesRepeatMasker /RM/RepeatMasker.htmlSputnik http:/ / 外显子剪接位点外显子剪接位点剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 常见的基因识别工具很多都包含了剪接位点识别功能,独立的剪接位点识别工具有 NetGene 。 NetGene 服务的 Email 地址是: netgenecbs.dtu.dk 。 http:/www.cbs.dtu.dk/services/NetGene2/NetGene主页主页十、十、tR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论