全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
核酸序列预测分析的基本思路当我们得到一个DNA序列时,一般都需要对该片段进行分析,确定它的功能区域,寻找调控区域、编码区域,预测其编码蛋白,这些就是我们研究DNA序列的目的。核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置及功能位点,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持:1、一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现; 2、如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;3、在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;4、其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。 一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:1、对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;2、选用预测分析程序时要注意程序的物种特异性,要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。 要注意的是,尽管各种预测方法都基于现有的生物学数据和已有的生物学知识,但在不同模型或算法基础上建立的不同分析程序有其一定的适用范围和相应的限制条件,因此最好对同一个生物学问题尽量多用几种分析程序,综合分析各种方法得到的结果和结果的可靠性。此外,生物信息学的分析只是为生物学研究提供参考,这些信息能提高研究的效率或提供研究的思路,但很多问题还需要通过实验的方法得到验证。一般地,核酸序列信息分析的基本思路:编码区序列(简称CDS)与EST数据比较寻找感兴趣ESTS (标准:长度100bp,同源性介于50%85%之间)所选ESTs与GenEmble数据库比较找出未克隆ESTs再与dbEST、dsSTS、dbHTGs、MGD及UniGene数据库比较搜寻重叠群Contigs设计引物进行PCR扩增或筛选cDNA文库或索取cDNA克隆号进行电子拼接获取全长cDNA基因定位、表达、结构、功能检测分析等。 核酸序列预测分析的基本方法:1、核酸序列的同源性检索 目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。GenBank数据库中收录的EST序列有数百万个之多。由于 EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。典型分析是采取NCBI的Blast软件对GenBank 中的非冗余数据库(non-redundant database,nr)进行查询。该数据库是对GenBank、EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。登陆/blast/blast.cgi 选择数据库“Nucleotide”,利用blastn程序进行同源性检索,按照提示进行查询。2、比较基因组分析 达尔文的进化论给比较基因组学提供了理论依据。动物进化从低等到高等,动物与动物之间存在着亲缘关系。这种关系可以从基因序列上反映出来:亲缘关系越近,其基因序列的同源性就越高。可以根据已经亲缘关系较大的动物的基因序列来扩增目的基因的序列。 3、利用Unigene数据库进行电子克隆 登陆/blast/blast.cgi 选择数据库“dbEST”,利用blastn程序进行同源性检索。一般情况下可从EST数据库中检索到一批与代分析序列高度同源的EST序列,选择同源性比分最高的一条EST序列,然后再从NCBI的UniGene数据库中进行检索,得到相应的UniGene编号。获得待分析序列的UniGene编号以后,就可以将与UniGene Cluster的所有核酸序列下载到本地,利用SequencherTM或其他的序列装配软件进行组装。形成较长的新生序列。4、cDNA序列的开放阅读框分析大量的实验证明,在真核生物起始蛋白质合成时,40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5末端处结合,然后向3末端滑行,发现AUG起始密码子时,与60S大亚基结合形成80S起始复合物开始转译蛋白质。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。MRNA需要翻译为蛋白质方能发挥生物学作用,因此,核酸序列的开放阅读框(open reading frame.ORF)的分析便成为核酸分析的一个重要部分。基于遗传密码表,可通过计算机方便分析核酸序列的读码框。登陆/gorf/gorf.html ,输入cDNA序列,计算机将按照六种相位翻译成蛋白质。5、编码区统计特性分析 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,.位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。3 z! O+ E+ |2 i% 9 x- D常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。GRAIL的网址是:/Grail-1.3/。 6、启动子分析启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都比较严重。总的来说,启动子仍是值得继续研究探索的难题。7、内含子/外显子剪接位点 剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。8、基于核酸序列的电子基因定位对核酸序列进行电子基因定位(即基因的染色体定位),通过所定位区带的相邻基因或者基因簇间接提示该基因的功能,是核酸序列分析的一个重要方面。进行电子定位一般有两种策略:(1)通过序列标签位点(Sequence Tagged Site,STS)进行定位;(2)通过UniGene/RH技术进行定位。 (1)利用STS数据库进行电子基因定位利用此种方式进行定位时主要是利用NCBI的电子PCR资源,即登录/genome/sts/eper.cgi,输入待分析的序列即可进行查询。 (2)利用UniGene数据库进行电子基因定位参考前述,首现获得待分析序列所对应的UniGene编号。而大部分UniGene序列已经具有较为明确的利用放射性杂交(radiation hybrid,RH)技术所给出的定位信息,所以,根据此结果就可以得到待分析序列的基因定位。 9、电子表达谱分析在获得待分析序列的UniGene编号以后,就可以通过参与形成UniGene Cluster的序列的/细胞来间接地反映待分析序列在何种组织表达,体现在字段“cDNA sources”中。10、基于序列同源性分析的蛋白质功能预测 相似的序列很可能具有相似的功能。因此,蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。此方法应至少80个氨基酸长度范围内具有25以上的序列一致才提示可能的显著意义。目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析类似于核酸序列的同源性分析,用户直接将待分析的蛋白质序列输入NCBI/Blast软件(/blast/)的序列输入框内,选择程序:“Blastp”就可联网进行相应分析。11、其它综合基因预测工具除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。 核酸序列的一般分析流程!声明:此文系本人转载,具体地址已不详,特此向原作者致谢!核酸序列的一般分析流程转贴 1.1 核酸序列的检索 :80/entrez/query.fcgi?db=Nucleotide 1.2 核酸序列的同源性分析 1.2.1 基于NCBI/Blast软件的核酸序列同源性分析/blast/blast.cgi 1.2.2 核酸序列的两两比较 /gorf/bl2.html 1.2.3 核酸序列的批量联网同源性分析(方案) 1.3 核酸序列的电子延伸 1.3.1 利用UniGene数据库进行电子延伸(方案) 1.3.2 利用Tigem的EST Machine进行电子延伸 EST Extractor: http:/gcg.tigem.it/blastextract/estextract.html EST Assembly: http:/www.tigem/ESTmachine.html 1.3.3 利用THC数据库对核酸序列进行电子延伸 http:/gcg.tigem.it/UNIBLAST/uniblast.html 1.4 核酸序列的开放阅读框架分析 1.4.1基于NCBI/ORF finder的ORF分析 K+t8s-6 s /gorf/gorf.html Y9 n*C 1.5 基因的电子表达谱分析 ?5lQ-|7k 1.5.1 利用UniGene数据库进行电子表达谱分析(方案) L |2ZC 1.5.2利用Tigem的电子原位杂交服务器进行电子表达谱分析 d1rA_F E http:/gcg.tigem.it/INSITU/insitublast.html lIwn 1.6 核酸序列的电子基因定位分析 =: cu%v 1.6.1 利用STS数据库进行电子基因定位 _NcBMIav /genome/sts/epcr.cgi ?eL9bG3 1.6.2 利用UniGene数据库进行电子基因定位(方案) .).f7gk 1.7 cDNA的基因组序列分析 Qnw4XGn 1.7.1 通过从NCBI查询部分基因组数据库进行基因组序列的分析(方案) 9L11k 1.7.2 通过从NCBI查询全部基因组数据库进行基因组序列的分析 -eu 6G /genome/seq/page.cgi?F=HsBlast.html&ORG=Hs )xruyLPX( 1.7.3 通过从Sanger Centre查询基因组数据库进行基因组序列的分析 F0fa+Mb http:/www.sanger.ac.uk/HGP/blast_server.shtml , M#) 1.8 基因组序列的初步分析 Gz?KjG 1.8.1 基因组序列的内含子/外显子分析 _0!*UC7/ /urllists/genefind.htm ?zk x h 1.8.2 基因组序列的启动子分析 $5$r6Wx /projects/promoter.html WNO/5 1.9核酸序列的注册 Tzv 1.9.2 较长或全长cDNA序列的注册(方案) 1WHfJdni( 1.10待分析序列所对应的已知克隆的获取 E,h Am f2fHP#Q$j+ z_6
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年助理医师之中西医结合助理医师通关提分题库及完整答案
- 2020-2025年教师资格之小学综合素质模拟考试试卷B卷含答案
- 村级协议书范本
- 平塘转让协议书纠纷
- 泰和安安装协议书
- 托管班协议书范本
- 室内棒球练习器创新创业项目商业计划书
- 多功能清洁器创新创业项目商业计划书
- 塑木智能垃圾分类回收箱创新创业项目商业计划书
- 2025-2026学年人教版小学数学六年级上册期中考试模拟测试卷及答案
- 2025年生态恢复工程生态评估与效果监测可行性研究报告
- 2025年10月“第一议题”学习(附有核心内容)
- 小区防寒防冻知识培训课件
- 2025年卫生高级职称面审答辩普通外科副高面审经典试题及答案
- 2024-2025学年江苏省常州外国语学校八年级(上)期中数学试卷
- 企业ISO14001环境管理体系文件模板
- 考古探掘工岗位操作规程考核试卷及答案
- 化工前沿技术进展
- 护理不良事件上报流程
- 邮储银行2025苏州市秋招面试典型题目及参考答案
- 道路安全设施保护方案(3篇)
评论
0/150
提交评论