《核酸序列分析》PPT课件.ppt_第1页
《核酸序列分析》PPT课件.ppt_第2页
《核酸序列分析》PPT课件.ppt_第3页
《核酸序列分析》PPT课件.ppt_第4页
《核酸序列分析》PPT课件.ppt_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 核酸序列分析,4.1 DNA序列分析和基因结构,DNA序列分析的目的意义 在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点,如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。 DNA序列分析就是在获得DNA原始序列的基础上,快速寻找基因,找出基因的位置及其功能位点,这对于基因的结构和功能研究,揭示生命奥秘具有重要意义。,UTR,非翻译区域(untranslated regions),基因结构 原核生物基因结构,真核生物基因结构,基因不连续性:基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列,绝大多数真核生物基因是不连续的,由内含子(intron)和外显子(exon)组成。,发现重复元素,数据库搜索,分析功能位点,综合分析,基本的DNA序列分析方案,遮蔽重复序列,序列重复现象在原核、真核生物DNA中都存在,真核生物更普遍。有种属特异性,基因组越大重复序列含量越丰富。分为轻度重复序列、中度重复序列、高度重复序列等类型。,一般来说,在进行任何DNA序列的基因分析之前,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由RNA聚合酶转录的部分区域,它们几乎不会覆盖启动子和外显子编码区。重复序列还常常会搅乱其它分析,特别是在数据库搜索中,由于重复序列的存在,可能得到许多同样的结果,这些结果的得分很高,使解释数据库搜索结果变得复杂、困难。,相关资源 CENSOR /censor/ RepeatMasker /cgi-bin/ WEBRepeatMasker Repbase /index.html 这些网站上的在线程序可帮助识别并去除重复序列。,同源性检索,一般来说,数据库相似性搜索是进行基因辨识的最初手段,也是DNA序列分析的最基本步骤。 在同源性检索中,通过查询DNA数据库来判断查询序列是否与已知基因的序列相同或相似。 例如,如果通过搜索发现待分析的序列与已知蛋白质编码序列相似,则可以推测待分析的序列是基因序列。,基因分析,序列翻译与开放阅读框(ORF)预测,序列翻译 指利用计算机程序将核酸序列按照三联体密码规则翻译成蛋白质序列,还可以将氨基酸序列倒翻成核酸序列。 阅读框(reading frames) 对于任何给定的单链核酸序列,根据密码子的起始位置,可以按照三种方式进行解释,这三种阅读顺序称为阅读框 。,双链DNA序列有6个可读框,开放阅读框(open reading frames,ORF) 以起始密码子(通常为ATG)开始,以终止密码子(TAA、TGA或TAG)结束(但不包括终止密码子),中间由一系列密码子组成的序列区域,它决定了所编码蛋白质的氨基酸顺序。 DNA序列分析中基因识别的目的之一就是进行开放阅读框(ORF)的寻找和预测。,ORF辨别的基本方法 (1) 利用编码区所具有的独特信号,比如起始密码子、终止密码子等进行识别 检查终止密码子的出现频率 基本思想: 如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。 基本算法: 扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。 这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。,分析各种密码子出现的频率 基本思想: 每种氨基酸是由相应个数密码子编码的,例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子。将一个随机均匀分布的DNA序列翻译成氨基酸序列,理论上说各氨基酸在序列中出现的比例应该符合氨基酸的密码子数目,如上述3种氨基酸出现的比例应该为6:4:1。但是在真实的氨基酸序列中,上述比例并不正确,这说明DNA的编码区域并非随机。 基本算法: 假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF,利用这种方法,可以计算一个ORF成为编码区域的可能性。,(2)利用编码区与非编码区的碱基组成不同进行识别 由于蛋白质中20种氨基酸出现的概率不同,每种氨基酸的密码子兼并度不同,同一种氨基酸的兼并密码子使用频率不同等原因,造成单个碱基的组成比例和多个碱基的组成方式在不同的物种中呈现出不同的规律。 因此,可通过统计分析识别编码序列。,(3)利用经验规律进行识别 若在起始密码子上游发现了核糖体结合位点,则可肯定找到一个ORF。 利用Kozak规则识别翻译起始位点 Kozak规则是研究第一个ATG侧翼序列的碱基分布所满足的统计规律,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下: 第4位的偏好碱基为G; ATG的5端约15bp范围的侧翼序列内不含碱基T; 在-3,-6和-9位置,G是偏好碱基; 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。 Kozak规则是基于已知数据的统计结果,不见得必须全部满足,一般来说,满足前两项即可。,应用程序 ORF finder (/gorf/gorf.html) 简单的在线基因查找程序,可对任何序列执行6个可读框的翻译,用户可自由选择义多肽的最小长度和所用的遗传编码规则。 主要适合寻找基因分布密集并且无内含子的核酸序列。 GetOrf (http:/bioweb.pasteur.fr/seqanal/interfaces/getorf.html) Plotorf (http:/mobyle.pasteur.fr/cgi-bin/portal.py?form=plotorf) GENSCAN商业软件,基本思路: 找出基因两端的功能区域: 转录启动区 (启动子)、终止区 在启动区下游位置寻找翻译起始密码子 转录剪切分析,探查DNA中的功能性位点,启动子分析 启动子是DNA分子可以与RNA聚合酶特异结合的部位,也就是使转录开始的部位。识别出启动子对于基因辨识十分重要,启动子一般可分为两类: (1)一类是RNA聚合酶可以直接识别的启动子。 (2)另一类启动子在和聚合酶结和时需要有蛋白质辅助因子(转录因子)的存在。,启动子分析方法: 利用模型描述几种转录因子结合部位定向及其侧翼结构特点,然后进行其它DNA序列的启动子预测的启发式方法; 根据启动子与转录因子结合的特性,从转录因子结合部位的密度推测出启动子区域,这方法存在较高的假阳性; 根据启动子区自身的特征来进行测定,这种方法的准确性比较高。同时,还可以结合是否存在CpG岛,而对启动子预测的准确性做出辅助性的推测。 启动子预测软件有:PromoterScan ; Promoter 2.0 ; NNPP ;EMBOSS Cpgplot ; CpG Prediction,(From:/viewthread.php?tid=5999&pid=57914&page=1&extra=page%3D1#pid57914) http:/bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html#databases /seq_tools/promoter.html .sg/promoter/CGrich1_0/CGRICH.htm /pub/programs.html#pmatch .hk/b400559/arraysoft_pathway.html#Promoter http:/www.dna.affrc.go.jp/PLACE/signalup.html http:/intra.psb.ugent.be:8080/PlantCARE/ http:/www.cbs.dtu.dk/services/Promoter/ /molbio/proscan/ /molbio/signal/,内含子剪接位点的识别 选择性剪接是指选择性地对前体mRNA不同的剪接位点的组合的剪接方式。通过选择性剪接,由一条前体mRNA可生成多条的成熟mRNA。 剪接连接点是指在切断和重接位点处的两旁的顺序。 GT-AG法则:所有内含子序列 5 端起始的两个核苷酸总是 GT,3端的最后两个核苷酸始终是 AG ,这就是RNA剪接的信号。,基本思路: (1) 寻找基因剪切位点,形成外显子和内含子的边界 剪切给体(donor)位点- “GT” 受体(acceptor)位点- “AG”,(2) 搜集候选外显子,连接形成候选基因 候选基因位于给定的DNA序列,并满足下列一致性条件: a 所有外显子加起来的长度是3的整数倍; b 在各个外显子内部(除最后一个外显子的最后一个密码子),没有终止编码; c 第一个内含子-外显子边界是翻译起始编码,而最后一个外显子-内含子边界是终止编码。 (3) 构建位点图 从起点到终点的任何一条路径代表一个可能的基因结构。,(4) 求最优路径 计算外显子、内含子度量,赋予每一条子途径一个权值;计算剪切位点度量,赋予每个节点权值。 利用DNA、RNA和蛋白质数据库中的同源信息进行搜索,寻找相似体,从而综合评价出最可能的外显子组合。,基因搜索及内含子分析相关资源,其它基因分析方法EST策略的电子克隆 表达序列标签(Expressed Sequence Tag,EST)是从一个随机选择的cDNA 克隆进行5端和3端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,一般长200-600个核苷酸对。 一个全长的cDNA分子可以有许多个EST,但特定的EST有时可以代表某个特定的cDNA分子。首先对获得的EST数据进行同源性性分析,两端有重叠的共有序列的EST可以组装成一个叠连群,直到装配成全长的cDNA序列,然后再进行ORF和相关功能位点的判定,这样就等于是克隆了一个基因的编码序列。还可以将EST作为一种标记序列定位在基因组,从而明确这个cDNA的基因组结构,包括外显子、内含子等。 EST数据库:/dbEST/,基因分析方法存在的问题: (1)目前的方法仅仅识别蛋白质编码基因 转录信号 (2) 现有的许多方法仅检测单个基因 部分基因、多重基因 (3)基于同源分析的方法是保守的 不可能发现新的基因 (4)忽视关于基因结构的生物学知识 基因表达的真实分子机制,常用的基因分析软件,商业软件包 GCG与Staden同属软件包,就是大量单个完成不同功能的软件的集合。使用时,单个软件可以互相调用、协同工作,也可以只使用单一一个软件完成某项操作。GCG和Staden都可执行数百种任务,如序列比对,数据库搜索和查询,研究生物进化,序列装配,寻找基因及模式识别,RNA指纹及限制性内切酶图谱,引物设计,蛋白质motif分析,DNA/RNA二级结构分析,翻译等等。GCG与Staden的主要区别就在于,GCG有网络功能,用户不必在其本地机上装载GCG。而Staden到目前为止还不支持网络用户。,免费软件包 (1) 同源性搜索 BLAST、FASTA (2) 未知序列分析软件 重复序列分析 CENSOR、RepeatMasker 编码区统计特性分析工具 常见的编码区统计特性分析工具将多种统计分析技术组合起来,给出对编码区的综合判别。著名的程序有GRAIL和GenMark等,GRAIL提供了基于Web的服务。网址是:/Grail-1.3/ 剪接位点分析 GENESCAN、NetGene,翻译起始/终止位点分析 对于真核生物,如果已知转录起始点,并且没有内含子打断5非翻译区的话,“Kozak规则”可以在大多数情况下定位起始密码子。对于原核生物,关键是核糖体结合点的定位,可根据Shine-Dalgarno序列的特点进行。 PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。 启动子识别 识别出启动子对于基因辨识十分重要。常用软件有Promoter Scan II 、PromoterInspector 、 Dragon Promoter Finder 等。但是预测过程中遗漏和假阳性都比较严重,仍需挖掘新的算法和软件。 tRNA基因的识别 tRNA基因识别比编码蛋白质的基因识别简单,常用工具tRNAscan-SE (/eddy/tRNAscan-SE/)。 常用工具软件 EBI整理的生物软件目录biocatalog (/),包含有近千个软件,其中包括常用的引物设计软件Primer Premier和酶切位点设计软件WEBcutter等,基本上是最全的专业软件目录。,引物设计软件 原理 引物通常是指与模版DNA的特定位置互补的寡核苷酸。 (1) 择合适的靶序列:设计引物之前,必须分析待测靶序列的性质,选择高度保守、碱基分布均匀的区域进行引物设计。 (2) 长度:一般来说,寡核苷酸引物长度为1530bp。 (3) Tm 值:引物的Tm 值一般控制在5560,尽可能保证上下游引物的Tm 值一致,一般不超过2。若引物中的G+C 含量相对偏低,则可以使引物长度稍长,而保证一定的退火温度。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论