生物信息学序列分析.ppt_第1页
生物信息学序列分析.ppt_第2页
生物信息学序列分析.ppt_第3页
生物信息学序列分析.ppt_第4页
生物信息学序列分析.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章序列分析,2,一、初级序列分析序列的组成/分子量/等电点分析,碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。,表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。,表1九种完整DNA序列的碱基组成,表2人类胎儿球蛋白基因不同区段的碱基组成,7,8,序列组成分析,9,A/G/C/T的组成,尤其是G+C含量的预测(进化?探针设计?),10,11,序列组成分析,12,序列组成分析,13,蛋白分子量和等电点,14,蛋白分子量和等电点,15,蛋白分子量和等电点,16,蛋白质分子量/等电点预测onlineComputepI/MW,/tools/pi_tool.html,17,酶切位点分析,只要进行基因工程利用必须用到各种限制性内切酶如GGATCCBamHI,18,进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有/没有某个酶的位点?为什么?如果答案是“有”,是什么情况?“没有”又是什么情况?,Plasmidvector,SacI,XbaI,HindIII,HindIII,XbaI,Cloningsite,SacI,19,20,二碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积,例:鸡血红蛋白链的mRNA编码区的438个碱基,图1鸡球蛋白基因编码区的DNA序列(GenBank:CHKHBBM,记录号J00860),表3图1鸡球蛋白基因序列的相邻碱基分布,在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第2位碱基小得多。,表464种可能的碱基三联体密码子及相应的氨基酸数(据图1序列),相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markovchain)理论得到(Javare和Giddings,1989),27,什么是HMM?HiddenMarkovModels(HMMs,隐马尔可夫模型)最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。,28,什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于其后的核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。,密码子偏好性分析,密码子是核酸携带信息和蛋白质携带信息间对应的基本原则,是生物体内信息传递的基本环节。在生物的遗传密码中,除色氨酸和甲硫氨酸只有一个密码子外,其余氨基酸都有一个以上的简并密码子。对同一物种,不同蛋白编码密码子在基因中出现的频率不同;就同一种氨基酸而言,编码该氨基酸的不同密码子的比率在不同的蛋白中也有差异,因此生物体基因对简并密码子的选择具有一定的偏爱性。,同义密码子(SynonymousCodons):编码同一氨基酸的密码子。在蛋白质编码过程中,某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这种现象称为同义密码子的使用偏性(SynonymousCodonUsageBias)研究密码子使用偏性的意义:(一)作为预测真核生物核糖体在细胞内定位的一种手段,通过比较核基因编码的核糖体蛋白和线粒体基因编码的核糖体蛋白上密码子使用模式的差异来预测未知蛋白的基因所在基因组位置。,(二)通过密码子使用偏好性的研究,可以判定一些最优密码子,针对这些密码子设计基因工程表达载体可以提高目的基因的表达量。(三)利用密码子使用偏好性和某种功能的关联程度对某些未知功能基因进行预测,利用已知的密码子偏好知识对未知表达水平的基因进行判定,初步判断该基因的表达水平高或低。(四)利用编码区和非编码区的基因组特征差异进行全基因组扫描,发现新基因。,由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993)和最优密码子使用频率FOp(LavnerandKotlar2005)等。多种多样的技术和方法促进了密码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致,特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才能确保结果的正确性。,计算同义密码子相对使用度(Relativesynonymouscodonusage,RSCU)在genebank中取出序列后,用codonw进行在线分析,同义密码子相对使用度(Relativesynonymouscodonusage,RSCU):它是指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1300bp)就能相当准确地预测出基因,利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(GeneticComputerGroup研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和BaylorMedcineCollege的BCMGeneFinder等程序均利用了这一方法,CpG岛:CpG岛(CpGisland)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-Keepinggene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一,61,七、基因结构分析/启动子序列分析,62,1)基因结构分析:了解基因的内含子/外显子排列方式;例子1:水稻6PGDH基因进化分析的结果表明其可能来源于内共生(基因结构分析表明其没有内含子).例子2:NHX基因,63,1)基因结构分析:,GenomicDNA,cDNA,64,用softberry预测基因结构http:/www.bio-,65,什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。对于基因识别而言,HMM可以分为2种:按内容搜索:即根据核苷酸和密码子在编码区内的分布规律来确定蛋白质的编码区;按信号搜索:即通过分析编码区周围的信号(启动子终止子各种cis-element等来确定蛋白质的编码区。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。,66,一个例子:用softberry预测基因结构,67,2)启动子序列分析:什么是启动子?启动子序列,一般在TSS之前2000bp,了解哪个位点是TSS,哪个是起始ATG?,TSS,ATG,TATA,promoter,69,2)启动子序列分析:所以,我们必须得到TSS的位置.如何通过生物信息学方法确定TSS?首先截取包括ATG之前3000bp和基因的序列采用以下两种方法1)软件预测,如Softberry;2)搜索EST数据库;,70,分析的目的:2)首先找到ATG前面约3000:如何通过生物信息学方法确定TSS?以AF486280为例.首先要找到包含AF486280的基因组序列.,71,2)首先截取AT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论