生物信息学分析方法的研究(1)_第1页
生物信息学分析方法的研究(1)_第2页
生物信息学分析方法的研究(1)_第3页
生物信息学分析方法的研究(1)_第4页
生物信息学分析方法的研究(1)_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、整理ppt1 生物信息学分析方法的研究生物信息学分析方法的研究 整理ppt2 一、序列比对 序列比对是以核酸(A,T,C,G )和蛋白质(20 个氨基酸)序 列为依据, 来比较两个或两个以上核酸或蛋白质在碱基、氨 基酸水平上的相似性和不相似性。 序列比对是生物信息学最根本的分析方法。常用的序列 比对方法有两两序列比对(Pairwise alignment)和多序列比 对(Multiple alignment)。 整理ppt3 1、两两序列比对 两两序列比对是比较两序列之间的相似性区域和保守位 点来寻找两序列可能存在的历史进化关系。一般来说,如果 两序列之间的相似性大于30 % 的话, 它们很可

2、能存在着同源 性关系。 两两序列比对又分为总体序列比对(Global alignment)和 局部序列比对(Local alignment)。总体序列比对是以 Needleman-Wunsch的算法为理论体系发展的完善的两两序 列比对方法;局部序列比对是以Smith-Waterman动态规则算 法为理论依据的两两序列比对方法。 整理ppt4 (1)BLAST和FASTA FASTA(http:/www.ebi.ac.uk/fasta33/) BLAST(/BLAST/) 是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方 法,选

3、择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定 有意义的局部比对。其中BLASTN、BLASTP在实践中最为常用, TBLASTN在搜索相似序列进行新基因预测时特别有用。 (2)Needle和和Pairwise BLAST 其中其中Needle适用于蛋白质和适用于蛋白质和DNA序列,而序列,而Pairwise BLAST仅适仅适 用于用于DNA序列序列 整理ppt5 2、多序列比对 在研究生物问题时,常常需要同时对两个以上的序列进 行比对,这就是多序列比对。 多序列比对可用于研究一组相关基因或蛋白,推断基因 的进化关系,还可用于发现一组功能或结构相关基因之间的 共有模式(patte

4、rn)。 最常用的多序列比对工具为ClustalW (http:/www.ebi.ac.uk/clustalw/),多用于比较蛋白序列。 整理ppt6 (一)、ORF(Open Reading Frame)分析 (二)、染色体定位 (三)、基因结构分析 (四)、基因上游调控区分析 二、结构和功能预测二、结构和功能预测 核酸核酸 整理ppt7 (一一)、ORF(Open Reading Frame)分析 ORF,即开放阅读框,是DNA上的一段碱基序列,由于拥 有特殊的起始密码子和直到可以从该段碱基序列产生合适大 小蛋白才出现的终止密码子,该段碱基序列可以编码一个蛋 白。 从核酸序列翻译得到蛋白质

5、序列,需要进行ORF分析,每 个生物信息学分析软件包几乎都带有翻译功能。推荐使用 NCBI的ORF Finder(/ gorf/gorf.html)软件或EMBOSS中的 getorf(http:/bioinfo.pbi.nrc.ca:8090/EMBOSS)软件。 ORF Finder 以图形方式,分为正链+1、2、3和反链 1、2、3六个相位预测ORF;Getorf可指定预测ORF的 长度下限和指定预测正反链。 整理ppt8 (二)、染色体定位 根据基因组图谱对序列进行染色体定位和浏览其基因组 上下游基因。 具体方法为: (1)进行Gen

6、omic BLAST搜索。 (2)通过Genome view观察基因组结构。 (3)点击相应染色体区域,通过表意图(ideogram)和 相应区域上下游的基因进行精确定位。 整理ppt9 (三)、基因结构分析 由于真核生物转录后内含子将被剪切,因此将mRNA和基因 组进行比对以后,会发现mRNA的每个外显子与基因组序列 片断匹配,根据这些片段可以判断外显子的数目和大小。外 显子和内含子具体边界的确定,可以参考GT/AG一致性规 则。BLAT的结果直接显示外显子数目、大小及边界。 根据基因的mRNA序列及基因组序列,可以进行基因结构的 分析。推荐使用BLAST或BLAT(http:/genome

7、./ cgi-bin/hgBlat?command=start)进行分析。 整理ppt10 (四)、基因上游调控区分析 (1)启动子预测:用RT-PCR等实验方法获得的mRNA往 往缺少完整的5端,采用FirstEF 程序可以对第一外显子 (尤其是非编码的第一外显子)和CpG相关启动子进行预 测。 推荐使用冷泉港开发的FIRSTEF程序( /tools/FirstEF/)进行启动子预测。 (2)转录因子结合位点分析:推荐使用TFSEARCH程序( http:/www.cbrc.jp/research/db/TFSEARCH.html)及

8、MATCH程序 (http:/www.gene- programs.html#match)对转录因子数据库TRANSFAC( http:/transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的 转录因子结合位点。 整理ppt11 (一)、跨膜区预测 (二)、信号肽预测 (三)、亚细胞定位预测 蛋白质 蛋白质 整理ppt12 (一)、跨膜区预测 各个物种的膜蛋白的比例差别不大,约四分之一的人类已知 蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容 易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋 进行预测是生物信息学的重要应用。 推荐使用TMHMM软件(http:/ww

9、w.cbs.dtu.dk/services/ TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏 水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采 用隐马氏模型(Hidden Markov Models),对跨膜区及膜 内外区进行整体的预测。TMHMM是目前最好的进行跨膜区 预测的软件,它可以区分可溶性蛋白和膜蛋白,因此首选它 来判定一个蛋白是否为膜蛋白。 整理ppt13 (二)、信号肽预测 信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉 。信号肽的特征是包括一个正电荷区域、一个疏水性区域和 不带电荷但具有极性的区域。 推荐使用SignalP软件2.0版(http:/www.

10、cbs.dtu.dk/ services/SignalP-2.0/)对蛋白质N端序列进行信号肽分析 。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐 马氏模型方法,根据物种的不同,分别选择用真核和原核序 列进行训练,对信号肽位置及切割位点进行预测。 整理ppt14 (三)、亚细胞定位预测 亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞 定位预测基于如下原理:(1)不同的细胞器往往具有不同 的理化环境,它根据蛋白质的结构及表面理化特征,选择性容 纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序 列折叠过程决定,而后者取决于氨基酸组成。因此可以通过 氨基酸组成进行亚细胞定位的预测。 推荐使用PSORT(http:/psort.n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论