生物信息学-第2章_第1页
生物信息学-第2章_第2页
生物信息学-第2章_第3页
生物信息学-第2章_第4页
生物信息学-第2章_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节 引言同源(homology)- 具有共同的祖先垂直同源(ortholog) 水平同源(paralog)相似(similarity)同源序列一般是相似的,相似序列不一定是同源的第二章 双序列比对 Pairwise Sequence Alignment 通过点矩阵进行序列比较 编辑距离(edit distance)相似性得分 第二节 替换记分矩阵(1)核酸打分矩阵设DNA序列所用的字母表为 = A,C,G,T a. 等价矩阵 (unitary matrix)b. BLAST矩阵c. 转换-颠换矩阵(transition-transversion matrix) (嘌呤:腺嘌呤A,鸟嘌呤G;

2、嘧啶:胞嘧啶C,胸腺嘧啶T) ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51表3.1 等价矩阵表表3.3 转移矩阵表3.2 BLAST矩阵(2)蛋白质打分矩阵(i)等价矩阵(ii) 遗传密码矩阵(genetic code matrix,GCM )(iii)疏水性矩阵 (hydrophobic matrix)(iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution Mat

3、rix,BLOSUM)其中Rij代表打分矩阵元素i、j分别代表字母表第i和第j个字符。第三节 双序列比对算法序列的两两比对(Pairwise Sequence Alignment)按字符位置重组两个序列,使得两个序列接近一样的长度 序列两两比对基本算法直接方法 生成两个序列所有可能的比对,分别计算代价函数,然后挑选一个代价最小的比对作为最终结果,需要计算 2300 次天文数字ATTCCGAAGA AGTCGAAGGT假设比较300个核苷酸长度的两条序列动态规划方法 Dynamic Programming起点终点ATTCCGAAGA AGTCGAAGGTATTCCGAAG AGTCGAAGGAT

4、+(1)ATTCCGAAGA AGTCGAAGG-T+(2)ATTCCGAAG AGTCGAAGGTA-+(3)最短路径问题起点终点C1 C2 W1 W2路径1:C1 + w1 ?路径2:C2 + w2 ? 取最小值!算法求解: 从起点到终点逐层计算计算过程:计算过程:按行计算其他方式计算过程:(3)求最佳路径子序列与完整序列的比对 -AGCT-ATGCAGCTGCTT目标:使S(s, i:t:j ) 最大序列S:序列t: i j不计前缀0:t:i 的得分, 也不计删除后缀的j+1:t:|t|得分不计删除后缀的j+1:t:|t|得分 处理最后一行+ p ( -, tj )不计前缀0:t:i 的

5、得分处理第一行tsACACACTA000000000C-101010100A-200212110C-3-11132321A-4-20224444最后一行不计代价子序列s在全序列t的后面出现时不会被罚分影响三、比对的统计学显著性(1)典型方法:将两条待比较的序列分别随机打乱使用相同的程序与打分函数(或打分矩阵)进行比对计算这些随机序列的相似性得分重复这一过程(50100次)用和分别表示其平均值与标准差。 设原来两条序列的比对得分为x,利用下式计算大于或等于x的比对得分概率: z = (x - )/根据z值判断两个序列相似得分的显著性 ,当z值是3.1、4.3、5.2时,x出现的概率为10-3、1

6、0-5、10-7Z 5,同源;Z 3, 不同源;Z = 35, 可能同源经验法则(针对蛋白质序列): 如果两个序列的长度都大于100,在适当地加入空位之后,它们配对的相同率达到25%以上,则两个序列相关; 如果配对的相同率小于15%,则不管两个序列的长度如何,它们都不可能相关; 如果两个序列的相同率在15%25%之间,它们可能是相关的。数据库的搜索简介第四节 双序列比对工具 数据库查询为生物学研究提供了一个重要工具,在实际工作中经常使用。然而,在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基

7、因家族,具有哪些生物学功能。对于氨基酸序列来说,有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。因此,数据库搜索与数据库查询一样,是生物信息学研究中的一个重要工具。 数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。 新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(probe sequence);通过数据库搜索得到的和检测序列具有一定相似性的序列称目标序列(subject sequence)。 为了确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后,还需要判断其序列相似性程度。如果检测序列和目标序列

8、的相似性程度很低,还必须通过其他方法或实验手段才能确定其是否属于同一基因家族 。一、 BLAST 简介BLAST程序是目前最常用的基于局部相似性的数据库搜索程序,它们都基于查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行,而不必依赖计算机硬件系统而解决运行速度问题。BLAST数据库搜索策略 BLAST仅通过部分而不是全部序列计算最适联配值赢得搜索速度 比对统计学意义的评价 E值(E-Value)P值(P-Value)(概率值) BLAST程序中使用了E值而非P值,这主要是从直观和便于理解的角度考虑。比如E值等于5和10,总比P值等于0.9

9、93和0.99995更直观。但是当Egi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus HemagglutininGLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVGKEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGNGCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR多结构域蛋白 (H1N1) 的BLAST检索H1N1聚合酶序列BLAST结果综述BLAST结果表述BLAST结果逐条显示BLAST结果逐条显示BLAST:改变打分矩阵的作用脂质运载蛋白序列sp|P31025|LCN1_HUMAN Lipocalin-1 OS=Homo sapiens GN=LCN1 PE=1 SV=1MKPLLLAVSLGLIAALQAHHLLASDEEIQDVSGTWYLKAMTVDREFP

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论