已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,WPF2011.12.8,1,BLAST简介BLAST的算法BLAST搜索策略,2,BLAST是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较,采用一种局部的算法获得两个序列中具有相似性的序列,其结果中的得分是对一种对相似性的统计说明。,BLAST(BasicLocalAlignmentSearchTool),3,BLAST的应用,确定特定的序列有哪些已知的同源序列确定哪些蛋白质和基因在特定的物种中出现确定一个DNA或蛋白质序列身份发现新基因确定一个特定基因或者蛋白质有哪些已经被发现了的变种研究可能存在多种剪辑方式的表达序列标签寻找对于一个蛋白质功能或结构起关键作用的氨基酸残基,4,BLAST中常用的程序介绍,5,6,BLAST算法可找到一个查询序列和一个数据库序列之间的匹配关系,然后向两个方向延伸。搜索结果既包括数据库中高度相关的序列,也包括边缘性相关区域,并用一个打分图描述查询序列与每个数据库匹配之间的相关程度。分为三个阶段:列表、扫描、延伸,编译高于阈值T的字段(w=3)Example:foraquery:FSGTWYA(querywordisinyellow)Alistofwords(w=3)is:FSGSGTGTWTWYWAY(由查询序列生成的字段)YSGTGTATWSWYWFAFTGSVTGSWTWFWYS,Phase1:列表,7,Phase1:列表(w=3)编译一个由查询序列生成的长度固定为w的“字段”列表。针对比对字段打分建立阈值T,大于T的字段被定义为匹配。,GTW6,5,1122neighborhoodGNW6,0,1117wordhitsGAW6,0,1116thresholdATW0,5,1116GTF6,5,112GTM6,5,-110neighborhoodDAW-1,0,1110wordhitsbelowthreshold(根据blosum62打分),(T=11),8,比对得分由一个打分矩阵确定,如Blosum62,9,Phase2:扫描在数据库中扫描与编译列表匹配的记录。最初blast运行只寻找一个匹配,目前版本需要寻找两个相隔一定距离A的相互分离的字段(如两个没有重叠区域的字段),然后生成这两个匹配的一个无空位的延伸。提高了搜索速度,匹配量增加,但只需要进行原来1/7的延伸操作。参数A的默认值为40。,10,当找到一个匹配(hit),像两个方向延伸匹配序列;追踪分值大小(使用打分矩阵);当分值下降时停止。,KENFDKARFSGTWYAMAKKDPEG50RBP(query)MKGLDIQKVAGTWYSLAMAASD.44lactoglobulin(hit),Hit!,extend,extend,Phase3:延伸,通过延伸匹配得到高分片段对(HSPs),11,slower,faster,Searchspeed,lowerT,higherT,Blast中改变阈值T的效果,12,better,worse,slower,faster,Sensitivity,Searchspeed,lowerT,higherT,Blast中改变阈值T的效果,13,better,worse,slower,faster,Sensitivity,Searchspeed,smallw,largew,lowerT,higherT,对于蛋白质,默认的字段为3,结果比字段2更为准确,Blast中改变阈值T的效果,14,期望值(expectvalue)E,是在一次数据库搜索中,随机条件下期望发生的得分等于或大于S的不同比对的数目;E值与概率p相关;描述E值的公式:E=Kmne-lS,BLAST结果的解释:期望值(expectvalue),15,如何评估结果的显著性如何处理太多的结果如何处理太少的结果利用一个多结构域蛋白(HIV-1pol)进行BLAST搜索利用不同矩阵进行BLAST搜索,BLAST搜索策略,16,如何评估结果的显著性,最前面的是亲缘关系非常接近的几种RBP蛋白;在某些情况下,比对可能包含了数据库中比对序列一致,而比对区域以外却不同的序列。,图中为以人类RBP4蛋白为查询序列,在nr数据库进行blastp搜索的结果。,D,17,A中只有36个氨基酸的RBP4框架就可以得到与RBP4和B的较长的匹配(151个氨基酸)相同的得分与期望值。但相似比率相差很大(94%vs31%),以人类RBP4蛋白进行blastp搜索的两个比对结果(上面为A,下面为B),A,B,18,RBP4和NP_002562.1(PAEP,孕激素相关子宫内膜蛋白):E值0.49,不显著,一致性:24%(“twilightzone”,模糊区)。但实际上二者是同源的。,以人类RBP4蛋白进行blastp搜索的一个比对结果(C),C,19,以PAEP进行blastp搜索的结果,一些结果在以RBP4为搜索项时也出现。这种结果重叠支持了二者是同源的假设。使用两个可能相关的序列分别作为查询项进行相互的blast搜索经常是重要的。,D,20,如何评估结果的显著性,期望值是不是显著?两个蛋白质是否有近似的大小?同源并不一定大小近似,可能两个同源蛋白只共享有限的相同结构域,但产生一个对两个蛋白质同源的可能性的生物学上的直觉是非常重要的。是否有共同的模体或信号序列?是不是一个合理的多序列比对的一部分?,以从BLAST结果考察两个蛋白质是否同源为例,21,是否共有一个相似的生物学功能?是否具有相似的三维结构?如果一个blast搜索得到一个对另一个的边缘匹配,以这个具有较远亲缘关系的蛋白质作为查询项再进行一次blast。如果互相印证,则增加是了同源的信心。,22,如何处理太多的结果,在“LimitbyEntrezquery”窗口中输入“refseq”,这样返回结果都带有一个Refseq号,经常可以去掉冗余的数据库匹配结果;利用生物体的种类对数据库反馈结果做出限制,比如限制在特定生物体;利用序列的一部分进行搜索。利用独立的结构域序列就可进行多结构域蛋白的检索;调整打
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 荆州市2024年湖北荆州公安县事业单位人才引进56人笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 江苏省2024江苏省药品监督管理局审评中心招聘10人笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 孟村回族自治县2024河北沧州市孟村回族自治县农业农村局招聘劳务派遣制辅助人员10人笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 国家事业单位招聘2024中国科学院动物研究所干细胞与人工胚胎(于乐谦)研究组助理研究员岗位笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 南海区2024广东佛山市南海区退役军人服务中心招聘公益一类事业编制人员1人笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 中山市2024广东中山市阜沙镇人民政府所属事业单位招聘事业单位人员14人笔试历年参考题库典型考点附带答案详解(3卷合一)试卷2套
- 2025福建泉州招聘派驻晋江市深沪渔港服务有限公司工作人员13人笔试历年难易错考点试卷带答案解析
- 2025年南阳唐河县国有企业公开招聘工作人员人员及注意事项(第6号)笔试历年常考点试题专练附带答案详解
- 2026年上海市普陀区人民政府选聘第五届外聘法律顾问的备考题库及1套参考答案详解
- 湖北省孝感市事业单位2026年度人才引进秋季校园招聘879人备考题库及一套答案详解
- 环艺毕业设计灵感元素提取指南
- 公司属地化管理制度
- 食管瘘的护理查房
- 中考数学压轴题专项突破:胡不归模型(含答案及解析)
- 办公室装修改造合同协议
- 《德州扒鸡》课件
- GB/T 44570-2024塑料制品聚碳酸酯板材
- 人工智能数据标注服务手册
- DL∕T 5210.2-2018 电力建设施工质量验收规程 第2部分:锅炉机组
- 卫生管理(副高)考试题库
- 小班美术活动《漂亮的帽子》课件
评论
0/150
提交评论