




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三讲生物信息查询 从Entrez查询BLAST和FASTA应用 从Entrez查询Entrez是 提供的一种集成检索工具 他可以通过一次检索而查询到 多个子库中的所有信息 Entrez可以进行集成检索是通过数据库之间的联系达到的 数据库之间联系的数据库类型有两种 相近性和硬连接 相近性是在一个指定的库内搜索相类似记录 硬连接是在不同数据库之间搜索相关记录 例子 E coliK 12基因组 BLAST和FASTA应用Blast简介 BLAST是由美国国立生物技术信息中心 NCBI 开发的一个基于序列相似性的数据库搜索程序BLAST是 局部相似性基本查询工具 BasicLocalAlignmentSearchTool 的缩写 Blast简介 Blast是一个序列相似性搜索的程序包 其中包含了很多个独立的程序 这些程序是根据查询的对象和数据库的不同来定义的 比如说查询的序列为核酸 查询数据库亦为核酸序列数据库 那么就应该选择blastn程序 主要的blast程序 相似性 similarity 它指的是一种很直接的数量关系 比如部分相同或相似的百分比或其它一些合适的度量 比如说 A序列和B序列的相似性是80 或者4 5 这是个量化的关系 当然可进行自身局部比较 序列相似性比较 就是将待研究序列与DNA或蛋白质序列库进行比较 用于确定该序列的生物属性 也就是找出与此序列相似的已知序列是什么 完成这一工作只需要使用两两序列比较算法 常用的程序包有BLAST FASTA等 Blast应用中的相关问题 为什么使用blast 可以获得什么样的信息 如何在NCBI上获得blast服务 怎么使用的问题 其他问题 实际使用时选择哪种方式 网络 本地化 参数的选择 结果的解释 Blast资源 1 NCBI主站点 http BLAST 网络版 blast 单机版 2 其他站点 Blast的两种版本 网络版本包括NCBI在内的很多网站都提供了在线的blast服务 这也是我们最经常用到的blast服务 优点 方便 容易操作 数据库同步更新等 缺点 不利于操作大批量的数据 同时也不能自己定义搜索的数据库 单机版单机版的blast可以通过NCBI的ftp站点获得 有适合不同平台的版本 包括linux dos等 获得程序的同时必须获取相应的数据库才能在本地进行blast分析 优点 可以处理大批的数据 可以自己定义数据库 不足之处 需要耗费本地机的大量资源 此外操作也没有网络版直观 方便 需要一定的计算机操作水平 Blast结果给出的信息 Blast结果会列出跟查询序列相似性比较高 符合限定要求的序列结果 根据这些结果可以获取以下一些信息 1 查询序列可能具有某种功能2 查询序列可能是来源于某个物种3 查询序列可能是某种功能基因的同源基因 这些信息都可以应用到后续分析中 Blast程序评价序列相似性的两个数据 Score 使用打分矩阵对匹配的片段进行打分 这是对各对氨基酸残基 或碱基 打分求和的结果 一般来说 匹配片段越长 相似性越高则Score值越大 Evalue 在相同长度的情况下 两个氨基酸残基 或碱基 随机排列的序列进行打分 得到上述Score值的概率的大小 E值越小表示随机情况下得到该Score值的可能性越高 NCBI提供的Blast服务 登陆NCBI的BLAST主页 Primer搜索 分物种搜索 NCBI提供的Blast服务 核酸序列 蛋白序列 翻译序列 翻译序列 翻译序列 其他一些针对特殊数据库的 blast任务提交表单 二 序列信息部分 blast任务提交表单 二 按blast提交任务 结果页面 一 图形结果 匹配情况 分值和 值 序列描述 enbank的连接 结果页面 二 详细的序列比对情况 举例 blastp 假设以下为一未知蛋白序列 query seqmivekiaawllyplcllrcflcnsvrpatckcvhcllypfevccecmsetldslehsccyccvlplliirefwrrvilptlkatcdcirlpcvltrrfckrticplakswcrcfccpcevflrcllfpcmmlrrmhrgrltgvrepgafrdsrdparrgtwvndwcedlcvwiwspccyvkrcirtmcdtftkkifywfiapagsprmpeepsplsrkvfss我们通过blast搜索来获取一些它的相关信息 具体操作步骤 1 登陆blast主页http BLAST 2 根据数据类型 选择合适的程序3 填写表单信息4 提交任务5 查看和分析结果 分析过程 一 登陆ncbi的blast主页 选择程序 因为要查询的是一段蛋白 所以选用blastp 分析过程 二 可以填入登记号 基因号或者直接 copy paste 输入fasta格式的序列 点击此处了解详细要求 分析过程 三 搜索序列的范围 上传一条或者多条你存贮的数据 分析过程 四 搜索命名 搜索的数据库 在此选择非冗余型 搜索类型 搜索限制类型 分析过程 五 查询序列的相关信息 分析过程 五 结果图形 分析过程 六 七组的具体名称 具体信息描述 打分及 值 分析过程 七 第一组数据具体情况 分析过程 八 最后一组数据情况 结论 该序列来源于 该序列有什么功能 进一步深入Blast 1 blast22 Megablast3 Psi blast Blast2 两个序列的blast比对 给定两个序列 相互进行blast比对 能快速检查两个序列是否存在相似性片断或者是否一致 这比起全序列比对要快很多 Megablast megablast采用了贪婪算法 greedyalgorithm 它连接了多个查询序列进行一次搜索比对 这样节省了很多搜索数据库的时间 主要针对核酸序列 是blast经过优化后 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较 比一般的相似性搜索程序要快10倍 可以很快的完成两组大数据的比对 PSI blast PositionspecificiterativeBLAST PSI BLAST 位点特异的迭代blast搜索 主要针对蛋白序列 第一次blast搜索后 结果中最相似的序列重新构建PSSM 位点特异性打分矩阵 然后再使用该矩阵进行第二轮blast搜索 再调整矩阵 搜索 如此迭代 最终高度保守的区域就会得到比较高的分值 而不保守的区域则分数降低 趋近0 这样可以提高blast搜索的灵敏度 其他的序列相似性搜索工具 fasta FastA是最早广泛使用的一种数据库相似性检索程序 用于检索核苷酸和蛋白质序列数据库中的序列相似性和同源性 它专门为鉴定那些从远古祖先继承下来的蛋白质序列而设计 尤其对那些演化程度高 低相似性片段更为适合 Fasta搜索的优缺点 优点 FASTA对DNA序列搜索的结果要比对蛋白质序列搜索的结果更敏感 缺点 它对数据库的每一次搜索都只有一个最佳的比对 一些有意义的比对可能被错过 数据库搜索工具的sensitivity与selectivity Sensitivity 尽可能多地搜索到具有一定相似性的序列的能力 Selectivity 尽可能准确地搜索到对研究目的有用的相似性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年光致产酸剂项目申请报告
- 2025年射频消融仪项目建议书
- 2025年IC卡鉴别机项目合作计划书
- 2025年高精度数字电流表合作协议书
- 2025年生化诊断试剂项目建议书
- 供氧项目知识培训总结课件
- 2025年林教头风雪山神庙检测试题(含答案)
- 2025年查摆四风问题及整改措施
- 24年度污水运维综合考试试题(附答案)
- 互联网大厂裁员潮下职业转型中的领导力培养与提升研究
- 2025年青少年“学宪法、讲宪法”知识竞赛题库及答案
- 会计转岗考试题库及答案
- 2025年7月12日玉溪市直遴选笔试真题及答案解析
- 安全生产诊断报告
- 依法信访宣传课件
- 监理业务挂靠管理办法
- 油库消防教学课件
- 乡镇办安全生产培训课件
- 2025 城镇燃气设施运行、维护和抢修安全技术标准
- 图书展览活动方案
- 拆除防火门施工方案
评论
0/150
提交评论