生物信息学04 核酸和蛋白质序列为基础的数据库检索._第1页
生物信息学04 核酸和蛋白质序列为基础的数据库检索._第2页
生物信息学04 核酸和蛋白质序列为基础的数据库检索._第3页
生物信息学04 核酸和蛋白质序列为基础的数据库检索._第4页
生物信息学04 核酸和蛋白质序列为基础的数据库检索._第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 核苷酸和蛋白质序列为根底的数据库检索 (Sequence-based database searching) 本章主要内容:根本概念BLAST检索分析方法本章重点难点:核酸和氨基酸序列功能分析的根本方法和原理。序列对位排列sequence alignment 将两条或多条序列对位排列,突出相似的结构区域 序列1序列2两条DNA序列对位排列分析 两条蛋白质序列对位排列分析 分析功能 分析物种进化 检测突变、插入或缺失遗传疾病的检测 序列延长(电子PCR) 序列定位(STS) 基因表达谱分析(EST)用途序列对位排列分析的种类 序列对库对位排列分析 从数据库中寻找同源序列 主要涉及核苷酸数

2、据库和蛋白质数据库 两序列对位排列分析 多序列对位排列分析一序列对位排列分析的根本原理1、记分矩阵scoring matrix 记分矩阵中含有两条序列对位排列时具体使用的分值 分数越高,两条序列匹配越好DNA序列对位记分矩阵序列1 A C G T T A G C 序列2 A C T T T G G C 记分 0.9 0.9 -0.1 0.9 0.9 -0.1 0.9 0.9 5.2蛋白质序列对位排列分析记分复杂 一致氨基酸的记分不同 稀有氨基酸C,分值高 普通氨基酸S,分值低相似氨基酸也记分,如D-E序列1:TTYGAPPWCS 序列2: TGYAPPPWS * * *序列1:TTYGAPPW

3、CS 序列2:TGYAPPPWS * * *多种记分矩阵 80年代建立的PAM矩阵如PAM30、PAM70 近年建立的BLOSUM矩阵如BLOSUM62、BLOSUM80、BLOSUM45基于更敏感的对位排列分析蛋白质序列对位记分序列1 V D S C Y 序列2 V E S C Y 记分 4 2 4 9 72、空位间隔罚分gap penalty 基因进化过程中产生突变序列对位排列分析时允许插入空位插入 缺失空位开放gap opening 空位延伸gap extension蛋白质序列对位记分序列1 V D S - C Y 序列2 V E S L C Y 记分 4 2 4 -11 9 7acgt

4、atgcatgtacgagctac acgtatgcagtacgagctac空位罚分涉及两个参数acgtatgcatgtacgagctac acgtatgca-gtacgagctac BLAST FASTA Blitz二序列对库对位排列分析主要检索体系用待分析序列对数据库进行相似性分析 重复许屡次的两两序列对位排列分析 从数据库中找出所有同源序列1、根本概念 1Sequence identity 和 sequence similarityIdentity: 两条序列在同一位点上的核苷酸或 氨基酸残基完全相同 Similarity (positive): 两条序列在同一位点上的 氨基酸残基的化学

5、性质相似 Query: 1 IGQAQCSTFRGRIYNETNIDSAFATQRQANCP 32 IGQAQC TF+ RIYNET +AFAT +ANCP Sbjet: 2 IGQAQCGTFKDRIYNET-TAFATSLRANCP 29 2Global alignment 和 local alignmentQuery Subject Query Subject Query Subject Global alignment: 两条完整的序列相比较 Local alignment: 两条序列中相似程度最高的局部 相比较 3Gapped alignment 和 ungapped alignm

6、entQuery Subject Query Subject Query Subject Query Subject Gapped alignment: 为到达最正确 alignment,序列中参加空位 Ungapped alignment:相比较序列的核苷酸或氨基酸 序列连续 4Alignment score 和 E (expect) value 衡量两条相比较序列相似程度的标准raw score: 原始分,分值越大,两个比较序列相似程度越大 bit score: 采用统计学方法以原始分为根底计算的 E value: 期望得到的、完全由时机错误造成的、相当于或 大于目前分值的alignmen

7、t 次数 E = 10, 5e - 46 = 5 10-46,E 值越小越好 取决与 alignment 分值、相比较序列的长短和 数据库中数据的数量 5Low-complexity region (低复杂性区域,LCR) 核苷酸和蛋白质序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列如 Poly-A 数据库中半数以上的序列至少带有一个 LCR Sequence alignment 时应防止 LCR 相互配对得分 BLAST 用 “Filter 功能防止比较 LCR 用 小写字母代表 LCR 中的每个氨基酸残基或核苷酸 BLAST (Basic Local Alignment Sea

8、rch Tool) 检索 BLAST 分析工具 Nucleotide BLAST (blastn等) Protein BLAST (blastp, PSI-BLAST, PHI-BLAST) Translated BLAST Searches (blastx, tblastn, tblastx等) Specialized BLAST (BLAST 2 Sequences (bl2seq), conserved domain, VecScreen等)经常问的问题 FAQsBLAST programblastn 用核苷酸序列检索核苷酸数据库 blastp 用氨基酸序列检索蛋白质数据库 blastx

9、 将核苷酸序列通过 6 种阅读框翻译成不同的氨基 酸序列检索蛋白质数据库 tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸 数据库 tblastx 将核苷酸序列通过 6 种阅读框翻译成不同的氨基 酸序列检索核苷酸数据库数据库中的序列也被 翻译出不同的氨基酸序列 程序查询数据库简述方法blastn核酸核酸适合寻找分值较高的匹配,不适合远源关系用检测序列(核酸)搜索核酸序列数据库blastp蛋白质蛋白质可能找到具有远源进化关系的匹配序列用检测序列(蛋白质)搜索蛋白质序列数据库blastx核酸(翻译)蛋白质适合新DNA序列和EST序列的分析将核酸序列按6种方式翻译成蛋白质序列后搜索蛋白质序

10、列数据库tblastn蛋白质核酸(翻译)适合寻找数据库中尚未标注的编码区用检测序列蛋白质搜索由核酸序列数据库按6种方式翻译成的蛋白质序列数据库tblastx核酸(翻译)核酸(翻译)适合分析EST序列将核酸序列按6种方式翻译成蛋白质序列后搜索由核酸序列数据库按6种方式翻译成的蛋白质序列数据库 G F C N * F F T * L N ? W L L Q L I L N L A * C M A S A T N S S L S L M ? 5 ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC 3 3 TACCGAAGACGTTGATTAAGAAGTGAATGCAATTAC

11、G 5 ? P L Q W * N L V * T L A H S R C S I R * L R * H ? A E A V L E E S V N I Blastx 的 6 种阅读框架 BLAST database nr (nucleotide BLAST) GenBank (无 EST, STS, GSS, HTGS) nr (protein BLAST) GenBank CDS translation + PDB + SwissProt +PIR + PRF) Genomic sequence 基因组序列 Swissprot蛋白质数据库 estEST 数据库 dbstsSTS 数据库

12、pdb蛋白质三维结构数据库 pat专利的数据库BLAST database 继续 Whole-genome shotgun reads全基因组shotgun序列 Environmental samples环境样品 gssGSS 数据库 htgsHTGS 数据库 如何进行 BLAST 检索? 使用 WWW 效劳 使用 BLAST email 效劳 (关闭)1BLASTN 将要查询的序列直接粘贴到序列框中或输入登陆号GI 号 选择 database 可进行其它工程的选择用于分析 选择待分析序列的范围Query subrange 进一步选择检索范围:Entrez query (如 protease

13、NOT hivI)选择分析方法Program Selection 选择是否用新窗口展示分析结果Show results in a new window转变展示分析结果的格式默认分析结果格式 点击“Format these results,通过“Formatting opertions网页变换格式,如: “Pairwise with dots for identities格式 “Query-anchered with dots for identities格式可在“Algorithm parameters栏目中修改参数不熟悉各种参数时,使用默认的参数点击“Distance tree of res

14、ults显示检索到的序列之间的同源关系 在“Alignments中选择检索到的序列,点击“Get selected sequences获得序列 2BLASTP 根本操作同 Blastn 检索结果:包括Query序列的保守结构域 点击“Multiple alignment将检索到的序列进行多序列排列比照 3PSI-BLAST (Position Specific Iterated BLAST) search 氨基酸序列检索 重复检索数据库 被查询序列(query) BLAST 标准检索 alignment sequences (subject) 第一步 检索数据库 新的 alignment se

15、quences 第二步 可继续检索循环 序列空间查询序列的同源序列用第一次BLAST搜索的某击中项作为查询序列获得的更多的进化关系查询序列第一次BLAST搜索的击中项序列A序列B序列CPSI-BLAST 检索可能产生不相关的检索结果假阳性,这种假阳性在后续检索中会被放大。排除假阳性需要逐个进行。4PHI-BLAST (Pattern Hit Initiated BLAST) search 蛋白质序列,并带有特殊结构pattern 带有同样的特殊结构 这一邻近的序列与被查询序列相似 与 PSIBLAST 相连,重复检索 检索数据库中相似的蛋白质 可查询检测到的特殊结构 5 Translated

16、BLAST blastx, tblastn, tblastx 根本操作同 Blastn BLAST 2 sequences (bl2seq) NCBI的分析工具 对任意两条序列进行对位排列分析 允许空位 在BLAST主页的“Specialized BLAST栏目中点击“Align进入Bl2seq的分析网页三两序列对位排列分析 序列来源 输入 Accession number 直接粘贴序列 适用于 blastn, blastp, blastx, tblastn, tblastx blastn: 两条核苷酸序列相比较 blastp: 两条蛋白质序列相比较 tblastn: 比较蛋白质序列翻译成核苷酸序列sequence 1和核苷酸序列sequence 2 blastx: 比较核苷酸序列翻译成蛋白质序列 sequence 1和蛋白质序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论