生物信息学简概及教程(经典).doc_第1页
生物信息学简概及教程(经典).doc_第2页
生物信息学简概及教程(经典).doc_第3页
生物信息学简概及教程(经典).doc_第4页
生物信息学简概及教程(经典).doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学简概及教程(经典) 来源:互联网 作者:未知 发布时间:2006-08-23 一、数据库注:Display中选FASTA形式,显示原始的核苷酸数据,便于复制。(2)dbEST EST来源于mRNA基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)5端或3端的cDNA序列(EST)300-400bp single-pass sequence (可能有误,如果要求2kb) 更新快!/HTGS/ (7)dbSNP 每100-300bp有一个SNP/SNP/ (8)EMBL http:/www.ebi.ac.uk/embl/ (9)DDBJhttp:/www.ddbj.nig.ac.jp/ (10)EPD (Eukaryotic Promoter Database) 启动子数据库http:/www.genome.jp/dbget/dbget2.html 2蛋白质数据库 (1)SWISS-PROT /sprot/有详细的注释序列;与44个数据库相互参照(cross-reference)(2)TrEMBL (translation of EMBL) (3)PIR (Promoter information resource) /pir/ 表明了结构域 (4)PRF (Promoter research foundation)http:/www4.prf.or.jp/ (5)PDBSTR (Re-organized Protein data Bank)/sprot/prosite.html 蛋白质的二级结构、-碳位置 (6)Prosite 蛋白质家族、结构域/prosite/3结构数据库(1)PDB (Protein Data Bank) /pdb/ (2) NDB (Nucleic Acid Database) /NDB/ndb.html (3)DNA-bind Protein database/NDB/structure-finder/protein/index.html (4)swiss-3D IMAGEhttp:/www.expasy.ch/sw3d/ 4酶和代谢数据库(1)KEGG (Kyoto Eneyclopedin of genes & genemes)http:/www.genome.ad.jp/kegg/ (2)PKR (Protein Kinase Resource)/kinases 5文献数据库(1)PubMed /PubMed/ (2)OMIM /Omim (3)Agricola / 农业相关的文献 6提交数据GenBankBankIt提交网上直接提交,立即得到临时编号(1周内提供Aceesion No.) SequIn提交 下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列 用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索 Text-based database searching2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching 关键词:名词;描述性词、词组;Accession number 体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET)检索须知 1、连接词:AND OR NOT 用引号将两个词组成一个词组 “disease resistance” 表示必须两个词先后顺序连续出现;disease resistance 表示默认AND 2、wild card “*” 放在单词后使检索范围扩大,但是专一性降低Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同 (1)Entrz(NCBI)优点:三种检索体系中最容易操作的; 缺点:检索范围有限 8大类29个与Entrz体系相连的数据库 1、Nucleiotide sequence database(6) GenBank; SNP; Gene; Homologene; UniSTS; ProSet2、Protein sequence database(1)Proteins3、Structure database(4)Structure; PubChem; Compound; 3D-Domain; CDD 4、Taxonomy database(1) Taxonomy 5、Genome database(2) Genomes; Genome Project 6、Expression database(4) UniGene; GEO Profiles; GEO database;GENSAT注:数据库来源于mRNAcDNAprotein(更确切)7、Literature database(7)PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH 8、Others PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch 检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围)(2)SRS (Sequence Retrieval System)http:/srs.ebi.ac.uk/ 有不同的版本,可以下载。EBI 优点:检索面宽 缺点:检索复杂 17大类194个数据库与SRS体系相连 检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索。) b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索。)(3)DBGET http:/www.genome.jp/dbget/dbget2.html 优点:与KEGG相连,操作较SRS简单 缺点:检索面较窄 检索方法:a、Basic search b、Advanced search 三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching 1、序列对位排列(sequence alignment) 2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入或缺失、序列延长、序列定位、基因表达谱分析) 3、序列对位排列分析种类 a、序列对库对位排列分析 (从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库)b、两序(多序列)列对位排列分析 (一)序列对位排列分析的基本原理1、记分矩阵(scoring matrix)a、蛋白质序列对位排列分析记分复杂 b、一致氨基酸记分不同 稀有氨基酸分值高,普通氨基酸分值低c、相似氨基酸也积分,如D-E 用“”表示氨基酸残基性质相似 2、空位(间隔)罚分(gap penalty)基因进化过程中产生突变(插入、缺失)序列对位排列分析是允许插入空位 空位罚分涉及两个参数:空位开放(gap opening) 空位延伸(gap extension)(二)序列对库对位排列分析 对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同源序列 主要检索体系:BLAST、FASTA、Blitz1、基本概念a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同 sequence similarity(or opositive) 两序列在同一位点核苷酸或氨基酸残基化学性质相似 b、Global alignment 完整的序列比较 Local alignment 两序列相似程度最高的片断相比较 c、Gapped alignment 为达到最佳alignment序列中加入空位 Ungapped alignment 相比较的核苷酸或氨基酸残基连续 d、Alignment score 衡量两相比序列相似程度的标准 E (expect) value 期望得到的,完全由机会造成的,相当于或大于目前分值的alignment次数 Raw score 原始分,分值较大,两个比较序列相似性程度较大 Bit score 采用统计学方法以原始分为基础计算 E10 ;表示方法5e-46=510-46 E越小越好 可以接受的标准:E10-5 (重叠位置40bp;identity94%;远大于杂交标准) E10-30 基因组分析,功能与序列中相似 E取决于alignment分值,相比较序列的长短和库中数据数量 e、Low-complexity alignment region(LCR) 核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如polyA) 数据库中半数以上的序列至少带有一处LCR序列alignment 应避免LCR相互配对得分BLAST用Filter功能避免比较LCR 用X和N分别代表LCR中的每个氨基酸残基和核苷酸 2、BLAST(Basic Local Alignment Search Tool) (1) Nucleiotide Blast (Blastn) (2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast) (3) Translated blast (blastx;tblstn;tblsatx) (4) Special Blast (Blast 2 sequence;bl2seq;VecScreen) BLAST program Blastn 用核苷酸序列检索核苷酸库BlastP 用氨基酸序列检索蛋白质库 Blastx 用核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索蛋白质库tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸库 tblastx 将核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索核苷酸库(库中的序列也被译成不同的氨基酸序列)Blast database nr (nucleiotide blast) GenBank(无EST、STS、GSS、HTGS)nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF(1)BLASTN 序列的粘贴(或用GI号)选择databaseAutoformat(full/semi) (2)BLASTP(3)PSI-blast (Position Specific Iterated Blast) 氨基酸序列检索;重复循环检索数据库。 注意:PHI和PSH同一网页,需要设定。 (4)PHI-blast (Pattern Hit Initiated Blast) 蛋白质并带有特殊的结构域(pattern)检索库中的相似蛋白质(带有同样的特殊结构域或者这一临近的序列与被查找的序列相似。) 与PSI-blast相连,可以循环检索。(5)Translated Blast(6) Conserved Domain Blast (rpsblast)3、FASTAwww.ebi.ac.uk/fasta33/index.html fasta3 用DNA序列检索核苷酸序列,用氨基酸序列检索蛋白质库。 Fastx3/fastay3 将DNA序列及其互补的序列通过6种读码框翻译成不同的氨基酸序列检索蛋白质库注意:提交结果的形式与Blast不同(表格形式)4、Blitzhttp:/www2.ebi.ac.uk/bic_sw/ 能检索出远缘的序列;发现家族成员上可靠;只用于蛋白质库;慢!一般用email服务。(三)两序列对位排列分析全局(贯穿整条序列长度);局部(相似性变大区段) 1、Blast 2 sequence 任两条序列,允许空位。 blastn, blastp, tblastn(比较蛋白质序列1与核苷酸序列翻译成蛋白质序列2比较。 blastx 比较核苷酸序列(译成蛋白质)(seq1)和蛋白质序列(seq2) tblastx 两条核苷酸比较(译成蛋白质) 2、Global alignment program (GAP) 两条序列,允许空位,可以选记分的矩阵,全局对位排列,提交有格式。 sequence 1 ATGTGAGGTCCCTGA sequence 2 GCTGCAAGTCGTAGC 四、多序列对位排列分析和系谱分析 主要用于分析基因或蛋白质的进化;通过分析各个基因和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论