序列比对与系统发生分析(第四章)1013_第1页
序列比对与系统发生分析(第四章)1013_第2页
序列比对与系统发生分析(第四章)1013_第3页
序列比对与系统发生分析(第四章)1013_第4页
序列比对与系统发生分析(第四章)1013_第5页
已阅读5页,还剩188页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 常见的生物信息学数据库;常见的生物信息学数据库; 数据库搜索;数据库搜索; 一级数据库(三大主要的核酸数据库?一级数据库(三大主要的核酸数据库?蛋白质数据库?;蛋白质数据库?; 二级数据库;二级数据库; 以关键词和词组为基础的数据库搜索;以关键词和词组为基础的数据库搜索; 核酸和蛋白质序列为基础的数据库搜索;核酸和蛋白质序列为基础的数据库搜索;关键词或词组为基础的数据库检索 关键词关键词 名词、描述性词、词组名词、描述性词、词组 序列注册号序列注册号 (Accession number) 检索体系检索体系 Entrez Sequence Retrieval System (SRS) Inte

2、grated database retrieval system (DBGET)检索须知(检索须知(1) u 连接词连接词 AND, OR, NOT rice AND enzyme rice AND enzyme NOT kinase retrotransposon OR retroelement u 用引号将两个单词组成一个词组用引号将两个单词组成一个词组 “disease resistance” disease resistance = disease AND resistance 检索须知(检索须知(2) u wild card“*”放在单词后使检索范围扩大,放在单词后使检索范围扩大,

3、但专一性降低但专一性降低 u Wan* = 所有以所有以 Wan 开头的单词开头的单词 u enzyme* = enzyme + enzymes 8大类大类44个与个与 Entreze 体系相连的体系相连的数据库数据库 u “Nucleotide Sequences” databases (15) u “Protein Sequences” databses (4) u “Structures” databases (5) u “Genes” databases (4) u “Gene Expression” databases (4) u “Taxonomy” databases (2) u

4、 “Genomes” databases (6) u “Literature” databases (4)Entrez主页主页/Entrez/Entrez系统中部分系统中部分数据库之间的连接数据库之间的连接 u 检索方法(检索方法(1):数据库之间检索):数据库之间检索 Entrez主页,输入关键词主页,输入关键词各个数据库中检索到的各个数据库中检索到的信息数量信息数量 点击相应数据库点击相应数据库查看信息目录查看信息目录,每一条信息每一条信息与其它数据库的与其它数据库的相关信息链接相关信息链接u 检索方法(检索方法(2):选择数据库检索):

5、选择数据库检索 NCBI主页(主页() 选择数据库,输入关键词选择数据库,输入关键词检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接查看查看信息内容信息内容 u 选择数据库后,可选择在这一数据库中的检索选择数据库后,可选择在这一数据库中的检索内容、时间范围、分子类型、基因位点等内容、时间范围、分子类型、基因位点等 检索到的检索到的信息目录信息目录 点击点击“Limits”修改检索时间范围修改检索时间范围点击点击“Go”检索检索选择时间范围内选择时间范围内的数据的数据u 范围检索范围检

6、索 v 检索分子量在检索分子量在20022009之间的蛋白质,输入之间的蛋白质,输入“2002:2009 Molecular Weight ”,结果的详,结果的详细细内容内容 v 检索核苷酸长短在检索核苷酸长短在30004000之间的之间的DNA,输,输入入“3000:4000SLEN”,结果,结果目录目录 v 检索注册号在检索注册号在AF123456AF123478之间的核之间的核苷酸数据,输入苷酸数据,输入AF123456:AF123478Accession number,结,结果果目录目录 16大类大类274个数据库与个数据库与 SRS 体系相连体系相连 u Literature, Bi

7、bliography and Reference databases (9) u Gene Dictionaries and Ontologies (7) u Nucleotide sequence database (32) u Nucleotide related databases (8) u Uniprot Universal Protein Resource (7) u Other protein sequence databases (14) u Protein function databases (14) u Protein structure databases (6) u

8、Protein interaction database (3)u Enzymes, reactions and metabolic pathway databases (7) u Mutation and SNP databases (1) u Other databases (7) u User owned databases (2) u Application result databases (18) u EMBOSS result databases (135) u EMBLGDS Grouped By (4) 16大类大类274个数据库与个数据库与 SRS 体系相连(续)体系相连(

9、续)SRS基本检索规则基本检索规则u 与常用检索规则不同的检索规则与常用检索规则不同的检索规则v 用用“|”代表代表“OR”,用,用“&”代表代表“AND”,用,用“!”代表代表“NOT” u 数字和日期检索数字和日期检索v 片段长度检索时用片段长度检索时用“:”代表代表 或或,用,用“!”代代表表 ;如;如“12:”表示表示 12,“:12”表示表示 12,“!12:”表示表示12,“:!12”表示表示sequence 1 ATTGCAGTTCGCA sequence 2 ATAGCACATCGCA u 结果网页结果网页 (四)利用(四)利用BLAST方法分析方法分析miRNAu 利

10、用利用miRBase数据库数据库(http:/microrna.sanger.ac.uk/sequences/index.shtml)在在数据库主页数据库主页点击点击“searching” 在在miRBase:Sequences网页的网页的“By sequence”栏目栏目粘贴序列(粘贴序列(小于小于1000 bp),在),在“Search sequences”栏目中选择检索栏目中选择检索“Mature miRNAs”或或“Stem-loop sequences”,点击,点击“Search miRNAs” 检索检索结果结果 u 分析分析RNA或或DNA的二级结构的二级结构 (http:/rna

11、.tbi.univie.ac.at/cgi-bin/RNAfold.cgi )在在“RNAfold WebServer”网站粘贴序列网站粘贴序列v 判断是否可能是判断是否可能是hairpin precursor miRNA 分析分析结果结果 不同不同图示图示展示结果展示结果 序列比对序列比对PART 2为什么要序列比对?为什么要序列比对?p基于同源物鉴定的功能预测基于同源物鉴定的功能预测p基本假设:基本假设: 序列的保守性序列的保守性 功能的保守性功能的保守性p注意:注意:1. 1. 蛋白质一般在三级结构的层面上执行功能;蛋白质一般在三级结构的层面上执行功能;2. 2. 蛋白质序列的保守性决定

12、于其编码蛋白质序列的保守性决定于其编码DNADNA的保守的保守性;性;序列同源性模型中的进化假设序列同源性模型中的进化假设1. 1. 所有的生物都起源于同一个祖先;所有的生物都起源于同一个祖先;2. 2. 序列不是随机产生,而是在进化上,不断发序列不是随机产生,而是在进化上,不断发生着演变;生着演变;3. 3. 基本假设:基本假设: 序列保守性序列保守性 结构保守性结构保守性注意:反之可以不为真。注意:反之可以不为真。 结构保守性结构保守性 序列保守性序列保守性同源物的定义同源物的定义u OrthologOrtholog ( (直系同源物直系同源物) ):两个基因通过:两个基因通过物种形成物种

13、形成的事件而产生,或源于不同物种的最近的共同祖先的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具的两个基因,或者两个物种中的同一基因,一般具有相同的功能。有相同的功能。u ParalogParalog ( (旁系同源物旁系同源物) ):两个基因在同一物种中,:两个基因在同一物种中,通过至少一次通过至少一次基因复制基因复制的事件而产生。的事件而产生。u XenologXenolog ( (异同源物异同源物) ):由某一个:由某一个水平基因转移水平基因转移事事件而得到的同源序列。件而得到的同源序列。直系同源物:物种形成直系同源物:物种形成旁系同源物:基因复制

14、旁系同源物:基因复制序列联配(比对)序列联配(比对) 序列比对又称为序列联配,是指用某序列比对又称为序列联配,是指用某种特定的数学模型与算法,找出两个或种特定的数学模型与算法,找出两个或多个序列之间的最大匹配碱基与残基,多个序列之间的最大匹配碱基与残基,尽可能客观的反映它们之间的相似与相尽可能客观的反映它们之间的相似与相异,从而进一步判断它们之间是否同源。异,从而进一步判断它们之间是否同源。序列比对的定义序列比对的定义用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。其他应用,如构建pr

15、ofile,打分矩阵等。序列比对的作用序列比对的作用手工比对手工比对辅助编辑软件如辅助编辑软件如bioeditbioedit,seaviewseaview,GenedocGenedoc等等通过辅助软件的不同颜色显示不同残基,靠分析者通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。的观察来改变比对的状态。计算机程序自动比对计算机程序自动比对通过特定的算法(如同步法,渐进法等),由计算通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态机程序自动搜索最佳的多序列比对状态。多序列比对的方法多序列比对的方法几种序列比对的方式几种序列比对的方式p 两条序列比

16、对两条序列比对p 多重序列比对多重序列比对 (同时比对多条序列)(同时比对多条序列)u 简单比对(考虑匹配与失配的打分,不考虑简单比对(考虑匹配与失配的打分,不考虑空分)空分)u 全局比对全局比对 (考虑空位,考虑匹配与失配的打(考虑空位,考虑匹配与失配的打分与空位罚分)分与空位罚分)u 局部比对局部比对 (重点考虑局部相似性)(重点考虑局部相似性)两条序列的比对两条序列的比对简单比对简单比对两条序列的比对两条序列的比对打分矩阵打分矩阵种情况种情况两条序列的比对两条序列的比对全局比对全局比对全局比对初始化全局比对初始化全局比对全局比对-初始化条件初始化条件全局比对示例全局比对示例计分矩阵元素值

17、的计算计分矩阵元素值的计算全局比对示例全局比对示例-初始化得分表初始化得分表全局比对示例全局比对示例反推(回溯)最优路径反推(回溯)最优路径全局比对示例全局比对示例最优路径的意义最优路径的意义有多种最优方案的全局比对有多种最优方案的全局比对 计算计算例例2:序列:序列1=CAGTT,序列序列2=ACGCTG;打分函数:匹配;打分函数:匹配2、失配、失配-1、空位、空位-1有多种最优方案的全局比对有多种最优方案的全局比对 回溯回溯序列序列CATGTCATGT与序列与序列ACGCTGACGCTG的的3 3种最优全种最优全局比对结果局比对结果序列局部比对序列局部比对u 只考虑序列部分区域的相似性就是

18、局部比对只考虑序列部分区域的相似性就是局部比对 (local alignment);u 有些同源序列虽然全序列的相似性很小,但是存在高有些同源序列虽然全序列的相似性很小,但是存在高度相似的局部区域;度相似的局部区域;u 这些局部序列相似性比对往往比全序列比对具有更高这些局部序列相似性比对往往比全序列比对具有更高的灵敏度,通过局部的相似性的比对,则可能会发现重的灵敏度,通过局部的相似性的比对,则可能会发现重要的比对信息,其结果更具生物学意义。要的比对信息,其结果更具生物学意义。局部序列的动态规划算法局部序列的动态规划算法局部序列比对的集中算法局部序列比对的集中算法BLAST算法的运算过程算法的运

19、算过程算法的运算过程简单描述为:算法的运算过程简单描述为:1)从两个序列中找出一些长度相等且可以形成无空位完全匹)从两个序列中找出一些长度相等且可以形成无空位完全匹配的序列片段对;配的序列片段对;2)找出两个序列之间所有匹配程度超过一定阈值的序列片段)找出两个序列之间所有匹配程度超过一定阈值的序列片段对;对;3)将得到的序列片段对根据给定的相似性阈值延伸,得到一)将得到的序列片段对根据给定的相似性阈值延伸,得到一定长度的高分值片段对。定长度的高分值片段对。多重序列比对多重序列比对多重序列比对采用的算法多重序列比对采用的算法Pairwise sequence alignment programs

20、How to get multiple sequences?SequenceBLAST Program多序列比对的软件多序列比对的软件GenedocClustal X Clustal WAlign X多序列比对的软件多序列比对的软件序列的输入序列的输入 序列序列alignment 格式调节格式调节 输出到绘图内编辑输出到绘图内编辑GenedocAlignment of A. ferrooxidans SOD protein and its orthologs. Atf27230: A. ferrooxidans ATCC 27230, De195: Dehalococcoides etheno

21、genes 195 Gspca: Geobacter sulfurreducens PCA, Tad1728: Thermoplasma acidophilum DSM 1728. Identical residues have been boxed and are shaded in dark. Sequence alignment of Homo sapiens Sgt1.2 with its five homologous proteins. Numbers on the right refer to the last amino acid in each corresponding l

22、ine. Residues indicated with dark shading are identical amino acids. Grey shading represents 80-90% similarity and light grey means 60-70% similarity. Sequence alignment of S_TKc domain of PXK_v1 with consensus S_TKc domain. Identical residues are represented in black and similar residues in gray. T

23、he subdomains of the S_TKc domain are indicated with Roman numerals. Asterisks denote the indispensable residues of lysine, glutamine and aspartic acid in consensus S_TKc domain. CLUSTALCLUSTAL是一种渐进的比对方法,先将多个序是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指关系;然后根据距离矩阵计算产生

24、系统进化指导树,对关系密切的序列进行加权;然后从最导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为不断重新构建比对,直到所有序列都被加入为止止。ClustalClustal简介简介序列的输入序列的输入(1) 序列序列alignmentClustalClustalClustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。距离,获得一个距离矩阵。邻接法邻接法(NJ)构建一个树(引导树)构建一个树(引导树)根据引导树,渐进

25、比对多个序列。根据引导树,渐进比对多个序列。ClustalClustal的工作原理的工作原理1.1.输入输出格式。输入输出格式。输入序列的格式比较灵活,可以是前面介绍过的输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。等格式。输出格式也可以选择,有输出格式也可以选择,有ALN、GCG、PHYLIP和和NEXUS等,等,用户可以根据自己的需要选择合用户可以根据自己的需要选择合适的输出格式适的输出格式ClustalClustal的应用的应用2.两种工作模式。两种工作模式。 a.多序列

26、比对模式。多序列比对模式。 b.剖面剖面(profile)比对模式。比对模式。3.一个实际的例子。一个实际的例子。ClustalClustal的应用的应用ClustalxClustalx的工作界面的工作界面(剖面(剖面(profile)(profile)比对模式)比对模式)多序列比对实例多序列比对实例输入文件的格式输入文件的格式(fasta):KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK.KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN

27、DAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN HYKVGRRIGEGSFGVIFEGTNLLNN第一步:输入序列文件。第一步:输入序列文件。第二步:设定比对的一些参数。第二步:设定比对的一些参数。参数设定窗口参数设定窗口第三步:开始序列比对。第三步:开始序列比对。第四步:比对完成,选择保存结果文件的格式第四步:比对完成,选择保存结果文件的格式ClustalXClustalX生成生成.dnd.dnd和和.aln.aln两个文件,可用文本编辑器打两个文件,可用文本编辑器打开来看,这时开来看,这时.aln.aln文件,这个文件可以用文件,这个文件

28、可以用MegaMega做进一步做进一步的的bootstrapbootstrap进化树分析进化树分析ClustalxClustalx生成的树生成的树用treeview(专门看树的软件)就可以打开这个dnd文件.序列的输入序列的输入(1) 序列序列alignmentClustal WClustal WHttp:/www.ebi.ac.uk/clustalv序列的输入序列的输入 序列序列alignment(1) 结果的编辑(结果的编辑(Metafile; text)Align XAlign XMultiple sequence alignment programsMultiple sequence

29、alignment programs新基因的鉴定新基因的鉴定蛋白序列特殊氨基酸残基分析蛋白序列特殊氨基酸残基分析 Charles Darwin (1809-1882)达尔文与贝格尔号旅行达尔文与贝格尔号旅行物种起源物种起源因为达尔文的缘故,后世很因为达尔文的缘故,后世很多科幻小说把接触地外生命多科幻小说把接触地外生命的任务交给一艘叫做贝克尔的任务交给一艘叫做贝克尔号的飞船。号的飞船。欧航局的火星着落器叫做贝克尔欧航局的火星着落器叫做贝克尔2号号.可惜坠落在火星表面可惜坠落在火星表面中喙地雀,加拉帕戈斯群岛中喙地雀,加拉帕戈斯群岛上的一种达尔文雀。上的一种达尔文雀。基本概念:基本概念:系统发生(

30、系统发生(phylogenyphylogeny)是指生物形成或进化是指生物形成或进化的历史;的历史;系统发生学系统发生学(phylogenetics)(phylogenetics)研究物种之间的研究物种之间的进化关系;进化关系; 系统发生树(系统发生树(phylogenetic treephylogenetic tree)表示形式,表示形式,描述物种之间进化关系;描述物种之间进化关系;系统发生与系统发生树系统发生与系统发生树Willi Hennig (1913-1976)系统发生学(分支学)创始人基本概念:基本概念:分子系统学分子系统学 是比较是比较3 3个或者更多个基因组之间个或者更多个基因

31、组之间的序列,揭示它们的进化关系的学科;的序列,揭示它们的进化关系的学科;分类学有分类学有2 2个学派:表征学、分子系统学个学派:表征学、分子系统学 u 它们都主张分类应包括众多的特征,并采用严格的数学方法进行计分它们都主张分类应包括众多的特征,并采用严格的数学方法进行计分分类;分类;u 表征学:采用的资料来自于所比较物种的不同特征,最初采用的是形表征学:采用的资料来自于所比较物种的不同特征,最初采用的是形态学特征;态学特征;u表征学将生物归入一系列不同等级的分类目录:界、门、纲、目、科、表征学将生物归入一系列不同等级的分类目录:界、门、纲、目、科、属、种这一等级制度,被称之为属、种这一等级制

32、度,被称之为“生命之树生命之树”; 经典系统发生学经典系统发生学主要是物理或表型特征主要是物理或表型特征如生物体的大小、颜色、触角个数如生物体的大小、颜色、触角个数 现代系统发生学现代系统发生学利用从遗传物质中提取的信息作为物种特征利用从遗传物质中提取的信息作为物种特征具体地说就是核酸序列或蛋白质分子具体地说就是核酸序列或蛋白质分子 关于现代人起源的研究关于现代人起源的研究: :线粒体线粒体DNADNA所有现代人都是一个非洲女性的后代所有现代人都是一个非洲女性的后代 现代系统发生学采用现代系统发生学采用DNA或者蛋白质作为分类特或者蛋白质作为分类特征,有许多优点:征,有许多优点:l许多分子特征

33、可以同时标记,例如某些遗传标记、分子标许多分子特征可以同时标记,例如某些遗传标记、分子标记等记等l分子特征的状态清晰;分子特征的状态清晰;l分子资料便于转化为数字形式,可进行修正和统计分析;分子资料便于转化为数字形式,可进行修正和统计分析;方法:方法: 免疫学资料;免疫学资料; 蛋白质电泳;蛋白质电泳; DNA-DNA杂交数据;杂交数据; DNA序列和序列和RFLP、SSLP、SNP等等DNA标记;标记;系统发生学的主要目标:系统发生学的主要目标:l找出一颗能够正确反映物种或基因(蛋白质)进化以找出一颗能够正确反映物种或基因(蛋白质)进化以及基因和蛋白质序列关系的系统发生树;及基因和蛋白质序列

34、关系的系统发生树;l推断不同生物体或基因(蛋白质)从它们上一级基因推断不同生物体或基因(蛋白质)从它们上一级基因祖先开始分化的具体时间;祖先开始分化的具体时间;表型分枝图表型分枝图(phenogram)(phenogram)进化分枝图进化分枝图(cladogram)(cladogram)有根树有根树无根树无根树系统发生树系统发生树表型分枝图表型分枝图(phenogram)(phenogram)进化分枝图进化分枝图(cladogram)分类单元(物种或序列)物种之间的进化关系 如果是一棵有根树,则树根代表在进化历史上是如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联

35、系的分最早的、并且与其它所有分类单元都有联系的分类单元;类单元;如果找不到可以作为树根的单元,则系统发生树如果找不到可以作为树根的单元,则系统发生树是无根树;是无根树;从根节点出发到任何一个节点的路径指明进化时从根节点出发到任何一个节点的路径指明进化时间或者进化距离。间或者进化距离。系统发生树的性质系统发生树的性质进化树的构建是一个统计学问题。我们所进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近当的方法,那么所构建的进化树就会

36、接近真实的真实的“进化树进化树”。模拟的进化树需要一。模拟的进化树需要一种数学方法来对其进行评估。不同的算法种数学方法来对其进行评估。不同的算法有不同的适用目标。有不同的适用目标。系统发生树的构建系统发生树的构建对于给定的分类单元数,有很多棵可能对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的系统发生树,但是只有一棵树是正确的。的。系统发生分析的目标系统发生分析的目标寻找这棵正确的树寻找这棵正确的树(1 1)选择可供分析的序列;)选择可供分析的序列;(2 2)同源蛋白质或者核苷酸序列的多重)同源蛋白质或者核苷酸序列的多重序列比对;序列比对;(3 3)构建系统发生树;)构建

37、系统发生树;(4 4)评价所建立的树;)评价所建立的树;系统发生分析步骤系统发生分析步骤离散特征数据:离散特征数据: 它提供了基因、个体、群它提供了基因、个体、群体或物种的信息;体或物种的信息;相似性和距离数据:相似性和距离数据: 它涉及的则是成对基它涉及的则是成对基因、个体、群体或物种的信息因、个体、群体或物种的信息系统发生树的类型系统发生树的类型选择可供分析的序列(选择可供分析的序列(DNA VS 氨基酸?)不同氨基酸?)不同的观点:的观点:u 支持支持DNA序列的观点:序列的观点: u 支持氨基酸序列的观点:支持氨基酸序列的观点: 研究研究DNA比研究氨基酸获得更加丰富的信息量;比研究氨

38、基酸获得更加丰富的信息量; 5UTR等非编码区域可能被用于分子系统发生分析;等非编码区域可能被用于分子系统发生分析; 编码氨基酸的那部分编码氨基酸的那部分DNA可以发生同义或者非同义的替换事件;可以发生同义或者非同义的替换事件; 碱基转换或颠换的速率能够被估算;碱基转换或颠换的速率能够被估算; 氨基酸比核苷酸具有更多的特征数据(氨基酸比核苷酸具有更多的特征数据(20:4);); 许多氨基酸有相似的物理化学性质(如赖氨酸和精氨酸都属于碱许多氨基酸有相似的物理化学性质(如赖氨酸和精氨酸都属于碱性氨基酸)在比对时可以用打分系统来描述这些相关(但不匹配)性氨基酸)在比对时可以用打分系统来描述这些相关(

39、但不匹配)的氨基酸之间的重要相关性;的氨基酸之间的重要相关性; 更低的氨基酸替换率使其更加应用于广泛分化的物种;更低的氨基酸替换率使其更加应用于广泛分化的物种;首先我们选择可供分析的序列:首先我们选择可供分析的序列:u在在NCBI数据库中利用数据库中利用BLAST程序,搜索与目标序列同源的序列;程序,搜索与目标序列同源的序列;u 选择并下载可供分析的序列,并将序列改成选择并下载可供分析的序列,并将序列改成fasta格式,保存为格式,保存为.txt文文件;(选择件;(选择mRNA或者或者cDNA序列,而不选择基因组序列;选择序列,而不选择基因组序列;选择e值较低值较低的序列(的序列(e小于小于1

40、0-5););u 利用利用NCBI或其他预测软件找到序列对应的编码区,或者称之为寻找或其他预测软件找到序列对应的编码区,或者称之为寻找ATG,然后去掉每条序列然后去掉每条序列ATG前的序列;前的序列;u 翻译为氨基酸;翻译为氨基酸;u 整理到一个文件中并保存;整理到一个文件中并保存;u 利用利用CLUSTALX/CLUSTALW进行多序列比较、去除雷同的序列;进行多序列比较、去除雷同的序列;多序列比对的方法:多序列比对的方法:u手工比对(辅助编辑软件包括:手工比对(辅助编辑软件包括:BioEdit和和Seqalign)通过通过辅助软件的不同颜色显示不同残基,依靠分析者的观察来改辅助软件的不同颜

41、色显示不同残基,依靠分析者的观察来改变比对的状态;变比对的状态;u 计算机程序自动比对(软件包括计算机程序自动比对(软件包括CLUSTALX和和CLUSTALW)通过特定的算法(如同步法、渐进法等)由)通过特定的算法(如同步法、渐进法等)由计算机程序自动搜索最佳的多序列比对状态;计算机程序自动搜索最佳的多序列比对状态;用来构建系统发生树的数据:用来构建系统发生树的数据:u距离数据距离数据(distance data)或相似性数据或相似性数据(similarity data),常用距离矩阵来描述,表示两个数据集之间的所有常用距离矩阵来描述,表示两个数据集之间的所有的两两差异;的两两差异;u特征数

42、据特征数据(character data),data),它提供了基因、个它提供了基因、个体、群体或物种的信息;体、群体或物种的信息; 二态特征:只有两种可能的状况,即具有或者不有某种特征,通二态特征:只有两种可能的状况,即具有或者不有某种特征,通常用常用“0”或者或者“1”表示;表示; 多态特征:具有两种以上可能的状况,如核酸的序列信息,对序多态特征:具有两种以上可能的状况,如核酸的序列信息,对序列中某一位置来说,其可能的碱基有列中某一位置来说,其可能的碱基有A、G、C、T系统发生树的构建方法:系统发生树的构建方法:u基于距离的主要构建方法:邻近归并法(基于距离的主要构建方法:邻近归并法(ne

43、ighbor-joining method,邻接法)、最小进化法、非加权组平均,邻接法)、最小进化法、非加权组平均法(法(UPGMA法);法);u基于特征的主要构建方法:最大简约法(基于特征的主要构建方法:最大简约法(MP法)、进化法)、进化简约法、最大似然法(简约法、最大似然法(ML法)、贝叶斯方法;法)、贝叶斯方法;1. ClustalX +Treeview2. Mega 33. Phylip4. Paup常用的软件常用的软件http:/ OptionsDistance Options标签页中的标签页中的ModelsModels可以下拉,其中有可以下拉,其中有若干个计算距离的方法可以选择,

44、在此默认泊松校验若干个计算距离的方法可以选择,在此默认泊松校验(Poisson Correction)(Poisson Correction)作为计算距离的方法作为计算距离的方法。Include sitesInclude sites标签页中可以选择处理空缺或者缺失数据的标签页中可以选择处理空缺或者缺失数据的方法,在此也用默认方法方法,在此也用默认方法系统进化树的测试方法,可以选择用系统进化树的测试方法,可以选择用BootstrapBootstrap,也可以,也可以选择不进行测试。重复次数选择不进行测试。重复次数( (ReplicationsReplications) )通常设定至少通常设定至少

45、要大于要大于100100比较好,随机数种子可以自己随意设定,不会比较好,随机数种子可以自己随意设定,不会影响计算结果。设定完成,点影响计算结果。设定完成,点OKOK,开始计算。,开始计算。结结 果果这个过程所耗时间和序列的数量和长短这个过程所耗时间和序列的数量和长短成正比成正比产生的进化树产生的进化树原始树原始树bootstrapbootstrap验证过的一致树验证过的一致树树枝上的数字表示树枝上的数字表示bootstrapbootstrap验证中该树枝验证中该树枝可信度的百分比可信度的百分比。可以在可以在ImageImage菜单中把图片保存为菜单中把图片保存为emfemf格式,或格式,或者直

46、接者直接copycopy到剪贴板。到剪贴板。保存emf文件,这种格式的图像可以直接paste到Word文档可以切换树的显示模式可以切换树的显示模式小小 结结进行序列比对进行序列比对序列特征进行分析:定义群组、定义功能域、序列特征进行分析:定义群组、定义功能域、对序列的保守位点、可变位点、简约信息位点对序列的保守位点、可变位点、简约信息位点计算碱基组成,转换、颠换比率,群组内、群计算碱基组成,转换、颠换比率,群组内、群组间核苷酸多样度、遗传距离组间核苷酸多样度、遗传距离绘出各种进化树图绘出各种进化树图(MP、ML、NJ等等) 。 格式输出:格式输出:mega,paup,phylip几种常用进化分

47、几种常用进化分析。析。PHYLIPDNA和蛋白质序列数据的分析软件和蛋白质序列数据的分析软件 序列数据转变成距离数据后,对距离数据分析的软件。序列数据转变成距离数据后,对距离数据分析的软件。 对基因频率和连续的元素分析的软件。对基因频率和连续的元素分析的软件。把序列的每个碱基把序列的每个碱基/氨基酸独立看待(碱基氨基酸独立看待(碱基/氨基酸只氨基酸只有有0和和1的状态)时,对序列进行分析的软件的状态)时,对序列进行分析的软件按照按照DOLLO简约性算法对序列进行分析的软简约性算法对序列进行分析的软件。件。绘制和修改进化树的软件。绘制和修改进化树的软件。 实例分析实例分析Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCATMo5 ATGTATTTCGT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论