




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多重序列比对序列相似性比较: 就是将待研究序列与就是将待研究序列与DNA或蛋白质序列库进行比较,用于确或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包么。完成这一工作只需要使用两两序列比较算法。常用的程序包有有BLAST、FASTA等等;序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间序列中进行多序列同时比较,以确定该序列与其它
2、序列间的同源性大小。这是理论分析方法中最关键的一步。完成的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;等;r 用于描述一组序列之间的相似性关系,用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻以便了解一个基因家族的基本特征,寻找找motif,保守区域等。,保守区域等。r 用于描述一个同源基因之间的亲缘关系用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。的远近,应用到分子进化分析中。r 基因和蛋白质功能分析基因和蛋白质功能分析r 其他应用,如构建其
3、他应用,如构建profile,打分矩阵等。,打分矩阵等。C-terminalN-terminalAMP-bindingr 1. 最优的多序列比对,其两两序列之间的比对最优的多序列比对,其两两序列之间的比对不一定最优不一定最优最优的多序列比对非最优的双序列比对r 1. 渐进方法:渐进方法:progressive methods|ClustalW/X, T-Coffeer 2. 迭代算法:迭代算法:iterative methods|PRRP, DIALIGNr 3. 部分有向图算法:部分有向图算法:|Partial Order Algorithm (POA)r 4. 全局多序列比对的隐马尔科夫模
4、型全局多序列比对的隐马尔科夫模型|ProbCons r 5. 整合算法:整合算法:meta-methods|MUSCLEr (1) ClustalW/X|a. Clustal: 1988年开发年开发|b. ClustalW: 1994年,年,Julie D. Thompson等人改进、开发等人改进、开发|c. ClustalX: 1997年,图形化软件年,图形化软件r (2) T-Coffeer 1. 将所有序列两两比对,计算距离矩阵;将所有序列两两比对,计算距离矩阵;r 2. 构建邻接进化树构建邻接进化树(neighbor-joining tree)/指导树指导树(guide tree);r
5、 3. 将距离将距离最近最近的两条序列用动态规划的算的两条序列用动态规划的算法进行比对;法进行比对;r 4. “渐进渐进”的加上其他的序列的加上其他的序列两两比对,构建距离矩阵指导树的构建渐进比对1.1.输入输出格式。输入输出格式。 输入序列的格式比较灵活,可以是前面介绍过的输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是格式,还可以是PIRPIR、SWISS-PROTSWISS-PROT、GDEGDE、ClustalClustal、GCG/MSFGCG/MSF、RSFRSF等格式。等格式。 输出格式也可以选择,有输出格式也可以选择,有ALN、GCGGCG、PHYLIPPHY
6、LIP和和NEXUSNEXUS等,等,用户可以根据自己的需要选择合适的输出格式。用户可以根据自己的需要选择合适的输出格式。2.2.两种工作模式。两种工作模式。 a.多序列比对模式。 b.剖面(profile)比对模式。输入文件的格式输入文件的格式(fasta)(fasta):KCC2_YEASTKCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMANDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMN
7、K.KPRO_MAIZEKPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLENDAF1_CAEELDAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALDQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN1CSN HYKVGRRIGEGSFGVIFEGTNLLNN HYKVGRRIGEGSFGVIFEGTNLLNNr 第一步:输入序列文件。第一步:输入序列文件。r 第二步:设定比对的一些参数。第二步:设定比对的一些参数。r 参数
8、设定窗口。参数设定窗口。r 部分参数定义r Gap opening penalty:增大数值使 gap 数目减少r Gap extension penalty:增大数值使 gap 长度变短r Weight transition:AG 转换或 CT 转换(multiple DNA sequence alignment)r Hydrophilic gap:选择“ on” 将增加形成 gap 的机会(multiple protein sequence alignment)r Residue-specific gap penalties:选择“ on” 将增加在某些氨基酸残基处形成 gap 的机会,而
9、减少在另一些氨基酸残基处形成 gap 的机会(multiple protein sequence alignment)r 第三步:开始序列比对。第三步:开始序列比对。r 第四步:比对完成,选择保存结果文件的格式第四步:比对完成,选择保存结果文件的格式r 产生输出的ALN文件r 产生输出的DND文件,它是系统的种系树r 1. 距离最近的,有两组序列距离最近的,有两组序列AB和和CD,哪,哪组最先比对?两种方案:组最先比对?两种方案:|A. 分别、同时比对。但是,是以分别、同时比对。但是,是以AB为准,加为准,加入入CD,然后再加上其他序列,还是,然后再加上其他序列,还是CD为准?为准?结果可能出
10、入很大结果可能出入很大|B. 随机挑选一组作为基准随机挑选一组作为基准r 2. 当序列差异较大时,上述问题更加明显当序列差异较大时,上述问题更加明显r 1. 三条序列:三条序列:r 2.若若Seq1,2先比对,先比对,再加入再加入Seq3:r 3. Seq1,3先比对,再先比对,再加入加入Seq2:r 4. Seq2,3先比对,再先比对,再加入加入Seq1:Seq1: ARKCVSeq2: ARCVSeq3: AKCVARKCVAR-CVA-KCVAR C VA-RCVA-KCVARKCVAR-CVAK-CVr 算法分为三个部分,每个部分相对独立;算法分为三个部分,每个部分相对独立;r 1.
11、Draft progressive: |(1) 对两条序列,计算距离采用对两条序列,计算距离采用k-mer的思想;的思想;|(2) 用用UPGMA算法构建引导树算法构建引导树|(3) 使用渐进算法进行多序列比对使用渐进算法进行多序列比对r 优点:两条序列之间的距离不采用动态规优点:两条序列之间的距离不采用动态规划算法进行比对,节省时间划算法进行比对,节省时间r 2. Improved progressive: |(1)基于基于k-mer得到的树可能会产生次优结果,得到的树可能会产生次优结果,因此,采用因此,采用Kimura距离的方法对距离的方法对k-mer产生产生的树重新计算距离矩阵的树重新计
12、算距离矩阵|(2)重新用重新用UPGMA构建进化树构建进化树|(3)使用渐进算法进行多序列比对使用渐进算法进行多序列比对r 2. Refinement: |(1)随机从进化树上挑出一条边,删除随机从进化树上挑出一条边,删除|(2)得到两组树,对每组树,计算得到两组树,对每组树,计算profile|(3)将两组将两组profile进行比对进行比对|(4)如果最终得分提高,保留结果,否则丢弃如果最终得分提高,保留结果,否则丢弃 在许多情况下多序列比对需要揭示被多个非保守区间隔的多个保守区,对此MAP2是个有效工具。下面的截图介绍如何使用在线版的MAP2 。1.在线MAP2的网址以及两种输入数据提供方式。在本例中数据被贴入提供的窗口,数据与ClustalX2.0中相同,是23个动物中的miR-19。2.主要的参数及其缺省值。DNA block penalty(Linux版本的参数major_diff)影响非保守区块的大小,mismatch score、gap open penalty和gap extension penalty只影响保守区中的全局比对。3.MAP2以两种方式返回三个结果 在线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中英语自然拼读法在英语戏剧表演比赛中的实践与探索论文
- 中国医药行业市场分析报告
- 节假曰车辆管理制度
- 苯板房安全管理制度
- 茶艺师销售管理制度
- 《小公鸡和小鸭子》课件
- 财务预算管理与财务知识分析
- 高尔夫移动卡项目商业计划书
- 管理学案例分析闲可钓鱼与无暇吃鱼
- 见证取样手册(四川省质安站)
- 老年人防诈骗防电信诈骗老年人反诈骗课件
- 2024版血液透析医院感染预防与控制标准
- 县委督查业务培训
- 海洋环境监测技术
- 安徽工业大学《环境规划与管理》2023-2024学年第一学期期末试卷
- 2023-2024学年江苏省苏州市高二下学期6月期末物理试题(解析版)
- 广东省肇庆市2023-2024学年高二下学期期末考试政治试题(解析版)
- 光伏电站质量通病防治手册
- 广东省2024年中考数学试卷【附真题答案】
- 签订预算合同范本
- 《华为技术认证HCNA网络技术实验指南》参考配置
评论
0/150
提交评论