




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验四 基于Matlab的序列比对分析实验目的1 了解MATLAB7.x生物信息工具箱中的序列比对方法;2 熟悉从数据库获取序列信息, 查找序列的开放阅读框, 将核普酸序列转换为氨基酸序列, 绘制比较两氨基酸序列的散点图, 用Needleman-wunsch算法和Smith-Waterman算法进行比对, 以及计算两序列的同一性的方法;3 熟悉与序列比对相关的生物信息学函数。所需软件MATLAB 7.0或MATLAB 7.0以上的版本实验内容序列比对是生物信息学的重要基础。进行序列比对的目的之一是判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。序列比对的基本算法主要有两个,一个是用于全局比对的Needleman-Wunsch算法,另一个是主要用于局部比对的Smith-Waterman算法,而后者又是在前者的基础上发展起来的。在MATLAB生物信息工具箱中,序列比对主要用这两种算法。确定两个序列的相似性是生物信息学的基础工作,通过序列比对(又称序列联配),可以确定两个序列是否具有同源性。 1. 查找序列信息 Tay-Sachs症是一种由于缺乏-氨基已糖苷酶A(Hex A)而导致的常染色体隐性遗传疾病。这种酶能分解大脑和神经细胞中的神经节苷脂(GM2)。基因HEXA编码该酶的亚基,而第三个基因GM2A编码活化剂蛋白质GM2。1.1 查找目的基因Tay-Sachs在NCBI()上查找信息,在Search列表中选择Nucleotide,在for框中输入Tay-Sachs, 点击Go。1.2 读入序列数据查找结果返回编码酶HexA的和亚基的基因和编码活化剂酶的相关页面。NCBI中人类基因HEXA的登录号是NM_000520。用fastaread或genbankread函数可将基因信息被以结构列表的形式导入MATLAB工作区。方式1:HumanHEXA = fastaread(NM_000520.fasta);humanHEXA=getfield(HumanHEXA,Sequence);方式2:HumanHEXA = genbankread(NM_000520.gb);humanHEXA=getfield(HumanHEXA,Sequence)1.3 读入另一序列的信息mouseHEXA许多基因的序列和功能通过同源基因在进化过程中被保留下来。同源基因就是有共同祖先或是相似序列的基因。查找公共数据库的目的之一就是找出相似的基因。如果用户能在数据库中定位一个未知的基因,那么这个未知基因和已知基因的功能和特征很可能是相同的。用fastaread或genbankread函数可将鼠类HEXA基因信息被以结构列表的形式导入MATLAB工作区(NCBI中鼠类基因HEXA的序列号是AK080777)。方式1: MouseHEXA = fastaread(AK080777.fasta);mouseHEXA=getfield(MouseHEXA, Sequence)方式2: MouseHEXA = genbankread(AK080777.gb);mouseHEXA=getfield(MouseHEXA, Sequence)2 确定蛋白质编码序列 一个核苷酸序列在蛋白质编码段的前后都包含了调控序列。通过分析这个序列,可以确定在编码最终蛋白质中亚氨基酸的核苷酸。2.1 查找人类HEXA的ORF使用seqshoworfs函数输出人类HEXA的所有阅读框中ORF中起始和终止密码子的位置。humanORFs = seqshoworfs(humanHEXA)结果显示了三个阅读框的ORF, 分别以蓝色、红色和绿色标记, 其中最长的ORF在第1个阅读框。阅读框部分省略阅读框部分省略阅读框部分省略2.2确定鼠类HEXA的ORF使用seqshoworfs函数输出人类HEXA的所有阅读框中ORF中起始和终止密码子的位置。mouseORFs = seqshoworfs(mouseHEXA)结果得到三个阅读框的ORF, 分别以蓝色、红色和绿色标记, 其中最长的ORF在第一个阅读框。 Frame 1 阅读框部分省略阅读框部分省略阅读框部分省略3. 比较氨基酸序列 在确定核苷酸序列中的ORF之后,就可以将核苷酸序列的蛋白质编码段转换为相应的氨基酸序列。并使用比对功能来确定两序列的相似性。3.1 将ORF转换为氨基酸序列mouseProtein = nt2aa(mouseHEXA);由于人类的ORF在第一个阅读框, 所以需要指出其位置humanProtein = nt2aa(humanHEXA,Frame,1);3.2 绘制散点图比较人类和鼠类的氨基酸序列。seqdotplot(humanProtein,mouseProtein,4,1)ylabel(Human hexosaminidase A);xlabel(Mouse hexosaminidase A);散点图是确定两序列相似性最简单的方法之一。图中对角线平直连续, 表示这两个序列相似性较好。3.3 比对这两个氨基酸序列下面nwalign函数有目的地比对两序列。采用的是Needleman-wunsch算法, 可返回全局比对的计算统计量。globalscore, globalAlignment = nwalign(humanProtein,mouseProtein)showalignment(globalAlignment);Identities = 486/753 (65%), Positives = 570/753 (76%) 3.4 截短序列寻找终点:humanStops = find(humanProtein = *)mouseStops = find(mouseProtein = *)下面将序列截短至只含第一个甲硫氨酸至第一个停止符,进行局部比对。截短序列至只包含蛋白质的氨基酸序列和停止符。humanSeq = humanProtein(70:humanStops(2);humanSeqFormatted = seqdisp(humanSeq)mouseSeq = mouseProtein(11:mouseStops(1);mouseSeqFormatted = seqdisp(mouseSeq)3.5 比对被截短的氨基酸序列globalscore, globalalignment = nwalign(humanSeq,mouseSeq);showalignment(globalalignment);Identities = 450/540 (83%), Positives = 507/540 (94%)3.6 局部比对两氨基酸序列下面swalign函数有目的地比对两序列。采用的是Smith-Waterman算法, 可返回局部比对的计算统计量。localscore, localAlignment = swalign(humanProtein,mouseProtein);showalignment(localAlignment);Identities = 454/547 (83%), Positives = 514/547 (94%) 作业1进入NCBI任意搜索两条细菌条斑病
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 18731:2025 EN Spices and condiments - Seasoning oil of Zanthoxyli pericarpium - Specification
- 学前口语考试试题及答案
- 深海养殖自动化喂养系统应用方案
- 混凝土砌块墙体施工技术方案
- 金属雕塑建筑施工组织设计及对策
- 光村镇2024-2025学年第二学期五年级科学期末学业评价题目及答案
- 农村饮水安全巩固提升工程施工方案
- 房屋建筑工程消防安全实施方案
- 碳捕集利用工程项目进度管理方案
- 宅基地空地租赁与农业项目合作合同书
- 用户侧储能系统调度平台创新创业项目商业计划书
- 药厂生产管理培训课件
- 同城理发店转租合同范本
- 2021-2025年高考地理真题知识点分类汇编之地球的运动
- 医院反诈宣传课件
- 2025海南国考时政试题及答案
- 2025年日本n4试题及答案
- 2025年秋期人教版3年级上册数学核心素养教案(第2单元)(教学反思有内容+二次备课版)
- 2025年医院院感科医院感染试题及答案
- 2025乡村医生培训考试试题库及参考答案
- 线束变更管理办法
评论
0/150
提交评论