



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
MATLAB在生物序列信息分析中的应用生物技术(生物制药方向09) 杨清松 0909501162摘要:MATLAB生物信息工具箱为广大用户提供了一个用于基因组和蛋白质组分析的综合环境, 它利用数据库资源, 使科学研究事半功倍, 在工具箱提供的开放环境里, 用户甚至可以按照自己的目的来设计和利用分析工具。本文主要介绍MATLAB生物信息工具箱在基因序列分析中的应用,包括确定核苷酸组成, 密码子组成, 氛基酸转化和组成等, 所有操作简便高效, 结果可视化程度高。关键词:MATLAB,序列分析,序列比对,ORF,密码子生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起1。人类基因组测序工作完成后,我们在后基因组时代面临的一个重要问题,即如何处理越来越多的数据,进而分析基因组序列的意义,研究尚不清楚的结构和功能等。这对生物信息学的工具提出了新的挑战。在国际学术界, MATLAB已经被公认为准确、可靠的科学计算标准软件。从MATLAB6。5。1首次增加了引人注目的生物信息学工具箱以来, 如今的版本生物信息学工具箱的数据处理能力得到了极大的提升2。目前,MATLAB可以进行序列分析,系统发生分析,芯片数据分析,可视化等,并可以在互联网上获取数据库资料。最新版本的工具箱则强化了质谱分析和统计推论与预测功能,包括基线校正、平滑、排比和重新取样等。能让研究人员执行质谱仪资料分析、统计推论与预测、绘图及处理大量基因组和蛋白质体序列分析等工作。文章主要介绍当前在基因序列分析、序列比对中的应用。1 基因序列分析序列分析是利用计算机方法来寻找有关核苷酸或氨基酸。序列的信息序列分析的一般工作是基因识别, 确定两个基因的相似性, 确定一个基因的蛋白质编码以及研究另一相似基因的功能。在分析完一段序列时, 首要任务就是研究序列中的核苷酸组成。下面是序列分析的主要内容和相应函数。1.1确定核苷酸的组成可以使用序列统计函数确定这个序列是否含有蛋白质编码域的特征。1.2绘制密度图可用ntdensity函数绘制单体密度和联合体密度图。1.3计算核苷酸数目可用basecount函数计算链中的核苷酸数目。1.4计算互补核苷酸数目显示核苷酸分布可用seqrecomplement函数显示核苷酸的分布。1.5饼状图可用basecount函数显示饼状图。1.6计算二聚体个数可用dimercount函数计算一个序列中的二聚体个数,并在一个条形图中显示出来。1.7确定密码子组成三核苷酸密码子编码一个氨基酸, 在一个核苷酸序列中有个可能的密码子。知道序列中密码子的百分比有助于用户假设密码子的排列情况。1.8计算密码子数目可用函数计算一个核苷酸序列中的密码子数目。1.9绘制热红外分布图可用绘图程序绘制热红外分布图显。1.10显示密码子示出个阅读框中的所有的个密码子。1.11确定密码子分布运用code count函数。1.12氨基酸转化和组成确定蛋白质相关的氨基酸组成可以提供给用户蛋白质特征图谱。1.13确定氨基酸组成和分子量可用atomiccomp函数和molweight函数确定蛋自质的氨基酸组成和分子量。2 序列比对序列比对是生物信息学的重要基础。进行序列比对的目的之一是判断两个序列之间是否具有足够的相似性, 从而判定二者之间是否具有同源性。序列比对的基本算法主要有两个, 一是用于全局比对的Needleman-wunsch算法, 另一个是主要用于局部比对的Smith-waterman算法, 而后者又是在前者的基础上发展起来的3。在MATLAB生物信息工具箱中, 序列比对主要用这两种算法。运用MATLAB进行序列比对的一般步骤如下:2.1查找序列信息2.1.1查找目的基因在NCBI中查询并获得目的基因序列。2.1.2读入序列数据用getgenebank函数可将基因信息被以结构列表的形式导人MATLAB工作区。2.1.3读入另一序列的信息导入另一可能有同源性的基因序列,如果用户能够在数据库中定位一个未知的基因, 那么这个未知基因和已知基因的功能和特征很可能是相同的4。2.2确定蛋白质编码序列2.2.1查找目的基因的ORFORF即开放阅读框,指可以连续编码蛋白的核酸序列。利用seqshowORFs函数的输出结果给出了人类的所有阅读框中ORF中起始和终止密码子的位置。2.2.2查找另一参比基因的ORF2.3比较氨基酸序列2.3.1将ORF转换为氨基酸序列2.3.2绘制散点图 用Seqdotplot可绘制散点图。2.3.3比对这两个氨基酸序列 用nwalign函数可比对两序列。2.3.4截短序列2.3.5比对被截短的氨基酸序列2.3.6局部比对两氨基酸序列Matlab生物信息学工具箱提供了生物信息学中常用的函数,由于这些函数均经过严格测试,稳健性可以得到保证,免去我们自己设计这些函数的不便。Matlab生物信息学工具箱可用于计算生物学和设计新算法,创建可独立运行应用程序并得到可视化结果,使研究人员更专注于生物信息算法。目前,此工具箱还不能提供核酸和蛋白质高级结构的分析功能,这也为大家提供了改进的空间。以后Matlab会设计更好的算法,可重用的软件模块,改进数据库和不同数据类型的可视化显示,改进知识系统,以及用于阐述环境和遗传与环境相互作用对健康和疾病的影响。应用程序设计者可以用Matlab提供的工具设计生物技术和药学软件。Matlab将在药物发现,基因组和蛋白质组学研究中有广泛的应用5。Reference:1 Collins F S, Green E D, Guttmacher A E, et al. A vision for the future of genomics researchJ. Nature, 2003, 422: 838.2 The MathWorks. Bioinformatics toolbox for use with MATLAB M. The MathWorks Inc, 2005. 1-2.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》强化训练【模拟题】附答案详解
- 押题宝典教师招聘之《小学教师招聘》题库及完整答案详解【考点梳理】
- 2025年教师招聘之《小学教师招聘》预测试题含答案详解【综合题】
- 教师招聘之《小学教师招聘》综合检测题型汇编完整版附答案详解
- 教师招聘之《幼儿教师招聘》强化训练含答案详解【预热题】
- 2025年教师招聘之《小学教师招聘》通关练习试题及完整答案详解(典优)
- 教师招聘之《小学教师招聘》题库检测模拟题【培优】附答案详解
- 2025年教师招聘之《幼儿教师招聘》题库必刷100题带答案详解(夺分金卷)
- 2025年教师招聘之《幼儿教师招聘》练习题(一)附答案详解【完整版】
- 教师招聘之《小学教师招聘》考前冲刺分析(a卷)附答案详解
- 合理低价法投标报价得分自动计算表
- 土地资源管理专业考试知识事业单位考试
- 《琵琶行》导学案-教师版
- 监控系统常见故障判断处理new
- DDI高绩效辅导经典课程讲义
- 幼儿园特色环境的打造:地区文化特色的幼儿园环境创设课件
- 如何读懂诗歌课件
- 测量仪器自检记录表(全站仪)
- VDA6.1质量管理手册体系审核
- 初级注册安全工程师考核试题题库与答案
- 基坑支护工程SWM工法桩施工专项方案
评论
0/150
提交评论