生物信息学学习心得.doc_第1页
生物信息学学习心得.doc_第2页
生物信息学学习心得.doc_第3页
生物信息学学习心得.doc_第4页
生物信息学学习心得.doc_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学学习心得 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选生物信息学及实验的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一熟悉生物信息学网站及其数据的生物学意义 实验目的: 培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、swissport、ensemble、中科院北京基因组研究所、北大生物信息 学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。 实验内容: 1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描 述网站特征; 2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义; 3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。实验报告: 1.各网站网址及特征描述; 2.代表性数据的下载和生物学意义的描述; 3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学 研究所利用。 参考书目: 生物信息学概论罗静初等译,北京大学出版社,xx;生物信息学手册郝柏林等著,上海科技出版社,xx; 生物信息学实验指导胡松年等著,浙江大学出版社,xx。实验二利用blast进行序列比对 实验目的: 了解blast及其子程序的原理和基本参数,熟练地应用网络平台和linux计算平台进行本地blast序列比对,熟悉blast结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。 实验原理: 利用实验一下载的核算和蛋白质序列,提交到ncbi或者其他拥有blast运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入blast命令进行计算,获得结果文件。 实验内容: 1.向网上blast服务器提交序列,得到匹配结果; 2.本地使用blast,格式化库文件,输入命令行得到匹配结果; 3.对结果文件进行简要描述,阐述生物学意义。 实验报告: 1.阐述blast原理和比对步骤; 2.不同类型blast的结果及其说明; 3.讨论:不同平台运行blast的需求比较。 参考书目: 生物信息学概论罗静初等译,北京大学出版社,xx; 生物信息学实验指导胡松年等著,浙江大学出版社,xx;。 实验三利用clustalx(w)进行 多序列联配 实验目的: 掌握用clustalx(w)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。 实验原理: 首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过upgma方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用myers和miller算法实现。 实验内容: 1.明确软件所支持的输入文件格式,搜集出合适的数据; 2.在windows环境运行clustalx,在linux环境运行clustalw; 3.实验结果及分析,用treev32或njplotwin95生成nj聚类图。 实验报告: 1.好的符合clustal的序列数据; 2.提交数据网页记录和各步骤记录; 3.提供聚类图和多序列联配图,并说明意义。 参考书目: 生物信息学概论罗静初等译,北京大学出版社,xx; 生物信息学实验指导胡松年等著,浙江大学出版社,xx。实验四ests分析 实验目的: 释和代谢途径分析做好准备。 实验原理: 首先用crossmatch程序去除ests原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。 实验内容: 1.运行codoncodealigner程序,并用它建立工程文件,导入例子文件 夹里面的数据;练习对序列的各种查看方式。 2.使用codoncodealigner程序里的clipends,trimvector,assemble 等功能,完成序列的剪切、去杂质、组装工作。 实验报告: 1.实验各步骤记录和中间结果文件; 2.举例简要说明结果文件中数据的生物学意义。 参考书目: 生物信息学概论罗静初等译,北京大学出版社,xx; 基因表达序列标签(est)数据分析手册胡松年等著,浙江大学出版社,xx。 实验五利用primerpremier5.0设计 race引物 实验目的: 熟悉pcr引物设计工具primerpremier5.0的一些基本功能,能够根据实验需要选择相应的引物设计方法设计pcr引物。 实验原理: pcr实验是当代分子生物学的基本实验之一,由于目标序列和实验目的的不同,相应设计引物的要求也不一样。本实验延续ests分析结果,对于其中需要获得全长的基因进行race引物的设计,及5和3race引物,配合接头序列设计单向引物,并模拟练习通过连接获得全长的基因cds序列。最后设计已知全长基因序列的pcr扩增引物。 实验内容: 1.从网站下载并安装primerpremier5.0; 2.从genbank中任意获取一个dna序列,设计出该序列的合适引物;实验报告: 1.实验各步骤使用的数据、运算平台、结果文件记录; 2.比较不同引物设计平台和不同pcr实验的差别; 参考书目: 生物信息学概论罗静初等译,北京大学出版社,xx;生物信息学实验指导胡松年等著,浙江大学出版社,xx;。 实验八perl程序的安装、编写、调试实验目的: 培养学生能在windows和linux两种平台安装perl解释器、编写perl程序以及debug和运行的能力,熟悉perl语言基本语法,学会熟练编写和运用perl程序进行基础生物信息学研究。 实验原理: perl语言是一门通用的脚本语言,具有强大的字符串处理功能,是生物信息学研究的强大帮手,学会了perl语言,就能方便地处理生物信息学研究中遇到的各种字符串文本,促进研究的快速进行。 实验内容: 1.下载perl程序在windows和linux下的安装包并进行安装; 2.编写简单的perl程序,并学会debug; 3.编写具有简单功能的碱基处理perl程序。 实验报告: 1.perl解释器安装方法; 2.perl解释器debug方法; 3.讨论:perl语言在生物信息学研究中所起到的积极作用。 参考书目: perl编程24学时教程(美)皮尔斯著王建华等译,机械工业出版社,xx; 生物信息学手册郝柏林等著,上海科技出版社,xx;生物信息学实验指导胡松年等著,浙江大学出版社,xx 生物信息学(bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(genomics)和蛋白质组学(proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组dna序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和inter的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的acgt序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的? 生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者w.gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向:基因组学-蛋白质组学-系统生物学-比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的acgt序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。 刚刚接触生物信息的时候,大家都比较迷茫,我觉得它是一个交叉学科,要想学好得有一定的毅力。我的导师要求我至少作到以下几个方面: 1,数学基础要好点。线代,高数,统计等。 2,计算机知识。windows,linux,unix系统等,各种常用生物软件的使用。可以自己找来一个个试。 3,matlab里面有的关于生物方面的工具包也很多的。 4,生物知识,不用说的。 其他:如果要深入的话,最好会编程。什么java,perl,等。我是刚开始学。大家多指教。 导师推荐了好几本书: 生物信息学概论introductiontobioinformatics(英)tkattwood,djparry-smith著罗静初等译北京大学出版社xx年4月第一版本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。全书共分十章:1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5.dna序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。每章末尾均提供了进一步阅读指南和有关的网址。这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。此外,书的末尾还附有与生物信息学相关的词汇表。总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究和开发工作者的生物信息学参考书。 生物信息学手册郝柏林张淑誉编著上海科学技术出版社xx年10月第一版一本手册式的生物信息学书籍。除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。更为重要的是,该书的主要部分?quot;生物信息数据库和服务、软件和算法部分,提供了大量的网址。几乎是每一个条目下面都有不少网址。这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。对生物信息学的服务、软件和算法,本书也作了较全面的描述。本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。 生物信息学赵国屏等编著科学出版社xx年4月第一版本书是863生物高科技丛书之一。它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究 相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。 生物信息学-基因和蛋白质分析的实用指南bioinformatics-a practicalguidetotheanalysisofgenesandproteinsandreasd.baxevanisb.f.francisouellette著李衍达孙之荣等译清华大学出版社xx年8月第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交dna序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2.genebank序列数据库,3.结构数据库,4.应用gcg进行序列分析,5.生物数据库的信息检索,6.ncbi数据模型,7.序列比对和数据库搜索, 8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13.acedb:基因组信息数据库,14.提交dna序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。 在第14章提及的通讯资源:互联网和通信地址;电话和传真号码 ddbj/embl和genbank的一般联系信息以及提交dna序列到这些数据库的入口。 ddbj(信息生物学中心,nig) 地址:ddbj,1111yata,mishima,shiznoka411,japan 传真:81-559-81-6849 e-mail 提交:ddbjsubddbj.nig.ac.jp 更新:ddbjupdddbj.nig.ac.jp 信息:ddbjddbj.nig.ac.jp 互联网 主页: webin: genbank(国家生物技术信息中心,nih) 地址:genbanknationalcenterforbiotechnologyinformation,nationtionallibraryofmedicine,nationalinstitutesofhealth,building38a,room8n805,bethesdamdxx4 电话:301-496-2475 传真:301-480-9241 e-mail 提交:gb-subncbi.nlm.nih est/gss/stsbatch-subncbi.nlm.nih 更新:updatencbi.nlm.nih 信息:datalibebi.ac.uk 互联网 主页: bankit: 在dna序列数据库中使用的遗传密码: ddbj/embl/genbank特征表文档可用方式获得或者从ebi或ncbi的ftp服务器上得到postscript文件。ftp:/ncbi.nlm.nih/genbank/docs/ftp:/ftp.ebi.ac.uk/pub/databases/embl/doc/ embl和genbank数据库的版本信息 emblftp:/ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc genbankftp:/ncbi.nlm.nih/genbank/gbrel.txt sequin:dna序列数据库的提交和更新工具.ncbi.nlm.nih/sequin est,sts和gts主页,获取信息和向这些特定genbank数据库提交序列 est.ncbi.nlm.nih/dbest sts.ncbi.nlm.nih/dbsts gss.ncbi.nlm.nih/dbgss htgs主页:高吞吐量基因组序列资源,工具和信息.ncbi.nlm.nih/htgs 浅谈对生物信息学的认识 摘要生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。经过一学期的学习,我学到了很多很有用的知识,给我印象最深的有序列比对、蛋白质结构分析、核酸序列分析、数据库及数据库检索等内容。关键字:生物信息学认识基因组学数据库 时光飞逝,一学期马上就要结束了,本学期的专业选修课也即将结束。在上课之前,我一直认为生物信息学就是在讲关于人类及动物的基因,以及基因之间的差别。但是,刚上了几节课,我就发现生物信息学根本不是我想象的那么简单,就这样我怀着对自己的怀疑和对这门课的好奇走进了这门课。 生物信息学是一门新兴的、正在迅速发展的交叉学科, 美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学(bioinformaticsisanemergingscientificdisciplinerepresentingthebinedpowerofbiology,mathematics,andputers)。 现代生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的 科学,是现代生命科学与信息科学、计算机科学、数学、统计学、 物理学和化学等学科相互渗透而形成的交叉学科。 在这短短的一学期课中,在老师的带领下,我们学到了很多关 于生物信息学的知识,其中给我印象最深的有序列比对、蛋白质结 构分析、核酸序列分析、数据库及数据库检索等内容。 比如,序列比对,它的基本问题是比较两个或两个以上符号序列 的相似性或不相似性。从生物学角度来看,它包含很多意义;如从 相互重叠的序列片段中重构dna的完整序列等。老师主要给我们介 绍了blast比对。 再如,对蛋白质的分析。比如我们实验测定了一条蛋白质序列 或者从dna序列翻译得来一条蛋白质序列,我们要借助生物信息学 方法来对它进行基本性质及结构分析。其中基本性质包括它的分子 量、氨基酸数目、排列顺序、等电点分析等。结构分析包括跨膜螺 旋分析等。要运用的工具是protparamtool和tmhmm。对于这两 个工具我都进行了实际操作练习,我觉得这对我们以后的理论学习 和实验分析都非常重要。现代生物信息学的主要研究领域及其进展 1、基因组学和蛋白组学研究 基因组和蛋白组研究是生物信息学的主要内容.同样,生物信息 学是基因组和蛋白组研究中必不可少的工具。 基因组学(genomics)和蛋白组学(proteomics)的实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息.这方面的研究已成为生物信息学的主要研究内容之一. 一种生物的全部遗传构成被称为该种生物的基因组.有关基因组的研究称为基因组学.其中,序列基因组学(sequencegenomics)主要研究测序和核苷酸序列;结构基因组学(structuralgenomics)着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学 (functionalgenomics)则研究以转录图为基础的基因组表达图谱;比较基因组学(parativege2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。 蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的.蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量,基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的.在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组成及其作用方式.有关蛋白组的研究称为蛋白组学.其中,蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。生物信息学在基因组和蛋白组研究中所起的作用主要有:(1)基因组信息结构的计算分析.即对基因组数据进行大规模并行计算并预测各种新基因和功能位点,研究大量非编码区序列的信息结构和可能的生物学意义。(2)模式生物全基因组信息结构的比较研究.即 2、生物信息数据库 复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息,对这些信息的储存、检索、比较分析必须借助于计算机数据库技术,包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。现有的数据库有:核酸序列数据库(genbank、embl、ddbj)、基因组数据库、基因图谱数据库、蛋白质序列数据库(swtss- prot、pir)和蛋白质结构数据库(interpro)等。随着生命科学的不断发展,数据库种类不断增加、结构日益复杂、使用也越来越方便。 生物信息学作为一门新兴学科已经成为生命科学研究中必不可少的研究手段本文对数据库与数据库搜索序列比对蛋白质结构预测药物设计基因芯片技术几个方面做了介绍较为系统地阐述了生物信息学在这些领域的应用当然它所涉及 的内容与方法远远不只上面提到的那些新基因和的发现与鉴定非编码区信息结构分析遗传密码的起源和生物进化完整基因组的比较 研究大规模基因功能表达谱的分析等都是生物信息学研究的对象相信不久的将来生物信息学会在生命 科学领域扮演越来越重要的角色。 参考文献: 1、现代生物信息学及其主要研究领域萧浪涛(湖南农业大学理学院,湖南长沙410128) 2、生物信息学技术进展郭志云张怀渝梁龙军事医学科学院生物工程研究所,北京100071;四川农业大学生命科学及理学院,雅安625014 精要速览系列-先锋版生物信息学(第二版) d.r.westhead,j.h.parishr.m.twyman 科学出版社xx a生物信息学概述 相关学习网站.bios.co.uk/inbioinformatics b数据采集 dna,rna和蛋白质测序 1dna测序原理 dna中核苷酸的顺序是通过链式终止测序【也称为脱氧测序(dideoxysequencing)或以发明人命名的sanger方法】来确定。 2dna序列的类型 基因组dna,是直接从基因组中得到,包括自然状态的基因 复制dna(copydna,cdna),通过反转录得到的 重组dna,包括载体序列如质粒,修饰过的病毒和在实验室使用的其他遗传元件等 3基因组测序策略 散弹法测序(shotgunsequence)包括随机dna片段的生成,通过大量片段测序来覆盖整个基因组 克隆重叠群测序(clonecontig)dna片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成 4序列质量控制 通过在dna双链上进行多次读取完成高质量序列数据的测定 可使用如phred等程序对最初的跟踪数据(tracedata)进行碱基识别和质量判断。载体序列和重复的dna片段被屏蔽后,使用phred等程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工修饰解决 5单遍测序 低质量的序列数据可以由单次读段(read)产生(单遍测序,single-passsequencing)。尽管不很准确,但单遍测序如ests和gsss,可以低廉的价格快速大量的产生 6rna测序 因为有大量的小核苷酸(minornucleotide)(化学改变的核苷)存在于转移rna(trna)和核糖体rna(rrna)中,所以rna测序不能像dna测序那样直接进行。需要用特殊的方法来识别被改变的核苷,包括生化实验,核磁共振谱(nrmspectroscopy)和质谱(ms)技术 7蛋白质测序 蛋白质序列可以通过dna序列推断得到,而rna测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰(比如剪接或二硫键的形成) 大部分蛋白质测序是通过质谱(ms)技术进行的 基因和蛋白质表达数据 1全局表达分析 rna水平的分析中有效的方法是从rna群体或cdna文库中,甚至从序列数据库中进行序列采样。一个简单的方法是从cdna文库中随机挑选5000个克隆进行测序。含量很多的mrnas在采样的序列中出现的频率很高,而含量较少的mrna出现频率则较低,通过这些数据的统计分析可以确定相对的表达水平。 一个更高级的技术是基因表达的连续分析(serialanalysisofgeneexpreaaion,sage)该方法使每个cdna产生很短的序列标签(通常815nt),并在测序前把数百个标签连接成连环分子(concatemer)。这样一个测序反应中可搜集到几百条的丰富信息。每个sage标签可以特异性识别一个特定基因,通过对标签计数,可以确定每个基因的相对表达水平。 然而,大部分全局rna表达数据还需从微阵列实验所测的信号强度中获取。全局蛋白质表达数据主要从双向聚丙烯酰胺凝胶电泳(two-dimensionalpolyacrylamidegelelectrophoresis,2d-page)分离,产生点阵的唯一模式(每个点代表一个单独的蛋白质)。在2d-page实验中,蛋白质表达数据可以通过每个点的信号强度得到,每个二维凝胶上的蛋白信号必须通过质谱(ms)技术来单个注释。 2dna微阵列 一个微阵列有一系列的dna元件(特征),以格子形式排列在载玻片等微型支撑物上,通过与复合rna探针杂交可同时使很多基因的表达水平可视化。若使用两个不同的荧光标签的探针,可以在同样的阵列上直接测定不同样本的不同基因的表达。微阵列中主要用到的两个技术:机械点样dna微阵列(spotteddnamicroarray)和寡聚核酸基因芯片(oligonucleotidegenechip)(由美国affymetrix公司独家制造),后者在制造芯片是通过固态化学合成把寡聚核苷酸印在芯片上。 3双向蛋白质凝胶 2d-pag技术的原理是蛋白质可基于两个不同的特性来分离:等电点(isoelectricpoint)和分子质量(molecularmass)。该技术中,第一方向蛋白沿固相ph梯度(immobilizesphgradient)等电聚焦(isoelectricfocusing)分离;在垂直方向进行分子量的分离。在凝胶染色后,染色斑点(spot)的模式可作为样品中蛋白质的可重复使用的指纹(fringerprint)。通过样本间比较可以识别不同表达的蛋白质,或被药物诱导的蛋白质等。离体的蛋白质斑点(excisedspot)可以通过质谱技术鉴定。 蛋白质互作数据 1蛋白质互作的重要性 蛋白质-蛋白质互作导致瞬时或稳定多亚基复合物(multi-subunitplexes)的形成。了解这些复合物对于注释蛋白质功能是必需,也是解释信号级联和调控网络等分子途径的一个步骤。死效应反映了两个突变的蛋白质 2遗传方法 抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。而合成致死效应反映了两个突变的蛋白质不能相互作用,显性负突变(dominantnegativemutation)显示了一种起着多聚复合体作用的蛋白质。 3亲和性方法 可通过几种利用蛋白质亲和性(特异结合的倾向)分析的物理方法来为蛋白质之间的相互关系提供直接的证据,比如亲和性管柱层析法,免疫共沉淀。由ciphergen公司使亲和实验格式更趋微型化,使得在蛋白质芯片的发展中达到顶峰。 4分子和原子的方法 x射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作,其它的蛋白质互作分析的分子方法包括荧光共振能量传递(fret),表面基元共振谱(spr)和表面增强激光接吸附/离子化技术(seldl),其中的很多方法可通过质谱技术直接集成到蛋白质注释中。 5基于文库的方法 基于文库的蛋白质互作实验有两个主要优点:它是高度并行的实验格式;候选互作蛋白质及其cdnas之间直接关联。 影响最大的方法是酵母双杂交系统(yeasttwo-hybridsystem,y2h),在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。 c数据库-内容,结构和注释 已注释的序列数据库 1初级序列数据库 genbank(ncbi)、核酸序列数据库(embl)和日本的dna数据库(ddbj) 2swiss-prot和trembl swiss-prot收集了确认的蛋白质序列及与结构,功能和所属蛋白质家族有关的注释信息。相关数据库trembl翻译了初级核酸数据库中的编码序列。 其他数据库 1omim omim指人类孟德尔遗传的联机数据库,用于研究人类遗传学和人类分子生物学的强大资源。每个omim条目都有一个对特定基因或性状的已知信息的全文总结,并有指向初级序列数据库和其它遗传学资源的链接。 2incyte和unigene incyte是商业数据库,它提供了基因序列和专家注释的记录,这是专门为药物研究开发服务的数据库。unigene是一种用来把genbank序列聚类并与est数据相关联的实验工具。 3结构数据库 蛋白质数据库(pdb),核酸数据库(ndb),大分子结构数据库(msd) e通过序列相似性标准搜索序列数据库 序列相似性搜索 1序列联配 序列联配是是相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。联配结果以变化(突变)、插入或缺失(或空位indel)来显示序列之间的差异,这些差异可以用进化术语来说明。 2联配算法 动态规划算法可以计算两条之间的最佳联配,其中广泛使用的算法有smith-waterman算法(局部联配)和needleman-wunsch算法(全局联配)。 3联配分支和空位罚分 用简单的联配分值来测量相同匹配残基的比例或数目。得从联配分值中扣去空位罚分,以保证联配算法能得出有生物学意义的结果而没有太多的空位。 数据库搜索:fasta和blast 1统计分值 相似度记分的p值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低p值表明重要的匹配,这些匹配可能会有真实生物学意义。相关的e值(期望值)是至少与所识别的相似性记同样高分值的偶然事件的期望概率。两序列见相似度的低p值对应于大数据库搜索的高e值。 2敏感性和特异性 敏感性衡量数据库中真实生物序列关系的比例,该关系表现为击中项(有意义的相似序列)。特异性指的是对应于真实生物学关系的击中项的比例。改变e和p的默认值会导致这些互补的优良度测量方法之间的平衡。 f多序列联配:基因和蛋白质家族 多序列联配和家族关系 1多序列联配 多序列联配表明两条或两条以上序列之间的关系,可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论