生物信息学数据库答案.doc_第1页
生物信息学数据库答案.doc_第2页
生物信息学数据库答案.doc_第3页
生物信息学数据库答案.doc_第4页
生物信息学数据库答案.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学(bioinformatics):是一门交叉学科,它包含了生物信息的获取,处理,存储,分发,分析和解释等在内的所以方面,它综合运用数学,计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。目的:揭示基因组信息结构的复杂性及遗传语言的根本规律,解释生命的遗传语言。方法:主要有创建一切适用于基因组信息分析的新方法,改进现有的理论分析方法,发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具等。应用:生物信息的存储与获取,序列比对,测序与拼接,基因预测,生物进化与系统发育分析,蛋白质结构预测,RNA结构预测,分子设计与药物设计,代谢网络分析,基因芯片,DNA计算等。1.1.3 生物信息学的研究内容 1、序列比对(Alignment)。 2、结构比对。 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。 4、计算机辅助基因识别(仅指蛋白质编码基因)。 5、非编码区分析和DNA语言研究,是最重要的课题之一。 6、分子进化和比较基因组学,是最重要的课题之一。 7、序列重叠群(Contigs)装配。 8、遗传密码的起源。 9、基于结构的药物设计。 10、其他。 如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。3、开放式阅读框(ORF):是基因的起始密码子开始到终止密码子为止的一个连续编码的序列。5、中心法则:包括DNA的自我复制,转录形成RNA并翻译成蛋白质,RNA的自我复制和逆转录的过程。6序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 6、算法分析:评价一个算法的优劣,通过时间复杂度和空间复杂度来确定。 7、数据库管理系统:(database management system,DBMS)对DB进行管理的系统工程,提供DB的建立、查询、更新以及各种数据控制能。 8、数据库:统一管理的相关数据的集合。9、搜索软件:对内容进行筛选,从中选择出符合用户的检索要求的内容同时进行分级排序,将结果显示出来。10、人类基因组计划(HGP):是对人类24条染色体上的3X109个碱基对(base pair,bp)序列进行测定,完成图谱绘制、测序、基因识别,及信息系统的建立。一、名词解释:1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。3一级数据库(一次数据库) :基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。一般说来,一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P941、 GenBank:是美国国家生物技术信息中心管理的核酸序列数据库,汇集并注释了所有公开的核酸序列。2、 ORF:一组连续的含有三联密码子的能够被翻译成为多肽链的DNA序列。它由起始密码子开始,到终止密码子结束。3、 CDS:是编码一段蛋白产物的序列。4、 BLAST:是一个基于局部比对的序列相似性搜索工具。5、 EST:(表达序列标签)就是cDNA的一个片段,即一个基因编码序列的一小段。6、 PDB:(蛋白质结构数据库)是美国国家实验室创建并管理的收录生物大分子晶体结构的数据库。7、 Homology:(同源性)8、 Similarity:(相似性)9、 Orthologous:(直向同源、垂直同源)描述在不同物种中来自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能没有。10、 Entrez:是NCBI网站的数据库查询系统,它集成了文献数据库、核酸序列数据库、结构数据库、基因图谱数据库,是有效利用NCBI数据库资源的工具。11、 EMBL:是欧洲分子生物学实验室创建的核酸序列数据库。12、 DDBJ:日本国立遗传研究所创建的核酸序列数据库。13、 SCOP:英国医学研究委员会的分子生物学实验室创建的收录蛋白质结构域的数据库。7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P9814.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。17.系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。二、选择题(20分)1、GenBank数据库的网址是( B)A. B: C: D: 2、PDB蛋白质数据库结构文件中上标的表示S2+方法是( D)A: S 2+ B S=2+ C: S D: S= =2+ = =3、生物学文献数据库中可免费使用的是 (C )A:OVID B:CBIC:PUB D: BIOSIS Previews4、GBFF的数据格式中结尾标识是( A)A:/ B: ! C: * D: P1开头是蛋白质序列N1开头是核酸序列。分号后跟一个编号是序列的唯一标识号;_后是标识来源,之后是说明行,扩展名是”。Pir”or”.seq”。2、FASTA格式:第一行以开头但没有指明是蛋白质还是核酸序列后的代码,接着注释,通常注释以“|”分开,第一行没有长度限制。FASTA格式允许以小写字母代表序列。扩展名为“.fasta”3、GDE格式:与FAST格式基本相同,但是行首是%号,扩展名为“.gde”。FASTA序列格式FASTA 序列格式包括三个部分:(1)在注释行的第一列用字符“”标识,后面是序列的名字和来源(2)标准的单字符标记的序列(3)可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。GBFF格式GenBank中DNA序列格式GenBank中数据库(包括核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“/”之间。这些字段提供的信息可以参见网页:序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程序用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。Ge

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论