生物信息学名词解释.doc_第1页
生物信息学名词解释.doc_第2页
生物信息学名词解释.doc_第3页
生物信息学名词解释.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

名词解释: Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转录起始点上游-10及-35区域存在一些相似序列。1、 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。2、 Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。3、 genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。4、 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。5、 查询序列(querysequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。6、 打分矩阵(scoringmatrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。7、 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。8、 PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。9、 Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。10、 PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组蛋白质研究。11、 SWLSSMODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。12、 空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。13、 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。14、 点矩阵(dotmatrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。15、 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。16、 MEGA:是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计算、系统树重建和可信度评估等全套功能,能对DNA、mRNA氨基酸序列及遗传距离进行系统发生分析以及基因分化年代的分析。17、 BioEdit:BioEdit是一个序列编辑器与分析工具软件。功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。18、 GSS:基因组勘测序列,是基因组DNA克隆的一次性部分测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exontrapped获得基因组序列、通过AluPCR获得的序列、以及转座子标记序列等。19、 coiledcoil:卷曲螺旋,是蛋白质中由27条螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。20、 分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。21、 系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。22、 除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。23.邻接法(neighbor-joiningmethod):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。23、 一致树(consensustree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。24、 自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。25、 密码子偏好性(codonbias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。26、 基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。27、 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。28、 超家族:进化上相关,功能可能不同的一类蛋白质。33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。29、 GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。30、 TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。43.MMDB(MolecularModelingDatabase):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。31、 SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(superfamily)、家族(family)、单个PDB蛋白结构记录。32、 表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。33、 比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。34、 DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,也接受其他国家呈递的序列。4.BLAST:基本局部比对搜索工具的缩写,是一种序列类似性检索工具。BLAST采用统计学几分系统,同时采用局部比对算法,BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。35、 BLASTn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。36、 BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。37、 ClustslX:是CLUSTAL多重序列比对程序的Windows版本,是用来对核酸与蛋白序列进行多序列比较的程序,也可以对来自不同物种的功能或结构相似的序列进行比对和聚类,通过重建系统发生树判断亲缘关系,并对序列在生物进化过程中的保守性进行估计。38、 SRS:序列查询系统,是EBI提供的多数据库查询工具之一。有与Entrez类似的功能外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。39、 Abinitioprediction:蛋白质三级结构预测方法从头预测法,在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根据序列本身来预测其结构。40、 分子进化树:精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异,而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。41、 genetree:基因树,表示一组基因或一组DNA顺序进化关系的系统发生树。42、 MP:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。43、 heptadrepeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列。44、 structuredomain:结构域,是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论