生物信息学原理题库_第1页
生物信息学原理题库_第2页
生物信息学原理题库_第3页
生物信息学原理题库_第4页
生物信息学原理题库_第5页
免费预览已结束,剩余9页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学原理题库作者:日期:、关于B LAST简述BL A ST搜索的算法思想。答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字” w or d”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了; 一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(H SP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MS P),这样,BL AST既保持了整体的

2、运算速 度,也维持了比对的精度。BLAST的五个子程序程查询序刃数据库种类匱述方法BlastpSB质可以找到具有远源 遗化关系的匹配序 列待技索SB序列石蛋 a数扌居库比较Blastn适合寻找分值较高 的匹配,不适合远源恃捜索極酿仔列与核 0澈振库比較Blasts(已翻译)蛋白质适合新DNA序列和 EET序列的分听将待投索核酿序列按 E个读框翻铎成?gs 质序列.然后与数据 库中的se质比较TBlastn蚩eja核首酸(已餓译适合寻扶数据库中 尚未标注的编码区将数据库中檯酸序列 按6个谅框翻译成蚩 S序列,然后与待捜 索s日序列对比TBlastx核甘酸 (已翻 译)已厳译)适台分祈EST严列尢

3、论是待捜索核酸严 列违是麴据库中核酿 序列,都按6个读框制评成蛋白序列B L AST 套件的 bias tn、bl a stp、b lastx、tbi a s t n 和 tbia s tx 子工具的用途什么?答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;B 1 ast p是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;B 1 as tx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tb 1 astn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标

4、注的新编码区很有用;Tbl as tx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对B L A ST中,E值和P值分别是什么,它们有什么意义??答:BLAS T中使用的统计值有概率P值和期望e值。? E期望值(E -V a lue)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有 10个匹配序列是由随机产生,如果比对的统计显著性值(E值)小于该值(10),则该比对结果将被检出,换句话说,比

5、较低的E值将使搜索的匹 配要求更严格,结果报告中随机产生的匹配序列减少。p值表示比对结果得到的分数值的可信度。一般说来,P值越接近于零,则比对结果的可信度越大;相反,P值越大,则比对结果来自随机匹配的可能性越大。?(阈值越高,序列相似就越可信 )?(序列越长,序列相似就越可信)试述P SI B L AST搜索的5个步骤。答:1:选择待查序列(q U ery)和蛋白质数据库;:2 PSI-BLAS T构建一个多序列比对,然后创建一个序列表谱(p r o f ile)又称特定位置打分矩阵(PSSM); : 3 P SSM被用作quer y搜索数据库4 PSI-BLAST 估计统计学意义 (E va

6、 l ue s )5:重复3:和4,直到没有新的序列发现。6 . P SI-BL A ST and PH I-B L A STP SI B L AST :位点特异性反复比对,首先进行一般的blastp比对,从比对结果中构建多序列比对的搜索矩阵,然后用此矩阵在一次搜索原来的数据库,重复5次直到没有新的结果出现为止。其是一种更加高灵敏度的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。PH I -Bl a st:模式识别BL A ST,是一种既能和查询匹配又能和模式匹配的的蛋白序列的比 对程序,是一种高灵敏性的blastp程序,一般经过一次搜索即可取得很好的效果,而当一次之后其

7、与P SI-BLAST功能是一致的。广泛用于蛋白家族成员的鉴定。15.全局比对与局部比对的比较及生物学意义全局比对:对序列的全部字符进行比对,试图使尽可能多的字符实现匹配。其主要用于序列相似度很高且序列长度相近的序列比对,用于进化的研究和结构的预测。局部比对:寻找序列间相似度最高的区域 ,也就是匹配密度最高的部分。其主要应用于某些部 位相似度较高而其他部位差异较大的序列的比对, 用于寻找保守的核苷酸及蛋白质序列中氨 基酸模式。什么是序列比对中使用的 选择使用的矩阵是什么 矩阵(S coring matrix )。PA M 矩阵(Point AccepBLASTPAM矩阵和 BLO S UM矩阵

8、都是用于序列相似性比对的记分d M utati on)基于进化的点突变模型,如果两种氨基酸替换频那么这对氨基酸替换得分就高。一个PAM就是一个进化的变,但这并不意味10 0次PAM后,每个氨基酸都发生变化,因为其 ,甚至可能会变回到原来的氨基酸。PAM矩阵和B L OSUM矩阵,它们的作用是什么,一般 答:繁,说明自然界接受这种替换,异单位,即1%的氨基酸改变 中一些位置可能会经过多次突变模块替换矩阵 BLO S UM(B L Ocks Subs t i t u t ion Mat r ix)首先寻找氨基酸模式,即有意 义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同

9、的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有6 0%保守性的氨基酸模式之间的比较数据为根据,产生BL OSUM 6 0;以所有8 0%保守性的氨基酸模式之间的比较数据为根据 产生B LOS UM80。此矩阵与PAM矩阵的不同之处在于: (1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM:匕PAM大约多20倍。,产生“取(2 ) PAM家族内成员相比,然后把所有家族中对某种氨基酸的比较结果加和在一起代”数据(PAM-1 ) ; PA M- 1 自乘 n 次,得 PAM-n。假设你得到一段未知基因的个分析流程来分析该未知基因的功能和家族类别(包括系统发育

10、树构建1、得到未知基因的 D NA序列,用 和蛋白质序列。2、接着,用搜索出来的较相似的序列用突变情况。3、最后用距离法构建系统发育树。 假设你得到一段未知蛋白的氨基酸序列DNA序列,从你学习到的生物信息学分析方法和软件,设计一)B la st做序列比对,找出与其基因相似的核苷酸序列ClustW进行多序列比对,得到该序列的保守情况和,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。1用该序列进行 BLA S TP搜索。2、再对其进行蛋白质结构域、功能域的搜索,可以用Zn terpro s can、Pf am ,并对其进行结构分析。3、再用C

11、lustW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。、关于分子进化系统发生树构建的基本方法最大简约法(max im u m pa r simony , MP)是构造一棵反映分类单元之间最小变化的系 统发生树,在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化 树。距离法(di s tan ce)根据一定的假设(进化距离模型)推导得出分类群之间的进化距离, 构建一个进化距离矩阵进化距离构建进化树的方法有很多,常见有:F M法NJ法/邻接法 是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPG MA算法要求进化

12、速率保持恒定的缺陷。除权配对算法(UPGMA法)最初,每个序列归为一类,然后找到距离最近的两类将其归为一 类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。最大似然法(maxim u m l i k e l i h o o d,ML )它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行 分析评估,并在此基础上构建系统发育树。简述除权配对法(UP G MA )的算法思想。答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程

13、不断的重复,直到所有 的序列都被加入,最后得到一棵进化树。 P11 9 11)简述邻接法(NJ)构树的算法思想。答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的 近邻序列。P11712)简述最大简约法(MP)的算法思想。P6 8答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的

14、演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P120 1 3)简述最大似然法(M L )的算法思想。P6 9答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P 12 214) U P GM A构树法不精确的原因是什么?P6 9答:由个于U PG MA假设在进化过程中所有核苷酸 /氨基酸都有相同的变异率,也就是存在 着一个分子钟

15、;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。进化树的可靠性分析自展法(Bootstra p Me tho d)1. 从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;2. 重复上面的过程,得到多组新的序列;3. 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。三、基础知识生物信息学数据库的组成包括哪些部分?数据库有哪些类型?基因组数据库、生物答案:生物信息学数据库的组成包括一级数据库 和二级数据库。数据库的类型包括核算和蛋白质一级结构序列数据库、 大分子三维空间结构 数据库、以上述3类数据库和文献资料为基础

16、构建的二次数据库。2)简要介绍GenBank中的DNA序列格式。答案:G enBank中的DNA序列格式可以分成三个部分,第一部分为描 述符,从第一行L O C U S行到ORIGI N行,包含了关于整个记录的信息;第二部分为特性表,从FEATU R ES行开始,包含了注释这一纪录的特性,是条目的核心,中间使用一批关键字;第三部分是核苷酸序列的本身。简要介绍F A S TA序列格式 答案:FASTA格式,又叫P ear son格式,是最简单的,使用最多的格式。它的基 本形式分为三个部分:第一行:大于号( )表示一个新的序列文件的开始,为标记符。后面 可以加上文字说明,gi号,G enBank检

17、索号丄O CU S名称等信息。第二行:序列本身,为 DNA的标准符号,通常大小写均可。结束:无特殊标志,但建议多留一个空行,以便将序列和其他内容区分开。.序列的相似性与同源性有什么区别与联系?答:(1)相似性是指序列之间相关的一种统计学的量度,两序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相应的分数来衡量这种相似;而同源性是指序列所代表的物种具有共同的祖先, 强调进化上的亲缘关系,不能用相应的数字去量化这种关系,我们只能说序列具有高的一致性的百分比的可能是同源的。相似的不一定是同源的,同源的则表现出一定的相似性。因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕

18、见。相反同源序列由于来源于共通过祖先则表现出一定的相似性。四、一些名词解释FASTA序列格式:是将DN A或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸 字符串,大于号( )表示一个新文件的开始,其他无特殊要求。4. genb ank序列格式:是G enB ank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。5. E ntrez检索系统:是N CB I开发的核心检索系统,集成了NCB I的各种数据库,具有

19、链接的数据库多,使用方便,能够进行交叉索引等特点。6 .B LA ST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据 库中的每个序列做相似性比较。P 947.查询序列(que r y s eq uenee):也称被检索序列,用来在数据库中检索并进行相似性比较 的序列。P9 8&打分矩阵(SC oring mat ri x):在相似性检索中对序列两两比对的质量评估方法。包括 基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PA M )两类方法。P299. 空位(gap ):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对 结果,这

20、样在其中一序列上产生中断现象,这些中断的位点称为空位。P291 0 .空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不P37E值大小说明了可以找到与查询序列E值越接近零,越不可能找到其他匹配序列 ,E值,也即相似性越能反映真实的生物学意义。P代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。1 1 .E值:衡量序列之间相似性是否显著的期望值。(query)相匹配的随机或无关序列的概率, 越小意味着序列的相似性偶然发生的机会越小95指序列中包含的重复度高的区域,如poly(A)。Y轴是另一个序列,y)加点,如果两条序列完全相同则会形成一条;如

21、果完全没有相似性则不能连成12.低复杂度区域:BLAST搜索的过滤选项。1 3.点矩阵(dot mat r ix):构建一个二维矩阵,其X轴是一条序列, 然后在2个序列相同碱基的对应位置(X 主对角线,如果两条序列相似则会出现一条或者几条直线 直线。,将这些序列做一个总体的比对14. 多序列比对:通过序列的相似性检索得到许多相似性序列 以观察它们在结构上的异同,来回答大量的生物学问题。,从而可以通过分子进化推断出15. 分子钟:认为分子进化速率是恒定的或者几乎恒定的假说物种起源的时间。16 .系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其 他性状,可以研究推断不同物种或基因之间的进

22、化关系。,一个父分支都只能被分成两个17.进化树的二歧分叉结构:指在进化树上任何一个分支节点 子分支。,是引入时间概念的支序图。系统发育图:用枝长表示进化时间的系统树称为系统发育图1 &直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似 或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)19. 旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)21.有根树:20. 外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物

23、种。 能够确定所有分析物种的共同祖先的进化树。2 2.除权配对算法(UPGMA ):最初,每个序列归为一类,然后找到距离最近的两类将其归 为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。23.邻接法(n e ighb or -join i ng me t ho d):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UP GM A算法要求进化速率保持恒定的缺陷。2 4 .最大简约法(M P ):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨 基酸替换的进化树。,找到概 并在此基础上2 5 .最大似然法(ML):它对

24、每个可能的进化位点分配一个概率,然后综合所有位点 率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估, 构建系统发育树。2 6. 致树(con sen sus tree):在同一算法中产生多个最优树,合并这些最优树得到的 树即一致树。27.自举法检验(B oo tstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。2 8 .开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。tR N A 的tRNA所对应的密码子,这种29. 密码子偏好性(co d o n bias):氨基酸的同义密码子的使用频率与相应的同功 水平相一致,大多数高效表达的基因仅使用那些含量高的同功 效应称为密码子偏好性。30. 基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。3 1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论