2012生物信息学考试试题剖析_第1页
2012生物信息学考试试题剖析_第2页
2012生物信息学考试试题剖析_第3页
2012生物信息学考试试题剖析_第4页
2012生物信息学考试试题剖析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 .生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交 叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。2 . BLAST (Basic Local Alignment Search Tool )直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3 . PSI-BLAST:是一种迭代的搜索方法,可以提高 BLASTS口 FASTA勺相似序列发 现率。4 . 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点

2、是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。5 . HMM隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有 可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一 种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的 概率分布和状态间的相互转换来生成蛋白质序列。6 .信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。7 .非信息位点:对于最大简约法来说没有意义的点。8 .标度树:分支长度与相邻节点对的差异程度成正比的树。9 .非标度树:只表示亲缘关系无差异程度信息。10 .有根树:单一的节点能指派为共同的祖先,从祖先节点

3、只有唯一的路径历经 进化到达其他任何节点。11 .无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外 部参考物种,可以在无根树中指派根节点。12 .注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组 DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功 能注释)。13 .聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的 方法。14 .无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所 使用的算法和数据本身的分析方法。15 .有监督分析法:这种方法引入某些形式的分类系统, 从而将表达模式分配到 一个或多个预定义的类目

4、中。16 .微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进 行杂交,通过扫描仪扫描对荧光信号的强度进行检测, 从而迅速得出所要的 信息。17 .虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切 (课件定义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。18 .质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m的方法,从而 使分子质量的准确确定成为可能。质谱分析的两个工具19 .分子途径是指一组连续起作用以达到共同目标的蛋白质。20 .虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应

5、和物质流的 集合体。21 .先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性 而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维 结构的数据库中,搜索能与生物大分子靶点匹配的化合物, 或者搜索能与结 合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法 得到的具有生物活性的化学结构22 .权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点 的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。23 .系统发育学(phylogenetic ):确定生物体间进化关系的科

6、学分支。24 .系统生物学(systems biology ):是研究一个生物系统中所有组分成分(基 因、mRNA蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并 分析生物系统在一定时间内的动力学过程25 .蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因 组所表达的全套蛋白质。26 . ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技 术。二.填空题1 .常用的三种序列格式:NBRF/PIR,FAST四口 GDE2 .初级序列数据库:GenBank EMBL口 DDBJ3 .蛋白质序列数据库:SWISS-PROT TrEMBL4 .提供

7、蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR (蛋白质信息资源)5 .目前由NCBI维护的大型文献资源是PubMed6 .数据库常用的数据检索工具:Entrez 、 SRS DBGET7 .常用的序列搜索方法:FASTAF口 BLAST8 .高分值局部联配的BLAS修数是HSPs (高分值片段对),E (期望值)9 .多序列联配的常用软件:Clustal10 .蛋白质结构域家族的数据库有:Pfam, SMART11 .系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法12 .系统发育树的构建方法:距离矩阵法.最大简约法和最大似然法13 .常用系统发育分析软

8、件:PHYLIP14 .检测系统发育树可靠性的技术:bootstrapping 和Jack-knifing15 .原核生物和真核生物基因组中的注释所涉及的问题是不同的16 .检测原核生物 ORF的程序:NCBI ORF finder17 .测试基因预测程序正确预测基因的能力的项目是GASR基因预测评估项目)18 .二级结构的三种状态:a螺旋,6折叠和6转角19 .用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20 .通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWERSWISS-MODEL网站)21 .蛋白质质谱数据搜索工具:SEQUEST22

9、 .分子途径最广泛数据库:KEGG23 .聚类分析方法,分为有监督学习方法,无监督学习方法24 .质谱的两个数据库搜索工具:SEQEST和Lutke巾sh三.问答题1. FASTA序列格式第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是 注释(在同一行),通常注释要以“ |"符号相隔,第一行没有长度限制。值得 注意的是FASTAt件允许以小写字母表示氨基酸。文件扩展名为” .fasta(NBIR/PIR序列格式第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸), 再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没

10、有 长度限制。接下来是序列本身,以“ *”号终止。文件的扩展名为“ .pir ”或“.seq”。GDEff列格式与FASTA勺格式基本相同,但行首为“ %,文件扩展名为“ .gde”。)2. BLAST的五个子程序程序查询序列数据库种类简述方法Blastp蛋白质蛋白质可以找到具有远源 进化关系的匹配序 列待搜索蛋白序列与蛋 白数据库比较Blastn核甘酸核甘酸适合寻找分值较高 的匹配,不适合远源 关系待搜索核酸序列与核 酸数据库比较Blastx核甘酸 (已翻 译)蛋白质适合新DNAJ列和 ESU予列的分析将待搜索核酸序列按 6个读框翻译成蛋白 质序列,然后与数据 库中的蛋白质比较TBlastn

11、蛋白质核甘酸(已翻译)适合寻找数据库中 尚未标注的编码区将数据库中核酸序列 按6个读框翻译成蛋 白序列,然后与待搜 索蛋白序列对比TBlastx核甘酸 (已翻 译)核甘酸(已翻译)适合分析EST序列无论是待搜索核酸序 列还是数据库中核酸 序列,都按6个读框 翻译成蛋白序列3.生物类的数据库类别:一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。4 . PSI-Blast 的原理:PSI-BLAST是一种将双序列比对和多序列比对结合在一起的

12、数据库搜索方 法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列, 用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系 的覆盖面积)。具体做法是最初对查询序列进行 BLAST搜索,接着把查找得到的每一击中项 作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相 似序列为止。(以下为研究生课件部分)PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值 将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进 这一序列谱以提高搜索的灵敏度。利用第一次搜索结果构建位置特异性分数矩阵, 并用于第二次的搜索,

13、第二次 搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。止匕外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。5 .多序列联配的意义:1 )分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进 化树的初始步骤;3)寻找个体间单核甘酸多态性;4)通过序列比对发现直亲 同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6) 寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的 结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因 的哪些区域对突变敏感;10) PCF§|物设计。6 .系统发育学

14、的研究方法:1 )表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;2 )遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没 有出现在离它们较远的祖先序列;3 )进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进 化理论;7 .系统发育树的构建方法:1 )距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离 模型)推到得出分类群之间的进化距离, 构建一个进化距离矩阵,其次基 于这个矩阵中的进化距离关系构建进化树;2 )最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需

15、要突 变的最少数量对序列进行比较和聚类;3 )最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合 进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。8 .简述人工神经网络预测蛋白质二级结构的基本步骤。1)输入数据(来自PDB2)产生一个神经网络(一个计算程序)3)用已知的蛋白质二级结构来训练这个模型4)由训练好的模型来给出未知蛋白的一个可能的结构5)最后从生物角度来检验预测的一系列氨基酸是否合理9 .预测蛋白质三级结构的三种方法1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;2)折叠识别法:寻找与未知蛋白最合适的模板,进行

16、序列与结构比对,最终 建立结构模型;3)从头预测法:根据序列本身从头预测蛋白质结构。10 .分子途径和网络的特点:1)分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们 可能包含了多个分支,盘绕的连接和回路。2)它们通常也显示出节点间关系的方向, 例如表示出代谢通路或信号传导的 方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相 互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者 失活作用)常常用T型棒表示。11 .先导化合物的来源有四种来源:1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山 大.弗莱明发现的青霉素,今天所用的许多抗

17、生素皆由其发展出来)2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物 (例如,镇定剂氯化物内媒是在试验中发现用在抗组胺剂时被发现的)3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)12 .简述DNA#算机的基本原理:1)以编码生命信息的遗传物质一DNA序列,作为信息编码的载体,利用 DNA 分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DN砌子;2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各 种现代分子生物技术如聚合酶链反应

18、 RCR超声波降解、亲和层析、分子 纯化、电泳、磁珠分离等手段破获运算结果。DNA#算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。13 .简述DNA#算实现方式中,表面方式与试管方式相比具有哪些优点?试管方式:就是在一个或多个试管的溶液里进行生化反应;表面方式:是将对应的解空间的DN吩子固定在一块固体上,其次进行各种 生化反应,或是在表面逐步形成解空间,然后根据具体问题对所 有可能的解进行筛选,最后得到运算结果。(1)操作简单,易于实现自动化操作;(2)减少人为操作过程中造成的 DN砌子的丢失及其它操作失误;(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;(4)信

19、息储存密度大,据估计,10毫克DNAft面上的储存密度是传统计算姬 的10的8次方倍,而在溶液中仅为10的5次方倍;(5)结果易于纯化。14 .简述PCFgl物设计的基本原则及其注意要点原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳 定的二聚体或发夹结构,再次引物不能再模板的非等位点引发 DN咪合反应(即 错配)。注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于 38,因为过长会导致其延伸温度大于 74C,不适合于TaqDN解合酶进行反应。2、引物序列在模板内应当没有相似性较高,尤其是3'端相似性较高的序列, 否则容易导致错配。引物3

20、'端出现3个以上的连续碱基,如 GGG£ CCC也会 使错误引发几率增加。3、引物3'端的末位碱基对Taq酶的DN的成效率有较大的影响。不同的末 位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他 3个碱基,因此应当避免在引物的 3'端使用碱基。另外,引物二聚体或发夹结 构也可能导致PC即应失败。5'端序列对PCF®响不太大,因此常用来引进修 饰位点或标记物。4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。 上下 游引物的GC含量不能相差太大。5、引物所对应模板位置序列的 Tm值在72c左右可使复性条

21、件最佳。Tmfi 的计算有很多种方法,如按公式 Tm=4(G+C)+2(A+T)在Oligo软件中使用的是 最令口近法(thenearestneighbormethod )。6、G值是指DN做链形成所需的自由能,该值反映了双链结构内部碱基对的 相对稳定性。应当选用3'端G值较低(绝对值不超过9),而在5'端和中间G 值相对较高的引物。引物的3'端的G值过高,容易在错配位点形成双链结构并 引发DNA合反应。7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol )易导致产生引物 二聚体带,并且降低引物有效浓度而使 PC阪应不能正常进行。8、对引物的修饰一般是在5&

22、#39;端增加酶切位点,应根据下一步实验中要插入 PCFT物的载体的相应序列而确定。15 .假设你得到一段未知基因的DNAJ歹I,从你学习到的生物信息学分析方法和 软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的 核甘酸序列和蛋白质序列。2、接着,用搜索出来的较相似的序列用 ClustW进行多序列比对,得到该序 列的保守情况和突变情况。3、最后用距离法构建系统发育树。16 .假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法 和软件,设计一个分析流程来分析该未知蛋白的功能和家族类

23、别以及其结构 预测。1、用该序列进行BLAST艘索。2、再对其进行蛋白质结构域、功能域的搜索,可以用 Znterproscan、Pfam,并对其进行结构分析。3、再用ClustW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。17 . BLAST中,E值和P值分别是什么,它们有什么意义? 答:BLAST中使用的统计值有概率p值和期望e值。E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的 可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看, E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列 是由随机产生,如果比对

24、的统计显著性值(E值)小于该值(10),则该比对结果将 被检出,换句话说,比较低的 E值将使搜索的匹配要求更严格,结果报告中随 机产生的匹配序列减少。p值表示比对结果得到的分数值的可信度。一般说来,p值越接近于零,则比对结果的可信度越大;相反,p值越大,则比对结果来自随机匹配的可能性越大。18 .什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么, 一般BLAST选择使用的矩阵是什么答:PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(scoring matrix)。记分矩阵中含有对齐时具体使用的数值。一般 FASTA和BLAST都 提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以 使用PAM , FASTA缺省推荐BLOSUM50矩阵。PAM矩阵(Point Accepted Mutation )基于进化的点突变模型,如果两种氨基 酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个 PAM就是一个进化的变异单位,即1%的氨基酸改变,但这并不意味100

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论