




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、简述生物信息学产生的历史必然性,以及生物信息学的主要研究内容(本小题满分20分)【试题集锦】2、通过一个具体实例分析,说明利用生物信息学进行DNA序列分析鉴定的策略(本小题满分20分)【试题集锦】3、通过一个具体的实例分析,说明利用生物信息学进行蛋白质结构研究的策略,要求最终得到蛋白质3D建模结果【试题集锦】二、以一个基因或者酶蛋白,查询10个物种以上此基因或者酶蛋白的序列,用本地软件做系统树分析,并简单点评你的结果。(本题满分30分)【试题集锦】1、生物信息学的研究内容是什么答(1)生物分子数据的收集与管理(2)数据库搜索及序列比较(3)基因组序列分析(4)基因表达数据的分析与处理(5)蛋白质结构预测2、生物信息学的研究目标是什么答(1)解读生物体中DNA的遗传信息,揭示基因组信息的复杂性和规律性(2)揭示人体生理和病理的分子基础,为人类疾病的诊断、预防和治疗提供最合理而有效的方法和途径(3)认识生命的本质和起源3、简述DNA的各级结构特点答(1)DNA的一级结构高度重复序列,卫星,小卫星,微卫星;中度重复序列;单拷贝;特殊重复序列。(2)DNA的二级结构双螺旋结构,一类是右手螺旋,如ADNA和BDNA;另一类是左手螺旋。即ZDNA。(3)DNA的三级结构所谓DNA的三级结构,是指在一二结构基础上的多聚核苷酸链上的卷曲。在一定意义上,是指双螺旋基础上的卷曲。三级结构包括链的扭结和超螺旋或者是单链形成的环或是环状DNA中的连环体。4、简述蛋白质的各级结构特点答(1)蛋白质的一级结构氨基酸的序列(2)蛋白质的二级结构周期性的二级结构如螺旋、折叠;非周期性的二级结构连接规则二级结构间的区域统称为环区转角,发夹和环,无规卷曲。蛋白质超二级结构模体(MOTIF,(3)蛋白质的三级结构三维构象,结构域是蛋白质三级结构的基本结构单位和功能单位(4)蛋白质的四级结构蛋白质往往由多条链构成,亚基,寡聚蛋白,多聚蛋白。5、什么是DNA多态性,有何应用价值答DNA多态性定义1)DNA某些位点发生中性突变,2)不改变基因表达性质和功能,3)人群中出现的频率大于1应用1)癌症的诊断,2)基因的分离,3)刑事侦破,4)亲子鉴定。6、真核生物基因组结构有哪些特点答真核生物基因组是由一个共同祖先基因经重组和变异所产生的一组基因,并成簇分布,其成员可以成簇集中于一条染色体上,也可以散布于不同染色体上,是真核生物最主要的特点之一。1多基因家族,2重复序列(1)高度重复序列1)正向重复2)反向重复3)卫星DNA4)A卫星DNA5端粒DNA2中度重复序列(3)轻度重复序列(4)转座因子(5)单拷贝序列(6)加工假基因7、序列比对可以解决那些生物学问题答(1分子进化分析通过序列比对,根据序列的相似性,分析亲缘关系远近,分析生命起源过程。2基因识别根据已知基因序列预测未知序列中的基因BLAST搜索,根据相似性分数预测基因。3数据库搜索BLASTBASICLOCALALIGNMENTSEARCHTOOL4基序MOTIF鉴定CCCH锌指基序5功能预测通过序列比对,根据序列的保守区域和位点,确定基因所具有的功能6结构预测8、简述一下BLAST搜索的基本思想答通过产生数量更少的但质量更好的增强点来提高速度。它集中于发现具有较高相似性的局部联配,且局部联配中不能含有空位。大多情况下联配分解为若干个明显的HSP(HIGHSCORESEQUENCEPAIRS,联配时的参数终止值S、步长参数W和一个阈值T9、蛋白质结构预测的意义见课件P13页,此处不好总结。10、分子设计的基本方法是什么答分子设计是利用蛋白质结构的详细信息和重组DNA技术,对蛋白质分子进行重新设计,定向改造蛋白质的性质,从而获得期望的蛋白质。基本方法三个层次1)小改改变分子内部某个部位的一个或几个残基,不影响蛋白质分子的基本结构。如利用基因点突变技术。2)中改结构域水平改造或变换,如不同结构域联在一起。3)大改设计和创造自然界并不存在的蛋白质。11、蛋白质组学研究的技术路线是什么答蛋白点分离2D电泳酶解蛋白酶酶解成肽片段MS肽序列标签二维电泳图蛋白质组研究中的关键技术双向凝胶电泳12、简述基因治疗总体策略是什么答1)基因矫正对于致病基因中的异常碱基进行精确修复,使其恢复正常功能;2基因置换用正常基因在原位替换致病基因,使细胞DNA完全恢复正常状态;3基因增补将正常基因导入患者体细胞内,使其整合到染色体中一起表达,以补偿缺陷基因的功能,但致病基因未去除;4基因失活指将特定的反义核酸导入细胞,通过碱基互补作用与MRNA结合,阻断肿瘤细胞中基因的异常表达,以抗肿瘤、抗病毒。5“自杀基因”的应用某一基因导入受体细胞后可产生一种酶,可将原无细胞毒性或低毒药物前体转化为细胞毒物质,将受体细胞杀死,这种基因被称为“自杀基因”。将其导入肿瘤细胞后,可将肿瘤细胞杀死。但对正常细胞则无伤害作用。6免疫基因治疗将某些细胞因子(IL2、GMCSF等)基因导入肿瘤患者体内,以增强患者的抵抗力。7耐药基因治疗在肿瘤化疗过程中,把产生抗药物毒性的基因导入患者体内,从而使患者能耐受更大剂量的化疗。(主要是前四个)13、生物信息学研究的基本方法有哪些P4答(1)建立生物数据库;(2)数据库检索;(3)序列分析;(4)统计模型;(5)算法。14、序列对位排列的主要用途有哪些P108答(1)用于系统发育分析;(2)结构预测;(3)序列基序测定;(4)功能预测;(5)数据库搜索。15、双向凝胶电泳技术原理P183答(1)第一向进行等电聚焦(IEF),蛋白质沿PH梯度分离,至各自的等电点(PI);(2)随后,再沿另一向进行分子量的分离,即在第一向垂直方向上进行第二向SDS聚丙烯酰胺凝胶电泳SDSPAGE。1)生物信息学的发展经历了哪几个阶段答生物信息学的发展经历了3个阶段。第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。2)生物信息学步入后基因组时代后,其发展方向有哪几个方面。答生物信息学步入后基因组时代后,其发展方向主要有各种生物基因组测序及新基因的发现;单核苷酸多态性(SNP)分析;基因组非编码区信息结构与分析;比较基因组学和生物进化研究;蛋白质结构和功能的研究。3)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上ENTREZ系统可以检索的数据库。(NCBI维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。维护的主要数据库包括答PUBMED、核酸序列数据库GENBANK、PROW、三维蛋白质结构分子模型数据库MMDB。4)序列的相似性与同源性有什么区别与联系答相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P1475)BLAST套件的BLASTN、BLASTP、BLASTX、TBLASTN和TBLASTX子工具的用途什么答BLASTN是将给定的核酸序列与核酸数据库中的序列进行比较;BLASTP是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;BLASTX将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;TBLASTN将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;TBLASTX只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P976)简述BLAST搜索的算法思想。答BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”WORD”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P957)什么是物种的标记序列答指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。8)什么是多序列全局比对的累进算法(三个步骤)答第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。P529)简述构建进化树的步骤,每一步列举12种使用的软件或统计学方法。答(1)多序列比对CLUSTALW(2)校对比对结果BIOEDIT(3)建树MEGA(4)评估系统发育信号和进化树的牢固度自举法(BOOTSTRAP)P11410)简述除权配对法(UPGMA)的算法思想。答通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P11911)简述邻接法(NJ)构树的算法思想。答邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P11712)简述最大简约法(MP)的算法思想。P68答是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P12013)简述最大似然法(ML)的算法思想。P69答是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P12214)UPGMA构树法不精确的原因是什么P69答由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。P119,倒数第2段,前4行。15在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。答碱基替换模型包括,NOOFDIFFERENCES、PDISTANCE、JUKESCANTORDISTANCE、TAJIMANEIDISTANCE、KIMUR2PARAMETERDISTANCE、TAMURA3PARAMETERDISTANCE、TAMURANEIDISTANCEPDISTANCE表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到JUKESCANTOR模型假设ATCG的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计KIMURA2PARAMETER模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的16)列举5项DNA序列分析的内容及代表性分析工具。答(1)寻找重复元件REPEATMASKER(2)同源性检索确定是否存在已知基因BLASTN(3)从头开始方法预测基因GENSCAN(4)分析各种调控序列TRES/DRAGONPROMOTORFINDER5CPG岛CPGPLOTP130,表格代表性工具ORFFINDER、BLASTN、TBLASTX、BLASTX、GENEWISE17)如何用BLAST发现新基因答从一个一直蛋白质序列开始,通过TBLASTN工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTX或BLASTP在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因。18)试述SCOP蛋白质分类方案答SCOP将PDB数据库中的蛋白质按传统分类方法分成型、型、/型、型,并将多结构域蛋白、膜蛋白和细胞表面蛋白、N蛋白单独分类,一共分成7种类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族,SCOP数据库按照种属名称将它们分成若干子类,一直到蛋白质分子的亚基。19)试述SWISSPROT中的数据来源。答(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。20)TREMBL哪两个部分答(1)SPTREMBLSWISSPROTTREMBL包含最终将要集成到SWISSPROT的数据,所有的SPTREMBL序列都已被赋予SWISSPROT的登录号。(2)REMTREMBLREMAININGTREMBL包括所有不准备放入SWISSPROT的数据,因此这部分数据都没有登录号。21)试述PSIBLAST搜索的5个步骤。答1选择待查序列(QUERY)和蛋白质数据库;2PSIBLAST构建一个多序列比对,然后创建一个序列表谱(PROFILE)又称特定位置打分矩阵(PSSM);3PSSM被用作QUERY搜索数据库4PSIBLAST估计统计学意义EVALUES5重复3和4,直到没有新的序列发现。22)列举5种常用的系统发育分析软件PHYLIP、PAUP、MEGA、PAML、TREEVIEW。四、论述1、人类基因组测序意义是什么对于生物学、医学、和计算机科学等带来什么样的影响答人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类基因组计划对医学事业的影响对致病基因的克隆也是人类基因组计划的内容。疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或调控,即可达到治疗某一疾病的效果。如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断,甚至治疗。通过定位克隆技术寻找疾病基因的过程。基因变异与疾病2、真核生物基因有何特点如何确定真核生物的一段DNA序列是一个基因答真核生物基因特点1真核生物的基因具有不连续性2外显子和内含子之间的连接部位附近的碱基组成非常保守,显然与RNA前体的剪接有关3外显子与内含子是相对的,有时一个基因的内含子是另一个基因的外显子。如何确定一个DNA序列是基因1基因编码区和调控区通常不会出现在重复片段区域;2与已知基因比较有序列相似性3密码子偏好性4与模板序列的模式相匹配可能指示功能性位点的位置。3、如果让你在一种鲫鱼中扩增出CMYC基因,你如何利用生物信息学数据库了解该基因和设计实验方案4、如何利用序列比对分析解决生物学中的问题5、试述蛋白质三维结构预测的三类方法(1)同源建模,对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于30的蛋白质难以得到理想的结构模型;(2)在已知结模板的序列一致率小于25时,使用折叠识别方法进行预测;(3)在找不到已知结构的蛋白质模板时使用从头预测的方法。P1781816FASTA序列格式第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“FASTA”。(NBIR/PIR序列格式第一行以“”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“”号终止。文件的扩展名为“PIR”或“SEQ”。GDE序列格式与FASTA的格式基本相同,但行首为“”,文件扩展名为“GDE”。)7、BLAST的五个子程序程序查询序列数据库种类简述方法BLASTP蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较BLASTN核苷酸核苷酸适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较BLASTX核苷酸(已翻译)蛋白质适合新DNA序列和EST序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBLASTN蛋白质核苷酸(已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比TBLASTX核苷酸(已翻译)核苷酸(已翻译)适合分析EST序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列8生物类的数据库类别一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。9PSIBLAST的原理PSIBLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。(以下为研究生课件部分)PSIBLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。10多序列联配的意义1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。11预测蛋白质三级结构的三种方法1同源建模法依据蛋白质与已知结构蛋白比对信息构建3D模型;2折叠识别法寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;3从头预测法根据序列本身从头预测蛋白质结构。12假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)1、得到未知基因的DNA序列,用BLAST做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。2、接着,用搜索出来的较相似的序列用CLUSTW进行多序列比对,得到该序列的保守情况和突变情况。3、最后用距离法构建系统发育树。13假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。1、用该序列进行BLASTP搜索。2、再对其进行蛋白质结构域、功能域的搜索,可以用ZNTERPROSCAN、PFAM,并对其进行结构分析。3、再用CLUSTW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。14BLAST中,E值和P值分别是什么,它们有什么意义答BLAST中使用的统计值有概率P值和期望E值。E期望值EVALUE这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值E值小于该值10,则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。P值表示比对结果得到的分数值的可信度。一般说来,P值越接近于零,则比对结果的可信度越大;相反,P值越大,则比对结果来自随机匹配的可能性越大。15为什么蛋白质空间结构预测很重要,目前有哪几条途径用于从蛋白质的氨基酸序列预测其空间三维结构答蛋白质空间结构的预测很重要。研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。目前有三条途径用于从蛋白质一级序列预测其空间三维结构A、同源建模法。是蛋白质三维结构预测的主要方法。对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。前提是必须要有一个已知结构的同源蛋白质。B、穿针引线法。需建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。C、从头开始法。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,直接根据序列本身来预测其结构。该方法先对蛋白质及溶剂作近似处理,再建立能量函数,通过对构象空间进行快速搜索找到与某一全局最小能量相对应的构象。16、生物信息学的应用1商业生物信息学市场规模生物医药信息市场;药物基因组学数据收集和分析;生物芯片数据收集和分析2基因组分析(基础科学研究的需要)基因组测序,拼接;基因的分离;基因组的结构;基因的序列到功能;比较基因组学研究;蛋白质的结构与功能;分子进化研究3更多的应用与人类生活密切相关;新药物设计;基因芯片疾病快速诊断;流行病学研究;人类基因组计划寄生虫基因组计划基因芯片17、WHYDOBIOLOGICALSCIENTISTSSEARCHDNADATABASESDNA数据库集合所有已知核酸的核苷酸序列,单核苷酸多态性、结构、性质以及相关描述,包括它们的科学命名、来源物种分类名称、参考文献等信息的资料库。通过搜索DNA数据库,可以检索出人们已经得到的DNA信息,在这些信息中科学家可以找出与待查或正在研究的DNA的相关或相似DNA的信息。18、NCBI维护的核苷酸数据库由哪几部分组成的,其主要的内容是什么由三部分组成表达序列标签序列、基因组测序序列、核心核苷酸序列。19、UNIGENE数据库主要收集什么样的数据UNIGENE数据库称得上是一个实验性质的系统,它通过程序自动将GENBANK中的基因序列划分到某个非冗余的基于基因的集合中。这样,每个UNIGENE集合就代表了一个独特的基因,并包含了与这个基因相关的信息。19、GEO数据库主要收集的是什么样的数据基因表达精选集(GEO)数据库存储的是一些准确的基因表达图谱数据和大规模的分子实验数据。21、真核基因结构识别主要包含哪些内容(1)ORF识别及其可靠性验证确定DNA序列的编码区(2)启动子及转录因子结合位点分析CAP序列、识别区、解旋区、转录起始位点(3)重复序列分析哺乳动物基因组中存在大量重复序列,由于重复序列的大量存在常会影响序列的正确分析,因此在对真核基因进行分析前,最好能把重复序列找出来,并从序列中屏蔽掉(4)CPGISLAND可以为基因及其启动子的预测提供重要的线索(5)3UTR区真核生物的转录终止信号是在3UTR区22、分子进化树的构建主要有哪些算法邻接法、最大简约法、最大似然法、贝叶斯法1、分子生物学的三大核心数据库是什么它们各有何特点GENBANK核酸序列数据库;SWISSPROT蛋白质序列数据库;PDB生物大分子结构数据库;2、简述生物信息学的发生和发展。20世纪50年代,生物信息学开始孕育;20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;20世纪70年代,生物信息学的真正开端;20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方;20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;20世纪90年代后,HGP促进生物信息学的迅速发展。3、生物信息学的主要方法和技术是什么数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(INTERNET)技术4、常见的DNA测序方法有哪些各有何技术特点和优缺点MAXAMGILBERTDNA化学降解法优点可测完全未知序列及CG富含区;缺点操作繁琐;SANGER双脱氧链终止法优点简便,可测较长片段;缺点需已知部分序列或加接头;焦磷酸测序优点廉价、高通量;缺点一次测序片段短。5、分子生物学数据库有哪些类型各有何特点基因组数据库基因组测序核酸序列数据库核酸序列测定一次数据库蛋白质序列数据库蛋白质序列测定。生物大分子蛋白质三维结构数据库X衍射和核磁共振特点数量少,容量大,更新快二次数据库上述四类数据库和文献资料为基础构建特点数量多,容量小,更新慢6、简述NCBIENTREZ系统的功能。高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。7、简述NCBIBLAST的功能和种类。序列相似性比对工具;对核酸普通BLASTN,对高度相似序列MEGABLAST;对蛋白质普通BLASTP,对保守域RPSBLAST;对人工翻译序列核酸翻译序列对蛋白质序列BLASTX,蛋白质对翻译序列TBLASTN,核酸翻译序列对翻译序列TBLASTX;其它基因组BLAST,基因表达序列搜索GEOBLAST,序列两两比对17、相似性与同源性同源性HOMOLOGY定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。相似性SIMILARIY定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。1如何获取访问号为U49845的GENBANK文件解释如下GENBANK文件的LOCUS行提供的信息LOCUSSCU498455028BPDNALINEARPLN21JUN1999答(1)访问NCBI的ENTREZ检索系统,(2)选择核酸数据库,(3)输入U49845序列访问号开始检索。第一项是LOCUS名称,前三个字母代表物种名第二项是序列长度第三项是序列分子类型第四项是分子为线性的第五项是GENBANK分类码第六项是最后修订日期P132利用ENTREZ检索系统对核酸数据搜索,输入如下信息,将获得什么结果AF114696AF114714ACCN。P35答获得序列访问号AF114696到AF114714之间的连续编号的序列。3相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么优点答BLAST2序列分析工具,它能进行两条序列的精确比对,同时给出两序列的图形化比对结果和文本形式的联配结果。4MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件答(1)选择菜单FILE,(2)选择TEXTFILEEDITORANDFORMATCOVERTER工具,(3)调入需要转换的序列和相应的格式,(4)获得转换后的MEGA格式的文件并保存。5什么简约信息位点PI答指基于DNA或蛋白质序列,应用最大简约法构建系统发育树时,如果某个位点的状态存在两种或两种以上,每种状态出现两次或两次以上,这样的位点称简约信息位点。6以下软件的主要用途是什么REPEATMASKER,CPGPLOT,SPLICEVIEW,GENSCAN,ORFFINDER,NEURALNETWORKPROMOTERPREDICTION答REPEATMASKER是对重复序列进行分析的软件GPGPLOT用来查找一条DNA序列中CPG岛,使用GARDINEGARDEN和FROMMER描述的方法SPLICEVIEW是对一段序列进行剪接位点的分析即其中的受体和供体位点GENSCAN是一种从头分析工具ORFFINDER是用来分析序列ORF的工具NEURALNETWORKPROMOTERPREDICTION神经网络启动子预测是另外一种分析启动子的方法1FASTA序列格式第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“FASTA”。(NBIR/PIR序列格式第一行以“”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“”号终止。文件的扩展名为“PIR”或“SEQ”。GDE序列格式与FASTA的格式基本相同,但行首为“”,文件扩展名为“GDE”。)2BLAST的五个子程序BLASTBASICLOCALALIGNMENTSEARCHTOOL是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。共包括五种类型程序查询序列数据库种类简述方法BLASTP蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较BLASTN核苷酸核苷酸适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较BLASTX核苷酸(已翻译)蛋白质适合新DNA序列和EST序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBLASTN蛋白质核苷酸(已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比TBLASTX核苷酸(已翻译)核苷酸(已翻译)适合分析EST序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列18、BLASTN,BLASTP,BLASTX,TBLASTN,TBLASTPBLASTN核酸序列对核酸库的比对,直接比较核酸序列的同源性。BLASTP蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。BLASTX核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。TBLASTN蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。TBLASTX核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。3生物类的数据库类别一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。4PSIBLAST的原理PSIBLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。(以下为研究生课件部分)PSIBLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。5多序列联配的意义1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。9预测蛋白质三级结构的三种方法1同源建模法依据蛋白质与已知结构蛋白比对信息构建3D模型;2折叠识别法寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;3从头预测法根据序列本身从头预测蛋白质结构。10分子途径和网络的特点1分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们可能包含了多个分支,盘绕的连接和回路。2它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相互作用促进或者活化作用常常用箭头表示,而负的交互效应抑制或者失活作用常常用T型棒表示。11先导化合物的来源有四种来源1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)12简述DNA计算机的基本原理1以编码生命信息的遗传物质DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;2在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。DNA计算机优点低能耗、存储容量高、运算速度快,可真正实现并行工作。14简述PCR引物设计的基本原则及其注意要点原则首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。注意要点1、引物的长度一般为1530BP,常用的是1827BP,但不应大于38,因为过长会导致其延伸温度大于74,不适合于TAQDNA聚合酶进行反应。2、引物序列在模板内应当没有相似性较高,尤其是3端相似性较高的序列,否则容易导致错配。引物3端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。3、引物3端的末位碱基对TAQ酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。4、引物序列的GC含量一般为4060,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。5、引物所对应模板位置序列的TM值在72左右可使复性条件最佳。TM值的计算有很多种方法,如按公式TM4GC2AT,在OLIGO软件中使用的是最邻近法(THENEARESTNEIGHBORMETHOD)。6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3端G值较低(绝对值不超过9),而在5端和中间G值相对较高的引物。引物的3端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。7、引物二聚体及发夹结构的能值过高(超过45KCAL/MOL)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。8、对引物的修饰一般是在5端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。15假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)1、得到未知基因的DNA序列,用BLAST做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。2、接着,用搜索出来的较相似的序列用CLUSTW进行多序列比对,得到该序列的保守情况和突变情况。3、最后用距离法构建系统发育树。16假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。1、用该序列进行BLASTP搜索。2、再对其进行蛋白质结构域、功能域的搜索,可以用ZNTERPROSCAN、PFAM,并对其进行结构分析。3、再用CLUSTW进行多序列比对。4、用人工神经网络的方法对其结构进行结构预测。17BLAST中,E值和P值分别是什么,它们有什么意义答BLAST中使用的统计值有概率P值和期望E值。E期望值EVALUE这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值E值小于该值10,则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。P值表示比对结果得到的分数值的可信度。一般说来,P值越接近于零,则比对结果的可信度越大;相反,P值越大,则比对结果来自随机匹配的可能性越大。18什么是序列比对中使用的PAM矩阵和BLOSUM矩阵,它们的作用是什么,一般BLAST选择使用的矩阵是什么答PAM矩阵和BLOSUM矩阵都是用于序列相似性的记分矩阵(SCORINGMATRIX)。记分矩阵中含有对齐时具体使用的数值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩阵供选择,若要进行突变性质的进化分析时可以使用PAM,FASTA缺省推荐BLOSUM50矩阵。PAM矩阵(POINTACCEPTEDMUTATION)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位,即1的氨基酸改变,但这并不意味100次PAM后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。模块替换矩阵BLOSUMBLOCKSSUBSTITUTIONMATRIX首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列),分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有60保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM80。19为什么蛋白质空间结构预测很重要,目前有哪几条途径用于从蛋白质的氨基酸序列预测其空间三维结构答蛋白质空间结构的预测很重要。研究蛋白质结构,有助于了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。目前有三条途径用于从蛋白质一级序列预测其空间三维结构A、同源建模法。是蛋白质三维结构预测的主要方法。对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。前提是必须要有一个已知结构的同源蛋白质。B、穿针引线法。需建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。C、从头开始法。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,直接根据序列本身来预测其结构。该方法先对蛋白质及溶剂作近似处理,再建立能量函数,通过对构象空间进行快速搜索找到与某一全局最小能量相对应的构象。1、现代生物信息学的基本定义是什么它的重要性主要体现在哪两个方面是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息方法采集、存储、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息、以帮助了解生物学和遗传学信息的科学。重要性体现在两个方面一、基因组学、蛋白质组学、生物芯片等生命科学前沿研究的直接推动力,对农学、医药、食品和环境等领域产生巨大影响;二、倡导的全球范围的资源共享对科学发展及人类社会发展有深远影响。2、ENTREZ集成于哪个数据库平台主要功能是什么在应用中可以访问哪些子数据库(共14个,请列举5个以上)ENTREZ集成于NCBI数据库平台。主要为各个数据库的检索功能。可访问的子数据库有PUBMED,NUCLEOTIDE,EST,3DSTRUCTURE,GENOME等。3、列表说明三大核酸数据库名称、数据维护机构、依托的相关政府部门及各自独特的检索平台名称。数据库名称数据维护机构依托的政府部门独特的检索平台GENBANKNCBINIHENTREZEMBLEBIEMBLSRSDDBJCIBNIGGETENTRY5、美国国家生物技术中心(NCBI)成立于1988年,其发展领域主要包括哪些具有哪些主要的功能依托于美国国立卫生研究院的生物信息学网站数据库,总括了GENBANK,PUBMED,GENOME,STRUCTURE,BOOKS,3DDOMAINS,GENE,GENOMEPROJECT,SNP论述题1、简述人类基因组计划与生物信息学之间的相互促进关系。人类基因组计划HUMANGENOMEPROJECT,HGP是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。自实施以来,该计划在世界各国引起了很大反响。在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3109个碱基对BP,BASEPAIR的序列测定,其主要任务包括作图遗传图谱、物理图谱的建立及转录图谱的绘制、测序和基因识别,还包括模式生物如大肠杆菌、酵母、线虫、小鼠等基因组的作图和测序,以及信息系统的建立。随着人类基因组计划的提出和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年心理测评与评估技术考核试题及答案
- 2025年心理学基础知识测试题及答案
- 2025年航空服务与管理知识测试卷及答案
- 2025年护理学专业实习考核试题及答案
- 2025年生命科学与医学伦理综合能力考试卷及答案
- 2025年中国邮政集团有限公司广西壮族自治区分公司校园招聘笔试模拟试题含答案详解
- 物资质量监督管理制度
- 物资采购付款管理制度
- 特殊学校宿舍管理制度
- 特殊岗位人员管理制度
- 《销售员的角色定位》课件
- 阿森斯失眠评定量表2
- 红旗H7汽车说明书
- 劳保鞋管理制度
- GB/T 15622-2023液压缸试验方法
- 1.2音乐情感及情绪《祝酒歌》课件-高中音乐人音版必修音乐鉴赏
- 制造业转型升级的产业协同创新研究
- 公司职工提案登记表
- 机关食堂食材招标的请示范本
- 2023年国考真题(附答案)
- 个案工作知识点隋玉杰主编
评论
0/150
提交评论