生物软件及数据库复习题完整版精.doc_第1页
生物软件及数据库复习题完整版精.doc_第2页
生物软件及数据库复习题完整版精.doc_第3页
生物软件及数据库复习题完整版精.doc_第4页
生物软件及数据库复习题完整版精.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物软件及数据库复习题一、名词解释1. Primary databases: 初级数据库 , 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 .2. Secondary Databases: 二级数据库 , 对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的。3. 结构数据库:在结构数据库中记录的数据是实用化的实验数据。 它既不同于直接由仪器获得的原始数据,也并非原始数据的 简单数学转换。每一个结构数据库记录都内含着随结构预测技术的进步而不断变化的假设和偏好。4. Similarity: 相似性,指序列比对过程中用来描述检测序列和目标序列之间相同 DNA 碱基或氨基酸残基顺序所占比例的高低。5. Homology: 同源性,指一些数据中推断出的两个基因在进化上曾具有共同祖先的结论。6. Identity: 同一性,两个序列之间完全相同的匹配残疾数目。7. Local alignment:局部比对, 1981年,由 F. Smith 和 M.Waterman 首次提出局部比对算法,动态规划方法通过较少的改动便可 以用来识别匹配的子序列, 并且忽略匹配区域之前或之后的失配和空位8. Globle alignment:全局比对,是指将参与比对的两条序列里面的所有字符进行比对。9. Pairewise alignment:双序列比对,是指通过一定算法对 2个 DNA 或蛋白质序列进行比较,找出两者之间最大相似性匹配。 10. Multiple alignment: 多重序列比对,是对三個以上的序列,如蛋白質序列、 DNA 序列或 RNA 序列所作的序列比对。11. Consensus Tree: 一致树 用最大简约法可以生成许多类似的简约树 , 用这种方法生成的集合树是与其他树基本一致的 .12. Synonymous mutation: 同义突变 :突变的密码子仍然指令同一氨基酸,因而同义突变是沉默突变。13. Non-synonymous mutation: 非同义突变 : 这类突变可改变密码子的含义, 指令一个不同的氨基酸。 非同义突变又称错义突变。 14. dN/dS: 异意替换(Ka 和同意替换(Ks 之间的比例,这个比例可以判断是否有选择压力作用于这个蛋白质编码基因。 15. negative (purifying selection:净化选择,是指物种在长期进化过程中将一些 “ 无用 ” 的基因删除掉,以求基因的 “ 干净 ” ,以免基 因冗沉。16. positive selection :正向选择 , 是指将因含有有利突变而提高个体适合度的等位基因固定下来的选择作用。17. 蛋白质一级结构 :是指多肽链的氨基酸残基的排列顺序,也是蛋白质最基本的结构 。18. 蛋白质二级结构 : 是指多肽链借助于氢键沿一维方向排列成具有周期性的结构的构象,是多肽链局部的空间结构,是构成 蛋白质结构的要素。19. 蛋白质三级结构 : 是指整条多肽链由二级结构元件构建的总三维结构,包括一级结构相距远的肽段之间的几何相互关系,骨 架和侧链在内的所有原子的空间排列。20. 蛋白质四级结构 : 是指亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。21. Hydrophobic : 疏水性指的是一个分子(疏水物与水互相排斥的物理性质。22. Hydrophilic : 亲水性指分子能够透过氢键和水分子形成短暂键结的物理性质。23. sequence logos: 序列标记,是核苷酸或氨基酸保守序列的图形表示方法。24. Phylogenetic tree :系统发生树,是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法。在树中, 每个节点代表其各分支的最近共同祖先,而节点闲的线段长度对应演化距离(如估计的演化时间 。25. N50:覆盖 50%所有核苷酸的最大序列重叠群26. K-mer: 具有指定长度为 K 的 DNA 序列。27. 序列覆盖度 :28. 物理覆盖度 :29. Contig : 叠连群:可以组装成线性序列的一组克隆。30. Scaffold:支架 一组已锚定在染色体上的重叠群 , 内部含间隙或不含间隙 .31. 基因组注释 :利用生物信息学方法和工具对基因组所有基因的生物学功能,进行高通量注释,包括基因识别和功能注释。 32. GO:(Gene Ontology是用一套具有动态形式的控制字汇来解释真核生物的基因或蛋白质在细胞内所扮演的角色及生物医学 方面的知识,同时这些字汇随着生命科学研究的进步,一直不断的积累与改变。33. EST: 表达序列标签(expressed sequence tag是从一个随机选择的 cDNA 克隆进行 5 端和 3 端单一次测序获得的短的 cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从 20到 7000 bp不等,平均长度为 400bp 。34. GSS:Genome survey sequence基因综述序列,代表了按功能划分的一组数据35. 置换 : 同型碱基的置换,一个嘌呤被另一个嘌呤替换;一个嘧啶被另一个嘧啶置换。36. 颠换 : 异型碱基的置换,即一个嘌呤被另一个嘧啶替换;一个嘧啶被另一个嘌呤置换。37. 移码突变 : 在正常的 DNA 分子中, 1对或少数几对邻接的核苷酸的增加或减少,造成这一位置之后的一系列编码发生移位 错误的改变,这种现象称移码突变。38. 基因结构 : 决定某种多肽链 (蛋白质 或酶分子结构基因。正常情况下 , 在调节基因和操纵基因的控制下 , 经转录和翻译过程 , 合 成相应的蛋白质、酶或肽链。若结构基因发生突变 , 就会产生失去活性的蛋白质 , 从而造成差错。39. BLAST: (Basic Local Alignment Search Tool即基于局部比对算法的搜索工具,能够实现比较两段核算或蛋白质序列之间的 同源性的功能,它能够快速地找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。40. 直系同源物 :源于不同物种的最近的共同祖先的两个基因或者两个物种中的同一基因,一般具有相同的功能。41. 直系同源物 (Ortholog:两个基因通过物种形成的事件而产生,或,源于不同物种的最近的共同祖先的两个基因,或者两个 物种中的同一基因,一般具有相同的功能。42. 旁系同源物 :(Paralog :两个基因在同一物种中,通过至少一次基因复制的事件而产生。43. SNP:(single nucleotide polymorphysm 即单核苷酸多态性, 是指基因组 DNA 序列中由于单个核苷酸的替换而引起的多态性。 一个 SNP 位点表示在基因组某个位点上有一个核苷酸的变化。44. 可变剪切:剪切体可以将 RNA 中的内含子和外显子进行不同拼接的剪切方式,一个转录单位可以通过这种方式产生多种成 熟的 RNA ,又称选择性剪切。二、选择题1. 下列哪个软件可用来转换峰图文件 (1 (1 phred (2 phrap (3 phd2fasta (4 consed2. 下列哪些数据库是初级数据库 ( 1 3 (1 dbEST (2 HomoloGene (3 GSS (4 gene3. 下列文献数据库可免费提供全文 (3 (1 PubMed (2 medonline (3 PubMed Center (4 OVID4.HMMER 程序包中哪个程序可用来查询模型库 (2 (1 hmmsearch (2 hmmalign (3 hmmscan (4 hmmbuild5.HMMER 程序包中哪个程序可用作模型查询序列库 ( 1(1 hmmsearch (2 hmmalign (3 hmmscan (4 hmmbuild6.Muscle 具有什么功能 ( 1(1 多序列比对 (2 组装 (3 基因组注释 (4 功能分类7. 下列哪些软件可进行基因组组装 (1、 3(1 phrap (2 cap3 (3 SOAPalign (4 Genescan8. 下列哪些软件可用于 solexa 序列组装 ( 3 (1 phrap (2 cap3 (3 SOAPdenovo (3velvet9. 一般选择下列哪个软件进行批量引物设计 ( 4(1 Primer3 (2 oligo 6 (3 MEGA (4 Premier Primer10. 常用的文献管理软件有 ( 1 (1 EndNote (2 Reference Manager (3 DNAman (4 Primer311. 如果计分规则为:1完全匹配+1; 2错配 -2; 3插入缺失 -1。计算下列比对的分值 ( 2 AAGCTGAATT-C-GAA AGGCT-CATTTCTGA- (1 1 (2 2 (3 3 (4 -112.PAM100与下列哪个计分矩阵相当 ( 1(1 BLOSUM90 (2 BlOSUM80 (3 BLOSUM60 (4 BLOSUM4513.PAM 系列计分矩阵后面的数字越大,表示 (2 (1 序列越相似 (2 序列越不相似 (3 跟序列相似性无关14.Blastp 默认的计分矩阵是 ( 3 (1 BLOSUM80 (2 BLOSUM60 (3 BLOSUM62 (4 BLOSUM4515. 当某个基因处于 positive selection 时,其 dN/dS为(1 A dN/dS 1 B dN/dS =1 C dN/dS E=1%.即允许 1%的错误率13. 什么是 Unigene ,它与组装中的 contig 有什么关系?UniGene :是基因结合,被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设基因,有定位图和表达信 息以及同其它资源的交叉参考UniGene 对 GeneBank 中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括 EST 序列片段搜集到一起, 以便研究基因的转录图谱。包含代表单一基因的序列和相关的信息。Contig (重叠群是可以组装成线性序列的一组克隆。一个 UniGene 不一定代表一个 contig ,一个 UniGene 可有多个 contig 。 14. 简述 Glimmer 预测原核基因步骤(1 long-orfs 找到没有交叠的编码区(2 extract 提取训练序列(3 build-icm 建立统计模型(4 glimmer 预测整个基因组基因、(5 处理结果。15.Megablast 与 Discontiguous megaBLAST主要区别是什么,为什么说后者比前者的敏感性更好,如何选择 ?Megablast 的窗口是连续的, megablast 多用于比较相似性比较高(相似性在 95%以上的序列,速度快, 主要用来在非常 相似的序列之间 (来自同一物种 比对同源性的; 而 Discontiguous megaBLAST窗口是非连续的 适合于相似性稍低于 megablast 的比对, 但是灵敏度和精确度更高,多用于不同物种间的同源比对 。它使用非重叠群字段匹配算法来进行核酸比对,速度很快,同时他在比较编码 区时也具有相当高的敏感度。因为密码子的简并性,由于核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法五、方案设计1. 如果你手里有一未知细菌的 16S rRNA序列,如何鉴定该细菌的分类地位?16S rRNA 是细胞所共有,是高度保守序列,又具有高变性 , 保守性能够反映物种的亲缘关系 , 高变性能揭示出生物物种的特征 核酸序列 , 是属种鉴定的分子基础 .NCBI BLAST(各类生物的 16S rRNA ,从序列之间的差异计算对比对结果分析做进化树。 一般 97%认为是同一属构树 (构树的步骤 验证属种根据树的分枝确定分类2. 假设你手里有一段 DNA 序列,已知该序列是编码蛋白的,如何利用该段序列进行相关进化分析?找出核酸 CDS (编码区 与蛋白质库中的蛋白质比对找出相关蛋白质转化为 DNA 构树3. 试设计基于某一特定基因构建不同物种之间的亲缘关系树。(1序列中有摸板时 (相似性 30%即认为是同源序列 , 然后用同源建模 , 利用同一个家族的蛋白质结构为模板来预测未知蛋白质 的结构 (2若相似性 30%,则采用从头预测,折叠识别4. 试设计分析某一蛋白质三级结构预测方案。蛋白质三级结构的预测方法:同源建模,从头预测,折叠识别同源建模:目标序列与模板序列的匹配 ; 根据同源蛋白质的多重序列匹配结果 , 确定同源蛋白质的结构保守区及相应的框架构 ; 目标蛋白质结构保守区的主链模建 ; 目标蛋白质结构变异区的主链模建 ; 侧链的安装和优化 ; 对模建结构进行优化和评估 5. 设计如何用 EST 数据找可变剪切模式方案。可变剪切:剪切体可以将 RNA 中的内含子和外显子进行不同拼接的剪切方式,一个转录单位可以通过这种方式产生多种成熟 的 RNA,又称选择性剪切 6.设计如何用 HMMER 构建基因家族模型方案。 设计如何用 构建基因家族模型方案。 1.多序列比对 生成 clastalw 格式的比对文件 2.所得文件转换为 stockholm 格式 perl aln2sto 输入文件.aln 输出文件.sto 3.用 hmmbuild 建 HMM 模型 hmmbuild 输出文件.hmm 输入文件 六、论述 1.什么是生物信息学所谓的基本数据库,你所知的核酸、 蛋白质、结构基本数据库有哪些? 什么是生物信息学所谓的基本数据库,你所知的核酸、 蛋白质、结构基本数据库有哪些? 什么是生物信息学所谓的基本数据库 生物信息学中的数据是指生物分子的信息,具体表现为 DNA 序列数据、蛋白质序列数据、生物分子结构数据、生物分子功 能数据(包括蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等) 。所有类型的数据 中,序列与结构是基本的数据,储存这些数据的数据库,就是生物信息学中的基本数据库。 核酸序列数据库:EBI 的 EMBL 数据库、NCBI 的 GenBank 数据库、日本国立遗传学研究所的 DDBJ 数据。这三者间数据 共享,每天更新。 蛋白质数据库:SWISS-PROT 蛋白质序列数据库、PDB 生物大分子结构数据库、HSSP 蛋白质二级结构数据库。 试述生物试验、 2.试述生物试验、计算生物及生物数据库之间的关系。 试述生物试验 计算生物及生物数据库之间的关系。 计算生物中的对象数据来源于生物试验 而管理则依赖于生物数据库 3.试述高通量测序最新进展,高通量测序技术的发展对生物信息学提出了哪些新的要求。 试述高通量测序最新进展,高通量测序技术的发展对生物信息学提出了哪些新的要求。 试述高通量测序最新进展 发展:SANGER测序(第一代DOLEXA/454(第二代 SOLD READS短提升READS的长度, 海量数据 测序错误率高 费用高 4.什么是云计算,试述云计算在生物信息中的应用。 什么是云计算,试述云计算在生物信息中的应用。 什么是云计算 云端运算(英文:Cloud computing,),是一种基于互联网的计算新方式,通过互联网上异构、自治的服务为个人和企业 用户提供按需即取的计算。由于资源是在互联网上,而在电脑流程图中,网际网路常以一个云状图案来表示,因此可以形象地 类比为云端,云端同时也是对底层基础设施的一种抽象概念。 应用:只需用户递交一个任务,就可以通过云计算直接得出结果,看不到它的计算过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论