翠花生物信息学复习题.docx_第1页
翠花生物信息学复习题.docx_第2页
翠花生物信息学复习题.docx_第3页
翠花生物信息学复习题.docx_第4页
翠花生物信息学复习题.docx_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012 生物信息学复习题一、选择题1. 根据 PAM 打分矩阵,下列哪个氨基酸最不容易突变?A) 丙氨酸Ala B) 谷氨酰胺Gln C) 甲硫氨酸 D) 半胱氨酸CysAla100,Gln93,Met94,Cys202. 下列哪个句子最好描述了两序列全局比对global alignments和局部比对local alignments的不同?A) 全局比对通常用于 DNA 序列,而局部比对通常用于蛋白质序列; B) 全局比对允许间隙,而局部比对不允许间隙;C) 全局比对寻求全局最大化,而局部比对寻求局部最大化; D) 全局比对比对整条序列,而局部比对寻找最佳匹配子序列3. 与 PAM 打分矩阵比较,BLOSUM 打分矩阵的最大区别在哪里?A) 它最好用于比对相关性很近的序列; B) 它是基于近相关蛋白的全局多序列比对; C) 它是基于远相关蛋白的局部多序列比对; D) 它结合了局部和全局比对信息PAM matrices are based on global alignments of closely related proteins.4. 全局比对算法(如 Needleman-Wunsch 算法)是这样一种算法:A) 把两条比较的蛋白质放到一个矩阵中,然后通过穷尽搜索每一个可能的比对组合来 寻找最佳分值的比对;B) 把两条比较的蛋白质放到一个矩阵中,然后通过迭代递归的方法找到最佳的分值; C) 把两条比较的蛋白质放到一个矩阵中,然后通过寻找最佳子序列的方法来找到最佳的比对;D) 能用于蛋白质,但不能用于 DNA 序列N-W is guaranteed to find optimal alignments, although the algorithm does not search all possible alignments. It is an example of a dynamic programming algorithm: an optimal path (alignment) is identified by incrementally extending optimal subpaths. Thus, a series of decisions is made at each step of the alignment to find the pair of residues with the best score.5. 数据库搜索中或双序列比对中,敏感性定义为:A) 搜索算法寻找真阳性(即同源序列)和避免假阳性(即不相干序列,但具有高相似 分值)的能力;B) 搜索算法寻找真阳性(即同源序列)和避免假阳性(即没有被搜索算法报告的同源 序列)的能力;C) 搜索算法寻找真阳性(即同源序列)和避免假阴性(即不相干序列,但具有高相似 分值)的能力;D ) 搜索算法寻找真阳性(即同源序列)和避免假阴性(即没有被搜索算法报告的同源 序列)的能力;Sensitivity: ability to find true positives6. 如有一小段 DNA 序列,基本上它能编码多少种蛋白? A)1 B)2 C)3 D)67. 有一段 DNA 序列,如想知道在主要的蛋白质数据库中哪一个与该 DNA 编码的蛋白最接近, 你会选择用哪一个程序?A)blastn B)blastp C)blastx D)tblastx E)tblastn8. blast 检索的哪一种输出估计了假阳性的数目?A)E 值 B)Bit score C)Percent identity D)Percent positives Pairwise alignments allow us to describe the percent identity two sequences share, as well as the percent similarity The score of a pairwise alignment includes positive values for exact matches, and other scores for mismatches and gapsThe expect value E is the number of alignments with scores greater than or equal to score S ( x=S ) that are expected to occur by chance in a database search.9. 将下面哪个 blast 参数改变后会得到更少的检索结果? A)关闭 low-complexity filter B)将期望值从 1 变为1 0C)提高极限值 D)将打分矩阵从 PAM30 改为 PAM70期望:期望值E是得分大于或等于某个分值S的不同比对的数目在随机的数据库搜索中发生的可能性。10.极值分布A)描述了对数据库的 query 的 scores 的分布 B)比正态分布的总面积大 C)对称 D)形状可用两个参数来描述,即 (平均值)和 (衰减系数)11.当 blast 检索的 E 值减小时A)K 值也减小 B)score 变大 C)概率 p 值变大 D)极值分布偏斜率减小12.标准化的 blast score(也称为 bit scores)A)是没有单位 B)可在不同的 blast 检索之间比较,即使使用了不同的打分矩阵 C)与使用的打分矩阵无关 D)可在不同的 blast 检索之间比较,但前提是使用相同的打分矩阵13.在 EMBL 和 NCBI 数据库中未加工的 DNA 序列(与注释序列相比)是A)完全重叠了 B)很大程度上重叠了,不过序列不同 C)相对只有一点重叠 14.下面的哪种工作,PSI-BLAST 搜索最为有效A)在老鼠中找一个人类蛋白质的同源蛋白 B)在数据库查询中找到更多的匹配蛋白 C)在数据库查询中找到更多的匹配 DNA 序列 D)用模式序列或者信号序列加强数据库搜索15.下面的哪种 blast 程序是用氨基酸的信号序列在一个蛋白质家族中寻找匹配的? A)PSI-BLAST B)PHI-BLAST C)MS BLAST D)WormBLAST16.下面的哪种 blast 程序用来分析免疫球蛋白最好?A)RPS-BLAST B)PHI-BLAST C)IgBLAST D)ProDom17.在一个位点特异性打分矩阵中,列中可以有 20 种氨基酸。每一行则是查询的残基序列。 在打分矩阵中,一个给定的氨基酸残基的分值是基于A)一个 PAM 或者 BLOSUM 矩阵 B)在多序列比对中出现的频率 C)它出现的背景频率 D)它周围的氨基酸的分值18.作为 PSI-BLAST 搜索过程中的一部分,会给搜索序列和数据库中超过一定长度的匹配进行打分。尽管这个比对的氨基酸残基序列没有改变,但是在接下来的 PSI-BLAST 循环中这 个比对得到的分值可能会高一点或低一点,这句话正确吗?A)正确 B)错误19.当一个位点特异性打分矩阵中混入了假阳性序列,就称为“被破坏了”。下面哪个选项 是减少破坏的最好方法?A)降低 E 值 B)除去过滤 C)用短一点的搜索序列 D)减少循环次数20.PSI-BLAST 和 PHI-BLAST 之间的关系是A)它们均在 NCBI 网站上发布但无联系的 blast 搜索B)PHI-BLAST 搜索首先进行 PSI-BLAST,但是其匹配结果必须含有用户自己定义的段序 列模式C)它们均进行连续的循环搜索 D)它们均采用位点特异性打分矩阵21.如果想找一个和查询蛋白远源的蛋白质,下面哪种方法最可能成功? A)采用 PSI-BLAST,因为这个算法使用位点特异性打分矩阵最为敏感 B)采用 PHI-BLAST,因为你能自己选择一个和搜索蛋白质有关的信号序列 C)采用 BLASTP,因为你能自己调整你的打分矩阵从而使得搜索敏感度最大D)采用专门的物种数据库,因为它们可能含有这种远源序列22.RNA 处理阶段不包括以下哪个步骤?A)剪切 B)出核 C)甲基化 D)监控23.数字差别显示被用来比较 UniGene 的 cDNA 文库中的表达序列标记(EST)。EST 还出现 在微阵列中,对 EST 最好的描述是:A)一簇非冗余序列(长约 500bp)B)cDNA 的一个标签,对应尚未被鉴别的转录产物 C)一段在基因组中多次重复的 DNA 序列 D)对应于通过 cDNA 测序获得的表达基因的序列24.在比较两个 cDNA 文库和 SAGE 文库时,可以鉴别出在其中之一存在差异表达的基因。 Fishers exact test 可被用来检验以下零假设:A)任何一个基因在两个文库中(如肝和肺)的相对序列数量相等 B)任何一个基因在两个文库中(如肝和肺)的相对序列数量不相等 C)两个文库中(如肝和肺)的序列总数相等 D)两个文库中(如肝和肺)的序列总数不等Fisher s exact test is a nonparametric method. It often has less statistical power than parametric tests (such as a t-test) For nonparametric methods, observations are typically arranged in an array with ranks assigned from 1 to n.25.分析 cDNA 文库时需要注意的是:A)文库可能来源于不同组织 B)文库可能包含数千个序列 C)文库的归一化方式可能不同 D)文库可能包含大量很少被表达的转录产物26.微阵列有一块固体支持物,被固定在上面的一般是 A)DNA B)RNA C)基因 D)转录产物27.在微阵列研究中,RNA 样本通常由 cDNA 或 cRNA 转化而来,用来可视化的标记是 A)放射性或磷光 B)放射性或荧光 C)放射性或 RNA 探针 D)放射性或 DNA 探针The most common form of microarray is used to measure gene expression . RNA is isolated from matched samples of interest. The RNA is typically converted to cDNA, labeled with fluorescence (or radioactivity), then hybridized to microarrays in order to measure the expression levels of thousands of genes.28.MIAME 计划的目标是提供:A)一个统一标准的系统,描述微阵列的制造 B)一个统一标准的系统,描述微阵列实验,从设计到杂交乃至图像分析 C)一个统一标准的系统,描述微阵列探针的制备,包括荧光和放射性标记 D)一个统一标准的微阵列数据库系统,包括数据存储、分析和显示标准29.数以千计的基因的表达情况可以用 cDNA 文库、SAGE 和 DNA 微阵列测量。DNA 微阵列特有的一个优势是:A)表达水平可以被量化 B)可用于测量基因组中所有基因的表达水平 C)可在两个感兴趣的特定条件下测量数千个基因的表达水平 D)在比较两个感兴趣的特定条件下数千个基因的表达水平时,比其他两种方法更实用30.在芯片数据处理中,对原始数据的归一化处理是必须的,因为 A)基因表达值不是正态分布 B)实验中所用的 cDNA 有的带荧光,有的带放射性 C)在不同的样本中,利用荧光或者放射线的效率不同D)在不同的样本中,利用荧光的效率不同31.芯片数据分析可以用散点图,从散点图上可以得到的信息不包含: A)确定哪个基因在相对高或低的表达水平 B)确定哪个基因上调表达或下调表达 C)确定某个基因和另外一些基因可以形成一类 D)确定某个基因属于实验中受到最重要调控基因的前 5AB是对包含的。32.在芯片实验中,基因表达比值的对数转换比原始数据更常用,因为: A)两倍上调基因和两倍下调基因比值的对数有相同的绝对值 B)两倍上调基因和两倍下调基因比值的对数有相同的相对值C)比值对数的范围和原始数据的范围相关D)比值对数的散点图是表达值比值散点图的压缩版本33.推测统计学分析芯片数据集的假设检验前提是: A)概率为何值时就可以表明在比较两个样本后,某个基因受到了重要的调控 B)概率为何值时就可以表明在比较两个或更多样本后,某个基因受到了重要的调控 C)对芯片数据的聚类 D)利用监督或非监督算法分析数据34.下面的哪个描述是错误的? A)芯片数据聚类得到的树类似于系统发育树B)聚类的方法可以应用于芯片的基因或者样本C)芯片数据聚类可应用于分割算法(如 k 均值算法)或利用层级聚类算法 D)芯片数据聚类算法总是应用主成分分析算法35.聚类方法需要应用聚类参数的目的: A)描述哪个聚类树是发散或收敛的 B)降低高维数据集的维数 C)在含有基因表达值和样本的矩阵中,得到基因表达值的绝对值 D)在含有基因表达值和样本的矩阵中,界定基因表达值之间的关系36.自组织图:A)显示聚类后得到结果的结构 B)没有结构的,就如 k 均值聚类的结果 C)不能用聚类树的方法表示 D)含有邻居节点,用此来表达类之间的不同37.主成份分析(PCA):A)熵最小化,且得到基因和蛋白之间的相关性 B)包含收敛算法和发散算法 C)可对芯片实验中基因表达数据进行分析,但不能用于蛋白质芯片 D)降低高维向量的维数从而发现基因或者样本之间的关系Principal components analysis (PCA), an exploratory technique that reduces data dimensionality, distinguishes lead-exposed from control cell lines. to reduce dimensionality to determine the linear combination of variables to choose the most useful variables (features) to visualize multidimensional data to identify groups of objects (e.g. genes/samples) to identify outliers 38.芯片数据分析中,非监督算法和监督算法最大的不同在于: A)监督算法需要先验知识(如基因或样本的功能等),而非监督算法不需要B)监督算法需要指定聚类的数目,而非监督算法不需要C)监督算法可以对基因或样本聚类,而非监督算法只能对基因聚类 D)监督算法包含的算法有支持向量机、决策树等,而非监督算法只有聚类算法39.同一结构域可能出现在一个蛋白质的氨基末端,也可能出现在另一个蛋白质的羧基末端 A)正确 B)错误40.一般说来,蛋白质结构域和模式(也称模体或指纹)的大小关系是: A)一样大 B)模式比结构域长 C)结构域比模式长D)只能对特定的蛋白质才能比较A motif (or fingerprint ) is a short, conserved region of a protein. Its size is often 10 to 20 amino acids. 41.氨基酸序列ST-X-RT是蛋白激酶 C 底物磷酸化的保守位点附近的序列,这段氨 基酸序列是A)一个模体,可以确定一组同源蛋白 B)一个模体,但不足以确定一组同源蛋白 C)一个结构域,可确定一组同原蛋白 D)一个结构域,但不足以确定一组同源蛋白42.如果用软件预测一个尚不知道功能的蛋白质的糖基化位点、硫化位点、磷酸化位点是其 他翻译后修饰位点:A)软件预测结果多不可靠 B)因不知实际情况,所以很难评估 C)软件能预测相关修饰是否存在,但无法预测它们的生物学功能,只能通过实验确定 D)软件能预测相关修饰是否存在,通过实验确定它们的生物学功能的方法也不可行43.Gene Ontology 的定义有一个潜在的假设,即根据分子功能、生物过程和细胞成分三个 方面对基因或基因产物的描述:A)对不同物种都是相同的,不管是植物、蠕虫还是人类 B)不同物种间的差异很大C)不同物种之间的差异可能很大也可能无差异,对具体的每一个基因都要单独考虑 D)不同物种之间的差异可能很大也可能无差异,需要由专家来具体分析每一个基因44.蛋白质细胞定位的信息主要在哪个 Gene Ontology 分类中进行描述的: A)分子功能 B)细胞组分 C)细胞定位 D)生物过程45.下面选项中,哪些是预测蛋白质功能的方法? A)找到结构同源蛋白 B)研究诱饵猎物相互作用 C)确定蛋白质等电点 D)上面选项都是46.比较两个远缘同源的蛋白:A)相对于序列,它们倾向于具有更相似的三维结构 B)相对于三维结构,它们倾向于具有更相似的序列 C)它们的序列相似性与结构相似性度要达到一定程度 D)并不能归纳出一个合理的结构和序列相似程度阈值47.典型的蛋白质二级结构预测算法通常计算一个蛋白形成( )的概率 A)螺旋 B)螺旋和片层 C)螺旋、片层和卷曲 D)螺旋、片层,卷曲和多聚体48.相对于核磁共振,X 射线晶体衍射技术测定蛋白结构的优点在于A)能更方便地测定跨膜蛋白结构 B)衍射数据更容易分析 C)能测定较大的蛋白质结构 D)长晶体比制备核磁共振样品容易49.PDB 数据库A)是全世界最主要的大分子二级结构数据库 B)由 NCBI 和 EBI 共同管理 C)包括了蛋白质、蛋白质核酸和糖类的结构数据D)其蛋白结构数目与 SwissProtTrEMBL 数据库中的序列数目相当50.Cn3D 是 NCBI 的一个分子结构查看器,其特点是 A)一个与自动的同源模建联系的菜单驱动程序 B)一个命令行接口,对于结构分析十分有用C)一个可以观察立体结构图像的结构查看器 D)一个结构查看器,同时伴有一个序列查看器51.CATH 数据库对蛋白质结构进行了层次分析,前三个层次:类(class)、构架(architecture)和拓扑(topology)描述都是 A)蛋白质三级结构(三级结构的组成、堆垛、形状、方向和连接) B)蛋白质二级结构(二级结构的组成、堆垛、形状、方向和连接)C)蛋白质结构域的结构 D)蛋白质超家族是根据同源结构域划分的52.同源模建与从头预测方法的区别在于A)同源模建需要建立一个模型 B)同源序列需要将目标与模板进行比对 C)同源模建适用于所有蛋白质序列 D)同源模建的准确度和目标、模板序列间的相似程度无关53.你想快速预测一个蛋白质序列的结构,对目标序列进行 blast 和 PSI-Blast 后,你发现 在所有相关的已知结构的蛋白质中,最好的序列相似度只有 17,你将选择哪种方法?A)X 射线晶体衍射技术 B)核磁共振谱技术 C)将序列提交到蛋白质结构预测服务器进行同源模建 D)将序列提交到蛋白质结构预测服务器进行从头预测二、名词1. ESTs、STS、GSSs、HTGs、OMIM、PDB 等的含义EST:表达序列标签是从一个随机选择的 cDNA 克隆,进行 5端和 3 端单一次测序挑选出来获得的短的 cDNA 部分序列,代表一个完整基因 的一小部分.。STS:sts使用pcr克扩增的一段序列,用于标定物理图中基因的位置,因此,只要满足上面两俄条件,都应该成为sts。一个DNA序列要成为STS须满足两个前提。首先它的序列必须是己知的以便于用PCR方法检测STS在不同DNA片段中存在与否。第二个要求是STS必须在待研究的染色体上有唯一的定位或当DNA片段群覆盖全基因组时STS在整个基因组中具有唯一的定位位点。GSS:基因组勘测序列,是基因组 DNA 克隆的一次性部分测序得到的序 :cosmid/BAC/YAC 末端序列、 通过 Exon 列。包括随机的基因组勘测序列、 trapped 获得基因组序列、 通过 Alu PCR 获得的序列、以及转座子标记(序 列)等。HTG :GenBank,DDbj及EMBL为使生物 学家更好地进行同源性对比搜寻高通量基 因组序列而作的特殊分类.占所有DNA序列 的70%以上.HTG部分包括那些通过高通 量测序中心测序产生的尚未完成的DNA序 列,有或没有注释OMIM:持续更新的关于人类基因和遗传紊乱的数据库。 主要着眼于可遗传的或遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库PDB:PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。2. 直系同源(orthologous)与旁系同源(paralogous)直系同源:不同物种中具有共同祖先的同源序列。旁系同源:指单个种类中由于基因复制事件而产生的同源序列。3. PAM 与 BLOSUM 的含义PAM:可接受点突变。一个用于衡量蛋白质序列的进化突变程度的单位。1个PAM的进化距离表示蛋白质序列中平均1%的氨基酸残基发生突变的概率。BLOSUM:模块替换矩阵。在替换矩阵中,每个位置的打分是在相关蛋白局部对比模块中观察到的替换的频率而获得的。4. 全局序列比对和局域序列比对全局比对:是指将参与比对的两条序列里面的所有字符进行比对。 全局比对主要被用来寻找关系密切的序列。由于这些序列也都很易通过本地比对方法找到,现在全局比对也有些被认为只是一种技巧。另外,全局比对在应用于分子进化时也有些问题(比如domain shuffling -见下),这也限制了这种方法的可用性。局部比对:1981年,由F. Smith 和 M.Waterman首次提出局部比对算法,动态规划方法通过较少的改动便可以用来识别匹配的子序列, 并且忽略匹配区域之前或之后的失配和空位;局部比对时,表中小于零的位置用零代替。主要用来考察两序列的某些特殊片段。5. Needleman-Wunsch 算法和 Smith-Waterman 算法Needleman-Wunsch 中使用的回溯代码与 Smith-Waterman 中局部比对的回溯代码基本相同,区别只是开始的单元格以及如何知道何时结束回溯。这导致 Smith-Waterman 算法与 Needleman-Wunsch 算法存在着三个区别。首先,在初始化阶段,第一行和第一列全填充为 0(而且第一行和第一列的指针均为空)。第二,在填充表格时,如果某个得分为负,那么就用 0 代替,只对得分为正的单元格添加返回指针。最后,在回溯的时候,从得分最高的单元格开始,回溯到得分为 0 的单元格为止。除此之外,回溯的方式与 Needleman-Wunsch 算法完全相同。6. HSPsHSPs:高大分值片段。在一个给定的搜索中,没有空位的局部对比能得到最高的比对打分值。7. PSI-BLAST 和 PHI-BLASTPSI-BLAST:特定位点迭代BLAST程序。使用BLAST算法进行迭代搜索。初始搜索产生的表达谱会在接下来的搜索中使用。这个过程会根据需要而一直重复,在每个循环中产生的新序列会用来重新定义表达谱。PHI-BLAST:模式发现迭代BLAST,用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。8. 信号序列或模式核糖体同内质网的结合受制于mRNA中特定的密码序列(可以翻译成信号肽),具有这种密码序列的新生肽才能连同核糖体一起附着到内质网膜的特定部位。信号序列的两个基本作用是:通过与SRP的识别和结合, 引导核糖体与内质网结合; 通过信号序列的疏水性,引导新生肽跨膜转运。9. 敏感性与特异性敏感性(sensitive)和特异性(specificity):假设待测序列中有M条序列是基因序列,剩余的M条为非基因序列。我们用程序对待测序列进行预测,N条序列被预测为基因,其中有N条确实为基因,其余N条不是基因的一部分。敏感性定义为 NM,它表示程序预测的能力。特异性定义为 NN,它表示预测结果的可信度。敏感性和特异性往往是一对矛盾,一般以敏感性和特异性的平均值作为评判程序优劣的标准。10.基因、开放阅读框、CpG 岛、启动子、操纵子、转录终止信号等基因:有遗传效应的DNA片段,是控制生物性状的基本遗传单位。开放阅读框(ORF):基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。CpG 岛: 基因组中长度为3003000 bp的富含CpG二核苷酸的一些区域,主要存在于基因的5区域。启动子区中CpG岛的未甲基化状态是基因转录所必需的,而CpG序列中的C的甲基化可导致基因转录被抑制。启动子: RNA聚合酶特异性识别和结合的DNA序列。 启动子是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。操纵子: 指启动基因、操纵基因和一系列紧密连锁的结构基因的总称。转录的功能单位。很多功能上相关的基因前后相连成串,由一个共同的控制区进行转录的控制,包括结构基因以及调节基因的整个DNA序列。主要见于原核生物的转录调控,如乳糖操纵子、阿拉伯糖操纵子、组氨酸操纵子、色氨酸操纵子等转录终止信号: 特指转录过程产生RNA的一段序列所形成的茎-环结构,可特异性地被RNA聚合酶转录复合体识别而使转录终止。11.推测统计方法与描述统计方法描述统计学(Descriptive Statistics):研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。 推断统计学(1nferential Statistics):则是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。12.Domain 、 Motif 、familyDomain:结构域。蛋白质在折叠式与其他部分相独立的一个不连续的部分,他有自己独特的功能。Motif:序列模式。蛋白质序列中短的保守区域。他们是结构域中保守性很高的部分。Family:是一系列同源序列的集合,既包括直系同源类似物又包括旁系同源类似物。三、问答题1. 有哪三大核酸数据库,它们各由什么机构主持?NCBI :美国国立生物技术信息中心,管理 GenBank 数据库;日本的DNA数据库(DDBJ)欧洲生物信息研究所主持的EMBL数据库2. 分子生物学的中心法则和基因组中心法则?分子生物学中心法则:DNARNA蛋白质细胞表型基因组中心法则:基因组转录组蛋白质组-细胞表型3. NCBI 中的 Blast 程序家族主要包含哪几种主要的程序、各自适用范围和进行 Blast 搜 索的步骤?程序查询序列数据库种类简述方法Blastp蛋白质蛋白质可以找到具有远源进化关系的匹配序列待搜索蛋白序列与蛋白数据库比较Blastn核苷酸核苷酸适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较Blastx核苷酸(已翻译)蛋白质适合新DNA序列和EST序列的分析将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBlastn蛋白质核苷酸(已翻译)适合寻找数据库中尚未标注的编码区将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比TBlastx核苷酸(已翻译)核苷酸(已翻译)适合分析EST序列无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列Blast 搜索的步骤:1.选定感兴趣的序列;2.选择Blast程序;3.选择数据库;4.选择参数。4. PSI-BLAST 和 PHI-BLAST 搜索的大致步骤?说明 PSI-BLAST 崩溃的原因及防止的措施有 哪些?PSI:1.用常规的blastp在目标数据库中进行对比搜索;2、位点特异性反复比对从第一步得到的结果中构建多序列比对。然后为每个比对建立一个专门的搜索矩阵;3、用第二部得到的定点评分矩阵再一次搜索原来的数据库。4、位点特异性反复比对后永缺失比对的参数检验每个匹配的统计显著性;5、重复二至四步,一般重复5次。PHI:5. 如何用 BLAST 来发现一个新基因?从一个蛋白序列开始,通过tBLASTn工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTx或BLASTp在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因6. 原核生物和真核生物的基因结构的联系与区别是什么?联系:都是由生物基本单位中的所有核酸序列组成,都有重复序列和单一序列,都是生物的遗传物质等区别:1、真核生物基因组指一个物种的单倍体染色体组(1n)所含有的一整套基因。还包括叶绿体、线粒体的基因组。 原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。2、原核生物的染色体分子量较小,基因组含有大量单一顺序(unique-sequences),DNA仅有少量的重复顺序和基因。真核生物基因组存在大量的非编码序列。包括:.内含子和外显子、.基因家族和假基因、重复DNA序列。真核生物的基因组的重复顺序不但大量,而且存在复杂谱系。3、原核生物的细胞中除了主染色体以外,还含有各种质粒和转座因子。质粒常为双链环状DNA,可独立复制,有的既可以游离于细胞质中,也可以整合到染色体上。转座因子一般都是整合在基因组中。真核生物除了核染色体以外,还存在细胞器DNA,如线粒体和叶绿体的DNA,为双链环状,可自主复制。有的真核细胞中也存在质粒,如酵母和植物。4、原核生物的DNA位于细胞的中央,称为模核(nucleoid)。真核生物有细胞核,DNA序列压缩为染色体存在于细胞核中。5、真核基因组都是由DNA序列组成,原核基因组还有可能由RNA组成,如RNA病毒。7. 何谓信号肽?信号肽的主要作用是什么?常指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的N-末端的氨基酸序列(有时不一定在N端)。作用:决定该蛋白质在内质网内部进入哪一条通路再被定位到合适的地方去。6. 研究基因表达的传统的实验技术有哪些?高通量研究基因表达的方法又有哪些?传统实验技术:RNA印迹法、反转录的聚合酶链式反应(RT-PCR)、核糖核酸酶保护分析高通量研究基因表达方法:1、通过产生表达序列标记,可以构建cDNA文库,并可在UniGene中进行电子比较;2、基因表达序列分析;3、复杂的cDNA混合物可以被放射性或荧光标记,并在含有cDNA或对应于数千个基因的寡核苷酸的DNA微阵列上杂交。7. cDNA 文库是如何构建的?进行 cDNA 文库的电子比较时的数学基础及需注意的事项是什 么?构建:信使RNA在3端和oligo(dT)引物杂交,经过反转录得到一个mRNA:cDNA混合体。煮沸是RNA变性后,用DNA聚合酶合成cDNA双链。将接头(即可被限制性内切酶识别的核苷酸序列)加到cDNA上,于是对该cDNA(又称插入片段)和智力或者噬菌体(载体)一起进行合适的消化后,两者可以被连接起来。然后将大肠杆菌转化并经抗生素定抗性筛选,形成cDNA文库。数学基础:注意事项:1、注意需偏向较熟悉的组织;2、文库的被测序的程度影响其对原细胞或组织内容的代表能力。3、EST一般仅在双链中的一条链上被测序,而不对两条单链都测序。出错率会更高。4、嵌和序列可能污染cDNA文库8. 试详细阐述微阵列实验的步骤。微阵列实验的步骤分为:该技术的原理是在固体表面上集成已知序列的基因探针,被测生物细胞或组织中大量标记的核酸序列与上述探针阵列进行杂交,通过检测相应位置杂交探针,实现基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论