




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Reachercyzxn12315 1 绪论绪论 1 1 1 1、生物信息学的概念及其组成部分生物信息学的概念及其组成部分 生物信息学(生物信息学(BioinformaticsBioinformaticsBioinformaticsBioinformatics) :是一门交叉学科,包含了生物信息的获取、处理、储存、分析:是一门交叉学科,包含了生物信息的获取、处理、储存、分析、 解解 释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来释和应用在内的所有方面,它综合运用了生物学、计算机科学和数学等多方面的知识和方法,来 阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产阐述和理解大量生物学数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产 业中的各种问题。业中的各种问题。 生物信息学的三个组成部分生物信息学的三个组成部分: : : : 建立可以存放和管理大量生物信息学数据的数据库建立可以存放和管理大量生物信息学数据的数据库 研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具 使用这些工具去分析和解释不同类型的生物学数据使用这些工具去分析和解释不同类型的生物学数据 2 2 2 2、生物信息学的主要研究领域生物信息学的主要研究领域 生物数据的建立与搜索生物数据的建立与搜索 序列比较与相似性搜索序列比较与相似性搜索 基因组结构注释基因组结构注释 蛋白质结构与功能的预测蛋白质结构与功能的预测 基因组数据分析基因组数据分析 比较基因组合系统发生遗传学分析比较基因组合系统发生遗传学分析 功能基因组和蛋白质组学数据分析功能基因组和蛋白质组学数据分析 信号传导、代谢和基因调节途径的构建与描述信号传导、代谢和基因调节途径的构建与描述 3 3 3 3、初级数据库二级数据库的概念初级数据库二级数据库的概念 说出几个数据并说明包含什么数据说出几个数据并说明包含什么数据 一级数据库(一级数据库(primaryprimaryprimaryprimary databasedatabasedatabasedatabase) :数据直接来源于实验获得原始数据,只经过简单的归类、整理:数据直接来源于实验获得原始数据,只经过简单的归类、整理 和注释。例如和注释。例如 GenBankGenBankGenBankGenBank、EMBLEMBLEMBLEMBL、DDBJDDBJDDBJDDBJ、SWISSPORTSWISSPORTSWISSPORTSWISSPORT、PDBPDBPDBPDB 二级数据库二级数据库(secondarysecondarysecondarysecondary databasedatabasedatabasedatabase) :在一级数据库在一级数据库、实验数据和理解分析的基础上针对特定的目标实验数据和理解分析的基础上针对特定的目标 衍生而来,是对生物学知识和信息的进一步整理。例如衍生而来,是对生物学知识和信息的进一步整理。例如 humanhumanhumanhuman genomegenomegenomegenome databasesdatabasesdatabasesdatabases GDBGDBGDBGDB 转录因子转录因子 数据库等数据库等 4 4 4 4、简述核酸序列的测序简述核酸序列的测序 DNADNADNADNA 测序一般原理测序一般原理 DNADNADNADNA 测序一般采用全自动的荧光标记链终止反应完成,该法利用了测序一般采用全自动的荧光标记链终止反应完成,该法利用了 DNADNADNADNA 聚合酶能从脱氧核糖核聚合酶能从脱氧核糖核 苷酸苷酸(dNTPdNTPdNTPdNTP)延伸但不能从双脱氧核糖核苷酸延伸但不能从双脱氧核糖核苷酸(ddNTPddNTPddNTPddNTP)延伸的特性延伸的特性,通过加入限量的荧光标记通过加入限量的荧光标记 过的双脱氧核苷酸来产生有特定终止碱基的嵌套过的双脱氧核苷酸来产生有特定终止碱基的嵌套 DNADNADNADNA 片段,然后通过聚丙烯酰胺凝胶电泳片段,然后通过聚丙烯酰胺凝胶电泳 (PAGEPAGEPAGEPAGE)分离并通过扫描仪读取序列()分离并通过扫描仪读取序列(300-800bp300-800bp300-800bp300-800bp) 基因组测序策略基因组测序策略分而治之分而治之-shortgun-shortgun-shortgun-shortgun 因为测序反应每次只能测因为测序反应每次只能测 300-800bp300-800bp300-800bp300-800bp 故先将基因组分割成一定大小的片段,然后对这些片段分别故先将基因组分割成一定大小的片段,然后对这些片段分别 测序,测完后再将这些片段拼接起来测序,测完后再将这些片段拼接起来鸟枪法(鸟枪法( shortgunshortgunshortgunshortgun ) 一次性测序一次性测序 例如:表达序列标签(例如:表达序列标签(ESTESTESTEST)是其中的代表,它对随机挑选的)是其中的代表,它对随机挑选的 cDNAcDNAcDNAcDNA 克隆进行两端一次测序得克隆进行两端一次测序得到到 300-500bp300-500bp300-500bp300-500bp 的片段,代表的片段,代表 cDNAcDNAcDNAcDNA 的一部分。在生物信息学研究中有重要的作用的一部分。在生物信息学研究中有重要的作用 5 5 5 5、GBFFGBFFGBFFGBFF 格式包括那三部分内容,并能说出各项的含义格式包括那三部分内容,并能说出各项的含义 GBFFGBFFGBFFGBFF(GenBankGenBankGenBankGenBank flatfileflatfileflatfileflatfile)格式:是基因)格式:是基因 GenBankGenBankGenBankGenBank databasedatabasedatabasedatabase 中的基本信息单位中的基本信息单位 分为三部分分为三部分: : : : 第一部分:包含整个记录信息的描述第一部分:包含整个记录信息的描述 第二部分:这一记录的特性第二部分:这一记录的特性 第三部分:序列本身最后一行以第三部分:序列本身最后一行以/ / / /结尾结尾 6 6 6 6、举出几种蛋白质测序方法并简要论述举出几种蛋白质测序方法并简要论述 EdmanEdmanEdmanEdman 降解法降解法:从多肽游离的从多肽游离的 N N N N 端测定氨基酸残基序列的过程常用异硫氰酸酯修饰端测定氨基酸残基序列的过程常用异硫氰酸酯修饰,切下修饰的切下修饰的 残基,层析鉴定,循环残基,层析鉴定,循环。 (自动测序仪(自动测序仪 60606060 个肽)个肽)sangersangersangersanger 测牛胰岛素用的是测牛胰岛素用的是 2.4-2.4-2.4-2.4-二硝基氟苯反应。二硝基氟苯反应。 Reachercyzxn12315 2 C C C C 端测序:肼解法生成氨基酸酰肼沉淀。多肽酶法最常用(肽链外且酶)从端测序:肼解法生成氨基酸酰肼沉淀。多肽酶法最常用(肽链外且酶)从 C C C C 端逐个降解。效果端逐个降解。效果 不理想不理想 质谱测序:通过电离源将蛋白质或多肽分子转化为气相离子,然后利用质谱分析仪的电场、磁场质谱测序:通过电离源将蛋白质或多肽分子转化为气相离子,然后利用质谱分析仪的电场、磁场 将具有特定质量与电荷比将具有特定质量与电荷比(mass/charge(mass/charge(mass/charge(mass/charge,m/z)m/z)m/z)m/z)的离子分离开来,经过离子检测器收集分离的离子的离子分离开来,经过离子检测器收集分离的离子, 精确确定离子的分子量,以分析鉴定未知蛋白质或多肽。其特点是能提供精确地分子量和进行微精确确定离子的分子量,以分析鉴定未知蛋白质或多肽。其特点是能提供精确地分子量和进行微 量鉴定。量鉴定。 7 7 7 7、说出两个最著名的检索系统说出两个最著名的检索系统 最著名的两个最著名的两个 EntrezEntrezEntrezEntrez 美国建立和美国建立和 SRS(sequenceSRS(sequenceSRS(sequenceSRS(sequence vetrievalvetrievalvetrievalvetrieval sysrem)sysrem)sysrem)sysrem) EMBLEMBLEMBLEMBLTheoreTheoreTheoreTheore EtzoldEtzoldEtzoldEtzold 建立建立 基因预测基因预测(1)(1)(1)(1) 1 1 1 1、什么是寡核苷酸,简并寡核苷酸?什么是寡核苷酸,简并寡核苷酸? 寡核苷酸(寡核苷酸(oligonucleotideoligonucleotideoligonucleotideoligonucleotide) :是一类只有:是一类只有 20202020 个以上碱基对的短核苷酸片段的总称(包括个以上碱基对的短核苷酸片段的总称(包括 DNADNADNADNA 和和 RNARNARNARNA) 寡核苷酸可以很容易与它们的互补链链接寡核苷酸可以很容易与它们的互补链链接, 所以常用来作为探针所以常用来作为探针 (probeprobeprobeprobe) 确定确定 DNADNADNADNA 和和 RNRNRNRNA A A A 的结构,用作引物来进行聚合酶链式反应。的结构,用作引物来进行聚合酶链式反应。 简并寡核苷酸:是代表编码单个氨基酸的所有可能组成的不同序列的混合物。简并寡核苷酸:是代表编码单个氨基酸的所有可能组成的不同序列的混合物。 2 2 2 2、引物设计常用的工具举例、引物设计常用的工具举例、PCR PCRPCRPCR 用的引物约多个碱基?用的引物约多个碱基? PrimerPrimerPrimerPrimer 3 3 3 3、基因的概念、简单介绍真核基因的结构?基因的概念、简单介绍真核基因的结构? 基因(基因(genegenegenegene) :具有遗传效应的:具有遗传效应的 DNADNADNADNA 片段。片段。 真核基因的结构:真核基因的结构:largelargelargelarge genomesgenomesgenomesgenomes 107107107107 1010101010101010 bpbpbpbp;lowlowlowlow codingcodingcodingcoding densitydensitydensitydensity (50%)(50%)(50%)(50%);intron/exonintron/exonintron/exonintron/exon structure(alternativestructure(alternativestructure(alternativestructure(alternative splicing)splicing)splicing)splicing);Pseudo-genePseudo-genePseudo-genePseudo-gene;GeneGeneGeneGene identificationidentificationidentificationidentification a a a a complexcomplexcomplexcomplex problem,problem,problem,problem, genegenegenegene levellevellevellevel accuracyaccuracyaccuracyaccuracy 50%50%50%50% 4 4 4 4、DNADNADNADNA 序列污染的主要来源?序列污染的主要来源? 主要的污染源:主要的污染源:a a a a)载体)载体b b b b)接头和)接头和 PCRPCRPCRPCR 引物引物 c c c c)转座子和插入序列)转座子和插入序列 d d d d)DNA/RNADNA/RNADNA/RNADNA/RNA 纯度不好纯度不好 5 5 5 5、ORFSORFSORFSORFS 的概念,说出一种常用查找软件。的概念,说出一种常用查找软件。 ORFORFORFORF(openopenopenopen readingreadingreadingreading frame)frame)frame)frame):一个起始密码子和终止密码子之间的序列称为一个开放读框一个起始密码子和终止密码子之间的序列称为一个开放读框,当一当一个个 DNADNADNADNA 序列被测定以后序列被测定以后, 它编码的蛋白质未知时通常使用这一术语它编码的蛋白质未知时通常使用这一术语; 查找软件查找软件: ORFORFORFORFFinderFinderFinderFinder (NCBINCBINCBINCBI) 6 6 6 6、CpGCpGCpGCpG 岛的概念及其常用查找软件岛的概念及其常用查找软件 CpGCpGCpGCpG 岛岛 (CGCGCGCG islandislandislandisland) : 也称为也称为 HTFHTFHTFHTF 岛岛, 是一些富含是一些富含 GCGCGCGC 的小区域的小区域, 定义为定义为 Y Y Y Y 值值 (观测到的观测到的 CpGCpGCpGCpG 双双 碱基数与预期的数目之比碱基数与预期的数目之比)并且含量大于并且含量大于 50%50%50%50%的序列区域的序列区域,它可以有几百它可以有几百 bpbpbpbp 到几千到几千 bpbpbpbp 长长。通常通常 出现在管家基因(出现在管家基因(housekeepinghousekeepinghousekeepinghousekeeping genegenegenegene)或频繁表达基因的启动子周围。)或频繁表达基因的启动子周围。 常用查找软件:常用查找软件:CpGPlotCpGPlotCpGPlotCpGPlot、 CpGReportCpGReportCpGReportCpGReport、IsochoreIsochoreIsochoreIsochore 7 7 7 7、promoterpromoterpromoterpromoter、 spliceosomespliceosomespliceosomespliceosome、 termination terminationterminationtermination signalsignalsignalsignal 启动子启动子(promoterpromoterpromoterpromoter) :DNADNADNADNA 分子上能与分子上能与 RNARNARNARNA 聚合酶结合并形成转录起始复合体的区域聚合酶结合并形成转录起始复合体的区域,在许多情在许多情 况下,还包括促进这一过程的调节蛋白的结合位点,是一个十分有层次的结构,通常所说的启动况下,还包括促进这一过程的调节蛋白的结合位点,是一个十分有层次的结构,通常所说的启动 子包括:转录因子结合位点、核心启动序列和上下游相关的调控元件;子包括:转录因子结合位点、核心启动序列和上下游相关的调控元件; 剪切体(剪切体(spliceosomespliceosomespliceosomespliceosome) :在真核:在真核 RNARNARNARNA 的转录过程中,首先转录整个基因,然后切除掉其中的内含的转录过程中,首先转录整个基因,然后切除掉其中的内含 子子,外显子拼接成外显子拼接成 RNARNARNARNA 这个过程有许多相关因子作用这个过程有许多相关因子作用,如如:SnRNPSnRNPSnRNPSnRNP 和和 hnRNP,hnRNP,hnRNP,hnRNP,这些因子所构成的这些因子所构成的 复合体称为复合体称为 spliceosomespliceosomespliceosomespliceosome; terminationterminationterminationtermination signalsignalsignalsignal:由反向重复序列以及特定由反向重复序列以及特定 5 5 5 5-AATAAA-3-AATAAA-3-AATAAA-3-AATAAA-3组成组成,反向重复序列的转录产物可反向重复序列的转录产物可 形成发卡结构形成发卡结构,特异性的被特异性的被 RNARNARNARNA 聚合酶转录复合体识别聚合酶转录复合体识别,而是转录终止而是转录终止,AATAAAAATAAAAATAAAAATAAA 同时是同时是 polypolypolypolyA A A A 加尾信号。多腺苷酸化信号的分析可以帮助划定基因的范围。加尾信号。多腺苷酸化信号的分析可以帮助划定基因的范围。 基因预测(基因预测(2 2 2 2) 1 1 1 1、什么叫基因注释?什么叫基因注释? Reachercyzxn12315 3 注释(注释(annotationannotationannotationannotation) :指从原始序列工程数据中获得有用的生物学信息。:指从原始序列工程数据中获得有用的生物学信息。 基因组注释(基因组注释(genomegenomegenomegenome annotationannotationannotationannotation) :主要是指在基因组:主要是指在基因组 DNADNADNADNA 中寻找基因和其他功能元件(结构注中寻找基因和其他功能元件(结构注 释释) ,并给出这些序列的功能(功能注释,并给出这些序列的功能(功能注释) 。 2 2 2 2、基因预测的方法有哪些?基因预测的方法有哪些? 序列相似性分析方法序列相似性分析方法 (SequenceSequenceSequenceSequence alignmentalignmentalignmentalignment basedbasedbasedbased methodmethodmethodmethod) ; 从头预测从头预测 (统计分析统计分析) 方法方法StatisticallyStatisticallyStatisticallyStatistically basedbasedbasedbased methodmethodmethodmethod (ab(ab(ab(ab initio)initio)initio)initio);多信息融合的方法(;多信息融合的方法(hybridhybridhybridhybrid methodmethodmethodmethod) 3 3 3 3、名词解释名词解释 ESTESTESTEST ESTESTESTEST(expressedexpressedexpressedexpressed sequencesequencesequencesequence tagstagstagstags) :是从实际选择的:是从实际选择的 cDNAcDNAcDNAcDNA 克隆中进行克隆中进行 5 5 5 5端或者端或者 3 3 3 3端一次性测序端一次性测序 获得的获得的 cDNAcDNAcDNAcDNA 序列片段,长度一般为序列片段,长度一般为 400-600bp400-600bp400-600bp400-600bp 代表了一个完整基因的一部分。代表了一个完整基因的一部分。 4 4 4 4、特征级建模常用的信息有哪些?特征级建模常用的信息有哪些? 常用的信息:常用的信息: 功能位点信号功能位点信号 (起始点起始点、 终止点终止点、 启动子启动子、 终止子终止子、 拼接位点拼接位点) ; 密码子使用的偏好性密码子使用的偏好性: CodonCodonCodonCodon UsageUsageUsageUsage PreferencePreferencePreferencePreference;同义密码子(;同义密码子(synonymoussynonymoussynonymoussynonymous condoncondoncondoncondon) ;最优密码子(;最优密码子(optimaloptimaloptimaloptimal condoncondoncondoncondon) ;反密码子;反密码子 (anticondonanticondonanticondonanticondon) ;碱基组成偏好性(;碱基组成偏好性(basebasebasebase compositioncompositioncompositioncomposition biasbiasbiasbias) ;密码子偏好性(;密码子偏好性(condoncondoncondoncondon biasbiasbiasbias) 5 5 5 5、密码子的碱基组成偏好性及密码子的偏好性密码子的碱基组成偏好性及密码子的偏好性 碱基组成偏好性碱基组成偏好性 (basebasebasebase compositioncompositioncompositioncomposition biasbiasbiasbias) : : : :由于不同氨基酸及其不同的同义密码子使用频率的不同由于不同氨基酸及其不同的同义密码子使用频率的不同, , 导致了在编码序列中密码子的三个位置上导致了在编码序列中密码子的三个位置上 4 4 4 4 种碱基的概率有明显的差别,密码子的三个位置上碱种碱基的概率有明显的差别,密码子的三个位置上碱 基概率分布特征称为碱基组成偏好性基概率分布特征称为碱基组成偏好性 密码子偏好性密码子偏好性 (condoncondoncondoncondon biasbiasbiasbias) : 氨基酸的同义密码子的使用频率与相应的同功氨基酸的同义密码子的使用频率与相应的同功 tRNAtRNAtRNAtRNA 的水平相一致的水平相一致, , 大多数高校表达的基因使用那些含量高的同功大多数高校表达的基因使用那些含量高的同功 tRNAtRNAtRNAtRNA 所对应的密码子,这种效应称为密码子的偏所对应的密码子,这种效应称为密码子的偏 好性(某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,此现象被称为密码子好性(某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,此现象被称为密码子 偏好性偏好性(Codon(Codon(Codon(Codon UsageUsageUsageUsage bias)bias)bias)bias)。 。 6 6 6 6、基因预测的策略基因预测的策略 DNADNADNADNA 序列分的总结(基因预测的策略)序列分的总结(基因预测的策略) 当我们拿到一个当我们拿到一个 DNADNADNADNA 序列后,我们要对其进行分析,其过程如下:序列后,我们要对其进行分析,其过程如下: 1 1 1 1)序列相似性分析)序列相似性分析 在在 DNADNADNADNA 序列中查找是否有序列污染,若有把污染序列去除。在序列中搜索重复元件,重复元序列中查找是否有序列污染,若有把污染序列去除。在序列中搜索重复元件,重复元 件会对序列分析造成很大的困扰,若有重复元件要进行屏蔽。对序列做同源性搜索,如果同源性件会对序列分析造成很大的困扰,若有重复元件要进行屏蔽。对序列做同源性搜索,如果同源性 检测结果提示序列与某功能区域高度同源就可以对基因功能的定位做出非常有力的判断,也可以检测结果提示序列与某功能区域高度同源就可以对基因功能的定位做出非常有力的判断,也可以 依据高度同源的蛋白质或依据高度同源的蛋白质或 ESTESTESTEST 序列非常准确的重构基因的结构序列非常准确的重构基因的结构, 若没有发现同源序列则要对若没有发现同源序列则要对 DNDNDNDNA A A A 序列进行基于统计的分析。序列进行基于统计的分析。 2 2 2 2)基于统计的分析方法)基于统计的分析方法 构建基因模型:特征级模型(可利用的信息包括构建基因模型:特征级模型(可利用的信息包括 功能位点信号、密码子偏好性、外显子内含功能位点信号、密码子偏好性、外显子内含 子等构件的长度分布子等构件的长度分布、编码区非编码区编码区非编码区 GCGCGCGC 含量的差异性含量的差异性) 、单元级建模单元级建模、基因级建模基因级建模、基因组级基因组级 建模,通过建模构建出目标函数建模,通过建模构建出目标函数 7 7 7 7、基于统计分析的基因预测软件有哪些?(至少举出两例)基于统计分析的基因预测软件有哪些?(至少举出两例) GENESCANGENESCANGENESCANGENESCAN,ORFORFORFORFFinderFinderFinderFinder 构建进化树构建进化树 1 1 1 1、系统发育学(系统发育学(phylogenyphylogenyphylogenyphylogeny)系统发育树(系统树)名词解释)系统发育树(系统树)名词解释 系统发育学(系统发育学(phylogenyphylogenyphylogenyphylogeny) :生物体间的相似和差异可以用来推断进化关系,确定生物体间进化关:生物体间的相似和差异可以用来推断进化关系,确定生物体间进化关 系的学科分支,即系统发育学系的学科分支,即系统发育学 系统发育树系统发育树(系统树系统树) :用来显示进化关系用来显示进化关系,节点用来表示不同的生物体节点用来表示不同的生物体,链接用来显示不同的遗链接用来显示不同的遗 传路线传路线 2 2 2 2、有根树和无根树各反映了什么?有根树和无根树各反映了什么? A A A Arootedrootedrootedrooted phylogeneticphylogeneticphylogeneticphylogenetic treetreetreetree is is is is a a a a treetreetreetree withwithwithwith a a a a uniqueuniqueuniqueunique rootrootrootroot nodenodenodenode correspondingcorrespondingcorrespondingcorresponding totototo thethethethe (usually(usually(usually(usually imputed)imputed)imputed)imputed) Reachercyzxn12315 4 mostmostmostmost recentrecentrecentrecent commoncommoncommoncommon ancestorancestorancestorancestor ofofofof allallallall thethethethe entitiesentitiesentitiesentities atatatat thethethethe leavesleavesleavesleaves (aka(aka(aka(aka tips)tips)tips)tips) ofofofof thethethethe tree.tree.tree.tree. (反映了树上物(反映了树上物 种或基因的时间顺序)种或基因的时间顺序) UnrootedUnrootedUnrootedUnrooted treestreestreestrees illustrateillustrateillustrateillustrate thethethethe relatednessrelatednessrelatednessrelatedness ofofofof thethethethe leafleafleafleaf nodesnodesnodesnodes withoutwithoutwithoutwithout makingmakingmakingmaking assumptionsassumptionsassumptionsassumptions aboutaboutaboutabout commoncommoncommoncommon ancestry.ancestry.ancestry.ancestry.(只反映分类单元之间的距离,而不涉及祖先问题)(只反映分类单元之间的距离,而不涉及祖先问题) 3 3 3 3、什么是特征性数据和距离数据?什么是特征性数据和距离数据? 特征性数据:它提供基因、个体、物种、群体信息特征性数据:它提供基因、个体、物种、群体信息 距离数据距离数据: (相似性数据)提供成对基因、个体、物种、群体间相似性的数据(相似性数据)提供成对基因、个体、物种、群体间相似性的数据 4 4 4 4、构建进化树的三种方法?构建进化树的三种方法? 距离矩阵法(距离矩阵法(distancedistancedistancedistance matrixmatrixmatrixmatrix methodmethodmethodmethod)根据物种间的距离)根据物种间的距离 最大简约法(最大简约法(maximummaximummaximummaximum parsimonyparsimonyparsimonyparsimony)寻找物种间最小的变数)寻找物种间最小的变数 最大似然法(最大似然法(maximummaximummaximummaximum likelihoodlikelihoodlikelihoodlikelihood)寻找最大可能性的变化路径)寻找最大可能性的变化路径 5 5 5 5、无根树增加根的两种方法?无根树增加根的两种方法? 使用外群(可以使生物物种)如:哺乳动物系统树种可以用鸟类作为树根使用外群(可以使生物物种)如:哺乳动物系统树种可以用鸟类作为树根 没有明显外群的情况下,可以将最远距离的两个物种的中点作为根没有明显外群的情况下,可以将最远距离的两个物种的中点作为根 7 7 7 7、什么叫分子系统发育什么叫分子系统发育 分子系统发育:生物体不同株系后代的分子系统发育:生物体不同株系后代的 DNADNADNADNA 在进化过程中积累突变,并导致大分子序列的分歧在进化过程中积累突变,并导致大分子序列的分歧 (DNADNADNADNA、RNARNARNARNA 和蛋白质序列和蛋白质序列) 。基于大分子序列间差异的系统发育树被称为分子系统发育。基于大分子序列间差异的系统发育树被称为分子系统发育。 8 8 8 8、研究不同的类群,如何选择大分子序列?研究不同的类群,如何选择大分子序列? 研究进化距离相近的类群,杨该选择进化足够快的分子,从而明确区分这些密切相关的物种研究进化距离相近的类群,杨该选择进化足够快的分子,从而明确区分这些密切相关的物种 研究分歧大的分子要选用高度保守、突变很少的大分子序列研究分歧大的分子要选用高度保守、突变很少的大分子序列 选择合适、准确的同源序列(如:要选择垂直同源而不选择水平同源)选择合适、准确的同源序列(如:要选择垂直同源而不选择水平同源) 9 9 9 9、名词解释垂直同源、水平同源名词解释垂直同源、水平同源 垂直同源体:不同生物体中具有相同功能的同源基因垂直同源体:不同生物体中具有相同功能的同源基因 水平同源体:具有不同或者相关功能的同源基因水平同源体:具有不同或者相关功能的同源基因 蛋白质序列分析蛋白质序列分析 1 1 1 1、名词解释:同源蛋白、蛋白质同源分析名词解释:同源蛋白、蛋白质同源分析 同源蛋白:生物大分子序列是分子进化的产物,从共同祖先序列进化而来的蛋白质通常称为同源同源蛋白:生物大分子序列是分子进化的产物,从共同祖先序列进化而来的蛋白质通常称为同源 蛋白蛋白 蛋白质同源分析:基于检测的同源蛋白从而外推得到某特定蛋白的某些特性的方法称为蛋白质的蛋白质同源分析:基于检测的同源蛋白从而外推得到某特定蛋白的某些特性的方法称为蛋白质的 同源分析同源分析 2 2 2 2、名词解释:蛋白质二级数据库并说出几个蛋白质二级数据库(至少名词解释:蛋白质二级数据库并说出几个蛋白质二级数据库(至少 3 3 3 3 个)个) 同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。因此,同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸残基的重要信息。因此, 将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了,存储这些信息的数据库称为蛋将蛋白质的多序列联配结果储存在数据库存储就显得尤为重要了,存储这些信息的数据库称为蛋 白质二级数据库。白质二级数据库。 PrositePrositePrositeProsite 数据库:基于多序列比较得到的单一保守序列片段,或称序列模体数据库:基于多序列比较得到的单一保守序列片段,或称序列模体 PrintsPrintsPrintsPrints(蛋白质序列指纹图谱数据库)(蛋白质序列指纹图谱数据库) BlocksBlocksBlocksBlocks(蛋白质序列模块数据库)(蛋白质序列模块数据库) ProfilesProfilesProfilesProfiles(序列概貌数据库)(序列概貌数据库) PfamPfamPfamPfam(蛋白质序列家族数据库)采用了隐马尔可夫模型(蛋白质序列家族数据库)采用了隐马尔可夫模型 IdentifyIdentifyIdentifyIdentify(蛋白质序列识别数据库)(蛋白质序列识别数据库) 3 3 3 3、蛋白质结构域的概念及结构域的特点蛋白质结构域的概念及结构域的特点 蛋白质结构域蛋白质结构域(protein(protein(protein(protein domain)domain)domain)domain):必须是一个独立单元必须是一个独立单元。是蛋白质中结构紧密是蛋白质中结构紧密(compact)(compact)(compact)(compact)的的、半独立半独立 的单元的单元(semi-independent)(semi-independent)(semi-independent)(semi-independent) 在三维结构上呈现几何独立的部分在三维结构上呈现几何独立的部分 ;是蛋白质三维结构中可自折叠的;是蛋白质三维结构中可自折叠的 稳定单元稳定单元(stable(stable(stable(stable unit)unit)unit)unit),是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列是可独立于序列的剩余部分而折叠为特定三维结构的那部分序列 ;是可重现的功能和进化是可重现的功能和进化 Reachercyzxn12315 5 模块,是可定义单一明确功能的部分蛋白质序列模块,是可定义单一明确功能的部分蛋白质序列 4 4 4 4、蛋白质序列的理化性质分析包括哪一些?并举出一种软件。蛋白质序列的理化性质分析包括哪一些?并举出一种软件。 蛋白质理化性质的分析通常包括蛋白质理化性质的分析通常包括:蛋白质的分子量蛋白质的分子量、等电点等电点(pI)(pI)(pI)(pI)、氨基酸组成氨基酸组成、疏水性和亲水性分疏水性和亲水性分 析等析等 ComputeComputeComputeCompute pI/MwpI/MwpI/MwpI/Mw;ANTHEPROTANTHEPROTANTHEPROTANTHEPROT; 5 5 5 5、蛋白质序列的基本性质包括哪一些蛋白质序列的基本性质包括哪一些 ?并举出两种软件。?并举出两种软件。 蛋白质序列的基本性质分析蛋白质序列的基本性质分析,一般包括蛋白质的跨膜螺旋一般包括蛋白质的跨膜螺旋、卷曲螺旋卷曲螺旋、二硫键位置二硫键位置、翻译后修饰翻译后修饰、 、 信号肽与亚细胞定位、磷酸化位点分析等信号肽与亚细胞定位、磷酸化位点分析等 SignalPSignalPSignalPSignalP;MHMMMHMMMHMMMHMM 和和 TMpredTMpredTMpredTMpred 6 6 6 6、说明蛋白质功能的三个层次(可能简答)说明蛋白质功能的三个层次(可能简答) 分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能分子功能、细胞功能、表型功能等三个层次来描述蛋白质功能 molecularmolecularmolecularmolecular functionfunctionfunctionfunction:蛋白质的特殊绑定位点、催化活性和构象变化等:蛋白质的特殊绑定位点、催化活性和构象变化等 cellularcellularcellularcellularfunctionfunctionfunctionfunction:一定细胞环境下代谢途径、信号级联的参与情况的:一定细胞环境下代谢途径、信号级联的参与情况的 phonotypicphonotypicphonotypicphonotypic functionfunctionfunctionfunction:生物体内的表型,如是否患有疾病及其疾病病理等:生物体内的表型,如是否患有疾病及其疾病病理等 7 7 7 7、蛋白质功能注释的根本目标是什么?蛋白质功能注释的根本目标是什么? 功能注释的根本目标是建立基因型功能注释的根本目标是建立基因型(genotype)(genotype)(genotype)(genotype)与表型与表型(phenotype)(phenotype)(phenotype)(phenotype)以及与环境间的相互作用与联系以及与环境间的相互作用与联系 为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。为致病基因筛选、药物靶标筛选、基因表达谱数据分析、建立调控网络等提供关键信息。 蛋白质结构分析蛋白质结构分析 1 1 1 1、说出至少一种蛋白质结构数据库和一种可视化工具说出至少一种蛋白质结构数据库和一种可视化工具 蛋白质结构数据的获取蛋白质结构数据的获取-PDB-PDB-PDB-PDB 库库, 蛋白质三维结构显示比较出名的有蛋白质三维结构显示比较出名的有:RASMOL:RASMOL:RASMOL:RASMOL, Swiss-PDBVieweSwiss-PDBVieweSwiss-PDBVieweSwiss-PDBViewer r r r 和和 VMDVMDVMDVMD 等等 2 2 2 2、蛋白质结构的分析包括哪些?蛋白质结构的分析包括哪些? 结构品质的分析结构品质的分析 蛋白质内部相互作用分析蛋白质内部相互作用分析 溶剂可接近表面的计算及分析溶剂可接近表面的计算及分析 功能位点的分析功能位点的分析 3 3 3 3、蛋白质结构联配的概念蛋白质结构联配的概念 结构联配结构联配(比对比对) :将两个相似的三维结构尽可能重叠在一起将两个相似的三维结构尽可能重叠在一起,这样使得结构上对应残基的主链原这样使得结构上对应残基的主链原 子在空间尽可能的靠近。利用重叠反过来定义序列的联配,通常认为序列上匹配的残基在空间距子在空间尽可能的靠近。利用重叠反过来定义序列的联配,通常认为序列上匹配的残基在空间距 离上是相近的。通过结构联配找到同源关系更远的蛋白质,因为结构要比序列更加保守。离上是相近的。通过结构联配找到同源关系更远的蛋白质,因为结构要比序列更加保守。 4 4 4 4、说出一种结构相似性搜索工具说出一种结构相似性搜索工具 VASTVASTVASTVAST 5 5 5 5、说出两个蛋白质结构分类数据,说出几种结构类说出两个蛋白质结构分类数据,说出几种结构类 结构分类主要依据:序列比对和结构比对结构分类主要依据:序列比对和结构比对 6 6 6 6、蛋白质结构预测的常见方法有哪些?蛋白质结构预测的常见方法有哪些? 常见的预测方法:比较建模法、折叠识别法、二级结构预测法和从头预测法常见的预测方法:比较建模法、折叠识别法、二级结构预测法和从头预测法 7 7 7 7、蛋白质预测的策略?(大题)、蛋白质预测的策略?(大题) Reachercyzxn12315 6 在得到一条未知结构蛋白质的序列时,我们可以采取如下的步骤进行结构预测:在得到一条未知结构蛋白质的序列时,我们可以采取如下的步骤进行结构预测: 第一步:应该是判断目标序列中是否包含关键性的特征,如应该检查序列的潜在的跨膜片段;是第一步:应该是判断目标序列中是否包含关键性的特征,如应该检查序列的潜在的跨膜片段;是 否含有那些单氨基酸重复的区域,有则要作特殊处理。通过用否含有那些单氨基酸重复的区域,有则要作特殊处理。通过用 InterproInterproInterproInterpro 之类的工具分析序列可以之类的工具分析序列可以 查寻这个蛋白质中可能存在的已知结构域,揭示出蛋白质中所有的结构域组成。另外,可以查寻这个蛋白质中可能存在的已知结构域,揭示出蛋白质中所有的结构域组成。另外,可以用用 PSI-BLASTPSI-BLASTPSI-BLASTPSI-BLAST 寻找和它相关的其它序列或者部分序列(结构域寻找和它相关的其它序列或者部分序列(结构域) 。 第二步:如果查询序列与已知结构的序列有较高的相似度,则可以采用比较建模法,第二步:如果查询序列与已知结构的序列有较高的相似度,则可以采用比较建模法,由由 SWISS-MODELSWISS-MODELSWISS-MODELSWISS-MODEL 提供的网络服务可以完成这个任务,如果提供的网络服务可以完成这个任务,如果 SWISS-MODELSWISS-MODELSWISS-MODELSWISS-MODEL 上的搜索是成功的,上的搜索是成功的, 则可以直接通过它进一步建立完整的结构模型。则可以直接通过它进一步建立完整的结构模型。 第三步:当不能用比较建模时,下一步则应该是二级结构预测。二级结构预测可以用于任何蛋白第三步:当不能用比较建模时,下一步则应该是二级结构预测。二级结构预测可以用于任何蛋白 质序列质序列, (球蛋白的结构域的预测要比膜蛋白更加准确(球蛋白的结构域的预测要比膜蛋白更加准确) 。将每个残基安排到。将每个残基安排到螺旋、螺旋、折叠或无折叠或无 规卷曲中去规卷曲中去, 。二级结构预测完成之后则是进行折叠识别二级结构预测完成之后则是进行折叠识别,该方法能确定二级结构是如何包裹成三该方法能确定二级结构是如何包裹成三 级折叠的,这类方法的预测精度通常也要比标准比较建模法低得多。级折叠的,这类方法的预测精度通常也要比标准比较建模法低得多。 蛋白质组数据分析蛋白质组数据分析 1 1 1 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年甘肃省兰州大学土木工程与力学学院聘用制(B岗)人员招聘模拟试卷及答案详解(网校专用)
- 中国移动山南市2025秋招写作案例分析万能模板直接套用
- 2025年4月四川护理职业学院编外人员招聘14人考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025年福建省南平市光泽县招聘医疗人才10人模拟试卷附答案详解(典型题)
- 2025年枣庄山亭区人民医院公开招聘备案制专业技术人员(15人)模拟试卷完整参考答案详解
- 2025年温岭市公开选调公务员32人考前自测高频考点模拟试题有完整答案详解
- 关于电渡厂环保排量转让合同5篇
- 2025年在线教育平台用户增长与留存策略在线教育行业竞争态势分析报告
- 2025年文旅地产融合模式创新及重点项目投资风险评估报告
- 2025年工业互联网平台漏洞扫描技术风险管理策略报告
- AIGC基础与应用第6章-AIGC造就绘画大师
- 《炼油与化工装置机泵 在线监测系统技术规范》
- 羽毛球竞赛编排知识与方法
- 2023数据标准管理实践
- 非洲水坝施工方案
- Unit 3 Understanding ideas The Road to Success课件 2023-2024学年高中英语外研版选择性必修第一册
- 项目需求分析文档(模板)
- 长阳清江画廊
- 四川2023年专业技术人员公需科目“数字经济与驱动发展”参考答案(通用版)
- 液压泵站使用说明书
- 职工三级安全教育卡模版
评论
0/150
提交评论