《生物化学》教学课件:基因结构分析策略-zhan-1-2_第1页
《生物化学》教学课件:基因结构分析策略-zhan-1-2_第2页
《生物化学》教学课件:基因结构分析策略-zhan-1-2_第3页
《生物化学》教学课件:基因结构分析策略-zhan-1-2_第4页
《生物化学》教学课件:基因结构分析策略-zhan-1-2_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因结构分析的基本策略,Basic strategy for analyzing gene structure,主要内容: 基因序列结构的生物信息学检索和比对 分析 基因转录起始点的鉴定 启动子的结构及功能分析 编码序列结构分析,第一节 基因序列结构的生物信息学检索和比对分析,就是在数据库中对基因序列或DNA序列进行 比对分析,以其能够推测出其结构、功能及在进化上的联系。 比对方法: 1. 双重比对 2. 多序列比对,序列比对目的: 判断两个或多个序列间是否具有足够的相似性 从而判断二者之间是否具有同源性,直接的数量关系,进化上曾具有共同祖先,基因或DNA序列比对分析,序列比对的结果: 取代

2、插入 缺失,Mouse: GGKDSCQGDSGGPVVCNG-QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish: GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-,缺失?,保守序列,保守序列: 可能是共同进化的标志 可能并不代表功能的重要性,插入?,当两个序列非常相似时,是否一定说明它们具有相似的功能?,NCBI数据库,NCBI首先创建GenBank数据库,于1991年开发了Entrez数据库检索系统,该系统整合了GenBank、EMBL、PIR(Protein Informa

3、tion Resource )和SWISS-PROT等数据库的序列信息以及MEDLINE有关序列的文献信息,并通过相关链接,将他们有机地结合在一起; NCBI还提供了其他数据库,包括在线人类孟德尔遗传(OMIM)、三维蛋白结构的分子模型数据库(MMDB)、人类基因序列集成(UniGene)、人类基因组基因图谱(GMHG)、生物门类(Toxonomy) 等数据库。,1. 各种数据库的介绍,(1) Nucleotide,该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和欧洲分子生物学实验室数据库(EMBL)三部分数据组成; 三个组织每天交换各自数据库

4、中的新增序列实现数据共享。,(2) Genome,即基因组数据库,提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱。,(3) Structures,即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据。,NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像。,(4) Taxonomy,即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。,(5) PopSet,包含研究一个人群、一个种系发生

5、或描述人群变化的一组组联合序列; PopSet既包含了核酸序列数据又包含了蛋白质序列数据。,(7) 文献数据库,PubMed:生物医药科学的检索系统 OMIM:孟德尔遗传学数据库是人类基因和基因疾病的目录数据库 其他:书目,杂志,文章引用匹配等,该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息。,2. NCBI数据库检索,在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed,可以通过下拉菜单选择记录的显示格式,通常选择GenBank Report格式或FASTA Report格式。 当选择GenBank R

6、eport格式后,屏幕显示较完整的基因记录,包括:基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、 核酸编号(NID )、关键词(Keywords)、 来源(Source)、组织分类(Organism)、参考文献(Reference)、 著者(Author)、题目(Title)、期刊(Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele) 对等的肽(Mat-Peptide )、计算碱基数(Base Count)、原序列(Origin)。 FASTA Rep

7、ort格式仅包括检出序列的简要特征描述。,例如:人EPO基因序列检索 (/genbank/),输入关键词,选择合适的程序,向下拉寻找符合目标的条目,点击此条打开连接,向下拉寻找关注的内容,凡是连接的地方都可以点击查看,可以直接拷贝保存相关内容,Entrez: 是一个用以整合NCBI数据库中信息的搜寻和检索工具,3. NCBI数据库搜索工具,BLAST: 是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段,NCBI提供的附加软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和Ban

8、kIt,Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力,Entrez:,BLAST(/BLAST/):,BLAST程序(Basic Local Alignment Search Tool ),点击核酸序列blast,在框内输入序列:,选择搜索条件:,选择特殊程序:,比较两个序列之间的相似性:,以上仅简介了NCBI相关数据库及工具软件关于其他数据库及软件工具等信息见书中第二十五章表1-5。,第二节 基因转录起始点的鉴定,主要内容: 基因转录起始点的序列特征 基因转录起始点的序列分析,一、基因转录起始点的序列特征,1.

9、 真核基因及其调控元件,II 型启动子的TSS: 没有明确的保守序列 有一种趋势,即mRNA 的第一个碱基是A,其侧翼碱基倾向于是嘧啶 与mRNA第一个碱基对应的位置标记为-1区 -3 +5区域被称作起始子 (initiator),2. 转录起始点(TSS),Py2CAPy5,二、基因转录起始点的序列分析,思考: 转录起始点 (TSS)位于基因编码序列的5端 基因编码区是指编码多肽链的核苷酸序列 多肽链是以mRNA为模板经翻译合成的,因此,分析鉴定TSS的方法都是以cDNA为切入点。,1. cDNA克隆测序,AAAAAn,AAAAAn,mRNA,反转录酶,AAAAAn,Oligo (dT)15

10、-18,cDNA第一链,CCCCC,cDNA第一链,nCCCC,nGGGG,cDNA第二链,克隆扩增,5端测序分析,反转录酶的末端转移酶活性 Oligo (dG)15-18,mRNA,与线性载体相连接,要求: cDNA的5端完整无缺,2. cDNA末端快速扩增技术(RACE),传统的RACE (rapid amplification of cDNA ends) :,mRNA,cDNA,mRNA,-5,3-,反转录酶,Oligo (dT)15-18,末端转移酶,dGTP,nGGGGG,锚定PCR扩增,nGGGGG,nCCCCC,锚定引物,特异引物,PCR产物,Deep-RACE:,用寡核苷酸替代

11、mRNA的5端帽结构以及发光标记巢氏PCR引物,能平行分析多个基因,并省却了耗时的克隆步骤,实现高通量鉴定转录起始点 。与常规的RACE PCR产物测序相比,它更为准确和经济。,5-p 帽,mRNA,牛小肠磷酸酶 (CIP),5-帽,烟草酸焦磷酸酶 (TAP),5-,将5-RACE adaptor (寡核苷酸)加到脱帽RNA分子上,5-RACE adaptor (寡核苷酸),反转录酶 10nt 随机引物,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,长短不同的cDNA,随机引物,用10nt随机引物与5-RACE引物进行P

12、CR扩增,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,PCR产物,随机引物,以5-RACE引物和5端甩尾的基因特异性反向引物进行巢式PCR,5-RACE adaptor,以5-RACE发光标记引物对PCR混合物直接进行一次性测序,分析基因转录起始点,3. 连续分析基因转录起始点,在RACE的基础上,通过在转录本5 端引入一个特殊的核酸内切酶识别位点,实现了基因5 端短片段串联连接产物一次测序分析多个基因转录起始点的目的。 主要有两种方法: 5 端连续分析基因表达(5 -end serial analysis of ge

13、ne expression, 5 SAGE) 帽分析基因表达(cap analysis gene expression, CAGE),(1) 5 SAGE,5SAGE是在PCR过程中将MmeI酶切位点引物cDNA的5端,通过酶切和连接获得不同短片段重复序列,并对重复序列进行测序获得大量片段序列信息 ; 不同序列的短片段代表不同基因的转录起始点 (TSS)。,MmeI: 是一种特殊的II型限制性核酸内切酶 识别的序列不是回文结构,而是不对称的DNA序列5-TCCRAC-3(R代表G或A) 在识别位点下游1820碱基处切开双链DNA,Gppp,AAAAAAAAn,mRNA,用BAP和TAP处理,A

14、AAAAAAAn,p,在RNA的5端加上寡核苷酸帽,AAAAAAAAn,XhoI,MmeI,反转录酶,RT,AAAAAAAAn,cDNA,PCR,Biotin-标记引物,随机引物,Biotin,MmeI,酶切消化,20 mer,亲和素,用亲和素-生物素,可以将5-端片段与其他片段分离开,20 mer,连接,20 mer,PCR扩增,XhoI,酶切消化,自身连接,串联体,测序分析,(2) CAGE,CAGE与5SAGE非常相似 所不同的是: CAGE不需要在RNA上加接头,而是用oligo(dT)引物先进行第一链cDNA的合成 然后通过捕获帽结构,将含有MmeI和另一内切酶位点如XmaJI的li

15、nker加到单链全长cDNA的3末端,AAAAAAn,Cap,mRNA,反转录酶,Oligo (dT)1518,AAAAAAn,Cap,TTTTTTTn,cDNA,捕获5-帽结构,单链linker,连接,TTTTTTTn,Biotin,cDNA第二链的合成,TTTTTTTn,AAAAAAn,MmeI,XmaJI,MmeI,酶切,亲和素,20 mer,用亲和素-生物素,可以将5-端片段与其他片段分离开,连接第二个linker,XbaI,XmaJI,XmaJI, Xbal,酶切消化,PCR(用linker1和linker2作引物),Linker 1,Linker 2,纯化,串联连接,克隆,20 m

16、er,XmaJI和XbaI是同尾酶: XmaJI:CCTAGG XbaI: TCTAGA,串联体,测序分析,第三节 启动子的结构与功能分析,启动子的结构分析 启动子的功能分析,主要内容:,启动子(promoter): 是一段能被蛋白质识别的、参与特定基因转录调控的DNA序列; II型启动子通常位于结构基因的上游; 共通序列(consensus sequence)是其特征性序列。,共通序列和启动子所处的位置是研究启动子的重要线索。,共通序列,例如: 原核基因的共通序列: -10区:Pribnow box(TATAAT序列) -35区:TTGACA 序列,TATAAT,TTGACA,真核基因的共通

17、序列: 真核基因启动子在-50区域附近(大约5%30%基因启动子在-25-30区域)有TATA box(TATAAA序列),一、启动子的结构分析,主要方法: 利用PCR技术克隆启动子 利用核酸-蛋白质相互作用方法研究启动子 生物信息学预测启动子,(一)利用PCR技术克隆启动子,特异性基因序列,基因上游序列,基因组DNA,根据基因序列合成一条反向引物 正向引物用随机引物,PCR扩增,随机引物,特异引物,克隆及测序分析,注意: 真核基因有内含子,应该根据mRNA序列设计特异性引物 特异性引物尽可能靠近基因的5端,1. 根据已知基因序列直接进行PCR扩增,2. 利用TSS钓取启动子,AAAAAAn,

18、Cap 5-,mRNA,反转录,AAAAAAn,TTTTTTn,cDNA,插入载体,克隆扩增,Cap 5-,以基因特异引物与载体引物配对,PCR扩增,5-,测序分析基因转录起始点序列,以TSS序列为引物,基因组序列为模板,与随机引物配对进行TSS上游序列的PCR扩增,3. 利用环状PCR钓取启动子,基因组DNA,酶切消化,基因组DNA片段,直接环化连接,加上接头后环化连接,根据基因上游序列设计一对反向互补引物,PCR扩增,根据接头序列设计引物,PCR扩增,克隆 测序分析,克隆 测序分析,加接头环化PCR不依赖特异基因序列 可用于筛选启动子,接头,(二)利用核酸-蛋白质互作方法研究启动子,启动子

19、是一段能被蛋白质识别和结合的DNA序列,因此,能够检测核酸-蛋白质相互作用的研究方法都可以用于启动子的研究中。,主要方法: 足迹法(酶足迹法,化学足迹法) 电泳迁移率变动实验(EMSA) 染色体免疫沉淀(ChIP),1. 用足迹法研究启动子,足迹法(Footprinting):利用DNA电泳条带连续性中断的图谱特点判断与蛋白质结合的DNA区域 。,基本流程:,DNA与蛋白质相互作用,切割DNA,凝胶电泳,分析电泳图谱,(1)酶足迹法 (Enzymatic footprinting),利用能切割DNA的酶处理DNA-蛋白质混合物,然后通过电泳进行分析 。,DNase I足迹法 :,是一种利用DN

20、ase I 随机切割双链DNA,从而确定DNA结合蛋白在DNA上结合位点的方法 。,核酸外切酶III足迹法:,是利用核酸外切酶III(Exo III)的35外切酶活性从3末端切割双链DNA的特性,确定蛋白质在DNA上的结合位点的常用方法。,DNase I 足迹法,dsDNA,单链末端标记,DNA结合蛋白,DNase I,酶切消化 (控制反应时间),产生长短不同的片段 但蛋白质结合区被保护,蛋白质结合区,M,No-pro,Pro-DNA,对在凝胶上出现空白区域的DNA进行克隆测序,即可确定结合蛋白质的DNA序列,变性凝胶电泳,(2)化学足迹法 (Chemical footprinting),是利

21、用能切断DNA骨架的化学试剂处理DNA-蛋白质复合物,从而通过化学试剂无法接近结合蛋白质的DNA区域而确定DNA的蛋白质结合位点 主要方法: 羟自由基足迹法 体内足迹法,1)羟自由基足迹法,化学试剂,羟自由基,利用化学试剂产生的羟自由基攻击DNA分子表面脱氧核糖骨架使DNA断裂 当DNA结合蛋白将脱氧核糖遮盖时,自由羟基无法攻击而使这个区域的DNA受到保护,电泳图谱上出现空白区的地方就是结合蛋白质的DNA区,变性凝胶电泳,2)体内足迹法(In vivo footprinting),用化学试剂对活细胞进行体内处理,使DNA在细胞内受到化学修饰,然后裂解细胞,用化学法或酶法进行足迹实验。,甲基化干

22、扰实验 (Methylation interference assay): 是利用化学试剂如硫酸二甲酯(Dimethyl sulfate, DMS)对活细胞DNA进行甲基化修饰,从而干扰蛋白质与DNA的结合。,乙基化干扰实验 (Ethylation interference assay): 是利用化学试剂对活细胞DNA进行乙基化修饰,从而干扰蛋白质与DNA的结合。,化学试剂,提取DNA,DNase I 或化学试剂,变性凝胶电泳分析,切割DNA,化学修饰对蛋白质与DNA的结合有干扰,因此,体内足迹实验也叫干扰实验; 电泳图谱需与未修饰的DNA样品进行比较,在未修饰样品中出现空白区的位置是体内发生

23、化学修饰的DNA区域。,正常对照,化学修饰,提取DNA,2. 用电泳迁移率变动实验研究启动子,电泳迁移率变动实验(Electrophoretic mobility shift assay, EMSA) : 是利用结合蛋白质的DNA片段在凝胶中迁移滞后的特点,通过电泳分离研究核酸-蛋白质互作的方法; 又称为凝胶阻滞实验(Gel retardation assay)。,细胞蛋白质提取物,标记的DNA片段,蛋白质与DNA结合,蛋白质-DNA复合物电泳迁移滞后,凝胶电泳,显影,滞后条带表明DNA是与蛋白质结合的区域,3. 用染色体免疫沉淀(ChIP)研究启动子,非变性ChIP:是先用核酸酶处理细胞核,

24、将染色体消化成碎片,然后用合适的抗体将结合有蛋白质的染色体片段通过免疫沉淀选择出来,再以PCR或核酸杂交技术对DNA序列进行分析; 变性ChIP:是先用甲醛处理细胞,使蛋白质与DNA在细胞内发生交联,然后分离染色体并进行剪切,用特异性抗体与DNA结合蛋白相结合,以沉淀法分离DNA-蛋白质复合体。,(三)生物信息学预测启动子,真核基因组的测序正在以不断增长的速度进行着; 预计在未来几年内将会完成更多的基因组测序工作; 对基因组注释工作中最难的就是精确鉴定和描绘启动子,因此,启动子的预测就显得非常重要 。,预测启动子的切入点: 启动子的结构特征 启动子在染色体上的位置,1. 启动子的结构特征,典型

25、启动子 核心启动子:一般在TSS上游-35区域以内 近端启动子:一般涉及TSS上游几百个碱基 远端启动子:一般涉及TSS上游几千个碱基 含有增强子或沉默子,一些特征性的结构: TSS附近的CG岛经常出现在启动子中 共通序列 (consensus sequence)。,2. 启动子的预测分析,启动子数据库 EPD (Eukaryotic promoter databases) TRRD (Transcription regulatory regions databases) 基因转录起始点数据库 (DBTSS),这些数据库主要通过计算机识别、判断及分析,在数据库中寻找启动子的特异性特征结构。,二

26、、启动子的功能分析,启动子通常是基因上游参与基因转录调控的DNA序列。由于启动子中的顺式作用元件在基因的特异性表达中发挥重要作用,因此,可以通过连接报告基因研究启动子的功能。,1. 报告基因 (Reporter gene),是研究者们为了制造一种可在细胞培养条件下或动植物体内作为筛选标志的易检测信号,通过分子生物学操作将发光蛋白或酶的编码基因附加到一个感兴趣基因上或插入基因调控序列下游,从而监测感兴趣基因的表达或分析基因调控序列的活性 。,常用的报告基因:,荧光蛋白编码基因: 绿色荧光蛋白 (GFP) 红色荧光蛋白 (dsRed) 蛋白酶: 荧光素酶 (luciferase) -半乳糖苷酶,在

27、蓝色光源照射下发绿光,能催化荧光素 (luciferin)发生氧化反应发光,能使细菌在X-gal存在条件下变成蓝色,2. 报告基因的应用,监测基因的转染效率 报告基因与目的基因分别插入各自启动子下 游,实现报告基因的组成性表达模式。 监控目的基因的表达 报告基因与目的基因融合共同受控于一个启动子,报告基因的表达即代表目的基因的表达。 研究启动子的活性 报告基因插入被研究启动子下游,通过观察报告基因的表达情况推测启动子活性。,启动子捕获技术 (promoter trapping):是一种研究启动子活性的筛选方法。 基本流程: 构建启动子捕获载体 观察报告基因的表达。,报告基因,MCS,ori,候

28、选启动子序列,插入MCS,转染细胞,观察报告基因的表达,启动子捕获载体,第四节 基因编码序列的结构分析,主要内容: 基因编码序列的结构特征 基因编码序列的结构分析,一、基因编码序列的结构特征,编码序列 (coding sequence):通常是指 能体现在蛋白质氨基酸序列中的基因信息。 2. 基因的编码序列具有一些特征性序列: 开放阅读框架 蛋白质翻译的起始密码子和终止密码子 真核基因的外显子(编码序列)和内含子(非编码序列)之间有特殊序列,(一)开放阅读框架,开放阅读框架 (open reading frame, ORF): 是指生物基因组中含有能潜在编码蛋白质的一段核苷酸序列 在基因序列中,ORF位于起始密码子(start codon)和终止密码子(stop codon)之间,密码子: 是由三个核苷酸组成的DNA序列,也称作三联密码子 生物体基因组中总共有64种密码子,其中三个终止密 码子,61个编码氨基酸的密码子 。,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论