第25章基因结构分析的基本策略课件_第1页
第25章基因结构分析的基本策略课件_第2页
第25章基因结构分析的基本策略课件_第3页
第25章基因结构分析的基本策略课件_第4页
第25章基因结构分析的基本策略课件_第5页
已阅读5页,还剩151页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二十五章

基因结构分析的基本策略Basicstrategyforanalyzinggenestructure

第二十五章

基因结构分析的基本策略Basicstrate主要内容:第一节基因序列结构的生物信息学检索和比对分析第二节基因转录起始点的鉴定第三节启动子的结构及功能分析第四节编码序列结构分析主要内容:第一节基因序列结构的生物信息学检索和比对分析第一节就是在数据库中对基因序列或DNA序列进行比对分析,以其能够推测出其结构、功能及在进化上的联系.比对方法:

1.双重比对

2.多序列比对序列比对目的:判断两个或多个序列间是否具有足够的相似性从而判断二者之间是否具有同源性直接的数量关系进化上曾具有共同祖先基因或DNA序列比对就是在数据库中对基因序列或DNA序列进行比对分析,以其能序列比对的结果:取代插入缺失Mouse:GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANCrayfish:GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--缺失?保守序列保守序列:可能是共同进化的标志可能并不代表功能的重要性插入?当两个序列非常相似时,是否一定说明它们具有相似的功能?序列比对的结果:Mouse:缺失?保守序列保守序列:插入?当NCBI数据库NCBI首先创建GenBank数据库于1991年开发了Entrez数据库检索系统,该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE有关序列的文献信息,并通过相关链接,将他们有机地结合在一起NCBI还提供了其他数据库,包括在线人类孟德尔遗传(OMIM)、三维蛋白结构的分子模型数据库(MMDB)、人类基因序列集成(UniGene)、人类基因组基因图谱(GMHG)、生物门类(Toxonomy)等数据库NCBI数据库NCBI首先创建GenBank数据库于199第25章基因结构分析的基本策略1.各种数据库的介绍(1)Nucleotide该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成三个组织每天交换各自数据库中的新增序列实现数据共享1.各种数据库的介绍(1)Nucleotide该数据库由(2)Genome即基因组数据库,提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱(3)Structures即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像(2)Genome即基因组数据库,提供了多种基因组、完全染(4)Taxonomy即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等(5)PopSet包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列PopSet既包含了核酸序列数据又包含了蛋白质序列数据(4)Taxonomy即生物学门类数据库,可以按生物学门类(7)文献数据库PubMed:生物医药科学的检索系统OMIM:孟德尔遗传学数据库是人类基因和基因疾病的目录数据库其他:书目,杂志,文章引用匹配等该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息

(7)文献数据库PubMed:生物医药科学的检索系统该数2.NCBI数据库检索

在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed

可以通过下拉菜单选择记录的显示格式,通常选择GenBank

Report格式或FASTAReport格式。当选择GenBankReport格式后,屏幕显示较完整的基因记录,包括:基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、核酸编号(NID

)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊(Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele)对等的肽(Mat-Peptide

)、计算碱基数(BaseCount)、原序列(Origin)。而FASTAReport格式仅包括检出序列的简要特征描述。2.NCBI数据库检索在检索框中输入检索词,检索词间默认例如:人EPO基因序列检索输入关键词,选择合适的程序例如:人EPO基因序列检索输入关键词,选择合适的程序向下拉寻找符合目标的条目向下拉寻找符合目标的条目点击此条打开连接点击此条打开连接向下拉寻找关注的内容向下拉寻找关注的内容凡是连接的地方都可以点击查看可以直接拷贝保存相关内容凡是连接的地方都可以点击查看可以直接拷贝保存相关内容Entrez:是一个用以整合NCBI数据库中信息的搜寻和检索工具3.NCBI数据库搜索工具

BLAST:是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段

NCBI提供的附加软件工具有:开放阅读框寻觅器(ORFFinder),电子PCR,和序列提交工具,Sequin和BankItEntrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力Entrez:3.NCBI数据库搜索工具BLAST:NCEntrez:Entrez:BLAST:BLAST:BLAST程序程序数据库查询内容Blastp蛋白质蛋白质使用取代矩阵寻找较远的关系:可以进行SEG过滤Blastn核苷酸核苷酸寻找较高分值的匹配,对较远关系不太适用Blastx核苷酸蛋白质对于新的DNA序列和ESTs的分析极(翻译)为有用Tblastn蛋白质核苷酸对于寻找数据库中没有标注的编码(翻译)区极为有用Tblastx核苷酸核苷酸对于分析EST极为有用(翻译)(翻译)BLAST程序程序数据库点击核酸序列blast,在框内输入序列:点击核酸序列blast,在框内输入序列:选择搜索条件:选择搜索条件:选择特殊程序:选择特殊程序:比较两个序列之间的相似性:比较两个序列之间的相似性:以上仅简介了NCBI相关数据库及工具软件关于其他数据库及软件工具等信息见书中第二十五章表1-5。以上仅简介了NCBI相关数据库及工具软件关于其第二节基因转录起始点的鉴定第二节主要内容:一、基因转录起始点的序列特征二、基因转录起始点的序列分析主要内容:一、基因转录起始点的序列特征

TATAbox

CAATbox

GCbox

增强子

顺式作用元件

结构基因-GCGC---CAAT---TATA转录起始点1.真核基因及其调控元件一、基因转录起始点的序列特征TATAboxCAATbII型启动子的TSS:没有明确的保守序列有一种趋势,即mRNA的第一个碱基是A,其侧翼碱基倾向于是嘧啶与mRNA第一个碱基对应的位置标记为-1区-3~+5区域被称作起始子(initiator)2.转录起始点(TSS)+10+20Startsite-10-20-30-40+1ATG-3+5InitiatorPy2CAPy5II型启动子的TSS:2.转录起始点(TSS)+10+2二、基因转录起始点的序列分析思考:转录起始点(TSS)位于基因编码序列的5端基因编码区是指能体现在多肽链中的核苷酸序列多肽链是以mRNA为模板经翻译合成的因此,分析鉴定TSS的方法都是以cDNA为切入点二、基因转录起始点的序列分析思考:因此,1.cDNA克隆测序AAAAAnAAAAAnAAAAAnmRNA反转录酶AAAAAnOligo(dT)15-18TTTTT15-18cDNA第一链CCCCCTTTTT15-18cDNA第一链nCCCCnGGGGcDNA第二链克隆扩增,5端测序分析反转录酶的末端转移酶活性Oligo(dG)15-18mRNA与线性载体相连接要求:cDNA的5端完整无缺1.cDNA克隆测序AAAAAnAAAAAnAAAAAnm2.cDNA末端快速扩增技术(RACE)传统的RACE:AAAAAnmRNAAAAAAnTTTTT15-18cDNAmRNA-53-反转录酶Oligo(dT)15-18末端转移酶dGTPTTTTT15-18nGGGGG锚定PCR扩增TTTTT15-18nGGGGGnCCCCC锚定引物特异引物PCR产物2.cDNA末端快速扩增技术(RACE)传统的RACE:ADeep-RACE:用寡核苷酸替代mRNA的5′端帽结构以及发光标记巢氏PCR引物实现高通量鉴定转录起始点

AAAAAn5-p帽mRNA牛小肠磷酸酶(CIP)AAAAAn5-帽烟草酸焦磷酸酶(TAP)AAAAAn5-将5-RACEadaptor(寡核苷酸)加到脱帽RNA分子上AAAAAn5-RACEadaptor(寡核苷酸)反转录酶10nt随机引物Deep-RACE:用寡核苷酸替代mRNA的5-RACEadaptor5-RACEadaptor5-RACEadaptor5-RACEadaptor长短不同的cDNA随机引物用10nt随机引物与5-RACE引物进行PCR扩增5-RACEadaptor5-RACEadaptor5-RACEadaptor5-RACEadaptorPCR产物随机引物以5’-RACE引物和5’端甩尾的基因特异性反向引物进行巢氏PCR5-RACEadaptor以5’-RACE发光标记引物对PCR混合物直接进行一次性测序分析基因转录起始点5-RACEadaptor5-RACEadaptor3.连续分析基因转录起始点

在RACE的基础上,通过在转录本5′端引入一个特殊的II型限制性核酸内切酶识别位点,实现了基因5′端短片段串联连接产物一次测序分析多个基因转录起始点的目的主要有两种方法:5′端连续分析基因表达(5′-endserialanalysisofgeneexpression,5′SAGE)帽分析基因表达(capanalysisgeneexpression,CAGE)3.连续分析基因转录起始点在RACE的基础上,通过在转录本(1)5′SAGE5′SAGE是在PCR过程中将MmeI酶切位点引物cDNA的5′端,通过酶切和连接获得不同短片段重复序列,并对重复序列进行测序获得大量片段序列信息不同序列的短片段代表不同基因的转录起始点(TSS)

MmeI:是一种特殊的II型限制性核酸内切酶识别的序列不是回文结构,而是不对称的DNA序列5′-TCCRAC-3′(R代表G或A)在识别位点下游18~20碱基处切开双链DNA

(1)5′SAGE5′SAGE是在PCR过程中将MmeGpppAAAAAAAAnmRNA用BAP和TAP处理AAAAAAAAnp在RNA的5端加上寡核苷酸帽AAAAAAAAn5XhoIMmeI反转录酶RT5AAAAAAAAn5cDNAPCRBiotin-标记引物随机引物55BiotinMmeI酶切消化520mer5Biotin亲和素用亲和素-生物素,可以将5-端片段与其他片段分离开GpppAAAAAAAAnmRNA用BAP和TAP处理AAA520mer连接5Biotin5Biotin520merPCR扩增55Biotin5Biotin5XhoI酶切消化自身连接串联体测序分析520mer连接5Biotin5Biotin520(2)CAGECAGE与5′SAGE非常相似所不同的是:CAGE不需要在RNA上加接头,而是用oligo(dT)引物先进行第一链cDNA的合成然后通过捕获帽结构,将含有MmeI和另一内切酶位点如XmaJI的linker加到单链全长cDNA的3′末端(2)CAGECAGE与5′SAGE非常相似AAAAAAnCapmRNA反转录酶Oligo(dT)15~18AAAAAAnCapTTTTTTTncDNA捕获5-帽结构单链linker连接TTTTTTTnBiotincDNA第二链的合成TTTTTTTnAAAAAAnMmeIXmaJIMmeI酶切亲和素20mer用亲和素-生物素,可以将5-端片段与其他片段分离开AAAAAAnCapmRNA反转录酶Oligo(dT)15连接第二个linkerXbaIXmaJIXmaJI,Xbal酶切消化PCR(用linker1和linker2作引物)Linker1Linker2纯化,串联连接,克隆20merXmaJI和XbaI是同尾酶:XmaJI:C^CTAGGXbaI:T^CTAGA串联体测序分析连接第二个linkerXbaIXmaJIXmaJI,Xba第三节启动子的结构及功能分析第三节主要内容:一、启动子的结构分析二、启动子的功能分析主要内容:启动子(promoter)是一段能被蛋白质识别的、参与特定基因转录调控的DNA序列II型启动子通常位于结构基因的上游共通序列(consensussequence)是其特征性序列共通序列和启动子所处的位置是研究启动子的重要线索启动子(promoter)共通序列和启动子所处的位置是研究启+10+20Startsite-10-20-30-40+1ATG-3+5Initiator

共通序列例如:原核基因的共通序列:-10区:Pribnowbox(T77A76T60A61A56T82序列)-35区:T69T79G61A56C54A54序列真核基因的共通序列:真核基因启动子在-50区域附近(大约5%~30%基因启动子在-25~-30区域)有TATAbox(TATAAA序列)TATAATTTGACA+10+20Startsite-10-20-30-40+1一、启动子的结构分析主要方法:利用PCR技术克隆启动子利用核酸-蛋白质相互作用方法研究启动子生物信息学预测启动子一、启动子的结构分析主要方法:(一)利用PCR技术克隆启动子特异性基因序列基因上游序列基因组DNA根据基因序列合成一条反向引物正向引物用随机引物PCR扩增随机引物特异引物克隆及测序分析注意:真核基因有内含子,应该根据mRNA序列设计特异性引物特异性引物尽可能靠近基因的5端1.根据已知基因序列直接进行PCR扩增(一)利用PCR技术克隆启动子特异性基因序列基因上游序列基因2.利用TSS钓取启动子AAAAAAnCap5-mRNA反转录AAAAAAnTTTTTTncDNA插入载体,克隆扩增Cap5-以基因特异引物与载体引物配对PCR扩增5-测序分析基因转录起始点序列以TSS序列为引物,基因组序列为模板,与随机引物配对进行TSS上游序列的PCR扩增2.利用TSS钓取启动子AAAAAAnCap5-mRN3.利用环状PCR钓取启动子基因组DNA酶切消化基因组DNA片段直接环化连接加上接头后环化连接根据基因上游序列设计一对反向互补引物PCR扩增根据接头序列设计引物PCR扩增克隆测序分析克隆测序分析加接头环化PCR不依赖特异基因序列可用于筛选启动子接头3.利用环状PCR钓取启动子基因组DNA酶切消化基因组DN(二)利用核酸-蛋白质互作方法研究启动子启动子是一段能被蛋白质识别和结合的DNA序列,因此,能够检测核酸-蛋白质相互作用的研究方法都可以用于启动子的研究中

主要方法:足迹法(酶足迹法,化学足迹法)电泳迁移率变动实验(EMSA)染色体免疫沉淀(ChIP)(二)利用核酸-蛋白质互作方法研究启动子启动子是一段能被蛋白1.用足迹法研究启动子足迹法(Footprinting)利用DNA电泳条带连续性中断的图谱特点判断与蛋白质结合的DNA区域基本流程:DNA与蛋白质相互作用切割DNA凝胶电泳分析电泳图谱蛋白与未标记的竞争DNA结合蛋白与标记的DNA结合凝胶电泳放射自显影1.用足迹法研究启动子足迹法(Footprinting)基(1)酶足迹法(Enzymaticfootprinting)

利用能切割DNA的酶处理DNA-蛋白质混合物,然后通过电泳进行分析

DNaseI足迹法

(DNaseIfootprinting)是一种利用DNaseI

随机切割双链DNA,从而确定DNA结合蛋白在DNA上结合位点的方法

核酸外切酶III足迹法

(ExonucleoaseIII

footprinting)是利用核酸外切酶III(ExoIII)的35外切酶活性从3末端切割双链DNA的特性,确定蛋白质在DNA上的结合位点的常用方法(1)酶足迹法(EnzymaticfootprintinDNaseI

足迹法dsDNA单链末端标记DNA结合蛋白DNaseI酶切消化(控制反应时间)产生长短不同的片段但蛋白质结合区被保护DNaseI足迹法dsDNA单链末端标记DNA结合蛋白D蛋白质结合区MNo-proPro-DNA对在凝胶上出现空白区域的DNA进行克隆测序,即可确定结合蛋白质的DNA序列变性凝胶电泳蛋白质结合区MNo-proPro-DNA对在凝胶上出现空白区(2)化学足迹法(Chemicalfootprinting)是利用能切断DNA骨架的化学试剂处理DNA-蛋白质复合物,从而通过化学试剂无法接近结合蛋白质的DNA区域而确定DNA的蛋白质结合位点主要方法:羟自由基足迹法体内足迹法(2)化学足迹法(Chemicalfootprintin1)羟自由基足迹法(Hydroxylradicalfootprinting)化学试剂羟自由基利用化学试剂产生的羟自由基攻击DNA分子表面脱氧核糖骨架使DNA断裂当DNA结合蛋白将脱氧核糖遮盖时,自由羟基无法攻击而使这个区域的DNA受到保护电泳图谱上出现空白区的地方就是结合蛋白质的DNA变性凝胶电泳1)羟自由基足迹法化学试剂羟自由基利用化学试剂产生的羟自由基2)体内基足迹法(Invivofootprinting)

用化学试剂对活细胞进行体内处理,使DNA在细胞内受到化学修饰,然后裂解细胞,用化学法或酶法进行足迹实验。甲基化干扰实验

(Methylationinterferenceassay)是利用化学试剂如硫酸二甲酯(Dimethylsulfate,DMS)对活细胞DNA进行甲基化修饰,从而干扰蛋白质与DNA的结合。乙基化干扰实验

(Ethylationinterferenceassay)是利用化学试剂对活细胞DNA进行乙基化修饰,从而干扰蛋白质与DNA的结合。2)体内基足迹法用化学试剂对活细胞进行体内处理,使DNA在细化学试剂提取DNADNaseI或化学试剂变性凝胶电泳分析切割DNA化学修饰对蛋白质与DNA的结合有干扰,因此,体内足迹实验也叫干扰实验电泳图谱需与未修饰的DNA样品进行比较,在未修饰样品中出现空白区的位置是体内发生化学修饰的DNA区域正常对照化学修饰提取DNA化学试剂提取DNADNaseI变性凝胶电泳分析切割DNA2.用电泳迁移率变动实验研究启动子电泳迁移率变动实验

(Electrophoreticmobilityshiftassay,EMSA)是利用结合蛋白质的DNA片段在凝胶中迁移滞后的特点,通过电泳分离研究核酸-蛋白质互作的方法又称为凝胶阻滞实验(Gelretardationassay)2.用电泳迁移率变动实验研究启动子电泳迁移率变动实验细胞蛋白质提取物标记的DNA片段蛋白质与DNA结合蛋白质-DNA复合物电泳迁移滞后凝胶电泳显影滞后条带表明DNA是与蛋白质结合的区域细胞蛋白质提取物标记的DNA片段蛋白质与DNA结合蛋白质-D3.用染色体免疫沉淀技术研究启动子染色体免疫沉淀(Chromatinimmunoprecipitation,ChIP)是在保持蛋白质与染色体DNA结合的同时,将染色体切割成小片段并沉淀下来

非变性ChIP:是先用核酸酶处理细胞核,将染色体消化成碎片,然后用合适的抗体将结合有蛋白质的染色体片段通过免疫沉淀选择出来,再以PCR或核酸杂交技术对DNA序列进行分析变性ChIP:是先用甲醛处理细胞,使蛋白质与DNA在细胞内发生交联,然后分离染色体并进行剪切,用特异性抗体与DNA结合蛋白相结合,以沉淀法分离DNA-蛋白质复合体前面章节已介绍,这里不再详述3.用染色体免疫沉淀技术研究启动子染色体免疫沉淀非变性ChI(三)生物信息学预测启动子真核基因组的测序正在以不断增长的速度进行着,目前已经可以获得大约50个完整真核生物基因组的序列信息,预计在未来几年内将会完成更多的基因组测序工作对基因组注释工作中最难的就是精确鉴定和描绘启动子,因此,启动子的预测就显得非常重要预测启动子的切入点启动子的结构特征启动子在染色体上的位置(三)生物信息学预测启动子真核基因组的测序正在以不断增长的速1.启动子的结构特征典型启动子核心启动子:一般在TSS上游-35区域以内近端启动子:一般涉及TSS上游几百个碱基远端启动子:一般涉及TSS上游几千个碱基含有增强子或沉默子一些特征性的结构TSS附近的CG岛经常出现在启动子中共通序列(consensussequence)1.启动子的结构特征典型启动子一些特征性的结构2.启动子的预测分析EPD(Eukaryoticpromoterdatabases)TRRD(Transcriptionregulatoryregionsdatabases)基因转录起始点数据库

(DBTSS)

启动子数据库这些数据库主要通过计算机识别、判断及分析,在数据库中寻找启动子的特异性特征结构。2.启动子的预测分析EPD(Eukaryoticpro二、启动子的功能分析启动子通常是基因上游参与基因转录调控的DNA序列。由于启动子中的顺式作用元件在基因的特异性表达中发挥重要作用,因此,可以通过连接报告基因研究启动子的功能。1.报告基因(Reportergene)是研究者们为了制造一种可在细胞培养条件下或动植物体内作为筛选标志的易检测信号,通过分子生物学操作将发光蛋白或酶的编码基因附加到一个感兴趣基因上或插入基因调控序列下游,从而监测感兴趣基因的表达或分析基因调控序列的活性

。二、启动子的功能分析启动子通常是基因上游参与基因转录调控的D常用的报告基因荧光蛋白编码基因:绿色荧光蛋白(GFP)红色荧光蛋白(dsRed)蛋白酶:荧光素酶(luciferase)-半乳糖苷酶在蓝色光源照射下发绿光能催化荧光素(luciferin)发生氧化反应发光能使细菌在X-gal存在条件下变成蓝色常用的报告基因荧光蛋白编码基因:在蓝色光源照射下发绿光能催化2.报告基因的应用监测基因的转染效率报告基因与目的基因分别插入各自启动子下游,实现报告基因的组成性表达模式监控目的基因的表达报告基因与目的基因融合共同受控于一个启动子,报告基因的表达即代表目的基因的表达研究启动子的活性报告基因插入被研究启动子下游,通过观察报告基因的表达情况推测启动子活性2.报告基因的应用监测基因的转染效率启动子捕获技术(promotertrapping):是一种研究启动子活性的筛选方法基本流程:构建启动子捕获载体观察报告基因的表达报告基因MCSori候选启动子序列插入MCS转染细胞观察报告基因的表达启动子捕获载体启动子捕获技术(promotertrapping):是一第四节编码序列结构分析

第四节编码序列(codingsequence):

通常是指能体现在蛋白质氨基酸序列中的基因信息主要内容一、基因编码序列的结构特征二、基因编码序列的结构分析编码序列(codingsequence):主要内容一、基因编码序列的结构特征基因的编码序列具有一些特征性序列比如:开放阅读框架蛋白质翻译的起始密码子和终止密码子真核基因的外显子(编码序列)和内含子(非编码序列)之间有特殊序列一、基因编码序列的结构特征基因的编码序列具有一些特征性序列(一)开放阅读框架开放阅读框架(openreadingframe,ORF)是指生物基因组中含有能潜在编码蛋白质的一段核苷酸序列在基因序列中,ORF位于起始密码子(startcodon)和终止密码子(stopcodon)之间密码子:是由三个核苷酸组成的DNA序列,也称作三联密码子生物体基因组中总共有64种密码子,其中三个终止密码子,61个编码氨基酸的密码子

(一)开放阅读框架开放阅读框架(openreading分析一段DNA序列中是否存在ORF:从理论上说,一般需要对双链DNA序列的6种阅读框架进行分析,每一条链分析三种阅读框架例如:1)5-UCUAAAAUGGGUGAC-3(其中AUG是起始密码子)2)5-UCUAAAAUGGGUGAC-33)5-UCUAAAAUGGGUGAC-3(其中UAA是终止密码子)只有真正的ORF可以不遇到终止密码子

分析一段DNA序列中是否存在ORF:1)5-UCUAAA(二)mRNA选择性剪接的序列特征

mRNA的选择性剪接(alternativesplicing):是指基因外显子转录产物RNA以不同方式进行切割再连接的过程经剪接所产生的mRNA可以翻译成不同的蛋白质,从而导致一个基因可以编码一个以上蛋白质真核基因的内含子在与外显子交界区域有共通序列(consensussequences):内含子的5端有GU序列,3端有AG序列(二)mRNA选择性剪接的序列特征mRNA的选择性剪接((三)基因外显子的序列特征基因外显子可以被分成三部分能够被翻译成蛋白质的编码区5-非翻译区(5UTR)3-非翻译区(3UTR)有作为蛋白质翻译起始重要元件的Kozak序列:由起始密码子AUG及其周围序列组成3UTR位于终止密码子下游,含有polyA尾的加尾信号AATAAA序列(三)基因外显子的序列特征基因外显子可以被分成三部分有作为蛋二、基因编码序列的结构分析基因的编码序列是指能体现在成熟mRNA中的核苷酸序列,因此,与mRNA互补的cDNA成为研究编码序列的主要切入点.主要方法:cDNA文库的编码序列筛选RNA剪接分析编码序列用数据库分析编码序列高通量分析RNA剪接的方法主要有三种:基于DNA微点阵分析、交联免疫沉淀(CLIP)和体外报告基因测定法对各种方法所获得的cDNA片段的序列在基因数据库中进行同源性比对,通过染色体定位分析、内含子/外显子分析、ORF分析及表达谱分析等二、基因编码序列的结构分析基因的编码序列是指能体现在成熟mR小结:基因结构分析的切入点已经从一个基因的克隆测序,发展到如今在基因组范围的高通量筛选,因此,研究策略也发生了变化,基因数据库在不知不觉中占据了重要地位。基因结构特点成为基因组范围内高通量扫描基因的重要靶标,基因的转录起始点、启动子以及编码序列是基因的重要结构特征小结:基因结构分析的切入点已经从一个基因的克隆测序,发展到如第二十五章

基因结构分析的基本策略Basicstrategyforanalyzinggenestructure

第二十五章

基因结构分析的基本策略Basicstrate主要内容:第一节基因序列结构的生物信息学检索和比对分析第二节基因转录起始点的鉴定第三节启动子的结构及功能分析第四节编码序列结构分析主要内容:第一节基因序列结构的生物信息学检索和比对分析第一节就是在数据库中对基因序列或DNA序列进行比对分析,以其能够推测出其结构、功能及在进化上的联系.比对方法:

1.双重比对

2.多序列比对序列比对目的:判断两个或多个序列间是否具有足够的相似性从而判断二者之间是否具有同源性直接的数量关系进化上曾具有共同祖先基因或DNA序列比对就是在数据库中对基因序列或DNA序列进行比对分析,以其能序列比对的结果:取代插入缺失Mouse:GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANCrayfish:GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--缺失?保守序列保守序列:可能是共同进化的标志可能并不代表功能的重要性插入?当两个序列非常相似时,是否一定说明它们具有相似的功能?序列比对的结果:Mouse:缺失?保守序列保守序列:插入?当NCBI数据库NCBI首先创建GenBank数据库于1991年开发了Entrez数据库检索系统,该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库的序列信息以及MEDLINE有关序列的文献信息,并通过相关链接,将他们有机地结合在一起NCBI还提供了其他数据库,包括在线人类孟德尔遗传(OMIM)、三维蛋白结构的分子模型数据库(MMDB)、人类基因序列集成(UniGene)、人类基因组基因图谱(GMHG)、生物门类(Toxonomy)等数据库NCBI数据库NCBI首先创建GenBank数据库于199第25章基因结构分析的基本策略1.各种数据库的介绍(1)Nucleotide该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成三个组织每天交换各自数据库中的新增序列实现数据共享1.各种数据库的介绍(1)Nucleotide该数据库由(2)Genome即基因组数据库,提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱(3)Structures即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像(2)Genome即基因组数据库,提供了多种基因组、完全染(4)Taxonomy即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等(5)PopSet包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列PopSet既包含了核酸序列数据又包含了蛋白质序列数据(4)Taxonomy即生物学门类数据库,可以按生物学门类(7)文献数据库PubMed:生物医药科学的检索系统OMIM:孟德尔遗传学数据库是人类基因和基因疾病的目录数据库其他:书目,杂志,文章引用匹配等该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息

(7)文献数据库PubMed:生物医药科学的检索系统该数2.NCBI数据库检索

在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed

可以通过下拉菜单选择记录的显示格式,通常选择GenBank

Report格式或FASTAReport格式。当选择GenBankReport格式后,屏幕显示较完整的基因记录,包括:基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、核酸编号(NID

)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊(Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele)对等的肽(Mat-Peptide

)、计算碱基数(BaseCount)、原序列(Origin)。而FASTAReport格式仅包括检出序列的简要特征描述。2.NCBI数据库检索在检索框中输入检索词,检索词间默认例如:人EPO基因序列检索输入关键词,选择合适的程序例如:人EPO基因序列检索输入关键词,选择合适的程序向下拉寻找符合目标的条目向下拉寻找符合目标的条目点击此条打开连接点击此条打开连接向下拉寻找关注的内容向下拉寻找关注的内容凡是连接的地方都可以点击查看可以直接拷贝保存相关内容凡是连接的地方都可以点击查看可以直接拷贝保存相关内容Entrez:是一个用以整合NCBI数据库中信息的搜寻和检索工具3.NCBI数据库搜索工具

BLAST:是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段

NCBI提供的附加软件工具有:开放阅读框寻觅器(ORFFinder),电子PCR,和序列提交工具,Sequin和BankItEntrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力Entrez:3.NCBI数据库搜索工具BLAST:NCEntrez:Entrez:BLAST:BLAST:BLAST程序程序数据库查询内容Blastp蛋白质蛋白质使用取代矩阵寻找较远的关系:可以进行SEG过滤Blastn核苷酸核苷酸寻找较高分值的匹配,对较远关系不太适用Blastx核苷酸蛋白质对于新的DNA序列和ESTs的分析极(翻译)为有用Tblastn蛋白质核苷酸对于寻找数据库中没有标注的编码(翻译)区极为有用Tblastx核苷酸核苷酸对于分析EST极为有用(翻译)(翻译)BLAST程序程序数据库点击核酸序列blast,在框内输入序列:点击核酸序列blast,在框内输入序列:选择搜索条件:选择搜索条件:选择特殊程序:选择特殊程序:比较两个序列之间的相似性:比较两个序列之间的相似性:以上仅简介了NCBI相关数据库及工具软件关于其他数据库及软件工具等信息见书中第二十五章表1-5。以上仅简介了NCBI相关数据库及工具软件关于其第二节基因转录起始点的鉴定第二节主要内容:一、基因转录起始点的序列特征二、基因转录起始点的序列分析主要内容:一、基因转录起始点的序列特征

TATAbox

CAATbox

GCbox

增强子

顺式作用元件

结构基因-GCGC---CAAT---TATA转录起始点1.真核基因及其调控元件一、基因转录起始点的序列特征TATAboxCAATbII型启动子的TSS:没有明确的保守序列有一种趋势,即mRNA的第一个碱基是A,其侧翼碱基倾向于是嘧啶与mRNA第一个碱基对应的位置标记为-1区-3~+5区域被称作起始子(initiator)2.转录起始点(TSS)+10+20Startsite-10-20-30-40+1ATG-3+5InitiatorPy2CAPy5II型启动子的TSS:2.转录起始点(TSS)+10+2二、基因转录起始点的序列分析思考:转录起始点(TSS)位于基因编码序列的5端基因编码区是指能体现在多肽链中的核苷酸序列多肽链是以mRNA为模板经翻译合成的因此,分析鉴定TSS的方法都是以cDNA为切入点二、基因转录起始点的序列分析思考:因此,1.cDNA克隆测序AAAAAnAAAAAnAAAAAnmRNA反转录酶AAAAAnOligo(dT)15-18TTTTT15-18cDNA第一链CCCCCTTTTT15-18cDNA第一链nCCCCnGGGGcDNA第二链克隆扩增,5端测序分析反转录酶的末端转移酶活性Oligo(dG)15-18mRNA与线性载体相连接要求:cDNA的5端完整无缺1.cDNA克隆测序AAAAAnAAAAAnAAAAAnm2.cDNA末端快速扩增技术(RACE)传统的RACE:AAAAAnmRNAAAAAAnTTTTT15-18cDNAmRNA-53-反转录酶Oligo(dT)15-18末端转移酶dGTPTTTTT15-18nGGGGG锚定PCR扩增TTTTT15-18nGGGGGnCCCCC锚定引物特异引物PCR产物2.cDNA末端快速扩增技术(RACE)传统的RACE:ADeep-RACE:用寡核苷酸替代mRNA的5′端帽结构以及发光标记巢氏PCR引物实现高通量鉴定转录起始点

AAAAAn5-p帽mRNA牛小肠磷酸酶(CIP)AAAAAn5-帽烟草酸焦磷酸酶(TAP)AAAAAn5-将5-RACEadaptor(寡核苷酸)加到脱帽RNA分子上AAAAAn5-RACEadaptor(寡核苷酸)反转录酶10nt随机引物Deep-RACE:用寡核苷酸替代mRNA的5-RACEadaptor5-RACEadaptor5-RACEadaptor5-RACEadaptor长短不同的cDNA随机引物用10nt随机引物与5-RACE引物进行PCR扩增5-RACEadaptor5-RACEadaptor5-RACEadaptor5-RACEadaptorPCR产物随机引物以5’-RACE引物和5’端甩尾的基因特异性反向引物进行巢氏PCR5-RACEadaptor以5’-RACE发光标记引物对PCR混合物直接进行一次性测序分析基因转录起始点5-RACEadaptor5-RACEadaptor3.连续分析基因转录起始点

在RACE的基础上,通过在转录本5′端引入一个特殊的II型限制性核酸内切酶识别位点,实现了基因5′端短片段串联连接产物一次测序分析多个基因转录起始点的目的主要有两种方法:5′端连续分析基因表达(5′-endserialanalysisofgeneexpression,5′SAGE)帽分析基因表达(capanalysisgeneexpression,CAGE)3.连续分析基因转录起始点在RACE的基础上,通过在转录本(1)5′SAGE5′SAGE是在PCR过程中将MmeI酶切位点引物cDNA的5′端,通过酶切和连接获得不同短片段重复序列,并对重复序列进行测序获得大量片段序列信息不同序列的短片段代表不同基因的转录起始点(TSS)

MmeI:是一种特殊的II型限制性核酸内切酶识别的序列不是回文结构,而是不对称的DNA序列5′-TCCRAC-3′(R代表G或A)在识别位点下游18~20碱基处切开双链DNA

(1)5′SAGE5′SAGE是在PCR过程中将MmeGpppAAAAAAAAnmRNA用BAP和TAP处理AAAAAAAAnp在RNA的5端加上寡核苷酸帽AAAAAAAAn5XhoIMmeI反转录酶RT5AAAAAAAAn5cDNAPCRBiotin-标记引物随机引物55BiotinMmeI酶切消化520mer5Biotin亲和素用亲和素-生物素,可以将5-端片段与其他片段分离开GpppAAAAAAAAnmRNA用BAP和TAP处理AAA520mer连接5Biotin5Biotin520merPCR扩增55Biotin5Biotin5XhoI酶切消化自身连接串联体测序分析520mer连接5Biotin5Biotin520(2)CAGECAGE与5′SAGE非常相似所不同的是:CAGE不需要在RNA上加接头,而是用oligo(dT)引物先进行第一链cDNA的合成然后通过捕获帽结构,将含有MmeI和另一内切酶位点如XmaJI的linker加到单链全长cDNA的3′末端(2)CAGECAGE与5′SAGE非常相似AAAAAAnCapmRNA反转录酶Oligo(dT)15~18AAAAAAnCapTTTTTTTncDNA捕获5-帽结构单链linker连接TTTTTTTnBiotincDNA第二链的合成TTTTTTTnAAAAAAnMmeIXmaJIMmeI酶切亲和素20mer用亲和素-生物素,可以将5-端片段与其他片段分离开AAAAAAnCapmRNA反转录酶Oligo(dT)15连接第二个linkerXbaIXmaJIXmaJI,Xbal酶切消化PCR(用linker1和linker2作引物)Linker1Linker2纯化,串联连接,克隆20merXmaJI和XbaI是同尾酶:XmaJI:C^CTAGGXbaI:T^CTAGA串联体测序分析连接第二个linkerXbaIXmaJIXmaJI,Xba第三节启动子的结构及功能分析第三节主要内容:一、启动子的结构分析二、启动子的功能分析主要内容:启动子(promoter)是一段能被蛋白质识别的、参与特定基因转录调控的DNA序列II型启动子通常位于结构基因的上游共通序列(consensussequence)是其特征性序列共通序列和启动子所处的位置是研究启动子的重要线索启动子(promoter)共通序列和启动子所处的位置是研究启+10+20Startsite-10-20-30-40+1ATG-3+5Initiator

共通序列例如:原核基因的共通序列:-10区:Pribnowbox(T77A76T60A61A56T82序列)-35区:T69T79G61A56C54A54序列真核基因的共通序列:真核基因启动子在-50区域附近(大约5%~30%基因启动子在-25~-30区域)有TATAbox(TATAAA序列)TATAATTTGACA+10+20Startsite-10-20-30-40+1一、启动子的结构分析主要方法:利用PCR技术克隆启动子利用核酸-蛋白质相互作用方法研究启动子生物信息学预测启动子一、启动子的结构分析主要方法:(一)利用PCR技术克隆启动子特异性基因序列基因上游序列基因组DNA根据基因序列合成一条反向引物正向引物用随机引物PCR扩增随机引物特异引物克隆及测序分析注意:真核基因有内含子,应该根据mRNA序列设计特异性引物特异性引物尽可能靠近基因的5端1.根据已知基因序列直接进行PCR扩增(一)利用PCR技术克隆启动子特异性基因序列基因上游序列基因2.利用TSS钓取启动子AAAAAAnCap5-mRNA反转录AAAAAAnTTTTTTncDNA插入载体,克隆扩增Cap5-以基因特异引物与载体引物配对PCR扩增5-测序分析基因转录起始点序列以TSS序列为引物,基因组序列为模板,与随机引物配对进行TSS上游序列的PCR扩增2.利用TSS钓取启动子AAAAAAnCap5-mRN3.利用环状PCR钓取启动子基因组DNA酶切消化基因组DNA片段直接环化连接加上接头后环化连接根据基因上游序列设计一对反向互补引物PCR扩增根据接头序列设计引物PCR扩增克隆测序分析克隆测序分析加接头环化PCR不依赖特异基因序列可用于筛选启动子接头3.利用环状PCR钓取启动子基因组DNA酶切消化基因组DN(二)利用核酸-蛋白质互作方法研究启动子启动子是一段能被蛋白质识别和结合的DNA序列,因此,能够检测核酸-蛋白质相互作用的研究方法都可以用于启动子的研究中

主要方法:足迹法(酶足迹法,化学足迹法)电泳迁移率变动实验(EMSA)染色体免疫沉淀(ChIP)(二)利用核酸-蛋白质互作方法研究启动子启动子是一段能被蛋白1.用足迹法研究启动子足迹法(Footprinting)利用DNA电泳条带连续性中断的图谱特点判断与蛋白质结合的DNA区域基本流程:DNA与蛋白质相互作用切割DNA凝胶电泳分析电泳图谱蛋白与未标记的竞争DNA结合蛋白与标记的DNA结合凝胶电泳放射自显影1.用足迹法研究启动子足迹法(Footprinting)基(1)酶足迹法(Enzymaticfootprinting)

利用能切割DNA的酶处理DNA-蛋白质混合物,然后通过电泳进行分析

DNaseI足迹法

(DNaseIfootprinting)是一种利用DNaseI

随机切割双链DNA,从而确定DNA结合蛋白在DNA上结合位点的方法

核酸外切酶III足迹法

(ExonucleoaseIII

footprinting)是利用核酸外切酶III(ExoIII)的35外切酶活性从3末端切割双链DNA的特性,确定蛋白质在DNA上的结合位点的常用方法(1)酶足迹法(EnzymaticfootprintinDNaseI

足迹法dsDNA单链末端标记DNA结合蛋白DNaseI酶切消化(控制反应时间)产生长短不同的片段但蛋白质结合区被保护DNaseI足迹法dsDNA单链末端标记DNA结合蛋白D蛋白质结合区MNo-proPro-DNA对在凝胶上出现空白区域的DNA进行克隆测序,即可确定结合蛋白质的DNA序列变性凝胶电泳蛋白质结合区MNo-proPro-DNA对在凝胶上出现空白区(2)化学足迹法(Chemicalfootprinting)是利用能切断DNA骨架的化学试剂处理DNA-蛋白质复合物,从而通过化学试剂无法接近结合蛋白质的DNA区域而确定DNA的蛋白质结合位点主要方法:羟自由基足迹法体内足迹法(2)化学足迹法(Chemicalfootprintin1)羟自由基足迹法(Hydroxylradicalfootprinting)化学试剂羟自由基利用化学试剂产生的羟自由基攻击DNA分子表面脱氧核糖骨架使DNA断裂当DNA结合蛋白将脱氧核糖遮盖时,自由羟基无法攻击而使这个区域的DNA受到保护电泳图谱上出现空白区的地方就是结合蛋白质的DNA变性凝胶电泳1)羟自由基足迹法化学试剂羟自由基利用化学试剂产生的羟自由基2)体内基足迹法(Invivofootprinting)

用化学试剂对活细胞进行体内处理,使DNA在细胞内受到化学修饰,然后裂解细胞,用化学法或酶法进行足迹实验。甲基化干扰实验

(Methylationinterferenceassay)是利用化学试剂如硫酸二甲酯(Dimethylsulfate,DMS)对活细胞DNA进行甲基化修饰,从而干扰蛋白质与DNA的结合。乙基化干扰实验

(Ethylationinterferenceassay)是利用化学试剂对活细胞DNA进行乙基化修饰,从而干扰蛋白质与DNA的结合。2)体内基足迹法用化学试剂对活细胞进行体内处理,使DNA在细化学试剂提取DNADNaseI或化学试剂变性凝胶电泳分析切割DNA化学修饰对蛋白质与DNA的结合有干扰,因此,体内足迹实验也叫干扰实验电泳图谱需与未修饰的DNA样品进行比较,在未修饰样品中出现空白区的位置是体内发生化学修饰的DNA区域正常对照化学修饰提取DNA化学试剂提取DNADNaseI变性凝胶电泳分析切割DNA2.用电泳迁移率变动实验研究启动子电泳迁移率变动实验

(Electrophoreticmobilityshiftassay,EMSA)是利用结合蛋白质的DNA片段在凝胶中迁移滞后的特点,通过电泳分离研究核酸-蛋白质互作的方法又称为凝胶阻滞实验(Gelretardationassay)2.用电泳迁移率变动实验研究启动子电泳迁移率变动实验细胞蛋白质提取物标记的DNA片段蛋白质与DNA结合蛋白质-DNA复合物电泳迁移滞后凝胶电泳显影滞后条带表明DNA是与蛋白质结合的区域细胞蛋白质提取物标记的DNA片段蛋白质与DNA结合蛋白质-D3.用染色体免疫沉淀技术研究启动子染色体免疫沉淀(Chromatinimmunoprecipitation,ChIP)是在保持蛋白质与染色体DNA结合的同时,将染色体切割成小片段并沉淀下来

非变性ChIP:是先用核酸酶处理细胞核,将染色体消化成碎片,然后用合适的抗体将结合有蛋白质的染色体片段通过免疫沉淀选择出来,再以PCR或核酸杂交技术对DNA序列进行分析变性ChIP:是先用甲醛处理细胞,使蛋白质与DNA在细胞内发生交联,然后分离染色体并进行剪切,用特异性抗体与DNA结合蛋白相结合,以沉淀法分离DNA-蛋白质复合体前面章节已介绍,这里不再详述3.用染色体免疫沉淀技术研究启动子染色体免疫沉淀非变性ChI(三)生物信息学预测启动子真核基因组的测序正在以不断增长的速度进行着,目前已经可以获得大约50个完整真核生物基因组的序列信息,预计在未来几年内将会完成更多的基因组测序工作对基因组注释工作中最难的就是精确鉴定和描绘启动子,因此,启动子的预测就显得非常重要预测启动子的切入点启动子的结构特征启动子在染色体上的位置(三)生物信息学预测启动子真核基因组的测序正在以不断增长的速1.启动子的结构特征典型启动子核心启动子:一般在TSS上游-35区域以内近端启动子:一般涉及TSS上游几百个碱基远端启动子:一般涉及TSS上游几千个碱基含有增强子或沉默子一些特征性的结构TSS附近的CG岛经常出现在启动子中共通序列(consensussequence)1.启动子的结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论