现代遗传学教程-从基因到表型的剖析(第4版)课件 第13章基因组水平的遗传分析_第1页
现代遗传学教程-从基因到表型的剖析(第4版)课件 第13章基因组水平的遗传分析_第2页
现代遗传学教程-从基因到表型的剖析(第4版)课件 第13章基因组水平的遗传分析_第3页
现代遗传学教程-从基因到表型的剖析(第4版)课件 第13章基因组水平的遗传分析_第4页
现代遗传学教程-从基因到表型的剖析(第4版)课件 第13章基因组水平的遗传分析_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三章基因组水平的遗传分析GeneticAnalysisattheGenomeLevel中山大学《遗传学》2025版授课老师:XXXXXX@基因组及基因组学的概念02基因组的序列组织03基因组测序及人类基因组计划040105基因组多态性06生物信息学和数据库在基因组研究中的应用表观基因组学2基因组及基因组学的概念01SECONE3基因组及基因组学的概念基因组学(Genomics)1986年H.Roderick提出。研究生物基因组的结构和功能,由此分为结构基因组学(Structuralgenomics)和功能基因组学(Functionalgenomics)。基因组(Genome)1920年H.Winkler提出。基因与染色体的组合,表示一个物种配子中染色体的总和;现在基因组更常指细胞或生物体的全套遗传物质。4基因组(Genome)细菌、病毒:单个染色体上所含的全部DNA/RNA分子及其遗传信息。二倍体真核生物:维持配子或配子体正常功能的一套最基本染色体DNA及其所携带的遗传信息,包括基因编码序列和非编码序列。基因组DNA:来自于生物体组织与细胞的DNA或以这些DNA制备的文库。5如何表述生物体的基因组大小?66C值概念:单倍体染色体中的DNA总量,以基因组的碱基对来表示,单位bp。每个物种含有一个特定的C值。总体来说,进化程度越高,进化地位越高,结构越复杂的生物一般其基因组也越大。特征:77C值最小C值:支原体<106bp最大C值:某些显花植物和两栖动物>1011bp梅溪蕨属蕨类植物T.oblanceolata,

体长15厘米,基因组却有160.45Gbp,DNA展开长达96米。88理论上:C值与物种的进化程度相关。低高进化程度C值大小?事实上:C值没有体现出与物种进化程度相关的趋势。9C值悖论概念:高等生物的C值不一定高于低等生物的C值的,这种生物学上的DNA总量的比较和矛盾,称为C值悖论。物种间的复杂性差异与其对应的值可能并无直接关联。真核生物基因组DNA的含量多于其编码蛋白的预期含量。特征表现:启示:真核生物基因组中必然存在大量不编码基因产物的DNA序列(非结构基因的DNA序列)。10基因组学(Genomics)

—一门研究基因组(Genome)的学科两个科学问题:两个学科:1.非结构基因的DNA序列的结构和功能是怎样的?2.基因组DNA的C值巨大差异在生物学功能和进化中有什么意义?1.结构基因组学:研究基因和基因组的结构、基因组作图和基因定位等。2.功能基因组学:研究不同序列结构的功能、基因的相互作用、基因表达及其调控等。基因组学是其他生物学组学研究的起点1977年噬菌体X1741995年嗜血流感菌基因组人类2003年衍生于基因组学的组学研究:蛋白质组学(Proteomics),代谢组学(Metabolomics),转录组学(Transcriptomics),脂类组学(Lipidomics),免疫组学(Immunomics),糖组学(Glycomics),RNA组学(RNomics),等生物组学研究正被逐渐发展。12营养基因组学环境基因组学宏基因组学癌基因组学药物基因组学毒理基因组学基因组学学科交叉开创遗传学研究新纪元基因组的序列组织02SECTWO1314基因组的序列组织1.基因组的复杂性2.基因家族3.重复序列DNA5.非编码DNA4.重复序列DNA的遗传学功能15基因组的复杂性C值基因数目?非编码序列?单一DNA序列数量高等生物存在大量重复序列2.非编码的单一顺序DNA不同,如基因间片段和内含子。C值悖论:1.同一类生物中C值的差异主要反应在对基因组复杂性没有贡献的重复序列DNA含量差异。16DNA序列的重复性决定DNA复性速度真核生物DNA高度重复序列:指存在大量拷贝的序列,在基因组中可达百万以上拷贝的序列,对应于快复性组分。单一序列:在基因组中只有一个或几个拷贝的DNA序列,为慢复性组分。中度重复序列:指在每个基因组中出现10至数万个拷贝的DNA序列,对应中间复性组分。依据DNA复性速度重复序列DNA功能:调节基因表达,增强同源染色体之间配对和重组,维持染色体结构稳定性,调节mRNA前体加工过程,参与DNA复制等。17不同生物中的复杂性差异C值PolF.etal.iScience,2024原核生物含完全不重复DNA动物细胞50%基因组DNA是中度或高度重复两栖动物、植物细胞80%基因组DNA是中度或高度重复低等真核生物大部分DNA非重复DNA重复性与C值的关系?18基因家族(Genefamily)指真核生物基因组中来源相同、结构相似、功能相关的一组基因。概念:根据家族成员的分布形式分类:成簇存在的基因家族(clusteredgenefamily)散布的基因家族(interspersedgenefamily)19MDS1MDS2MDS3MDS4HuangY.et

al.

nature

communication,2020成簇存在的基因家族散布的基因家族拟南芥基因号:ATXGXXXXXAT:ArabidopsisthalianaX:染色体编号G:genomeXXXXX:染色体上的相对位置编号20Alu序列—人类基因组含量最丰富的中度重复序列顺向重复(DR)DR多聚腺苷(An)插入序列(IS)An170bpAGCT130bp基本结构限制性内切酶AluI识别位点特征:具有物种特异性——可用于物种DNA检测。长度约300bp,重复可达50万次功能:转录调节、mRNA前体加工、DNA复制起始、蛋白分泌。21假基因(Pseudogene)在多基因家族中,那些在结构和DNA序列上与有功能的基因具有相似性,但并不产生具功能的基因产物的成员。概念假基因与功能基因同源,原来可能是有功能的基因,由于缺失、倒位或突变等原因使该基因失去活性而成为无功能基因。假基因常用希腊字母ψ

表示。产生过程22假基因分类1.未加工的假基因:也称常规假基因。是通过基因组DNA的复制产生的。它们与有功能的同源基因有相似的结构,偶尔可以通过一个有利的突变而重新激活。2.加工的假基因:也称为反转录假基因。是通过对mRNA的反转录和获得的cDNA的随机整合而产生的。加工的假基因只在真核生物中发现,一般不表达。分类依据——起源和结构23假基因产生过程启动子外显子内含子未加工假基因基因转录RNA转录物mRNA蛋白剪接翻译AAAAAAcDNA逆转录加工假基因插入假基因数目≈基因数目以前是分子化石,基因突变遗迹对假基因的认识:现在可能通过非编码RNA调控基因表达24重复序列DNA:

由特定大小序列(重复单位)以特定拷贝数在空间上以特殊的方式所组成。串联重复DNA中最简单的结构是重复单位只有一个核苷酸,被称为同聚体(Homopolymer)。1.串联重复(Tandemrepeats):在单个重复单位间没有间隔。如:AGGTAGGT

3.分散重复(Dispersedrepeats):重复单位散布在整个基因组中,主要起源于转座子。依据结构分类:2.不完善重复(Hyphenatedrepeats):被小间隔分离,但还是成群排列。(如:AGGTNNNNNAGGT)25非编码高度重复串联DNA卫星DNA

(SatelliteDNA)小卫星DNA(MinisatelliteDNA)微卫星DNA

(MicrosatelliteDNA)不适用于基因组指纹分析和遗传图分子标记基因组指纹分析遗传图分子标记26氯化铯梯度超速离心——DNA分离GC含量越高,浮力密度越大。真核生物的DNA一般含有30-50%的GC含量。小鼠DNA氯化铯密度梯度离心后的主带和卫星带吸光率浮力密度1.6901.701主带卫星带一些DNA片断含有异常高或低的GC含量,常在主要DNA带的前面或后面有一个次要的DNA带相伴随,这些小的区带像卫星一样围绕着DNA主带,称卫星DNA带。约几百bp的片段氯化铯密度梯度超速离心基因组DNA切断荧光强度分析27小卫星DNA(MinisatelliteDNA)VNTR序列:组成小卫星DNA的重复序列数目在不同个体间存在多态性,在限制性酶切时表现出DNA的长度变化。11-60个核苷酸对的串联重复序列组成,长度约数百至数千bp,靠近染色体末端,不同个体间串联重复的数目有差异。DNA指纹:以VNTRs中的特异序列为探针进行Southern杂交,其带谱具有高度的个体特异性,它可用于亲子鉴定,法医鉴定等。受害者嫌疑人怀疑对象12328卫星DNA(SatelliteDNA)一类高度重复的DNA序列,由非常短的串联多次重复DNA序列组成,是高等真核基因组中重复程度最高的成分。概念(1)串联集中分布,多位于着丝点的异染色质区,可能在染色体功能中起作用,重复频率约为106-108(3)重复单位的长短不一,不适于作为基因组的指纹分析或遗传图的分子标记特点(2)存在一些不能通过浮力密度梯度离心的鉴定的隐蔽卫星DNA(CrypticsatelliteDNA)29微卫星DNA(microsatelliteDNA)又称短的串联重复序列,由分散于基因组中的简单的重复单位(1-5个核苷酸)组成的小序列。概念特征1.大多数重复单位是二核苷酸(如CA),也有少量含有三核苷酸和四核苷酸的重复单位2.有高度的多态性,分布在基因组的不同位置,是理想的遗传标记。重复序列的遗传学功能31非编码DNA(non-codingDNA)32长片段RNAmRNA前体(hnRNA)mRNA非编码的长单或双链RNA

短片段RNA/内源性小RNA(snRNA)piwi蛋白质结合RNA反式剪切前导RNA内源性小干扰RNA(siRNA)microRNA(miRNA)编码寡肽的小mRNA基因转录后调控(Post-transcriptionalgeneregulation)功能33新型小片段RNA的发现:以20–500 nt的kink-turnRNA为例基因组测序及人类基因组计划03SECTHREE3435基因组测序及人类基因组计划36基因组测序的策略第一代测序技术(奠定了测序基础)F.Sanger等双脱氧链末端终止法(Sanger测序法)1977年W.Gilbert化学降解法37基因组测序的策略38测序技术的发展3940人类基因组计划(HGP)—基因组学策略测定组成人类染色体(单倍体)中包含的30亿个核苷酸序列,从而绘制人类基因组图谱,辨识呈现所有的基因和序列,进而破译人类遗传信息。“人类基因组计划”目标1.“零敲碎打”,各自研究自己感兴趣的基因;2.从整体上认识人类的整个基因组和其上的所有基因。-R.Dulbecco,1986基因功能的研究策略41“人类基因组计划”开展42六国科学家参与绘制草图43人类基因组计划的意义促进了学科交叉和生命科学发展对生命科学研究及人类社会发展具有导向性意义归纳为:规模化、序列化、信息化、产业化、医学化和人文化当前生命科学的活跃时代得益于人类基因组计划生物信息学和数据库在基因组研究中的应用04SECFOUR4445生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合而形成的一门交叉学科,其主要研究对象之一是DNA序列数据。概念应用1.比较DNA序列:基因注释2.预测基于编码的氨基酸序列和基因功能3.基于序列信息推断DNA序列与生物体间的进化关系等46三大主要的DNA序列数据库1.美国国立生物技术信息中心(NCBI)的GenBank数据库/genbank/2.欧洲生物信息学研究所(EBI)的EuropeanNucleotideArchive(ENA)https://www.ebi.ac.uk/ena/browser/home3.日本国立遗传学研究院的DNADataBankofJapan(DDBJ)https://www.ddbj.nig.ac.jp/index-e.html其中,以GenBank数据库最大,功能最全面。其他数据库资源:基因信息、基因组信息、基因表达数据、功能分析数据、在线分析工具等47生物信息学和数据库在基因组研究中的应用机器学习可以利用人类已经注释并验证的基因数据作为训练数据,进行模型建立和识别,预测新数据中的基因序列和蛋白功能。通过数据库和生物信息学分析,科学家们能够更好地研究新的基因组序列及其功能,解读序列在生物体中的角色,进而理解生命的本质。生物信息学的分析结果虽然有价值,但其在生物体中的实际作用需要通过实验验证。基因组多态性05SECFIVE4849基因组多态性50基因组多态性(Geneticpolymorphism)在基因组层面,生物群体、个体间的基因组序列之间存在多态性。概念表现形式基因多态性非编码序列DNA多态性——DNA指纹产生原因DNA重组交换以及变异引起基因组DNA组成的特异性和差异性。真核生物中不编码蛋白质的重复序列很少受到自然选择和人工选择。因而,物种基因组多态性得以保留。51分子标记(Molecularmarker)遗传上稳定的基因组多态性信息,可用于遗传图谱绘制。DNA分子标记分类(依据核心技术):2.以PCR技术为核心,如RAPD、SSR、AFLP、STS等。1.以Southernblot技术为核心,如RFLP。3.以核苷酸序列为核心,如EST,SNP等。概念52RFLP标记限制性片段长度多态性(RFLP)由于酶切位点的变化,使得不同个体的基因组DNA在限制性内切酶切割后会形成不同长度的Southern检测片段。1980年由D.Botstein提出RFLP作为第一代DNA标记。1978年美籍华人简悦威利用HpaI酶切β-珠蛋白基因的多态性建立镰状细胞贫血的基因检测方法。53两个个体中某些酶切位点变化所导致的RFLP差异541.利用RFLP对致病基因的遗传进行分析(基因诊断)。2.用于分子生态学上的亲缘关系或进化关系分析。RFLP应用RFLP局限性1.

信息量非常有限:基于限制性酶切位点“能切”和“不能切”两种状态,因此产生的不同长度的酶切片段一般只有2-3个。2.

应用局限性高:许多核苷酸的改变并不能用限制性内切酶检出。55小卫星标记—VNTR的多态性检测56微卫星标记重复单位为2-6个核苷酸短串联重复,被称为“微卫星或短串联重复(shorttandemrepeats,STR)”或“简单重复序列”(Simplesequencerepeats,SSR)。微卫星已成为取代RFLP的第二代分子标记而被广泛使用。1.高度多态性,简短重复不会收到显著的自然选择压力。STR作为分子标记优点3.重复序列两端含特异性单拷贝序列,可采用PCR技术实现自动化操作。2.作为遗传标记的高频率性,广泛分布于染色体。57SNP标记1996年,美国的E.S.Lander提出第三代DNA遗传标记—单核苷酸多态性标记(Singlenucleotidepolymorphism,SNP),以序列的变异作为分子标记,在基因组内特定核苷酸位置上存在两种或两种以上不同的核苷酸。SNP位点频率>1%点突变频率<1%基因组中单核苷酸的缺失、插入与重复不属于SNP。58CTGA()CACGATGC()GT()TA()CAGGCTTAGGCTAAGGCTGAGGCT二等位型三等位型四等位型一般存在形式单核苷酸置换的四种形式多态标记人类基因组中大约90%的遗传变异以SNP形式存在。10%SNP被选为高密度人类基因组图谱—单体型图谱遗传标记。59cSNP(codingSNP)在编码基因中出现的SNP,其杂合性较小,可分为同义cSNP和非同义cSNP。同义cSNP:不影响基因编码蛋白质的氨基酸序列。非同义cSNP:会改变基因编码蛋白质的氨基酸序列,影响蛋白质功能。60人类基因组单体型图(haplotypemap,HapMap)于2005年完成,测算贯穿在基因组中的几百万个SNP间的连锁程度,以便更精细的绘制人类基因组图谱。HapMap可以被用于了解有多个遗传变异位点与环境因子共同作用产生的常见疾病和人类基因之间的关系。SNP资源库:1.美国国立卫生研究院(NIH)提供的癌症和肿瘤相关候选SNP数据库()2.NIH开辟的适用于生物医学研究的dbSNP多态性数据库(/SNP)3.中国国际基因组科学数据中心提供的动植物性状关联SNP数据库(/gwas/)4.日本JSNP数据库(http://snp.ims.u-tokyo.ac.jp)61泛基因组(Pangenome)解析一个物种所有个体遗传多样性信息,表示一个物种的全部基因组成包括核心基因和非核心基因。致力于鉴定种内不同个体间的可变DNA序列,涵盖一个物种在基因组水平的所有多态信息。核心基因:该物种所有样本共有的基因,一般与该物种生物学功能和主要表现特征相关。非核心基因:仅在该物种中部分个体中存在,与物种对特定环境的适应性或特有的生物学特征相关,控制该物种部分个体的表型特征。62泛基因组研究方法利用短序列进行全基因组结构变异挖掘及Map

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论