[农学]动物分子遗传育种学-1_第1页
[农学]动物分子遗传育种学-1_第2页
[农学]动物分子遗传育种学-1_第3页
[农学]动物分子遗传育种学-1_第4页
[农学]动物分子遗传育种学-1_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一讲 基因组序列解析-1主要内容:什么是基因组什么是基因DNA测序的方法DNA序列的组装人类基因组方案水稻基因组方案后基因组学1. 什么是基因组 基因组就是一个物种中所有基因的整体组成。 基因组有两层意义:遗传物质和遗传信息。 要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。 Homo sapiens 3,000E.coli 4.6Genome Size (Mb)什么是C 值?通常是指一种生物单倍体基因组DNA的总量. 在真核生物中,C值一般随着生物的进化而增加,高等生物C值一般大于低等生物。 C值悖理: 生物的复杂性与基因组的大小并不完全成比例增加细

2、菌真菌等动物阴影局部为一个门内C-值的范围重复顺序高度重复顺序: 长度:几个几千个bp 拷贝数:几百个上百万个 首尾相连,串联排列 集中分布于染色体的特定区段如端粒,着丝粒等 也称卫星DNA中度重复顺序: 一般分散于整个基因组中; 长度和拷贝数差异很大单一顺序: 基因主要位于单一顺序 动物中单一顺序约占50 植物中单一顺序约占20 是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。 基因分类: 编码RNA的基因,如rRNA基因,snRNA基因等; 编码蛋白质的基因2. 什么是基因?基因的不连续性Intron 和Exon: 大多数真核生物蛋白质基因的编码顺序(Ex

3、on)都被或长或短的非编码顺序(Intron)隔开基因家族 一群具有一致的或相似顺序的基因,有的还担负类似的生物学功能, 可以相互补偿, 比方:E2f transcription factor Mouse symbolHuman OrthologE2f1E2F1 E2f2E2F2E2f3E2F3E2f4E2F4E2f5E2F5E2f6E2F6假基因(Pseudogene) 来源于功能基因 但已失去活性 的DNA序列产生假基因的原因有:由重复产生的假基因;加工的假基因, 由RNA反转录为cDNA 后再整合到基因组中;残缺的基因(Truncated gene) 重叠基因:同一段DNA 能携带两种不

4、同蛋白的信息.重迭基因有以下几种情况:*一个基因完全在另一个基因内部*局部重叠* 两个基因共用少数碱基对 *一个基因完全在另一个基因内部如:B和A, E和D 其读码结构互不相同 -ATG-/-AATGCC -/-ATAACG-/-TAA-A*BATGCCN-NNATAA*局部重叠 如: K和C *两个基因共用少数碱基对 如: D和J-TAATG-D 终止密码子J 起始密码子3. DNA测序的方法链终止法测序化学降解法测序自动化测序-链终止法测序非常规DNA测序3.3 自动化测序根本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光

5、, ddGTP标记黄色荧光, ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基. PCR产物直接测序和克隆测序的比较4 序列的组装4.1 随机测序与序列组装 随机测序也称鸟枪法. 序列组装原理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸. 优点:不需预先了解任何基因组的情况.ABCABCABCABC小片段测序计算机拼装ABC小片段测序计算机拼装鸟枪法(Shotgun)测序的问题 CAATGCATTAGCAGCCAATGCGAP错装实例:流感嗜血杆菌基因组的测序及顺序组装超声波打断纯化的基因组DNA 琼脂糖电泳收

6、集1.62.0Kb的区段、纯化 构建到质粒载体中 随机挑选19687个克隆,进行28643次测序,得到可读顺序为11 631 485 bp 组装成140个覆盖全基因组范围的独立的顺序重叠群, 各重叠群间仍有间隙 顺序间隙 物理间隙 载体或宿主菌 选用不当而被丧失的顺序测序时遗漏的测序解决方法:通过相邻顺序作为探针筛选已有的基因组文库解决方法:利用其它宿主菌与载体重新构建文库4.2 限制测序 限制测序:是指将一段染色体区段的DNA 顺序进行组装. 一些已绘制了遗传图与物理图的微生物基因组测序中也采用这一方法. 如高等植物拟南芥基因组的测序完全依据克隆重叠群,先进行各个BAC克隆的随机测序,再进行

7、序列组装; 水稻基因组测序方案采取得策略与此相同.4.3 指导测序与序列组装 建立在基因组图谱根底上的鸟枪法,即所谓指导鸟枪法或指导测序。 先将染色体打成比较大的片段(几十-几百Kb), 利用分子标记将这些大片段排成重叠的克隆群(Contig), 分别测序后拼装. 这种策略叫基于克隆群(contig-based)的策略.ABCABC大片段contig小片段测序拼装两种策略的比较鸟枪法策略 指导测序策略不需背景信息 构建克隆群 (遗传、物理图谱)时间短 需要几年的时间 需要大型计算机得到的是草图(Draft) 得到精细图谱4.5 其他测序路线重要区域优先测序 人们对感兴趣的基因或与疾病相关的基因

8、优先测序.如:人类主要组织相容性复合区位于第6号染色体,与人类免疫系统有关,因而优先测序.EST (Expressed sequence tag) 测序 EST是一种重要的基因组图分子标记,以EST为探针很容易从 cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列. 优点: A mRNA 可直接反转录成cDNA,而且cDNA文库也比较容易构建; B 对cDNA文库大量测序,即可获得大量EST的序列; C EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因;5.人类基因组方案 人类基因组方案Human genome project于1990年启动,

9、我国于1999年参加该方案,承担其中1%的任务,即人类3号染色体短臂上约30Mb的测序任务。 5.1 人类基因组方案的目的说明人类基因组30亿个碱基对的序列,发现所有人类基因,并搞清其在染色体上的位置;破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我;解码生命、了解生命的起源、了解生命体生长发育的规律;认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。5.2 人类基因组草图的完成 2000年6月26日是人类历史上值得纪念的一天。人类基因组的工作草图已经绘制完毕并于这天向全世界公布。最终完成图要求测序所用的克隆能忠实地代表常染

10、色体的基因组结构,序列错误率低于万分之一。5.4 人类基因组测序结果基因数是3万、4万还是10万 人类遗传基因数量比原先估计的少很多。目前研究说明,人类基因组中约有3万至4万个蛋白编码基因,仅仅是果蝇基因数目的两倍,人有而鼠没有的基因只有300个。此结论是由两大科研小组的数据是从DNA水平上得出的;而“人类有10万多个基因那么是从RNA水平上得出的结论。所以,这些数据不能推翻“人类有10万个基因的说法。人类基因组研究的惊人发现 19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能人类基因组中存在“热点和大片“

11、荒漠。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA 不包含或含有极少基因的成分。基因组上大约有14的区域没有基因的片段。 353的基因包含重复的序列。这说明那些原来被认为是“垃圾的DNA也起重要作用,应该被进一步研究。什么是单核苷酸多态性 人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性SNP产生的,它构成了不同个体的遗传根底,个体的多样性被认为是产生遗传疾病的原因。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属之间并没有本质上的区别。 5.6 人类基因组方案的论理学A 个人DNA顺序

12、的隐私权. 如:次等基因携带者可能受到岐 视,职业限制,医疗保险等问题;B 基因专利问题6. 后人类基因组方案 破解贮存于基因组之中的遗传语言;识别、别离、鉴定和克隆所有基因;搞清每个基因的功能及基因之间的相互作用和相互关系。7 水稻的基因组 2002年我国科学家完成了水稻基因组定序和初步分析。出人意表的是,水稻的基因竟比人类基因还要多得多。人类基因大约有3-4万个,水稻有46022-55615个基因。因此水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是至今最大的植物基因组。由于水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。第二讲 基因组序列解析-2问题基因组序列所

13、包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?用什么方法寻找基因,研究基因地功能呢?主要内容:寻找基因获取基因的全长cDNA序列确定DNA顺序中基因的位置研究基因的功能基因表达蛋白质组学1. 寻找基因1.1 根据开放读码框预测基因A 起始密码子 ATG第一个ATG确实定那么依据Kozak规那么; Kozak规那么是基于数据的统计结果,所谓Kozak规那么,即第一个ATG侧翼序列的碱基分布所满足的统计规律. 假设将第一个ATG中的碱基A,T,G分别标为1,2,3位,那么Kozak规那么可描述如下:(1)第4位的偏好碱基为G;(2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(

14、3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。信号肽分析 信号肽分析软件(SignalP :/ ) 把预测过程中证实含完整mRNA 5端的Contig翻译为蛋白序列; 然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,那么测试序列有可能为信号肽; C 3端确实认 3端确实认主要根据Poly(A)尾序列,假设测试Contig不含Poly(A)序列,那么根据加尾信号序列“AATAAA和BLAST同源性比较结果共同判断。E 密码子偏爱性 编码同一氨基酸的不同密码子

15、称为同义密码,其差异仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸Ale密码子多为GCA,GCC或GCT,而GCG很少使用。H 软件预测 采用NCBI的ORF预测软件 ( ORF finder: :/ )判断ORF的可能范围。1.2 mRNA的5端即转录起始位点区 通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. :/ )。1.3 同源查询途径 通过已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例,用于界定基因的方法称为同源查询。 同源有如下几种情况: A DNA序列某些片段完全相同;B 开放读码框ORF排列类似,如有长外显子;C 开放读码框翻译成氨基酸序列的相似性;D 模拟多肽高级结构相似1.4 试验分析A Northern 杂交确定DNA片段是表达序列: 本卷须知: a 当某一基因的转录产物进行可变剪接时,由于连接的外显子不同,会产生好几条长度不一的杂交带,如果该基因是某一基因家族的成员也会出现多个信息; b 考虑组织专一性和发育阶段的问题; C 基因表达产物丰度的问题 如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论