版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第6讲 基因组学与基因预测生物信息学课堂内容一、基因、基因组的概念二、典型生物的基因组特征三、人类基因组计划四、核酸测序技术五、基因组测序六、基因转录组测序七、基因的功能和预测一、基因、基因组的概念1、基因的概念基因是原核、真核生物以及病毒的DNA和RNA分子中具有遗传效应的核苷酸序列,是遗传的基本单位。基因是DNA分子中含有特定遗传信息的一段核苷酸序列,是遗传物质的最小功能单位对于编码蛋白质的结构基因来说,基因是决定一条多肽链的DNA片段基因的由来孟德尔(Gregor Johann Mendel 18221884), 植物杂交试验一文中指出,生物每一个性状都是通过遗传因子来传递的,遗传因子是
2、一些独立的遗传单位 Theory of the gene 基因是染色体上的实体 基因像链珠(bead)一样,孤立地呈 线状地排列在染色体上 基因是: 功能(functional unit)突变(mutation unit) 交换(cross-over unit) “三位一体”的 (Three in one) 最小的 不可分割的基本的遗传单位 (1926 T. H. Morgan)基因概念的进一步发展(1)基因具重叠性1977年桑格(F. Sanger)领导的研究小组,根据大量研究事实绘制了共含有5375个核苷酸的X174噬菌体DNA碱基顺序图,第一次揭示了遗传的一种经济而巧妙的编排B和E基因核
3、苷酸顺序分别与A和D基因的核苷酸顺序的一部分互相重叠。当然它们各有一套读码结构,且基因末端密码也有重叠现象(A基因终止密码子TGA和C基因起始密码子ATG重叠2个核苷酸;D基因的终止密码子TAA与J基因起始密码子ATG互相重叠1个核苷酸,顺序为TAATG)基因重叠示意图乙肝病毒的基因组(2)内含子和外显子人们在研究小鸡卵清蛋白基因时发现其转录形成的mRNA只有该基因长度的1/4,其原因是基因中一些间隔序列的转录物在RNA成熟过程中被切除了这些间隔序列叫内含子,基因中另一些被转录形成RNA的序列叫外显子。小鸡的卵清蛋白基因中至少含7个内含子。因而从基因转录效果看,基因由外显子和内含子构成。197
4、8 Gilbert 真核生物基因的新概念 Exon(外显子)is any segment of an interrupted gene that is represented in the mature RNA product.Intron(内含子)is a segment of DNA that is transcribed, but removed from within the transcript by splicing together the sequences (exons) on either side of it. OvalbuminDNA X cDNAElectro-mic
5、roscope7 introns8 exons(3)管家基因和奢侈基因管家基因 house-keeping gene 生物体各类细胞中都表达,对维持细胞存活和生长所必需的蛋白质编码的基因。如糖酵解和柠檬酸循环所需酶的编码基因等奢侈基因 luxury gene 组织特异性基因 tissue-specific gene特定类型细胞中为其执行特定功能蛋白质编码的基因(4)基因的游动性早在20世纪40年代美国遗传学家麦克林托克(B.McClintock)在玉米研究中发现“转座因子”,直至1980年夏皮罗(J.Shapiro)等人证实了可移位的遗传基因存在,说明某些基因具有游动性。为此,这位“玉米夫人”
6、荣获了1983年度诺贝尔奖 DNA转座现象的一般遗传特点: a) 不依赖 Donor site 与 Target site 间序列的同源性 (非同源重组过程 ,不依赖 recA 酶) b) 转座插入的靶位点并非完全随机(插入专一型)Hotspots (热点)Regional preference ( 在3kb区域内的随机插入) c) 某些转座因子(Tn3)对同类转座因子的插入具有 排他性(免疫性)d) 靶序列在转座因子两侧会形成正向重复(DR) e) 转座因子的切除与转座将产生复杂的遗传学效应基因组中不同的区域具有不同的功能有些区域编码蛋白质的结构基因有些区域是复制及转录的调控序列有些区域的功
7、能尚不清楚基因组:细胞内遗传信息的携带者DNA的总体2、基因组的概念从细胞遗传学的角度来看,基因组是指一个生物物种单倍体的所有染色体数目的总和;从经典遗传学的角度来看,基因组是一个生物物种的所有基因的总和;从分子遗传学的角度来看,基因组是一个生物物种所有的不同核酸分子的总和;从现代生物学的角度来看,基因组是指导一个生物物种的结构和功能的所有遗传信息的总和,包括全部的基因和调控元件等核酸分子。基因组的大小:C值C值通常指一种生物单倍体基因组DNA的总量。The total amount of DNA in the genome of haploid is a characteristic of
8、each living species known as its Maximum C value (单倍体基因组总DNA 的含量) 最大C值 (Maximum C value)The total amount of DNA for encoding the genes information is termed its Minimum c value (编码基因信息的总DNA含量) 最小C值 (Minimum c value)18基因组的大小和C值矛盾 某生物单倍体的DNA总量称C值,C值与生物的进化程度不完全对应。霉菌藻类G+细菌G-细菌显花植物鸟类哺乳类爬行类两栖类硬骨鱼类软骨鱼类棘皮类甲
9、壳类昆虫类软体动物蠕虫类真菌支原体C value paradox of nucleotide A 生物体进化程度与大 C值不成明显正相关 B 亲缘关系相近的生物 间大C值相差较大 C 一种生物内大C值与 小c值相差极大 (Euk. 人体 c = C/10) ( Prok. x174 c C ) 某些生物的基因组数据 物种 基因组大小 基因数目 基因长度 X174 0.7kb 10噬菌体 45Kb 100大肠杆菌 4.2Mb 4200 1.2kb酿酒酵母 13.5Mb 6300 1.4kb果蝇 14 Mb 12000 11.3kb人 3.3Gb 35000 16.3kb拟南芥 70Gb 2500
10、0二、典型生物的基因组特征1、真核生物基因的特点真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。存在重复序列,重复次数可达百万次以上。基因组中不编码的区域多于编码区域。 大部分基因含有内含子,因此,基因是不连续的。 基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。,内含子、启动子2、 细菌基因组及其特点 a.细菌的“染色体”通常有一个环状或线型DNA分子组成,只有一个复制
11、起点。不少细菌含有若干个小的环状DNA,被称作质粒(plasmid)。有些质粒可以从一个细菌转移到另一个细菌,不少经过改造的质粒在基因工程中被用作基因转移的载体。 b.编码蛋白质的基因为单拷贝的,但rRNA基因一般是多拷贝的。 c.基因组中有多种调控区,和少量重复序列,调控原件比病毒复杂,但比真核生物简单,重复序列比真核生物少得多。 d.功能相关的几个结构基因往往串联在一起,受它们上游的共同调控区控制,形成操纵子结构。 e.基因组中存在与真核生物类似的可移动DNA序列(转座子)。DNA from a lysed E. coli cell. In this electron micrograph
12、 several small, circular plasmid DNAs are indicated by white arrows. The black spots and white specks are artifacts of the preparation.蛋白结构功能含量/每细胞相当于核蛋白基因HU和亚基,每个9KD使DNA压缩、类核凝聚,刺激复制,和1HF有关4万个二聚体H2BhupA.BH两个相同亚基,各28KD促使双链的互补、复性3万个二聚体H2A?IHF10.5KD9.5KD有助于att位点配对重组?himA.D.H1(H-NS)15KD亚基和DNA结合,与DNA拓扑结构
13、有关1万?osZbglYpilGHLP117KD单体?2万?firAP3KD亚基?鱼精蛋白(DNA结合蛋白)?E.coli含有的各种DNA结合蛋白3、病毒基因组的结构和功能病毒是最简单的生物形式,完整的病毒颗粒包括外壳蛋白和内部的基因组DNA或RNA(有些病毒的外壳蛋白外面有一层由宿主细胞构成的被膜(envelope),被膜内含有病毒基因编码的糖蛋白。)病毒不能独立地复制,必需进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒得以复制。外壳蛋白(或被膜)的功能是识别和侵袭特定的宿主细胞并保护病毒基因组不受核酸酶的破坏。病毒基因组大小相差较大,与细菌或真核细胞相比,病毒的基因组很小 病毒基因组
14、可以由DNA组成,也可以由RNA组成 多数RNA病毒的基因组是由连续的核糖核酸链组成 基因重叠即同一段DNA片段能够编码两种甚至三种蛋白质分子 病毒基因组的大部分是用来编码蛋白质的 病毒基因组DNA序列中功能上相关的蛋白质的基因或rRNA的基因往往丛 集在基因组的一个或几个特定的部位,形成一个功能单位或转录单元。 除了反转录病毒以外,一切病毒基因组都是单倍体,每个基因在病毒颗粒中只出现一次。反转录病毒基因组有两个拷贝。 噬菌体(细胞病毒)的基因是连续的;而真核细胞病毒的基因是不连续的三、人类基因组计划人类基因组计划的启动 1986 年诺贝尔奖获得者R.Dulbecco提出人类基因组计划-测出人
15、类全套基因组的 DNA 碱基序列( 1n: 3 X 109 b ) 人类基因组计划February 2001,The HGP consortium publishes its working draftin Nature (15 February), and Celera publishes its draft in Science ( 16 February). 2003年完成的人类基因组30亿个碱基对测序耗时10多年,耗资约40亿美元。到2003年底大约测出150个物种的基因组全序列。 2007年5月底,Watson个人的基因组全序列公布,60亿个碱基对的测定耗时不足2年,耗资不足200万
16、美元。 2007年10月,中国人的基因组全序列测定完成。 2008年1月,中国的第一个个人基因组全序列测定完成。81岁的沃森(2007年) 各物种基因组的比较:(1)绘制染色体的高分辨率遗传图谱,用各种分子标记或限制性酶所作的物理图谱。(2)对DNA进行切割和克隆,构成重叠群。(3)测定DNA的序列,绘制DNA的序列图谱。 (4)对基因进行鉴定。(5)建立数据库,开发相应的软件。人类基因组计划的研究方法:1、前述的真核基因组的结构特点基本上都适用于人类基因组。2、基因组DNA有30亿个碱基对(3109bp),510万个基因,目前已定位的有2000个3、编码序列只占基因组总DNA量的5%以下,非
17、编码区占95%以上,大量为重复序列人类基因组结构特点: 解码生命了解生命的起源了解生命体生长发育的规律认识种属之间和个体之间存在差异的起因认识疾病产生的机制以及长寿与衰老等生命现象为疾病的诊治提供科学依据HGP(人类基因组计划)的目的 遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。遗传连锁图:通过计
18、算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)表示HGP的主要任务物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 序列图谱:随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过
19、程。通过测序得到基因组的序列图谱 四、核酸测序技术1950196019701980199020002010Development of Sanger Sequencing(1977)Invention of Automated FluorescentSequencer(1985)Invention of CapillarySequencer(1996)Invention of Applied BiosystemsSolid System(2007)Invention of Illumina Genome Analyzer System(2006)Invention of 454 GS 20 S
20、equencer(2005)chemical degradation method by Maxam-Gilbert method(1977)Chemical degradation method by Whitfield (1954)Invention of Heliscope single molecular sequencerInvention of Single molecule real time(SMRT) DNA sequencingInvention of Nanopore single molecular sequencing (Oxford Nanopore corpora
21、tion)1、测序技术的发展介绍(1)、测序技术的发展简史(2)、一代测序技术-Sanger测序法PCR末端终止技术+电泳检测技术单个片段序列测定最高通量:小于4MB/天基于平板胶的测序技术96通道毛细管阵列一代测序发展:1977年Sanger等发明的双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法,标志着第一代测序技术的诞生。1954年,Whitfeld等提出了测定多聚核糖核苷酸链的降解法,利用磷酸单酯酶的脱磷酸作用和高碘酸盐的氧化作用从链末端逐一分离寡核糖核苷酸并测定其种类。80年代中期出现了以荧光标记代替放射性同位素标记、以荧光信号接收器和计算机信号分析系统代替放射性自显影的自动
22、测序仪90年代中期出现的毛细管电泳技术使得测序的通量大为提高完成了从噬菌体基因组到人类基因组草图等大量的测序工作成本高、速度慢等方面的不足(3)、二代测序技术 Shot Gun文库构建DNA片段固定簇序列读取反应图像获得和处理序列组装和比较单条模板扩增1234T T T T T G C T 测序原理简介123789456T T T T T T T G T T G C T A C G A T 452、主要测序技术平台Metzker, Nature Reviews Genetics (2010) 11:31200520062007BirthdayPrinciplePyrosequencingSeq
23、uencing-by-SynthesisSequencing-by-LigationRoche 454Illumina Genome Analyzer /Hiseq 2000ABI SOLiD2.1 Roche公司的454测序技术 焦磷酸测序待测DNA文库的构建喷雾法 300-800bpEmulsion PCR测序数据分析释放的焦磷酸基团会与反应体系中的ATP硫酸化酶反应形成ATP。生成的ATP和荧光素酶共同氧化反应体系中的荧光素分子并发出荧光。482.2 Illumina公司的Solexa技术边合成边测序向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4种dNTP。由于这些
24、dNTP的3羟基被化学方法保护,因而每轮合成反应都只能添加一个dNTP。未使用的游离dNTP和DNA聚合酶会被洗脱。加入激发荧光所需的缓冲液,用激光激发荧光信号,用光学设备完成荧光信号的记录,再通过计算机分析转化为测序结果。待测DNA文库的构建200-500bpD N A 与流动槽的附着Bridge PCRdsDNA的变性测序数据分析492.3 ABI公司的SOLiD技术待测DNA文库的构建Emulsion PCR连接酶测序数据分析体系中加入DNA连接酶、通用测序引物n和具有3-XXnnnzzz-5结构的八聚核苷酸;第1和第2位(XX)上的碱基是确定的,并根据种类的不同在第6-8位(zzz)上
25、加了不同的荧光标记。50(4)、三代测序优点:1)更高的通量;2)更短的测序时间;3)更长的读取长度;4)更高的精确性,可以检测出极少的变异;5)需要很少的起始样本量;6)低成本第三代测序为单分子测序,不需要进行PCR 扩增4.1、 Helico BioScience 单分子测序技术边合成边测序用末端转移酶在3 末端加上poly(A),以及在poly(A)的末端进行荧光标记和阻断,阻断的目的是防止在测序过程中核苷酸在模板的3 末端进行延伸。把这些小片段与带有poly(T)的平板杂交,poly(T)的作用不仅是捕获模板,也是延伸时的引物。成像来获得已经杂交模板所处的位置,建立边合成边测序的位点。
26、加入聚合酶和被Cy3 荧光标记脱氧核苷酸进行DNA 合成,每次只加入一种脱氧核苷酸,然后将未参与合成的的dNTP 和DNA 聚合酶洗脱,直接对Cy3 成像,观测模板位点上是否有荧光信号Helicos公司524.2、 Pacific Bioscience SMRTT( Single-molecule Real-time ) 技术Pacific Biosciences公司边合成边测序SMRT芯片是一种带有很多ZMW(zero-mode waveguides)孔的厚度为100 nm的金属片将DNA聚合酶、待测序列和不同荧光标记的dNTP放入ZMW孔的底部,进行合成反应。与其他技术不同的是,荧光标记的
27、位置是磷酸基团而不是碱基。当一个dNTP被添加到合成链上的同时,它会进入ZMW孔的荧光信号检测区并在激光束的激发下发出荧光,根据荧光的种类就可以判定dNTP的种类。534.3、 Oxford Nanopore Technologies 的纳米孔单分子测序技术Oxford NanoporeTechnologies公司电信号测序以- 溶血素来构建生物纳米孔,核酸外切酶依附在孔一侧的外表面,一种合成的环糊精做为传感器共价结合到纳米孔的内表面。这个系统被镶嵌在一个脂双分子层内,为了提供既符合碱基区分检测又满足外切酶活性的物理条件,脂双分子层两侧为不同的盐浓度。在适合的电压下,核酸外切酶消化单链DNA,
28、单个碱基落入孔中,并与孔内的环糊精短暂的相互作用,影响了流过纳米孔原本的电流,腺嘌呤与胸腺嘧啶的电信号大小很相近,但胸腺嘧啶在环糊精停留是时间是其他核苷酸的23 倍,所以每个碱基都因其产生电流干扰振幅是特有的而被区分开来。54三代测序技术特点的比较五、基因组测序及其应用(一)、基因组从头测序(二)、基因组重测序构建不同长度的插入片段文库高通量测序基因组杂合度分析覆盖基因区估计得到框架图或更高覆盖度500bp fragment文库Paired-end测序,测序深度达到40以上3KB Mate pair文库Paired-end测序,测序深度达到60以上10KB Mate pair文库Paired-
29、end测序,测序深度达到80以上基因杂合度5%,同时启动BAC-to-BAC测序(一)、基因组从头测序经典策略57从头测序的数据分析和产出指标框架图 覆盖基因组常染色体区域90%,覆盖基因区域95%,contig N50达到5Kb,scaffold N50达到20Kb,单碱基错误率在万分之一以下精细图 覆盖基因组常染色体区域95%,覆盖基因区域98%, contig N50达到20Kb,scaffold N50达到300Kb,单碱基错误率在万分之一以下完成图 完整的基因组序列,单碱基错误率在十万分之一以下从头测序的覆盖度指标从头测序主要数据分析原始数据比对组装结果统计覆盖度、深度评价基因注释比
30、较基因组及进化分析蓝藻 1 Mb线虫 100 Mb果蝇100 Mb人 3,000 Mb用于基因和基因组进化的分析小鼠 3,000 Mb59生物进化谱系树大鼠、小鼠 、狗、大熊猫、牛家鸡、火鸡斑马鱼拟南芥、水稻、杨树、酿酒葡萄、短柄草、黄瓜、高粱、玉米1535个细菌基因组、49个真菌基因组和78个古细菌 利什曼原虫、椎体虫四类蓝藻隐藻蜜蜂60意义:第一个完全运用高通量测序技术模式完成的动物基因组从头测序;方法和结果:不同插入片段测序文库双末端测序技术的尝试:包括150bp、 500 bp、2 kb、5 kb 和10 kb不同插入片段,测序深度达73倍,覆盖94%的基因组区域;获得2.7M SNP
31、位点,证明大熊猫仍然具备很高的杂合率和较高的遗传多态性;Li et al., Nature (2009) 463:311-317 1、大熊猫基因组从头测序和组装61大熊猫基因组从头测序和组装利用9个Sanger测序的BAC序列评价测序的质量,表明98%的BAC序列可以比对到scaffold上预测大熊猫约有21001个基因大熊猫与人、狗和鼠的基因进化分析测序数据与BAC序列比较2、大肠杆菌基因组实验设计研究材料:一名16岁女孩感染者分离出菌株策略:Ion Torrent(79M)Hiseq(1Gb, 576Mb ,576Mb)Newbler, SOAPde novo 拼接组装研究成果完成图包括环
32、状基因组及3个质粒(pESBL ,pAA, pG2011)。发现志贺毒素产生基因和大量抗生素抗性基因完成设计诊断试剂盒;包括I型集聚性粘附菌毛编码基因(AAF/)与型志贺毒素产生基因Stx2华大基因, University Medical Center Hamburg-Eppendorf, 伯明翰大学2011年5月-6月德国爆发由E.coli O104:H4引起的急性肠出血性流行病疫情。研究意义Rohde, et al. N Engl J Med. 2011, 365(8): 718-724.Stx2-convey prophageA composite transposon harborin
33、g multi-resistant genes pTy3 plasmidSep Aaggregative adherence fimbria ITwo antibiotics resistant genespTY1 plasmid (89,963bp)pTY2 plasmid (76,284bp)Outbreak strainGene nameResistanceOccurrence rate in 92 sequenced E. coli strainsdrfA7trimethoprim 16.30%sulIsulfonamide13.04%sulIIsulfonamide19.57%str
34、Astreptomycin19.57%strBstreptomycin18.48%tetAtetracycline10.87%blaCTX-M-15monobactam penicillin cephalosporin ceftazidime /blaTEM-1amino- and carboxy-penicillin/Stx2-convey prophage in outbreak strain is syntenic with Enterobacteria phage VT2phi_272.HGP项目:20世纪90年代美国能源部资助启动人类基因组计划,六个国家的科学家耗资4.37亿,于20
35、00年完成人类基因组工作草图。方法和结果:应用分层shotgun+Sanger测序法,结果预测了31,000个基因,证明基因组的95%是非编码序列。意义:人类基因组测序的完成标志着分子医学时代的到来;此项目也催生了高通量测序技术。Nature (2001) 409:860-921人类基因组从头测序分析分层的shotgun测序法67(二)、重测序生物信息学分析内容中科院上海生命科学院、北京基因组所 等六家科研机构对150个水稻RIL系进行测序利用Illumina GA,每16个样一个道,以3个碱基为标签,测序读长为36碱基,每个样的测序深度约0.02倍第一次利用全基因组重测序筛选SNP位点,对群
36、体进行表型分析1、利用全基因组重测序分析表型差异利用全基因组重测序分析表型差异分析两个亲本的基因组差异发现1,226,791 SNP位点,即3.2 SNPs/kb分析150个RILs发现了1,493,461 SNP位点,即1 SNP/40kb实验设计利用全基因组重测序分析表型差异与以前的该RILs的重组图谱比较分析,在150个RILs中鉴定出2334个重组框,平均每个框的大小约164 kb利用sliding window方法分析SNP位点与表型间的关系与重组位点Sliding window方法Genetech公司(已被罗氏制药收购)生物信息学与计算机生物学部,与Complete Genomic
37、s公司合作对一名烟龄超过15年,平均每天吸烟25根的原发性肺部肿瘤患者进行分析,将这名患者的癌细胞和相邻正常组织的基因组进行测序对癌细胞完成了60倍的测序深度,相邻正常组织完成了46倍的测序深度。 (Lee et al. Nature (2010) 465:473)2、利用重测序进行比较基因组学研究-肺癌组织测序数据统计72肺癌组织比较基因组研究发现了超过5万个基因点突变,其中530个得到确认,它们当中392个在编码区域,包括以前已知的变异,如KRAS“原致癌基因”突变和放大体细胞单核苷酸突变趋势和模式统计73MAPK信号通路中多个基因的突变的作用模式肺癌组织比较基因组研究表明遗传上复杂的肿瘤
38、可能包含很多部分冗余的突变,而且要识别复发性致癌“驱动突变”(driver mutation),将需要对很多尚未测序的样本进行测序。这些癌基因的发现对于未来研究肺癌靶向治疗,以及基因突变具有重要的意义犹他大学(University of utah),Complete Genomics公司,华盛顿大学等对一对夫妻和他们的两个孩子进行了全基因组测序。这家的两个孩子都患有米勒综合征和原发性纤毛运动障碍,这两种疾病都是常染色体隐性遗传病测序深度分别为父亲 88倍,母亲51 倍,儿子52 倍,女儿54 倍Coach et al., Science (2010) 328 (597):636 639 3、应
39、用全基因组重测序技术在家系中分析遗传力父母和子女的测序覆盖度分别达到91%、85%、92%和91%与参考序列相比,96%序列至少在一个家系成员中被检测到,81%序列在家系四个成员中都检测到应用全基因组测序技术在家系中分析遗传力测序数据与NCBI参考基因组序列比较分析测序数据统计通过比较两代之间的基因组序列,科学家们对儿童基因组描绘出精确的重组图谱。这让他们校正了70%的测序错误,使测序准确率达99.999% 。使研究人员精确确定了重组位点和稀有的单核苷酸多态性。在他们最终的分析中,只保留了四个候选基因的突变,包括已知在纤毛运动障碍中突变的基因以及导致米勒综合征的变异体 应用全基因组测序技术在家
40、系中分析遗传力重组图谱SNP分析这些结果暗示对任何简单的单基因遗传病,一个或两个家庭的全基因组测序就有可能鉴定出致病突变 研究人员还第一次估算出两代人之间的遗传突变率,即基因组从一代人到下一代人的遗传过程中会发生多大程度的改变,约为1.110-8。结果发现,从父母到孩子的基因变异率仅为之前医学界预期的一半。应用全基因组测序技术在家系中分析遗传力4、个人基因组计划(PGP)哈佛医学院计算遗传中心主任George Church提出PGP目标是创建一个包含100,000人、公众可以公开访问的在线基因库,帮助科学家了解基因之间的联系和遗传特征现已公布了1000人的基因组序列个人基因组测序是个性化医疗保
41、健的基础 / George Church 和他的研究团队79重测序意义在个体或群体水平进行差异性分析辅助分子育种,能够快速的进行种质资源普查筛选遗传进化分析及重要性状候选基因预测遗传疾病分析RNA是遗传信息的载体六、转录组测序及其应用转录组测序生物信息学分析内容1、应用RNA-seq分析葡萄浆果发育过程中转录组意大利维罗纳大学Vitis vinifera(葡萄)浆果发育三个阶段中(开花后5周、10周和15周,即着果期、转色期和成熟期三种发育阶段中)的转录组研究数据量超过59M的36至44bp读长 ,82%的测序序列能够比对到基因组上 第一次使用RNA-seq分析葡萄浆果发育过程中的基因转录差异
42、 有参考序列应用RNA-seq分析葡萄浆果发育转录组分析92,051剪切点,大约0.8%剪切点参与385个基因的可变剪切与葡萄参考基因组(Pinot Noir 40024 )比较,检测到85870个eSNP分析基因的可变剪切应用RNA-seq分析葡萄浆果发育转录组鉴定了浆果发育过程中的17324个基因,其中的6695的基因是以时期特异性方式表达的分析浆果发育过程中的marker基因,表明RNA-seq分析的准确性中科院上海生命科学院、北京基因组 所和上海交通大学对一个japonica (Nipp) 和两个 indica (Gla4 and 93-11)发芽两周的样品进行转录组测序每个样本两个生
43、物学重复,每个样本测三次,240碱基测两次和276碱基测一次第一次运用高通量测序分析转录组以鉴定外显子剪切位点2、运用RNA-seq对水稻转录组进行功能注释有参考序列运用RNA-seq对水稻转录组进行功能注释与参考序列比较,约38.8%57.3%能够比对到基因组的一个位置上共鉴定了15708个新的TARs(transcriptional active regions)测序数据统计新的TAR统计运用RNA-seq对水稻转录组进行功能注释约48%的水稻基因具有可变剪切,这远远高于以前预测的频率检测到参考基因注释中的83.1%基因6228个基因的5和(或)3末端至少比预测的延长50bp2、酵母菌-高
44、产机理实验设计研究材料:菌株Spas和Cten策略:1. Spas 43.77;Cten 26.92.系统进化分析、直系同源基因分析;3.不同表型菌株之间共有基因和特有基因分析;4. 不同碳源下转录水平分析(3株木糖发酵型、1株木糖利用型、1株木糖利用缺陷型)。研究成果组装结果:Spas :43.77 ,13.1Mb,8个scaffold Cten:26.9,10.7Mb,61个scaffold。14株菌中,和木糖利用相关的直系同源基因都存在,包括不能利用木糖的菌株;推测是还有其他辅助因子。筛选获得10个备选基因,经验证其中两个可促进菌株生长,另外两个可以提高菌株对木糖的利用率。大部分微生物不
45、能利用半纤维素中的五碳糖。两株可以利用木糖的菌株测序期望提高生物燃料产量研究意义Wohlbach, et al. Proc Natl Acad Sci U S A. 2011, 108(32): 13212-13217.转录组测序应用领域转录本结构研究:UTR鉴定、Intron边界鉴定、可变剪切研究、Start codon鉴定等基因转录水平研究全新转录区域研究Non-coding RNA研究miRNA是调控基因表达的一种普遍方式Small RNA测序及其应用Small RNA的生物信息学分析和应用领域分类鉴定:miRNA, siRNA和piRNA和其它Small RNA注释新的miRNA预测m
46、iRNA表达模式分析共有和特有Small RNA分析miRNA的表达模式聚类分析miRNA靶基因预测已知miRNA的家族分析Small RNA的系统识别和鉴定Small RNA的进化分析Small RNA参与细胞分化和发育的功能分析Small RNA药物、biomarker及药物靶点的研究Small RNA参与生命调节的研究Small RNA与疾病发生的关系俄克拉荷马州立大学 ,生物化学与分子生物学系对逆境条件干旱、高盐和正常条件下的水稻4周幼苗进行miRNA测序三种处理分别得到102,876、54,016 和174,530 测序序列( 43003、80990和58781个miRNAs)1、利
47、用高通量测序鉴定水稻miRNA利用高通量测序技术鉴定水稻miRNA目前水稻中公布的miRNA家族为53个,鉴定了23种新的miRNA6种新的miRNA为单子叶植物特有的miRNA预测了40个候选miRNA单子叶植物特有的miRNA利用高通量测序技术鉴定水稻miRNA预测了9种新发现miRNA的20个靶点分析miRNA的表达模式,发现特异性表达的miRNA,而保守的miRNA是最容易检测到的2、利用高通量测序技术鉴定花生miRNA山东农科院对正常培养两周的花生苗的根、茎、叶进行small RNA分析测序共获得6005941条测序序列利用高通量测序技术鉴定花生miRNAsmall RNA的长度主要为24bp鉴定了14个花生特有的新的miRNA和75个预测的miRNA特有的miRNA表达量低于保守miRNA,其表达具有组织特异性或者只在特定的发育阶段表达。Small RNA长度分布保守的miRNA家族根据是否具有转录和翻译功能可以分为三类第一类是编码蛋白质的基因,它具有转录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因第二类是只有转录功能而没有翻译功能的基因,包括tRNA基因和rRNA基因第三类是不转录的基因,它对基因表达起调节控制作用,包括启动基因和操纵基因七、基因的功能和预测(一)基因功能(二)基因预测排除重复序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 九年级下册英语月考考试卷带答案解析
- 临夏回族自治州2024年甘肃省临夏州引进急需紧缺人才376人(第二批)笔试历年参考题库典型考点附带答案详解(3卷合一)
- 《GBT 34835-2017 电气安全 与信息技术和通信技术网络连接设备的接口分类》专题研究报告
- 医院行政部门岗位的考核重点解析
- 应急心理疏导员面试题集
- 面试题库诚通控股投资发展部经理岗位
- 中国移动通信技术专员面试题目全解
- 零售连锁企业市场拓展经理的招聘考试题目及答案参考
- 法务专员面试题及合同审核参考答案
- 2025年区域气候变化适应项目可行性研究报告
- 2025北京热力热源分公司招聘10人参考笔试题库及答案解析
- 2025年湖南省法院系统招聘74名聘用制书记员笔试参考题库附答案
- 2025广西机电职业技术学院招聘教职人员控制数人员79人备考题库及答案解析(夺冠)
- 2026届高考政治一轮复习:必修2 经济与社会 必背主干知识点清单
- 大学生校园创新创业计划书
- 护士职业压力管理与情绪调节策略
- 贵州国企招聘:2025贵州凉都能源有限责任公司招聘10人备考题库及答案详解(必刷)
- 招标人主体责任履行指引
- 2025-2026学年北师大版五年级数学上册(全册)知识点梳理归纳
- 2021年广东省广州市英语中考试卷(含答案)
- 我的新式汽车(课件)-人美版(北京)(2024)美术二年级上册
评论
0/150
提交评论