基因组学技术概要.docx_第1页
基因组学技术概要.docx_第2页
基因组学技术概要.docx_第3页
基因组学技术概要.docx_第4页
基因组学技术概要.docx_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因组学复习纪要第一讲 绪论1基因组学(Genomics):以生物信息学分析为手段研究基因组的组成、结构、表达调控机制和进化规律的一门学科。生物信息学是应用计算模型、算法和数据库等手段来研究蛋白、基因和基因组的学科。2人类基因组计划(HGP)于20世纪80年代提出的,由国际合作组织包括有美、英、日、中、德、法等国参加进行了人体基因作图,测定人体23对染色体由3109核苷酸组成的全部DNA序列,于2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。HGP的目标:(1) 人类DNA测序(2) 发展测序技术(3) 鉴定人类基因组变异(4)发展有效的基因组学技术(5)比较基因组学(6)ELSI: ethical, legal, and social issues(7) 生物信息学和计算生物学(8)Training and manpower在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。 模式生物( model organism):作为实验模型以研究特定生物学现象的动物、植物和微生物。从研究模式生物得到的结论,通常可适用于其他生物。 比如,在揭示生物界遗传规律时,孟德尔选用豌豆作为模式生物,而摩根选用果蝇作为模式生物。选择用于测序的基因组的标准:基因组大小;花费;与人类疾病的关系;与生物学基本问题的关系;与农业的关系等基因组的大小病毒: 1 kb to 360 kb Note: Mimivirus: 1.2 Mb细菌: 0.5 Mb to 13 Mb;真核生物: 8 Mb to 670 Gb;3基因组学的类型:环境基因组学;药物基因组学; 进化基因组学;结构基因组学;法医基因组学;营养基因组学等4研究基因组学的五种途径:Approach I: cataloguing genomic informationApproach II: cataloguing comparative genomic informationApproach III: function; biological principles; evolutionApproach IV: Human disease relevanceApproach V: Bioinformatics aspects 5基因组学一些特点 :(1)基因组学依赖于测序;(2)基因组学是数据引导的学科,而不是假说驱动的; (3)Genome sciences is asystematic approach第2章 基因组研究主要网站介绍1.基因组学数据类型 DNA序列 (全基因组,染色体,基因)转录组(蛋白编码转录组;非编码转录组;全长或部分序列 (表达序列标签ESTs))蛋白质序列(已知的和预测的)重复序列变异2.三大核酸数据库GenBank; EMBL ;DDBJ3.基因组学中一些常用的网络资源 UCSC Genome Browser and Table Browser Ensembl and EnsMart/BioMart NCBI for Blast server, PubMed, Gene Expression Omnibus, dbSNP, etc. HapMap for haplotype and variation TIGR Comprehensive Microbial Resource 4.数据库类型 Primary Databases Original submissions by experimentalists Content controlled by the submitter Examples: GenBank, SNP, GEODerivative Databases Built from primary data Content controlled by third party (NCBI)5 .Access to sequences: Entrez Gene at NCBIEntrez Gene 收集主要数据库中基因/蛋白的关键信息. 6.RefSeq去冗余数据库,为每一种DNA/蛋白提供一个AccessNumber7 HomologoGene:NCBI 整理真核生物同源序列的资源8 表达序列数据库 UniGene, GEO9 Blat快速找到与长度大于40个碱基的序列的相似性大于等于95%的序列,是 BLAST-Like Alignment Tool, 但不是 BLAST,可用于找到序列在基因组中的位置,可处理少于1 GB 的数据10. Table BrowserTo get the data associated with a track in text format, to calculate intersections between tracks, and to retrieve DNA sequence covered by a track.11. Gene Sorter Displays a sorted table of genes that are related to one another Correlation is color-coded a highly expressed gene is colored red a less expressed gene is shown in green12 .Ensembl 数据库第3章 测序原理与进展1双脱氧链末端终止法原理 分别设计四个反应体系,每一反应体系中存在相同的DNA模板、引物、四种dNTP和一种ddNTP(如ddATP),则新合成的DNA链在可能掺入正常dNTP的位置都有可能掺入ddNTP,从而导致新合成链在不同的位置终止。由于存在ddNTP与dNTP的竞争,生成的反应产物是一系列长度不同的多核苷酸片段。2多色荧光标记法- 荧光标记引物法定义 :将荧光染料预先标记在测序反应所用引物的5端一组 (4种)荧光标记引物,其序列相同,但标记的荧光染料颜色不同。测序反应中,模板、反应底物、DNA聚合酶及标记引物等按A、T、C、G编号被置于4支微量离心管中,A、T、C、G四个测序反应分管进行,上样时合并在一个泳道内电泳。特定颜色荧光标记的引物则与特定的双脱氧核苷酸底物保持对应关系。3多色荧光标记法- 荧光标记终止底物法定义 :将荧光染料标记在作为终止底物的双脱氧单核苷酸上反应中将4种ddNTP分别用4种不同的荧光染料标记,带有荧光基团的ddNTP在掺入DNA片段导致链延伸终止的同时,也使该片段端标上了一种特定的荧光染料。经电泳后将各个荧光谱带分开,根据荧光颜色的不同来判断所代表的不同碱基信息。4荧光标记引物法和荧光标记终止底物法的异同点:相同点:都确定了4种荧光染料与4种ddNTP所终止的DNA片段之间的专一对应关系;不同点:荧光标记终止底物法使标记和终止过程合二为一,两者在同一时间完成;在具体操作中,前者要求A、C、G、T四个反应分别进行, 而后者的四种反应可以在同一管中完成。5全自动DNA测序仪的结构与功能全自动DNA测序仪采用平板型电泳或毛细管电泳。平板型电泳的凝胶灌制在两块玻璃板中间,聚合后厚度一般小于0.4mm或更少,因此又称为超薄片层凝胶电泳。毛细管电泳技术将凝胶高分子聚合物灌制于毛细管中(内径50m100m),在高压及较低浓度胶的条件下实现DNA片段的快速分离。6第二代测序第二代测序平台主要有两类:一种基于边合成边测序(SBS)的思想设计,主要机型有454/Pyrosequencing ;Illumina/Solexa ;Helicos ;Pacbio;(Charge-based detection system, Now-sequencing)另一类基于杂交的方法进行测序,代表是SOLiD454测序系统测序简介其工作流程如下:A、 ssDNA库制备:首先采用喷雾的方法将基因组打断为小的双链DNA片段;随后在得到的DNA片段两侧分别连接上adapter A/B(是人工合成的小的核酸片段)B、 乳胶PCR(Emulsion PCR):将DNA连接到珠子上,随后加入PCR试剂和乳胶,在由乳胶包裹形成的油包水微反应环境内进行PCR反应,反应结束后富集携带扩增的DNA的珠子。C、 将珠子分散到平板上,平板上有大量的微孔,每一个孔仅可容纳一个珠子;D、 合成,测序:按照一定的顺序依次加入四种碱基,只有在碱基用于合成DNA时才会释放荧光,并被CCD检测到。(如此每一个循环之后DNA链便延长一个碱基,反复进行循环,便可以边合成边测序)IIumina sequencing technology 测序:步骤如下:准备基因组DNA,片段化,连接adapters;将DNA连接到平板表面(平板上有与adapter 配对的DNA片段,用以固定DNA);桥联扩增;片段成为双链,使双链DNA分子变性;完成扩增,这时每一个DNA片段都在平板上扩增为了一簇;判断第一个碱基(每一轮合成都加入四种不同荧光素标记的dNTP,末端带有可被除去的阻断剂,当核苷酸用于合成DNA后,可释放相应的荧光,信号读取后,采用化学方法除去阻断集团,便可进行下一轮测序);边合成边测序SOLiD 测序(杂交的方法)本版本重点介绍杂交过程步骤如下:样品制备,连接adapter P1/P2; 乳胶PCR和珠子富集;珠子分散到玻璃板上;通过杂交的方法进行测序,过程如下:首先连接通用引物,与样品制备时的adapter配对;随后加入用四种荧光染料标记的引物(引物的第一二个碱基是确定的,而后面的几个碱基是随即合成的,引物长8nt,每一种引物最后一个碱基上都连有荧光染料,对应的颜色见右图),并用ligase连接通用引物和配对上去的荧光标记引物;去磷酸化,并使连接上去的引物的荧光团发出荧光;将该配对引物切去三个碱基;再开始第二个循环,连接新的引物;如此,每五个碱基我们便确定了其中的前两个(1,2,6,7,11,12)随后reset,将所有配对的引物都去掉,仅剩下模板链,通用引物链长度比上一次短一个碱基若第一次使用的通用引物含N个碱基,则这次使用的通用引物碱基数为N-1,重复上面的操作测序过程中,共reset四次,即共使用五种长度依次递减的通用引物,如此便实现了DNA片段测序的全部覆盖。附注:细心的同学可能会有这样的疑问:每一种颜色的荧光都对应四种碱基对(见上图),在确定序列时怎样确定第一个碱基呢?老师上课时也没有讲清楚,实际上,问题很简单,我们在制备样品时连接的adapter 序列实际上是已知的,否则通用引物也无法合成,这样,我们实际上本来就知道第一个碱基是什么!二代测序平台的优缺点454测序读长长,400bp,可以对基因组从头测序,但当遇到polymer 时,判断碱基数有困难;Solexa sequencing,高度自动化,读取片段多,适合进行大量小的片段的测量,但随着反应论述的增加,效率降低,即读长较短,不利于拼接;SOLiD sequencing 准确性高,系统灵活,但读长受反应轮数的限制,拼接困难7第三代测序 单分子测序测序仪器 PacBioRS单分子测序无需扩增,避免了扩增过程中可能引入的误差,并且读长较长;该方法利用DNA 聚合酶来进行DNA的合成流程如下:将基因组DNA剪切成大约100bp的片段,将DNA分子变性后在其末端连接polyA片段,并随后在其末端连接荧光染料标记,随后通过poly T 序列碱基互补配对将片段固定;加入一种dNTP(末端连有阻断集团) 如G,只有能通过配对参与DNA 合成的G被固定在模板链上,其他的G都被洗掉,荧光检测成像;剪切掉碱基上的阻断集团,在加入其他种类的dNTP,同样的步骤进行合成测序第四讲 遗传图谱与物理图谱1遗传图谱genetic map遗传图谱定义(连锁图谱linkage map/遗传连锁图谱genetic linkage map):基因组内基因以专一的多态性DNA标记相对位置的图谱。构建遗传图谱的原理:真核生物在减数分裂过程中染色体进行重组和交换,染色体上任意两点之间发生重组和交换的概率随着两点之间相对距离的远近而发生变化。构建遗传图谱的意义:通过连锁分析,可以找到某一致病基因或表型的基因与某一标记邻近(紧密连锁)的证据,从而可把这一基因定位与染色体的特定区域,再对基因进行分析和研究。2物理图谱physical map物理图谱定义:用物理学方法构建的由不同的DNA结构按其在染色体上的原始顺序和实际距离排列的图谱。(1)序列标签位点(sequence-tagged site, STS)图谱(2)DNA重叠群(DNA contig)图谱:把基因组文库中含有相同STS序列的DNA克隆按照其在原始基因组上线形顺序进行排列,连接成相互重叠的片段重叠群。【构建物理图谱的主要任务】3 遗传作图的标记特征:(1) 可识别性:亲本间存在多态性(即差异)(2) 可遗传性:亲本间存在的多态性在后代中可以重演类型:(1) 基因标记(性状标记)-有2种:a.形态学性状标记,个体上可以看见的遗传标记基因(如花色株高体色翅形)b.生化性状基因(如血型系列血清蛋白免疫蛋白同工酶)-存在问题:a.标记数量有限b.操作麻烦,难以大规模研究c.高等生物基因组中基因间隔区的存在,在遗传图中会留下大片无标记区段d.部分基因无法通过实验区分(2) DNA标记(DNA markers):以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,如RFLP(Restriction fragment length polymorphism限制性片段长度多态性)。-优势: a.数量巨大 b.操作简单,适合大规模开展工作c.标记明显易识别d.受环境影响少,因标记本身是遗传物质-有2种:(还是3种?ppt的SNP之前没写“(3)”但个人觉得SNP要算一种)a. RFLPb. SSLPc.SNP4 RFLP-由Botstein首次发现,最早的DNA标记,人类基因组中有105个第一篇有关RFLP的论文:A Highly Polymorphic Locus in Human DNA, Arlene R. Wyman and Ray White, MIT-RFLP多态性产生与检测-RFLP操作流程:DNA提取限制酶处理电泳转膜探针制备与杂交放射自显影-RFLP特点: a.处于染色体上的位置相对固定 b.同一亲本及其子代相同位点上的多态性片段特征不变 c.同一凝胶电泳可显示不同多态性片段,共显性 d.只有两种等位形式-如何寻找RFLP标记 a.随机克隆筛选 b.用其它方法获得的DNA标记转换eg. RAPD(random amplified polymorphism DNA) c.从cDNA中寻找 d.计算机筛选 筛选RFLP的方法:AFLP (amplified fragment lenth polymorphism放大的片段长度多态性)-步骤:限制酶消化接头引物设计扩放样品DNA,电泳分离标记的PCR产物5 SSLP-定义:简单序列长度多态性(simple sequence length polymorphism),是由于简单序列的重复次数不同,导致扩增片段长度不同而产生的多态性。-两种类型:(1)小卫星序列or可变数目串联重复(minisatellite/variable number of tandem repeat,VNTR)重复单位长度为几十个核苷酸(2)微卫星序列or简单序列重复or短串联重复(microsatellite/simple sequence repeat SSR/short tandem repeat STR)重复单位长度几个,序列长度几十个,微卫星在不同生物体中存在不同类型,如人类(AC)n (AAN)n 植物(AT)n 水稻(GA)n (GT)n-检测STR:不同样本重复区域有差异(重复次数不同)但PCR引物结合区域相同-STR应用:微卫星具有很大变异性(基因组复制的“滑移”现象)因此用来建立个人遗传档案、法医鉴定、亲缘鉴定等-STR特点:6 SNP单核苷酸多态性single nucleotide polymorphism-SNP特点:(1)理论上等位型最多为4,实际多为2(2)从STS(sequence-tagged site)测序中可以找到SNP(3)数量极大(4)SNP与人类易感性疾病有关,涉及药物基因组学(5)编码区SNP主要分布于密码子的第3个碱基-如何检测SNP(1) DNA芯片技术(详见下图)(2) 液相杂交技术(详见下图)7 遗传作图-定义:Genetic mapping 即利用遗传学的原理和方法,构建能反映基因组中遗传标记之间遗传关系的图谱。-一些概念介绍:孟德尔遗传定律(分离、自由组合)。连锁与部分连锁。重组率。大家都懂的,就不列了。-遗传作图的理论基础(也学过 瞄一眼就行)&图谱构建:-遗传图谱的偏离: 原因:(2) 重组热点的存在(3) 近端粒区&远着丝粒区 重组率高(4) 性别之间有重组率差异(5) 双交换的存在-连锁分析方法:1、 有性杂交(老鼠果蝇水稻)2、 系谱分析(人多年生树木)3、 DNA转移(不能减数分裂的生物 细菌酵母)8分子标记分析定义:分子标记分析:对亲本&作图群体进行标记基因型的分析,为构建遗传图谱收集必要数据(1)亲本分析:a.亲本间多态性程度与亲缘距离:正相关,因此要扩大亲本亲缘关系,以获得高多态性。b.限制酶与多态性程度:有关-识别位点碱基数越多,多态性片段越长,多态性越高-不同限制酶产生的片段不同,多态性有差异因此分析作图群体前要先分析亲本:-筛选具多态性的分子标记-筛选高多态性的限制酶-控制多态性标记在图谱中数量合适、均匀分布(2) 作图群体分析(以双亲为对照,观察分子标记的带型重组情况):-作图群体确定:个体数足够大、群体不变化-多态标记的筛选:RFLP中选高多态性的标记&酶组合-作图群体(mapping population):遗传作图需要作图群体,即用于遗传作图的分离群体,通过个亲本杂交发展而来。如F2BC1DHRI等。-作图群体基本要求:a.群体足够大b.群体随机分离c.双亲间多态性高得到遗传图谱后:图谱分析:a.标记总数b.图谱长度(各连锁群长度、基因组总长)c.标记密度(分子标记密度足够大时称高密度图谱)d.标记分布的均匀程度(不要出现距离较大的间隙即gap)9物理图谱-遗传图谱局限性:分辨率有限(交换数目&后代有限)、覆盖面低、排列会有差错-物理作图环节:染色体(大分子DNA提取)-DNA(大片段DNA克隆)-作图文库(物理作图)-物理图谱-方法:a.限制性作图restriction mappingb.荧光原位杂交fluorescent hybridization,FISHc.序列标签位点作图STS mapping10限制性作图-定义:将限制酶切位点标定在DNA分子上相对位置-局限:只用于小DNA分子(DNAPhrap进行组装Consed中进行组装的进一步编辑Finishing Problems:测序问题:a.High GC content、发卡结构 、Homopolymeric拼接问题:高度重复序列、High AT content3组装的算法(1)Overlap-layout-Consensus (OLC) Hamilton路径算法 Hamilton路径类算法包括:Phrap, CAP3, TIGR, GigAssembler生成图:结点:每个片段自成一个结点边:如果两个结点间有Overlap沿DNA序列从头走到尾,将经过每个结点一次且仅一次。Hamilton Path流程: STEP1. Overlap这一步对所有的Read进行两两比对,通常采用快速Smith-Waterman算法,以确定两个Read之间是否有Overlap。考虑到各个碱基的出错概率,常常对Overlap进行打分,衡量Overlap的可能性高低,一般采用LLR(Log Likehood Ratio)方法打分。STEP 2. Layout(排列)根据Read之间的重叠信息形成Contig,即将各个Read merge起来,形成一个逐次链接的链接体。这一步实际上是在求一条Hamilton Path,通常采用的是贪心法。STEP 3. Consensus对于每个Contig,按照投票或者其他的原则计算出一个Sequence。寻找overlappling过程的问题重复序列可能会导致seudo-overlapsLanderWaterman 模型计算覆盖度一段序列未被覆盖的概率P0=其中L:测序时一个片段的长度,N:总共测序的序列数量,G:总长度 ,LN/G:一个碱基被覆盖的平均次数,P0:在平均次数为LN/G的情况下这个碱基一次没有被覆盖的概率,1-P0即可计算出一个碱基被覆盖的概率。令c=LN/G,计算某一点不能被测序的概率P0=,总的gap的长度=G,总的gap的数量=N。(2)De Bruijn Graph (DBG)EULER Path类算法a 转换成图论问题 de Bruijn图结点:K-mers边:两个K-mers重叠(K-1)个单元片段:图上一条路径沿着DNA从头走到尾,寻找Euler Path(通过图的所有边,每个边恰好一次的路径)b de Bruijn图的构造 all reads are broken in to overlapping subsequences of length k (k-mer) 结点:每个k-mers是结点边: de Bruijn边的构造方法,v-u当前仅当v的尾巴和u的头相同。 每个Read表示成一条Path, 每个Repeat表示成一个多入口、多出口的单一链,但是不知道出入口之间的对应关系。如 果没有Read来覆盖这条单一链,则称为Tangle。Velvet: Algorithms for De Novo Short Assembly Using De Bruijn GraphA,根据预先设定好的k-mer长度构建De Bruijn Graphk-mer短 连通性好但是特异性差 k-mer长 特异性好,但是连通性差根据特异性和连通性来决定k-mer的长度B,简化:简化图的连接,If node A has only one outgoing arc to node B, and if node B has only one ingoing arc mergeC,错误移除 (1)首先移除tips(节点末端不连接的部分),有两个标准 : length , minority count (2)再移除 bubbles(起始和终止节点相同的路径):Tour Bus算法 (3)最后移除错误的连接Assembly 的软件:ABySS ALLPATH Euler-SR Velvet SOAPdenovo4 基因组组装的困难:(1).基因组组中的重复序列高度相似,比测序的读长长很多(2)基因组覆盖的不均一性(3) 处理数据量测序错误与基因组序列的多态性第六讲:基因组注释1 GC信息细菌中GC含量变化范围最广,最高的可达70%。人类基因组的GC含量在41%左右。GC含量越高,基因组相应位置基因的密度越大。2 Britten 和Kohne对重复DNA的分析:实验中他们将基因组中的DNA解聚,剪碎,测量DNA碎片重新连接的速率。对于大量的真核生物来讲,大量的重复DNA以极快的速率重新连接。3真核生物重复DNA的分类:(1)Interspersed repeats散布的重复;(2)Processed pseudogenes加工过的假基因;(3) Simple sequence repeats单一序列重复;(4) Segmental duplications部分复制(5) Blocks of tandem repeats串联重复块。(1)Interspersed repeats散布的重复(转座子导致的重复)组成了人类基因组的45%,涉及到RNA调节物(反转录转座子)或者DNA调节物(DNA转座子)。长末端重复的转座子(RNA介导)长的散置的片段(LINES)编码逆转录酶短的散置片段(SINEs)(RNA介导)包括Alu 重复。DNA转座子(组成了人类基因组的3%)LINEs:序列较长:6kb。3个LINEs家族在人类基因组中发现,但只有LINE1具有活性。人类基因组:515000份LINEs拷贝,365000L2,37000L3(大部分都缩短或者重新排列)SINEs:序列长度较短:100-400bp。所有已知的SINEs的启动子区域来自tRNA序列,除了一个来自7SL(7SL是一种信号识别序列,在移除蛋白的信号肽中发挥重要作用)家族,它包括唯一的人类基因组中活性SINE位点:Alu 片段。Alu 在人类基因组已被发现超过1000000次。SINEs和LINEs的3端是相似的。SINE是成功的LINE“揩油者”:SINE运用LINE的中间物进行转座。SINE的5端编码一个内部的聚合酶III启动子,但不产生蛋白。这时LINE的逆转录酶识别转录物的3端。cDNA合成。新的整合位点形成。DNA转座:(跳跃基因)1末端含有重复序列,编码一个转座酶。2转座酶介导一个“剪切-复制”的转座。3 DNA转座子不能够不能识别顺式的preference:因为转座酶不能识别转座和非转座的元素。4就像失活的拷贝(在这些拷贝中,转座酶不在发挥作用)5 DNA转座子最终通过“horizontal transfer”的形式延长。LTR逆转录转座子:1 逆转录转座子通过“复制-粘贴”的机制移动,与转座子不同的是,“复制”的片段是RNA而不是DNA。2 LTR包含所有必要转录控制元素。3 逆转录发生在胞质中,由tRNA引发。(2)Processed pseudogenes加工过的假基因这些基因有一个终止密码子或者移码突变,不能编码有功能的蛋白。大约有19000个假基因在人类基因组中,比功能蛋白编码基因略微要少。(4)部分复制长度在1k-300k。人类基因组的5%包含Segmental duplications。复制出的序列经常拥有非常高的序列保守性。举个例子:一组人类脂钙蛋白在9号染色体上。(5) Blocks of tandem repeats串联重复块连续存在的多拷贝重复序列:这包括端粒的重复和着丝粒的重复。这些重复的DNA可能跨越数以百万计的碱基对,常具有物种特异性。4基因序列的特征:核酸成分(GC含量)重复(“垃圾DNA”)转座的元素,简单的重复非编码RNAs(ncRNA)tRNA, rRNA, snRNA, snoRNA, miRNA5非编码RNAs:tRNA, rRNA, snoRNA, miRNA, various other ncRNAs为什么这些基因比编码蛋白的基因寻找起来更困难?(1) 经常没有PolyA的尾巴,在cDNA文库中没有结束位置。(2) 没有ORF。(3) 序列多样性体现在核苷酸水平而不是蛋白质水平,所以很难检测同源性。研究非编码RNAs的实验方法:(1)利用非PolyA依赖的克隆方法分离(2)微阵列tRNAtRNA具有高度保守的结构,三叶草结构,含有一些保守的碱基。寻找这样的序列需要很好的符合判定树,这些序列必须通过一系列检测步骤。此外,还要进行打分,来表示这个序列有多么符合每一步。(假阳性检验)6 基因确认:碱基序列相似的同源基因预测,相似的搜索:BLAST,BLATRNA证据(ESTs)从头开始基因预测:原核生物ORF识别真核生物启动子识别,PolyA信号预测,剪切位点,启动、终止密码子预测转录的证据:Expressed Sequence Tags (ESTs)Complementary DNA sequences (cDNAs)Gene- or Genome-tiling microarraysOther transcript-detecting “nanotech”隐马模型数据库:PFAM SMART从头开始基因的发现:1 蛋白编码基因具有可以识别的特征。2 我们能够设计软件扫描基因组,确定这些特征。因为真核生物中含有大量的长的内含子,所以发现基因很困难。我们倾向于寻找蛋白编码区域匹配较好的序列列,但我们也错过了许多非编码5外显子(5-UTR的信息)。7基因发现的过程:1 确定已知基因共有的特征2 建立一个计算框架/模型,用来精确的描述这些现象。3 运用模型扫描非特征学列,发现与模型匹配的区域,假定为新的基因。检测验证预测。验证修正模型的标准:1 与当前annotated cDNA匹配。2 与相同有机体的EST匹配。3 与Genbank中核苷酸序列匹配。5 蛋白结构预测与PFAMdomain匹配。5 与可识别的启动序列有联系,例如TATAbox,CpG岛。6 知道该位点突变后的表型。用于基因发现的两个模型:artificial neural networks (ANNs) 人工神经网络hidden Markov models(HMMs). 隐马尔科夫模型8基因预测:当给定一段没有什么特点的基因时:找出基因起始和终止位点,找出编码蛋白质的区域。基因预测的挑战:1随着编码和非编码长度的增加,外显子的预测变得越来越困难。编码区域不到人类基因组的3%。2 基因的剪接:找到许多短的外显子连接在一块比找到一个单一的长的外显子要困难的多。人类基因中,平均每个基因都有56个外显子可用来进行基因预测的统计学特征:功能位点信号、剪接位点信号、翻译起始位点信号、 翻译终止位点信号、 转录起始和终止信号、 启动子9功能位点识别:Hypothesis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论