




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基因组学题库一 基因组学介绍1 基因组与基因组学基因组是指生物的整套染色体所含有的全部DNA序列,是生物体所有遗传信息的总和。基因组学(Genomics)是以生物信息学分析为手段研究基因组的组成、结构、表达调控机制和进化规律的一门学科,研究对象是基因组结构特征、变演规律和生物学意义。2 C质与C质悖论C值(C value)通常是指某一生物单倍体基因组DNA的总量。C值悖论(C Value Paradox):生物的复杂性与基因组的大小并不完全成比例增加。3 人类基因组计划及其8个目标人类基因组计划(human genome project, HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美、英、法、德、日和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。其8个目标:1)人类DNA序列(Human DNA sequence);2)开发测序技术(Develop sequencing technology);3)识别人类基因组序列变异(Identify human genome sequence variation);4) 功能基因组学技术(Functional genomics technology);5)比较基因组学(Comparative genomics);6) 伦理、法律、社会问题(ELSI: ethical, legal, and social issues);7)生物信息学和系统生物学(Bioinformatics and computational biology);8)Training and manpower。4 什么是宏基因组(metagenomics)?研究一类在特殊的或极端的环境下共栖生长微生物的混合基因。生境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。二 数据库介绍1 GenBank一级数据库和二级数据库一级数据库:是指由实验的原始数据构成,不进行任何的处理,其内容由提交者控制。如Genbank,SNP,GEO。二级数据库:是指基于一级数据库建立的, 对生物学知识和信息的进一步整理,内容由第三方(NCBI)控制,如Refseq,TPA,Unigene。2 refSeq和Havana基因集RefSeq会为收录的最优典型序列提供一个专业的拉丁文收录号,该序列是非冗余的,高质量的,经检验校正的序列信息;RefSeq记录了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。Havana是人和动物基因组注释数据库,提供人工注释的人类、小鼠、斑马鱼以及其他脊椎动物的基因组,可以在 Vega 浏览器上搜索到,由sanger实验室团队通过人工方法提供更加准确和全面的基因组注释信息,包括剪接变异体、假基因、基因复制和非编码基因。Havana基因集特别强调剪切变体和假基因,还有多聚腺苷酸化的特征。很多Havana中的转录本被注释为不存在编码区,这些转录产物可能作为非编码RNA或者它们可能是目前无法确定的一个编码基因的不完全片段。3 UCSC genome browser 是什么类型数据库,提供哪些基因组学研究资源UCSC GENOME BROWSER是二级数据库,给浏览基因组数据库提供了可靠和迅速的方式。约有一半的注释信息是UCSC通过来自公开的序列数据计算出来的,另一半是来自世界各地的科学工作者。本身并不下任何结论,而只是收集各种相关信息供用户参考。支持数据库检索和序列相似性搜索。UCSC Genome Browser 是由 UCSC 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,信使 RNA,CpG岛,克隆组装间隙和重叠,染色体带型,小鼠同源性等。用户也可以因为教育或科研目的加上他们自己的注释信息。UCSC Genome Browser 目前应用相当广泛,比如 Ensembl 就是使用它的人类基因组序列草图为基础的。三 遗传图谱1 遗传图谱和作图原理遗传图是应用遗传学分析方法将基因或其他DNA分子标记标定在染色体上构建的连锁图,也叫遗传连锁图 (genetic linkage map) 。这一方法包括杂交实验,家系分析等。遗传图距单位为厘摩(cM ),每单位厘摩定义为1%交换率。作图原理:遗传作图(Genetic mapping) 即遗传图谱的构建。它是利用遗传学的原理和方法,构建能反映基因组中遗传标记之间遗传关系的图谱。连锁(linkage linkage linkage) )分析为遗传分析的重要手段,更是遗传作图的基础。而连锁关系是通过重组率来反映的。假设交换是随机发生的,一对并列的染色单体上 一对并列的染色单体上任何两点发生交换的机会是均等的;两个彼此靠近的基因之间因交换而分离的的几率要比互相远离的2个基因之间发生分离的几率要小。因此重组率可以成为测量两个基因之间相对距离的尺度。计算出不同基因间的重组率计算出不同基因间的重组率,就可以构建出显示基因在染色体上相对位置的图。2 遗传作图有哪些标记,各有什么优缺点遗传标记的类型:基因标记,DNA标记。基因标记:又称性状标记。包括个体上可以看见的遗传标记基因,(如花色、株高)和生化性状基因,如血型系列(ABO)分析、血清蛋白、免疫蛋白、同工酶等。优点:直观,易操作;缺点:数量有限。虽然经过近百年的努力,目前这些标记的数量仍然不多,因此限制了这些标记的利用;操作上比较麻烦,难以开展大规模的研究和利用;高等生物基因组存在大量基因间隔区,纯粹的基因标记在遗传图中会留下大片的无标记区段;部分基因其等位基因可以通过常规实验区分。DNA标记:是指以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,如RFLP、SSLP、SNP等。优点:在数量上是巨大的;操作相对简单,适合大规模开展工作;遗传作图的标记 遗传作图的标记;操作相对简单,适合大规模开展工作;标记比较明显,容易识别;受环境影响少,标记本身就是遗传物质。缺点:大多数只有两个等位基因,限制了其在人类基因作图上的应用价值。3 多态信息含量(PIC)在连锁分析中一个遗传标记多态性可提供的信息量的度量。它是一个亲本为杂合子,另一亲本为不同基因型的概率。现常用来衡量座位多态性高低的程度。四 物理图谱1 什么是物理图谱,与遗传图谱的差别物理图是应用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组实际位置所构建的位置图。差别:物理图谱表示某些基因和或遗传标记之间在基因组上的精确位置和距离的图谱,而遗传图谱反映了基因组中遗传标记之间遗传关系,描述的是基因相对位置。2 序列标记位点(STS)及其特点序列标记位点(STS Sequence tagged site, STS):指一段短的DNA序列,通常长度在100- -500bp,易于识别,在待研究的染色体或基因组中仅存有1个拷贝。因此当2个片段含有同一STS顺序时,可以确认这两个片段彼此重叠。特点:在染色体上的位置独一无二;序列已知,方便PCR检测。3 细菌人工染色体(BAC)及其应用BAC (Bacterial artificial chromosome) BAC (Bacterial artificial chromosome)即细菌人工染色体,具有细菌染色体的特性,以细菌细胞为宿主,能在细菌细胞中复制。BAC为载体,可以乘载约300kb的大片段DNA,是物理作图中目前用得最多的大片段DNA载体。BAC载体已广泛应用于基因组文库的构建及筛选、基因组测序、新基因的发现、克隆作图、BAC微阵列、转基因和动物品种资源保存等方面。4 如何组建克隆重叠群?染色体步移法(chromosomal walking):先从基因文库的一个克隆开始,然后从文库中寻找与之重叠的第二个克隆,再继续确定第三个克隆,依次类推。克隆指纹法:指纹是指确定DNA样品所具有的特定DNA片段组成,一个克隆的指纹表示了该克隆所具有的指定序列的特征,可以同其他克隆产生的同类指纹比较。克隆指纹法的原理是,如果2个克隆彼此重叠,它们一定含有相同的顺序。五 Sanger测序原理与组装1 Sanger双脱氧末端终止法的原理核酸模板在核酸聚合酶、引物、四种单脱氧碱基存在条件下复制或转录时,如果在四管反应系统中分别按比例引入四种双脱氧碱基,只要双脱氧碱基掺入链端,该链就停止延长,链端掺入单脱氧碱基的片段可继续延长。如此每管反应体系中便合成以共同引物为5端,以双脱氧碱基为3端的一系列长度不等的核酸片段。反应终止后,分四个泳道进行电泳。以分离长短不一的核酸片段(长度相邻者仅差一个碱基),根据片段3端的双脱氧碱基,便可依次阅读合成片段的碱基排列顺序。2 基因组框架图、完成图框架图能覆盖基因组常染色体区域90%,覆盖基因区域95%,contig N50达到5 kb,scaffold N50达到20 kb,单碱基错误率在十万分之一以下。完成图能覆盖基因组常染色体区域95%,覆盖基因区域98%,contig N50达到20 kb,scaffold N50达到300 kb,单碱基错误率在十万分之一以下。3 Phred-Phrap-Consed 软件包中各软件的作用Phred执行如下任务:读trace文件,调用bases,分配属性值到bases,生成输出文件;Phrap组装鸟枪法DNA序列数据;Consed浏览和编辑Phrap组装产物。4 lander-waterman model 及其原理一段序列没有被覆盖的概率P0=e-(LN/G)或者P0=e-c;L片段的长度,N总的序列数量,G总长度,LN/G一个碱基被覆盖的平均次数,P0是指在平均次数为LN/G的情况下这个碱基一次没有被覆盖的概率,1-P0即可计算出一个碱基被覆盖的概率。令c=LN/G,计算某一点不能被测序的概率P0= e-c,总的gap的长度=G e-c,总的gap的数量=N e-c。5 Pair-end reads, Mate-pair reads, Contig, Scaffold, N50 sizeReads:pair-end reads 基于序列文库克隆两端的序列读框;mate-pair reads 基于插入片段大于mate-pair文库克隆两端的序列读框;Contig(重叠群):指相互间存在重叠顺序的一组克隆;Scoffold:连接非重叠的重叠群;N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3.Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。六 二代测序原理与组装1 454测序仪的Pyrosequencing原理焦磷酸测序(Pyrosequencing) 原理建立的高通量基因组测序系统,依靠生物发光进行DNA序列分析的技术:在多种酶的协同作用下,当碱基正确配对时,发生一个合成反应和一个化学发光反应的偶联,释放光信号。光信号实时被高灵敏度CCD捕获,最终达到测序的目的。具体步骤是:测序引物与DNA单链杂交;在DNA聚合酶催化下,dNTPs在引物3端聚合并延长;ATP硫酸化酶催化PPi和APS生成ATP;荧光素酶催化ATP氧化荧光素u;检测光信号;腺苷三磷酸双磷酸酶催化ATP和dNTP去磷酸;最后通过光信号检测计算得出对应的核酸类型。2 Illumina GA/HiSeq System 的桥式扩增“DNA簇”和“可逆性末端终结(reversible terminator)”文库制备 将基因组DNA打成几百个碱基(或更短)的小片段,在片段的两个末端加上接头(adapter)。 产生DNA簇利用专利的芯片,其表面连接有一层单链引物,DNA片段变成单链后通过与芯片表面的引物碱基互补被一端“固定”在芯片上。另外一端(5或3)随机和附近的另外一个引物互补,也被“固定”住,形成“桥 (bridge) “。反复30轮扩增,每个单分子得到了1000倍扩增,成为单克隆DNA簇。DNA簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上。测序 Genome Analyzer系统应用了边合成边测序(Sequencing By Synthesis)的原理。加入改造过的DNA聚合酶和带有4种荧光标记的dNTP。 这些核苷酸是“可逆终止子”,因为3羟基末端带有可化学切割的部分,它只容许每个循环掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA片段的序列。目前的配对末端读长可达到250 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。数据分析 自动读取碱基,数据被转移到自动分析通道进行二次分析。 每轮测序反应加入四种带有荧光标记的dNTP,末端带有可以被去除的阻断基团; 每轮反应只能整合一个核苷酸,仪器读取相应的荧光信号; 信号读取结束,用化学方法去除阻断基团,进行下一轮测序反应。3 454 GS FLX、Hiseq-2000 与SOLID 5 测序仪各有什么优缺点454 GS FLX是焦磷酸测序,Hiseq-2000是合成法测序,SOLID 5是连接法测序;读长:454 GS FLX Hiseq-2000 SOLID 5;Reads数: SOLID 5 Hiseq-2000454 GS FLX;应用:454 GS FLX读长最长,便于拼接,因此在de novo测序方面有很大优势;SOLID 5虽然读长很短,但是Reads数最多,而且ABI独有的双色球编码技术,使得每个碱基都会被读取两遍,准确率很高,因此SOLID 5在检测SNP、转录组测序、ChIP-Seq等方面很有优势;Hiseq-2000的读长和Reads数均位于中间,比较适合于基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白核酸相互作用)研究。七 测序数据评估1 Phred 20、40代表什么意思Phred数值20代表100bp中有一个错误。Phred数值40代表10000bp中有一个错误。Phred效果评估的方程是q = -10 x log10 (p),q -quality value(质量评价)p -estimated probability error for a base call(产生一个base call误差的概率)q= 20 means p=10-2(1 error in 100 bases) q= 40 means p=10-4 (1 error in 10,000 bases)2 Fastq 是什么格式FASTQ 格式是一种用于存储生物序列(主要是核酸序列)及其测序质量分数的基于文本的格式。其中,序列和质量分数都是用单个ASCII码字符编码的。 最初,FASTQ格式是由Sanger研究所开发出来捆绑FASTA 序列及其质量数据的,现在它已经成为高通量测序仪输出序列的标准格式。一个Fastq文件中每个序列通常由四行组成:第一行以“”开头,后面接序列的标识符和可选的描述信息;第二行是测序的序列;第三行以“+”开头,后面可接相同于第一行的序列的描述信息;第四行是每个碱基的测序质量分数,质量分数用相应数值的ASCII码表示。3 如何制定基因组测序策略、有哪些考虑因素基因组测序的策略:全基因组鸟枪法:首先进行全基因组鸟枪法测序,再以基因组图的分子标记为起点,将鸟枪法DNA片段进行组装。根据高密度的基因组图分子标记,检测组装片段是否处在正确的位置,校正因重复顺序的干扰产生的序列误排。这是一种由下至上的测序策略。优点是速度快,简单易行,成本较低,可以在较短的时间内通过集中机器和人力的方法获得大量的基因片断;但是用它来测序,最终排序结果的拼接组装比较困难,尤其在部分重复序列较高的地方难度较大。此外有许多序列片段难以定位在确切的染色体上,成为游离片断;同时又会有许多地方由于没有足够的覆盖率而形成空缺。这些缺陷最终导致整个基因图会留下大量的缺口(gap),也影响其准确度;克隆重叠群法:克隆重叠群:相互间存在重叠顺序的一组克隆。根据重叠顺序的相对位置将各个克隆首尾连接,覆盖的物理长度可达百万级碱基对。在单个的重叠群中,采用鸟枪法测序,然后在重叠群内进行组装。这是一种由上至下的测序策略。制定选择测序策略所考虑因素见下图:八 组装算法1 组装算法主要包括哪两类?各自对应的常用的软件是什么?OLC(Hamilton 路径算法):软件有Celera Assember, Archne, PCAP;DBG(Euler 路径类算法):SOAPdenovo,Abyss,Velvet,SSAKE,Euler。2 OLC与DBG算法各有什么优缺点?组装算法有Overlap-layoutconsensus(OLC) 和 de Bruijn Graph (DBG) 两种。二者都是基于图论的算法。OLC 主要是针对第一代测序技术(Sanger 法)产生的, 用于较大基因组的组装, 它直接利用 Reads 之间的重叠序列建立公共路径以解决拼装问题。而 DBG 算法是针对二代高通量测序技术产生的片段, 将短的 Reads 转化成定长的 k-mer, 然后寻找 k-mer 之间的重叠关系,通过建立 de Brujin Graph, 把碱基序列拼接问题转为图论问题。OLC算法在测序目标序列较短,序列复杂度不高的情况下有不少成功的例子,但没有针对repeat问题引入专门的方法或者额外的信息;OLC算法实际上是在图中寻找一条使得评价函数值最优的Hamilton路径,这是一个NP完全问题,一般都采用greedy-merging的算法近似求解,由于这种局部贪心算法,其明显的局部特性忽略了reads间“长距离”或者整体性的联系,从而导致了拼接错误,即拼接结果和真实的DNA原始序列不同。DBG算法采用hash寻址的方法,找到每个节点的时间是常数,并不会随着测序深度的不同而变化,降低了时间开销。与OLC算法,这种算法不需要做reads之间的两两比对,也不需要做重叠图,同样大量节约了计算代价;EULER采用的算法过于独立,很难利用其他辅助生物信息,导致其实用性和流行性大打折扣。3 为什么重复序列影响基因组拼接?基因组中重复片段大量存在,由于读取片段reads长度过短,一般只有几十个碱基,这使得重复序列的处理变得困难。重复序列的存在将会产生大量的错误的重叠,最终导致结果的严重偏差。(来源:International Human Genome Sequencing Consortium. Initial Sequencing and Analysis of the Human GenomeJ. Nature, 2001,409(6822): 860-921.)九 基因组注释1 什么是基因组注释基因组注释是指从基因组原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。2 GC含量与CpG岛GC含量是在所研究的对象的全基因组中,鸟嘌呤和胞嘧啶所占的比例。一种生物的基因组或特定DNA、RNA片段有特定的GC含量。CpG岛(CpG islands)是指DNA上一个区域,此区域含有大量相联的胞嘧啶(C)、鸟嘌呤(G),以及使两者相连的磷酸酯键(p)。满足CpG岛的条件为: 连续500 bp的DNA顺序; C+G含量大于55%; 观测到的CpG双碱基数目与预期的数目比大于0.65.3 真核生物基因组主要哪5类重复序列散在重复序列;假基因;简单重复序列;重复片段;串联重复序列1 ). Interspersed repeats 散在重复序列:占人类基因组的45%,包括 LINE 、SINE 、DNA转座子、LTR 逆转座子; 2 ). Processed pseudogenes 加工后的假基因:这些基因往往含有 stop codon 或是移码突变的,不编码有功能的蛋白; 3 ). Simple sequence repeats 简单重复序列:如微卫星,SSR、VNTR; 4 ). Segmental duplications 重复片段,染色体片段倍增:往往重复片段大小在 1kb 到300kb; 5 ). Blocks of tandem repeats 串联重复模块:端粒重复、着丝粒区重复4 为什么ncRNA注释比编码蛋白的基因困难ncRNA包括tRNA, rRNA, snoRNA, miRNA和各种其他ncRNAs,首先,一般没有poly-A尾,也不在cDNA文库中;其次,没有ORF;而且,序列差异的比对局限于核酸水平而不是蛋白水平,导致同源性较难预测。5 基因组中基因注释有几种策略1 )、基于同源性和实验数据的基因预测及注释: 同源搜索比对;转录数据:EST、cDNA、基因组 tiling microarray (2 )、从头预测: 1 、功能位点:启动子、剪接位点、翻译起始和终止位点、poly A 位点 2 、密码子偏好性:编码区和非编码区密码子使用偏好性不同 3 、GC含量分布 4 、外显子长度分布:起始、中间、末端外显子长度不同 5 、单外显子、多外显子基因、多基因结构。6基因预测软件的原理基因预测常用软件分为两大类:适用于原核生物:GeneMark, Glimmer, FGENESB;适用于真核生物:GENSCAN, FGENESH, TwinScan。FGENES, MZEF用判别分析进行预测,依赖于判别分析,线性判别分析( LDA )或二次判别分析( QDA ),来提高准确性。LDA或QDA用编码信号对应的所有可能的3端剪接位点作二维图,并用斜线或曲线来划分编码与非编码信号,这是以已知基因结构的培训数据集的知识为基础的。GENESCAN是以网络为基础的基于五阶马尔可夫模型进行基因预测的程序。它结合六聚体频率以及编码信号(起始密码子,TATA box,帽子位点,poly-A等)进行预测。假定的外显子能够成为真外显子的概率得分为P,只有当P大于0.5时,才被认为是可靠的。此程序训练用于脊椎动物、拟南芥(双子叶植物)和玉米(单子叶植物)。也可以用来预测人类基因。GenomeScan EST2Genome SGP-1 TwinScan以同源性为基础的程序是以相关物种外显子的结构及序列的高度保守性为基础的。当一条检索序列中编码蛋白质的序列翻译后并与数据库中最为相近的蛋白质序列比对后,如有几乎完全配对的区域,即可显示出检测序列的外显子界限。这种方法假定数据库中的序列都是正确的。它按照以下事实进行合理假设:用于比较的同源序列均来自于同一物种的cDNA或表达序列标签。由于有实验证据的支持,这对于在未知基因组的DNA中寻找基因来说是一种十分有效的方法。这种方法的缺点是,数据库中必须存在同源序列。在数据库中没有匹配的情况下新物种中的新基因则不能被预测。GeneComber, DIGIT是基于一致性序。由于不同的预测程序的灵敏度和特异性的差异以综合手的程,段为基础的方法将多个程序的结果综合起来进行分析是十分有必要的。该方法将与大多数程序相一致的预测结果保留下来,其余的结果被删除掉。这种方法可以提高特异性,但会遗漏一些有用的新预测(因为新预测可能不被大多数程序认可而被忽略掉了)。十 转录组分析1 分析转录组的分子生物学方法有哪些?基于测序方法有哪些Northern Blot,ISH,RT-PCR,Real-time PCR,(SYBR Green 法和TaqMan法),RACE;还有基于测序方法的EST技术,构建cDNA文库,基因芯片,CAGE和RNA-seq等。2 什么是EST,SAGE,CAGE三者都是基因表达分析中用到的方法;表达序列标签(EST)是由大规模随机挑取的 cDN 克隆测序得到的组织或细胞基因组的表达序列标签;基因表达系列分析(SAGE) 技术, 能同时对上千个转录物进行研究,是一种用于定量及高通量基因表达分析的实验方法;CAGE的标签一般为全长cDNA开头20个核苷酸。3 基因芯片分为哪几种类型按技术手段、探针类型分类:Short oligonucleotide arrays (Affymetrix);cDNA arrays (Brown/Botstein);Long oligo arrays (Agilent);按实验要求分类:单通道(Single Channel): 一次检验一种状态;双通道(Dual Channel): 差异表达基因的筛选;两类主流的DNA芯片:cDNA microarrays: 将5005,000bp的cDNA固载到介质上(例如玻璃)。通常为双通道,常用于差异表达基因的筛选;DNA chips: 将寡核苷酸探针(2080-mer)合成到芯片上。Affymetrix开发设计,通常为单通道,一次检验一种状态。4 什么是MA图MA plot作图是用来观察芯片数据的分布情况,其中:M=log2R/G A=1/2log2RG ;以M(log ratio 表达量) 为纵坐标,A(log intensity 表达量) 为横坐标做出数据的散点分布图5 基因芯片与RNA-seq方法的优缺点RNA-Seq可进行全基因组水平的基因表达差异研究,具有定量更准确、可重复性更高、检测范围更广、分析更可靠等特点。除了分析基因表达水平,RNA-Seq还能发现新的转录本、SNP、剪接变体,并提供等位基因特异的基因表达RNA-Seq的动态范围更广,且假阳性可能更小,这意味着RNA-Seq的数据重复性应当比芯片要高。RNA-Seq能够检测样品中的所有RNA,这对于鉴定细胞的新颖转录本来说是个优点,但同时缺点在于,它检测了总的RNA,而细胞中很大一部分RNA都来自核糖体和线粒体。这限制了其他RNA的读取数量以及这些RNA表达水平的准确性。因此,polyA RNA选择和核糖体RNA去除等方法被开发出来,以便解决这个问题。然而,这些分离方法有可能会引入潜在误差,影响实验结果。(来源Raz T, Kapranov P, Lipson D, Letovsky S, Milos PM, et al. (2011) Protocol Dependence of Sequencing-Based Gene Expression Measurements. PLoS ONE 6(5): e19287. doi:10.1371/journal.pone.0019287:)6什么是基因本体(GO)数据库,以哪3类标准进行基因注释基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)、生物学过程(biological process)。三类标准:基因的细胞组分、分子功能、生物学过程。7 KEGG数据库京都基因与基因组百科全书(Kyoto Encyclopedia of Genesand Genomes, KEGG) 是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。8 基因集功能富集分析(GSEA)富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。十一 分子进化与系统发育1 直系同源和旁系同源直系同源(ortholog):同源的基因是由于共同的祖先基因进化而产生的。两个物种中同一基因。旁系同源(paralog):同源的基因是由于基因复制产生的。两个基因在同一物种中,通过至少一次基因复制的事件而产生。用于分子进化分析中的序列必须是直系同源的才可以真实的反映其进化的过程2 分子钟、中性学说和系统发育树某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。中性突变,在进化过程中绝大部分核苷酸替换是中性或近似中性的突变在种群中随机固定的结果,而不是正向达尔文选择的结果。中性学说认为,生物进化的主导因素不是自然选择,而是中性突变的随机固定。系统发育树是对一组实际对象的世系关系的描述(如基因,物种等)。用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系;通过比较生物大分子序列差异的数值构建的系统树称为分子系统树。3 建树的方法有哪几类?最大简约法MP,距离法,最大似然性法ML,贝叶斯推断法。4 UPGMA 和 NJ 建树的原理由进化距离构建进化树的方法有很多,常见有:非加权组均法UPGMA法和邻接法NJ。UPGMA法建树从关系最近两点建起,将一个节点所对应两支近似考虑为相等;NJ法求最短支长,最通用的距离方法。UPGMA法建树原理:首先将距离最小的2个物种聚在一起,形成一个新的类,分支点位于2个物种间距离的1/2处;然后计算新类与其它物种间的平均距离,再找出距离最小的2个进行聚类;如此反复,最终得到一个完整的系统发生树。NJ法建树原理:首先调整距离矩阵,重建时将距离最小的两个叶节点连接起来,形成一个新的分类,在树中增加一个父节点,删除原来两个分类,随后新增加的父节点又视为叶节点,重复上一次循环,直至整个循环只剩一个类为止。5 自展法(Boot strap Method)进化树的可靠性分析,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。一般Bootstrap的值70,则认为构建的进化树较为可靠。十二 典型物种基因组介绍1 病毒基因组变异的方式Mutation(突变),Recombination(重组), Reassortment(重排),Selection(选择);两条病毒进化的一般途径:与宿主共进化:优点:宿主和病毒一起生存繁荣。缺点:病毒和宿主命运相同。典型的是,DNA病毒。感染多个宿主:优点:一种宿主被连累可以换下一个。缺点:不能是任何一个情形优化(一种突变可能提高在一个宿主中的复制但可能会减少在另一个宿主中的复制)。典型的是:RNA病毒。2 GC skewGC歪斜或GC偏移。GC skew = (G - C)/(G +C),用来衡量G和C的相对含量,如果GC则GC skew的值为真值,GC则为负值。在大多数细菌基因组中,前导链(leading strand)和滞后链(lagging strand)在碱基组成上存在很明显的不同前导链富含G和T,而滞后链中的A和C更多一些。打破A=T和C=G的碱基频率发生的偏移,被称之为“AT(AT-skew)”和“GC(GC-skew)”。由于通常GC偏移比AT偏移发生的更明显,所以习惯上更多地只考虑GC偏移。因为GC偏移在前导链中是正值而在滞后链中为负值,所以GC偏移值是前导链起点、终点以及转变成滞后链的信号,反之亦然。这使得GC偏移成为在环状染色体(circular chromosomes)中标记起点和终点的一个有用的工具。3 水平基因转移及其检测 lateral gene transferLateral gene transfer (LGT), also called horizontal gene transfer (HGT), is a phenomenon in which a genome acquires a gene from another organism directly, but not by descent. The g
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆综合基础知识培训课件
- 重庆知识产权培训中心课件
- 新解读《GB 31224-2014气象探测环境保护规范 大气本底站》
- 老年人膝关节痛课件
- 老年人翻身课件
- 《英语口语3》课程介绍与教学大纲
- 老年人智能机知识培训课件
- CN120204242A 白桦脂酸28-O-β-D-葡萄糖苷在制备防治皮肤炎症药物中的应用
- 曲靖到石林多少公里
- 红细胞多高才算异常
- 新解读《建筑工程消防施工质量验收规范 DBJ-T 15-248-2022》
- 以《论语》为翼:高中生价值观构建的教学实践与探索
- 妇产科电子护理文书书写规范
- DB42 1537-2019 农村生活污水处理设施水污染物排放标准
- 第一单元 写作《热爱写作学会观察》课件 学年统编版语文七年级上册
- 钙钛矿有机叠层太阳能电池界面工程与载流子传输机制
- 病媒生物防培训课件
- 影像学检查技术课件
- 2026年高考作文备考之题目解析及范文:“如果……就不妙了”转变为“即使……也没什么”
- 2025至2030年中国油用牡丹行业市场分析研究及发展战略研判报告
- CJ/T 151-2016薄壁不锈钢管
评论
0/150
提交评论