生物信息学复习笔记.doc_第1页
生物信息学复习笔记.doc_第2页
生物信息学复习笔记.doc_第3页
生物信息学复习笔记.doc_第4页
生物信息学复习笔记.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学2018年12月21日14:33填空,选择,计算,简答,名词解释几代测序的代表平台,优缺点一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法Sanger法核心原理是:由于ddNTP的2和3都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了 (1)DNA待测文库构建利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。 (2)FlowcellFlowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。 (3)桥式PCR扩增与变性桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。(4)测序测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基本原理是: DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。第X代公司平台名称测序方法检测方法大约读长(碱基数)优点相对局限性第一代ABI/生命技术公司3130xL-3730xL桑格-毛细管电泳测序法荧光/光学600-1000高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列通量低;样品制备成本高,使之难以做大量的平行测序第一代贝克曼GeXP遗传分析系统桑格-毛细管电泳测序法荧光/光学600-1000高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列;易小型化通量低;单个样品的制备成本相对较高第二代Roche/454基因组测序仪FLX系统焦磷酸测序法光学230-400在第二代中最高读长;比第一代的测序通量大样品制备较难;难于处理重复和同种碱基多聚区域;试剂冲洗带来错误累积;仪器昂贵第二代IlluminaHiSeq2000,HiSeq2500/MiSeq可逆链终止物和合成测序法荧光/光学2x150很高测序通量仪器昂贵;用于数据删节和分析的费用很高第二代ABI/Solid5500xlSolid系统连接测序法荧光/光学25-35很高测序通量;在广为接受的几种第二代平台中,所要拼接出人类基因组的试剂成本最低测序运行时间长;读长短,造成成本高,数据分析困难和基因组拼接困难;仪器昂贵第二代赫利克斯Heliscope单分子合成测序法荧光/光学25-30高通量;在第二代中属于单分子性质的测序技术读长短,推高了测序成本,降低了基因组拼接的质量;仪器非常昂贵第三代太平洋生物科学公司PacBio RS实时单分子DNA测序荧光/光学1000高平均读长,比第一代的测序时间降低;不需要扩增;最长单个读长接近3000碱基并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低(81-83%);DNA聚合酶在阵列中降解;总体上每个碱基测序成本高(仪器昂贵);第三代全基因组学公司GeXP遗传分析系统复合探针锚杂交和连接技术荧光/光学10在第三代中通量最高;在所有测序技术中,用于拼接一个人基因组的试剂成本最低;每个测序步骤独立,使错误的累积变得最低低读长;模板制备妨碍长重复序列区域测序;样品制备费事;尚无商业化供应的仪器第三代Ion Torrent/生命技术公司个人基因组测序仪(PGM)合成测序法以离子敏感场效应晶体管检测pH值变化100-200对核酸碱基的掺入可直接测定;在自然条件下进行DNA合成(不需要使用修饰过的碱基)一步步的洗脱过程可导致错误累积;阅读高重复和同种多聚序列时有潜在困难;第三代牛津纳米孔公司gridION纳米孔外切酶测序电流尚未定量有潜力达到高读长;可以成本生产纳米孔;无需荧光标记或光学手段切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置LAMP架构Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。序列比对,重中之重,肯定会有计算题,全局比对,局部比对Sequence A: CAATTGASequence B: GAATCTGCTheir optimal alignment生物信息相关的重要数据库:序列数据库,结构数据库等,送几分多序列比对,SP模型,线性比对目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段设:有k个序列s1, s2, . ,sk,每个序列由同一个字母表中的字符组成,k大于2。通过插入操作,使得各序列达到一样的长度。意义:用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。其他应用,如构建profile,打分矩阵等。1、SP(Sum-of-Pairs)模型逐对加和SP(sum-of-pairs)函数 1、计算多序列比对的SP模型得分,打分矩阵用课本中的PAM250矩阵,P(-,-)=0,任意氨基酸与得分为-1。2、计算AACTCAT,CCATAAT,GTAACAT,GACCACT4条序列的PSSM(计算步骤参见课本P63)基因组组装,主要复杂在几个问题上,正反向都有等,贪婪算法和拓扑排序等基因组组装存在的主要问题: 碱基错误片段的方向未知存在重复区域缺少覆盖用贪婪法和非循环子图拓扑排序方法实现课件中几条序列的组装。贪婪算法简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。称经过处理后的新图为F的覆盖图,记为OG(F)。贪婪算法的核心思想就是逐步加入满足哈密顿路径条件的最大权值的边 无回路节点出度为1(不可能有两条边同时从某个顶点出发)节点入度为1 (不可能有两条边同时终止于某个顶点) 例如,设序列片段集合F=CA,ATCA,TGCAT,其覆盖图如图3.28实线所示,这里去掉了权值为0的边。依次取两条权值为2的边,形成一条哈密顿路径。贪婪算法并不能保证总是产生出最佳的结果。如果将F第一个序列改为CATCA,则在原来的图中将加上虚线所示的边。按照贪婪算法,首先选择权值为3的虚线边,然而这样一来,其它两条权值为2的边都不能再选了,因为将它们加入后不满足哈密顿路径的条件。于是,算法只能选择权值为0的边,以建立完整的哈密顿路径,总的权值为3。可是,上述另外两条被拒绝的边形成一条哈密顿路径,并且权值和等于4,是权值最高的一条哈密顿路径,但贪婪算法找不到该路径。假设检验,多元统计,没有计算只有相关概念4.2.2.2 假设检验问题 从样本值出发,判断关于总体分布的某种假设是否成立。举例 为验证一硬币是否匀称(即正反两面出现的概率是否相等),做投掷试验。假定试验结果有以下两个:(1)正面55次,反面45次;(2)正面40次,反面60次。如何判断该硬币是否匀称?假设检验的步骤:分析题意,提出假设,确定显著性水平,计算检验统计量,做出推断假设检验的基础: 小概率原理,即小概率事件在一次随机抽样中不可能发生。多元统计方法概述运用数理统计方法研究多变量、多因素问题 多元统计分析理论和方法多元统计分析研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题。多元统计分析的主要研究内容和方法1、降维问题(简化数据结构) (1) 将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的变量 (2) 把高维空间的数据投影到低维空间,使问题得到简化的同时损失的信息不太多。 主成分分析 因子分析 对应分析2、归类问题 对所考察的观测样本(或变量)按照相似程度进行分类、归类 聚类分析 判别分析3、变量间的相互联系 (1) 相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化。建立变量间的定量关系,并用于预测或控制 回归分析 (2) 变量间的相互关系:分析两组变量间的相互关系 典型相关性分析分子生物学的一些基本内容,起始密码子和终止密码子等隐马尔科夫模型,肯定有计算题神经网络,不考计算题,只考概念计算:动态规划,HMM(PSMM)sanger二代,三代测序的优缺点,平台Linux 数据库类型,名称,序列,结构代谢网络(KEGG)LAMP:linux,Apache,Mysql,PHP原核基因组特点:真核基因组特点:人工神经网络,不靠计算,概念理解标准剪切公式计算题老师说动态规划(序列比对中的),隐马尔夫模型肯定考,PSSM矩阵可能考,然后原核生物与真核生物基因组的结构应该会考,其它的估计PPT老师讲过的应该都会涉及到,题型有填空题,选择题,计算题,名词解释,论述题,简答题最好也注意一下几代DNA测序的优劣,我记得这是第一次作业,老师没有把作业发给我们名词解释2018年12月21日14:33生物信息学:研究大量生物数据复杂关系的学科,多学科交叉,以互联网为媒介,数据库为载体,利用数学知识建立数学模型,对生物学数据进行储存,检索,处理及分析解释二级数据库:在一级数据库的基础上针对特定的目标衍生而来,对生物学知识和信息的进一步整理FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号代表一个新文件的开始genbank序列格式:是GenBank数据库的基本信息单位,是最广泛的生物信息学序列格式之一Entrez检索系统:NCBI开发的核心检索系统,继承了NCBI的各种数据库BLAST:基本局部比对搜索工具,对需要检索的序列与数据库中的每个序列进行相似性比较查询序列(query sequence):也称被检索序列,用来被检索并进行相似性比较的序列打分矩阵(scoring matrix):相似性检索中对序列两两比对的质量评估方法空位(gap):序列比对时,由于长度不同,需要插入空位以取得最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论