




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学,高通量测序和数据分析,第一部分测序技术及其发展,(基因组/脱氧核糖核酸)测序经历三代技术发展,第一代测序:桑格测序第二代测序:高通量测序第三代测序:单分子测序,含有A、T、C三个脱氧核糖核苷酸,G双脱氧核苷酸等,桑格双脱氧链终止法测序:使用双脱氧核苷酸(ddGTP、ddtp、ddTTP、ddCTP)作为链终止剂(双脱氧核苷酸不具有所需的3-羟基基团因此它可以用作链终止试剂)通过聚合酶的引物延伸产生一系列不同大小的分子,然后分离。 第一代测序:桑格测序。测序引物与单链DNA模板分子结合后,DNA聚合酶使用dNTP延伸引物。延伸反应分四组进行,每组用四种二脱氧核苷酸中的一种终止,四组样品用聚丙烯酰胺凝胶电泳分析。我们需要的序列可以从获得的PAGE胶中读出。它们有一个共同的起点但终止于不同的核苷酸,基于第一代测序技术的全基因组测序主要依靠“鸟枪法”。将目标基因组的DNA随机分成小片段,然后将这些不同大小的小片段分别测序,这些小片段通过重叠关系连接在一起,形成一致的序列,达到测序整个基因组的目的。分级鸟枪法测序和全基因组鸟枪法测序是鸟枪法基因组测序的两种主要方法。分级散弹枪射击需要构建物理地图。全基因组鸟枪不需要构建物理图谱,直接将全基因组随机分成小片段进行测序。操作过程相对简单,但在生成一致的序列时,它依赖强大的计算能力。基于桑格测序的基因组测序技术:第二代测序:高通量测序(NGS)和高通量测序/第二代下一代测序(NGS)同时对数百万至数亿个DNA分子进行平行测序,也称为大规模平行测序。高通量测序可以彻底、细致、完整地分析一个物种的转录组和基因组,因此也被称为深度测序。焦磷酸测序技术:将引物和模板dna退火后,在四种酶脱氧核糖核酸聚合酶、三磷酸腺苷硫合酶、1-脱氧核糖核酸酶和三磷酸腺苷二磷酸(APY酶)的协同作用下,引物上每个脱氧核糖核酸的聚合与荧光信号的释放偶联,通过检测荧光的释放和强度达到实时测定DNA序列的目的。海信q2000/海信q1000平台简介:原理:基于DNA单分子簇合成和测序技术,以及化学反应可逆终止的唯一原理。基因组DNA的随机片段附着在光学透明的玻璃表面(即流动池)。经过延伸和桥接扩增后,这些DNA片段在流式细胞仪上形成数亿个簇,每个簇是一个含有数千个相同模板DNA的单个分子簇。然后,利用四种带有荧光基团的特殊脱氧核苷酸,通过可逆封端的合成测序技术,将捕获的不同光信号转化为特定的峰,得到待测DNA序列的碱基序列,并据此对待测模板DNA进行测序。SBS:添加的dNTP或者通过酶促级联反应催化底物发出特定的荧光信号,或者在合成互补链时释放相应的荧光信号。目前,单次运行可产生600/300千兆字节的数据,测序长度两端可达150-250个碱基。SOLiD测序技术:与合成测序不同,SOLiD是通过连接反应进行测序的,即使用不同的荧光标记的dNTP而不是聚合反应进行多重连接反应。与454测序技术相似,固体测序技术也使用乳液聚合酶链反应来扩增待测的DNA片段。乳液聚合酶链反应扩增完成后,模板变性,然后富集带有模板的磁珠。上的模板固体测序反应在固体载玻片表面进行。每个磁珠被测序以获得序列。离子修正测序技术:利用半导体技术将生化反应与电流强度直接联系起来。在聚合酶反应过程中,每个聚合碱基都会释放出相应的质子,引起周围环境的酸碱度变化,将酸碱度变化转化为电流变化,最后记录电流信号得到测序序列。读取长度约为200bp,根据芯片的不同,一次可以生成10M-20G的数据。与第二代测序不同,第三代分子测序不需要聚合酶链反应扩增,而第二代测序依赖于合成时的DNA模板和固体表面的结合和测序。早在2008年,哈里斯等人就在科学杂志上报道了他们开发的全内参考显微拷贝测序技术。生物科学公司的螺旋镜单分子测序仪;太平洋科学的单分子实时DNA测序技术单分子测序(SMRT)技术;牛津纳米技术有限公司的纳米孔单分子测序技术的技术优势:速度快,测序速度比化学测序快2万倍;阅读长度,三代测序一个阅读长度可以测量数千个碱基(第二代测序可以测量数百个碱基);直接测量核糖核酸的序列;甲基化脱氧核糖核酸序列的直接测量。目前,该技术的主要缺陷是测序错误率高和标记核苷酸成本高。第三代测序:单分子测序、单(rl)配对配对配对(MP)、ngslibrarytype、NGS数据格式、1)fasta格式2)FASTQ格式:Illumina和NCBI等常见网站的数据格式为FASTQ,包括序列信息和测序质量评分信息。4)通过将序列拼接到参考序列而产生的数据格式是SAM格式或BAM格式。下图显示了SAM格式的数据:3)固态平台数据通常分为两个独立的文件:一个是CSFASTA文件,另一个是QUAL文件。QUAL文件包含质量评估信息。CSFASTA与FASTA的不同之处在于序列的碱基位于不同的颜色区间,数字0-3用于表示两个相连的碱基。NGS应用范围,基因组测序平台选择:1)专家目的(重新测序/去核)2)基因组大小3)基因组复杂性,NGS测序过程和数据分析。NGS测序平台:NGS测序库:PE,MPNGS功能:高通量:(600 GB/次)读取长度:(35 1000 BP/次)成本更低:(0.01美元/Mb)NGS数据格式:fasta,fastqNGS应用范围:基因组,染色质,转录组,高通量测序/第二代测序,NGS),高通量测序数据分析过程,基因组测量装配,基因组装配是重组基因组的过程,1,2,3,important conceptionassembly contiguousssequenceofdnacreatedbyassemblingoverlappingsequencedfragmentsofacycle(无论是自然人工的,还是单个的),scaffoldaseriesofcontighthatareintherorderbutarentnecessaliconnectedinonecontinuusstretchofsequence,GenomeAssembly,Greadyheuristics基于贪婪策略给出初始contigue(读取),并根据给定的标准和基于读取之间的重叠关系逐库扩展。达到延长重叠群目的的常用标准包括:选择具有最长重叠的给定标准,选择具有最高通用性的基础,等等。需要在长度和精度之间找到平衡:标准重叠群长度精度标准重叠群长度精度此方法直观且相对简单、初始读取,当候选扩展差异很小时,贪婪方法会导致拼接中断,需要大量内存来存储计算所需的数据,并且无法有效处理大量数据计算。不能处理基因组中的重复序列,贪婪算法的局限性:软件:s sake,sharcg,vcake,PE-assembler等,重叠-布局-一致性(OLC)算法OLC算法的基本思想是基于多序列比对获得共同(一致)序列。它主要由三个步骤完成:重叠阶段:对所有序列进行全对全比较,搜索序列之间的重叠部分,生成重叠信息以构建重叠图;布局阶段:OLC拼接的核心步骤。排列所有读取,确定它们之间的相对位置,以每个序列片段为节点构建重叠图,通过对重叠图的分析,搜索待检测基因组片段对应的路径集,即搜索形成的重叠群;一致性阶段:包含在重叠群中的读数进行多序列比对,以构建一致性序列,即最终的一致性序列。软件:阿拉克尼,PHRAP,CAP,TIGR,CELERAETC,德布鲁因基于图的算法(DBG算法用于短序列拼接),德布鲁因算法被广泛使用。拼接技术和OLC算法有许多相似之处。主要区别在于构造算法图的策略不同。主要步骤是:a .将序列分解成长度为K的多个子序列;b .通过k-mer构造deBruijn图;找到欧拉的路径。每个k-mer充当图中的一个节点。如果两个K-MERs在同一次读取中相邻,则形成一个边缘。所有长度为k的子序列将被转换成图中的一个节点。拼接问题的等价变换是在德布鲁日图中只找到一条通过每个节点的路径(欧拉路径)。K合并,使用固定的K值,不能有效地处理重复序列的覆盖区域,K=3,气泡结构的解决方案:使用迭代算法:首先使用小的K值来保证更好的连通性,然后逐渐增加K值来去除重复序列,软件: oapdenovo,天鹅绒,ALLPATHS,EverlAnD等,比较主汇编软件,天鹅绒进行基因组汇编,该软件由欧洲生物信息中心(EMBL-EBI)开发,在Linux系统下运行天龙基因组汇编软件。它主要用于短阅读长度序列的剪接和测序,如索莱沙和固体测序序列。支持各种来源的测序数据,包括海信的短读和454的长读。能够处理各种格式的数据,如fasta、fastq、fasta.gz、fastq.gz、sam、bam。输出结果是简洁的重叠群,同时描述了覆盖结果的直方图和详细图表,可以通过第三方软件以图形方式显示。Test Ubuntu : $ Sudoapt-GetInstallVelver #软件安装,#输入密码,#安装成功,Test Ubuntu : $ veleth-h,#测试成功安装,#支持的读取类型数,#支持最大K值,#用法介绍,#版本号,Vleveth用法:Vlevethutput _ DIrectory HASH _ LENGTH-FILE _ FORMAT-READ _ TYPEFILENAME,1。用给定的K-mer长度值格式化用户指定的数据。2.Velvetg实现基因组组装来组装格式化数据。天鹅绒。/velet TT _ output 31。/test1.fa./test2.fa #格式化k-mer值为31的test1.fa和test2.fa文件。结果被放在velvett _ output文件夹下。Output_directory:输出文件所在路径的名称(即创建一个文件夹来存储结果文件)hash_length:也称为k-merlength,默认值为31bp,值越大,内存需求就越大文件名:标准输入文件名,平绒分两步(平绒elvetg):Vlevetg用法:平绒put _ directory-ins _ length-exp _ cover(其他参数.),输入目录:与输出目录一致,长度:插入长度-输入长度:两个成对的标题-exp_cov:预期覆盖率。天鹅绒。/Slulett _ Output-INS _ Length 150-EXP _ COV 30.5 #计算Slulett _ Output文件夹下的文件,其中插入长度为150,预期覆盖率为30.5。测试 Ubuntu : $ mkdirbiosoft #创建文件夹biosoft复制天鹅绒_数据文件夹到biosoft文件。3.testubuntu:$cdbiosoft#切换路径到4.test ubuntu : /biosoft $天鹅绒。/velet TT _ output 31。/velet data/test _ long . fa,4。测试 Ubuntu : /Biosoft/$天鹅绒。/平绒产量,不同数据量和k-mer值对平绒产量的影响,基因预测,原核和真核基因结构预测涉及不同问题,酿酒酵母:基因组的70%由基因组成。约5%的基因含有内含子(1)果蝇:25%的基因组由基因组成,80%的基因含有内含子(14)哺乳动物和高等植物:1%3%的基因组由基因组成,90%以上的基因含有内含子(112),原核生物:基因密度高,大部分基因不含内含子真核生物:基因密度低,大部分基因含有内含子,且不同物种之间存在很大差异。基因结构预测方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市财政机关管理制度
- 招投标公司管理制度
- 服务站场地管理制度
- 标书制作员管理制度
- 核酸码归谁管理制度
- 棋牌游戏室管理制度
- 模压门刀具管理制度
- 比利时大楼管理制度
- 民工副校长管理制度
- 气排球球场管理制度
- 基于单片机的粮仓环境监测系统设计毕业论文
- 电力行业招投标培训
- 2024年云南省中考物理试题含答案
- 2024年石家庄市市属国企业面向社会公开招聘403名管理人员及专业技术人员高频难、易错点500题模拟试题附带答案详解
- 医药代表聘用合同模板
- 2024-2030年中国公路工程行业市场发展分析及前景预判与投资研究报告
- 工伤预防宣传和培训 投标方案(技术方案)
- 古代小说戏曲专题-形考任务4-国开-参考资料
- 2.4圆周角(第1课时)(课件)九年级数学上册(苏科版)
- 杆塔组立施工安全检查表
- 基于项目化学习的数学跨学科作业设计
评论
0/150
提交评论