2019版国科大生物信息学期末考试复习题.pdf_第1页
2019版国科大生物信息学期末考试复习题.pdf_第2页
2019版国科大生物信息学期末考试复习题.pdf_第3页
2019版国科大生物信息学期末考试复习题.pdf_第4页
2019版国科大生物信息学期末考试复习题.pdf_第5页
已阅读5页,还剩16页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中科院中科院生物信息学期末考试复习题生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息为什么在大规模测序研究中,生物信息 学至关重要?学至关重要? 答:生物信息学有三个方面的含义: 1) 生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和 解释的所有方面,是基因组研究不可分割的部分。 2) 生物信息学是把基因组 DNA 序列信息分析作为源头,破译隐藏在 DNA 序列中的遗传语 言, 特别是非编码区的实质; 同时在发现了新基因信息之后进行蛋白质空间结构模拟和 预测;其本质是识别基因信号。 3) 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科 学问题的有机结合。 2 2. .如何利用数据库信息发现新基因,如何利用数据库信息发现新基因,其算法其算法本质本质是什么是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分 2 种不同的查找方式: 1) 从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序 列,预测新 ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。) 利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新 基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:基于信号,如剪切位 点、序列中的启动子与终止子等。基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2) 利用 EST 数据库发现新基因和新 SNPs: (归属于同一基因的 EST 片断一定有 overlapping,通过 alignment 可组装成一完整的基 因,但 EST 片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段, EST 较短, 故关键在正确拼接。 方法有基因组序列比对、 拼接、组装法等。经常采用 SiClone 策略。其主要步骤有:构建数据库;将序列纯化格式标 准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入 contig 库 构建若干数据库: 总的纯化的 EST 数据库, 种子数据库, 载体数据库, 杂质、 引物数据库, 蛋白数据库,cDNA 数据库; 用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; 用种子和纯化的 EST 数据库比对 用经过一次比对得到的长的片段和蛋白数据库、 cDNA 数据库比较, 判断是否为已有序列, 再利用该大片段与纯化的 EST 数据库比对,重复以上步骤,直到序列不能再延伸; 判断是否为全长 cDNA 序列。 (利用 EST 数据库: 原理: 当测序获得一条 EST 序列时, 它来自哪一个基因的哪个区域是未知的 (随机的) , 所以属于同一个基因的不同 EST 序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个 基因的所有 EST 序列,进而将它们拼接成和完整基因相对应的全长 cDNA 序列。而到目前为止,公共 EST 数 据库(dbEST)中已经收集到约 800 万条的人的 EST 序列。估计这些序列已覆盖了人类全部基因的 95%以上, 平均起来每个基因有 10 倍以上的覆盖率。) 3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?当前的困难是什用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?当前的困难是什 么,如何克服?么,如何克服? 答:计算步骤,计算步骤,构建系统进化树,其主要步骤如下构建系统进化树,其主要步骤如下: (1.序列相似性比较: 就是将待研究序列与 DNA 或蛋白质序列库进行比较,用于确定该 序列的生物属性, 也就是找出与此序列相似的已知序列是什么, 完成这一工作只需要使用两 两序列比较算法。常用的序列包有 BBLAST、FASTA 等; (2. 序列同源性分析:将待研究序列加入到一组与之同源,但来自不同物种的序列中进 行多序列同时比较, 以确定该序列与其他序列间的同源性大小, 这是理论分析方法中最关键 的一步,完成这一工作必须使用多序列比较算法,常用的程序包有 CLUSTAL 等; (3.构建系统进化树: 根据序列同源性分析的结果, 重建反应物种间进化关系的进化树, 为完成这一工作,已发展了多种软件包,如 PYLIP、MEGA 等 (4.稳定性检验:为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构 建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通 用的方法使用 Bootstrap 算法,相应的软件已包括在构建系统进化树所用的软件包当中。 当前的主要困难当前的主要困难:是发现了基因的横向迁移(LGT)现象,即进化程度不同的物种间存 在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。 克服克服 LGT 的方法的方法(可能的解决途径)(可能的解决途径): 1) 纵向思路: 选择垂直进化而来的序列进行研究, 即去除横向迁移的数据库, 如 COG 数据库; 2) 横向思路:发展基于完整基因组构建进化树,即使用全基因组数据库进行基因组 水平上的对比; 4.什么是什么是 SNP?为什么为什么 SNP 的研究是重要的的研究是重要的?SNP 研究有哪些优点?研究有哪些优点?举出举出 23 个个 SNP 相关的网站。相关的网站。 答: SNP 是指单核苷酸多态性是指单核苷酸多态性, 主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性, 代表了基因组水平上遗传密码的变异, 由于这种变异很多以单碱基突变的形式 出现,因此称为单核苷酸多态性;它反映了不同个体间、正常与异常个体之间基因组上的差 别,现在这个概念有所扩大,不限于一个核苷酸的差异。 重要性:重要性:因为 SNP 研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现 型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。 优点:优点: (1)SNP 在基因组中分布相当广泛,使人们有机会发现与各种疾病相关的基因组突变; (2)不直接导致疾病基因表达的 SNP,与某些疾病基因相邻,成为重要标记,有助于发现 疾病基因 (3)从实验操作来看,通过 SNP 发现疾病相关基因突变,比通过家系发现更加容易。 (4)基础研究中非常重要,如对 Y 染色体 SNP 分析有重要成果。 SNP 相关的一些网站:相关的一些网站: 1) SNP Consortiums database(/index.html) 2) NCBI SNP database 将这些数据进行整理,去掉冗余,使每个 SNP 都是唯一的。此时的 SNP 被称为 reference SNP 或 refSNP。((/SNP/overview.html) 3) The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中 所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。 (http:/hgbase.cgr.ki.se/) 4) The Human Gene Mutation Database(HGMD)(/) 5. 什么是系统生物学?系统生物学对生命科学概念上的发展?什么是系统生物学?系统生物学对生命科学概念上的发展?系统生物学对生系统生物学对生 物功能实现的理解有何本质变化物功能实现的理解有何本质变化?系统生物学的研究思路是什么?系统生物学的研究思路是什么? 答:系统生物学是指在系统的层面上研究生命活动,包含三个相互衔接的组成三个相互衔接的组成: 整合数据, 即整合所有各个层次 (DNA 水平, RNA 水平, 蛋白质水平, 蛋白质相互作用水平) 的信息数据; 系统建模,即用这些信息构建描绘生命活动的数学模型; 预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异。 学术学术概念上的发展主要有概念上的发展主要有:传统生物学是从基因组序列到结构,再到功能,而它从各个层次 的相互作用到网络,再到功能。与以往不同的是,系统生物学一开始就考虑元件之间的相互 作用,把整个生命活动作为网络,考虑其相互作用。 看待生命活动本质的变化:看待生命活动本质的变化: 因为没有一个生命活动是靠一个基因完成的, 生命活动是一组基 因相互作用实现的,这种相互作用形成一个网络,既包括每个单元的结构,又包括单元与单 元之间的相互作用。因此,系统生物学不仅考虑每个基因的活动,还描述了基因间的相互作 用并导致了网络的产生。 研究思路的变化:研究思路的变化:传统的分子生物学研究步骤一般为:DNA 序列蛋白结构蛋白功能 (一 维),而系统生物学是在二维的角度研究生命科学,即:相互作用网络功能,是由一组 基因产生并相互作用共同实现的。 系统生物学的研究思路系统生物学的研究思路(研究流程):(研究流程): 1.针对选定生物系统进行实验设计,了解系统所有组成成分:基因,RNA,蛋白,膜脂等 2.通过系统行为动力学分析,总结系统设计和控制规律 3.通过总结规律来提出新的实验设计,验证系统模拟的正确性 6.(1)什么是非编码序列,非编码)什么是非编码序列,非编码 RNA,非编码基因?,非编码基因? (2)以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录)以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录 本,举本,举 23 个非编码核酸的生物学功能?个非编码核酸的生物学功能? 答:(1)非编码序列非编码序列是基因组中不编码蛋白质和多肽的序列;(基因组中不归属于基因调控 元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列,即不编码 蛋白质同时也无明确生物学功能的序列) 非编码非编码 RNA 是指来自基因组的非编码的转录元件,即基因组中非编码序列的转录本; 非编码基因非编码基因指那些具有明确生物学功能的非编码 RNA 在基因组上非编码序列上的位置,即 功能性的非编码 RNA 对应基因组上的位置称为非编码基因; (2)人类基因组中 9798%的序列是非编码序列,有 70%80%存在转录本,非编码核酸 的生物学功能: 1) Xist:X-inactivation(X 染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转 录被抑制从而失活,抑制转录是通过一个 2kb 的非编码 RNA(Xist RNA)实现的,xist RNA 装配在失活 X 染色体的外侧,引起结构改变导致失活; 2) Small RNA and RNAi: RNAi 是由 RNA(siRNA、microRNA)导致的转录后基因沉默现 象,如由双链小 RNA 引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的 转座子沉默;一些小核 RNA 调控基因转录。(单链易降解,但发现细胞中存在另一种 pathway, 双链小RNA进入细胞后结合组蛋白形成复合体, 该复合体和识别并降解target) 3) piRNA(具有大量转录本,功能不详)和 Prions(生物复杂度到一定程度后会出现发病 情况,可能和非编码 RNA 有关)等。 7.精准医学的重大意义是什么?实现精准医学的重要基础是什么?精准医学的重大意义是什么?实现精准医学的重要基础是什么? 精准医学的重大意义; 精准医学有可能导致医疗体系本质上的转变, 把目前的医疗体系由诊 断治疗过渡到健康保障,使得健康体系的关口前移,有可能产生新兴产业。健康人可以通过 组学等一系列研究,对现在的健康作以评估。在健康检查的基础上,对未来可能导致疾病的 部分进行干预,使得能够延缓疾病的发生,或者排除某些疾病的发生,使得健康得以保障。 实现精准医学的重要基础: 1.必须获取分子水平上的数据信息,并挖掘其内涵,在挖掘组学数据时,一定要使用大 数据分析技术, 因此是大数据与组学的交汇。 组学包括基因组, 转录组, 蛋白质组, 代谢组; 大数据包括人群和队列 2.建立分子水平上的知识与宏观疾病表型的联系,即基因型和表型的关联,搭建分子水 平信息和疾病间的桥梁,在搭建桥梁时,生物信息学,生物网络,系统生物学的知识是其核 心知识。 3.在此基础上,融合临床检验,影像学等指标,使得医学做得更加精准。 【定义: 精准医学是以个体化医疗为基础、 随着基因组测序技术快速进步以及生物信息与大 数据科学的交叉应用而发展起来的新型医学概念与医疗模式。 本质上:是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病 类型进行生物标志物的分析与鉴定、 验证与应用, 从而精确寻找到疾病的原因和治疗的靶点, 并对一种疾病不同状态和过程进行精确亚分类, 最终实现对于疾病和特定患者进行个性化精 准治疗的目的,提高疾病诊治与预防的效益。 精准医学是因人因病而异的、 更加精确的个体化医疗, 其进步之处是将人们对疾病机制的认 识与生物大数据和信息科学相交叉, 精确进行疾病分类及诊断, 为疾病患者提供更具针对性 和有效性的防疗措施,最终目的是更好地为患者服务。 与个体化医疗相比,精准医疗更重视“病”的深度特征和“药”的高度精准性;是在对人、 病、药深度认识基础上,形成的高水平医疗技术。精准医学实现了从诊断治疗到健康保障这 一本质性转变。 精准医学包括精准诊断和精准治疗,而“迈向精准医学”需要构造的生物医学知识网络是建 立在系统生物学的基础之上。 实施精准医学计划的战略意义总共有 4 点:提高疾病诊治水平,惠及民生与国民健康;推动 医学科技前沿发展,增强国际竞争力;发展医药生物技术,促进医疗体制改革;形成经济新增 长点,带动大健康产业发展。】 【有可能将基因组变异作为疾病诊断, 精准医学导致医疗体系本质的转变, 把目前阶段 治疗过渡到健康保障,使健康体系关口前移,在健康筛查基础上,排除疾病发生。就是评估 -检查-干预的过程。 基础:1 获取分子水平上数据信息,挖掘信息内容,发展大数据新算法,理论技术如组 学的信息。2 建立分子水平知识宏观疾病表型关联,搭建分子水平信息与疾病的桥梁。 问题:样本量少,有效治疗事件频率低,疾病相关复杂网络构建分析的困难。】 陈小伟老师部分: 1.芯片间标准化的方法:芯片间标准化的方法: 基本方法:芯片间标准化的目的是基于 Gene1Gene5 五个基因表达量理论的和应该保持恒 定,即 S1S3 三列每一列的和是相等的。但实际测定过程中不可能完全相等,因此将这种不 等归结于每一组芯片自身的差异而进行芯片间标准化, 基本步骤为通过排序取平均重新排序 的方法消除芯片间误差,从而可以得到每一组基因表达量的真实值。 (老师给的这组芯片基 因完全相同的情况下 S3 一列数据明显偏高,通过这种标准化实现了芯片间差异的消除)。 【Quantile 归一化过程: 首先假设不同芯片整体分布一致,归一化后芯片的分布一样。 下图四个部分代表四步,行代表基因,列代表样本,图一对每个列的表达值排序,图二计算 每行的平均值, 图三用每行计算的平均值代替该行的原值, 图四将排序后的行恢复到未排序 前的位置。】 排序:每列由小到大排序,而可以得到 每一组基因表达量的真实值 求排的平均值作为标准值 重排:按颜色重排 2. FDR 控制假阳性的方法控制假阳性的方法BenjaminiHochberg procedure 基本方法基本方法:对于 m 个独立的样本,其 p-value 记为 pi,i=1,2,3m; (1)对所有的 p-value 进行从小到大排序p(1)p(2) p(m); (2)对于一个给定的 (此时的 即为统计里的显著水平,范围 01,通常取 0.05),找到 最大的 k 值,满足错误错误!未找到引用源。未找到引用源。; (3)拒绝从 p(1)p(k)的无效假设 H0(即表示 p(1)p(k)表达量存在显著差异)。 计算方法计算方法 1(=0.05):): P(4)=0.030.05*5/6=0.041; k=4. 即 G2, G6, G5, G4 差异表达,FDR0.05 计算方法计算方法 2(q-value 法):法): 根据错误错误!未找到引用源未找到引用源。可以推出错误错误!未找到引用源未找到引用源。因此直接计算并与 进 行对比即可: 由于 G3 的 q-value 大于 0.05,因此 G2, G6, G5, G4 差异表达。 【FDR 过程,如何控制 FDR: 首先,FDR 过程是为了控制假阳性率的过程。假阳性指样本本质为假但判定为真。比 如在找到一组差异表达的基因之后, 我们要考虑这个差异是否够显著, 即假阳性率是否足够 低。 BH 过程是 FDR 矫正的一种,首先对检验得到的 P 值进行排序,然后从 1 开始增加找 K 的值,使 K 满足,其中 m 为个数,a 一般取 0.05 或 0.1。所有满足 P 值的基因 认为表达有显著差异且假阳性不超过 a。】 3. 转录本表达量的表示方法(转录本表达量的表示方法(RPKM:Reads Per Kilobase of transcript per Million mapped reads):): (1)RPKM 的作用: RNA-seq 是透过次世代定序的技术来侦测基因表现量的方法, 在衡量基因表现量时, 若是单 纯以 map 到的 read 数来计算基因的表现量,在统计上是一件相当不合理的事,因为在随机 抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序 列长的基因永远会被认为表现量较高,而错估基因真正的表现量,所以 Ali Mortazavi 等人 在 2008 年提出以 RPKM 在估计基因的表现量 假设一个物种的基因组上只有两个基因,基因 G1 的外显子长 8 Kb,基因 G2 的外显子长 2 Kb。对该物种的一个样本做 RNA-seq,共得到 23 millions 的 read,其中能够比对到 G1 的 read 有 16 million 个,能够比对到 G2 的有 4 million 个.计算 G1 和 G2 的 RPKM。 Total mapped reads=16 million+4 million=20 million G1: total exon reads=16,000,000 exon length=8kb RPKM=16,000,000/(20*8)=100,000 G2: total exon reads=4,000,000 exon length=2kb RPKM=4,000,000/(20*2)=100,000 (2)FPKM 与与 RPKM 的区别:的区别: 两者基本相同。RPKM 代表 Reads Per Kilobase of transcript per Million mapped reads,FPKM 代表 Fragments Per Kilobase of transcript per Million mapped reads。 在 RNA-Seq 中, 由于 cDNA 来源于 RNA 的逆转录,转录物的表达量与 cDNA 片段成比例。RNA-Seq 配对末端实验每个 片段产生两个 reads,但这并不意味着两个 reads 都可在图上标注。例如,第二个 read 低品 质。如果我们对 read 计数而不是片段,我们可能对某些片段重复计数,而对另一些只计一 total exon reads RPKM total mapped reads (millions) * exon length (KB) = 次,导致对表达量估计的偏差。因此 FPKM 以片段为单位计数,而不是 reads 数。(来源于 网上,原网址:/faq.html#fpkm) 预测:预测: 1.高通量测序数据分析总括:高通量测序数据分析总括: 高通量测序数据库程序读出的 reads 数据及对应的质量分值以文件格式为 fastq 的格式保存。 测序的原始数据为荧光信号, 首先将荧光信号转换为序列信息, 即读段数据及对应的质量 分值; 为了方便测序数据的发布和共享, 一般需要对数据进行格式化转换, 最常用的数据格式为 fastq 格式; 对得到的原始数据必须对其质量进行评估,评估指标包括 G、C 含量,碱基质量,插入分 布等。方便过滤掉质量较差的读段; 若数据质量评估过关,接着将原始读长通过序列映射定位到基因组上;若无参考基因组, 则必须使用 denovo 的组装方法; 得到测序数据的组装图后, 便可根据实验目的对组装好的数据进行相关分析, 如分析基因 的剪接位点,SNP 位点,变异位点还可以分析基因的差异化表达(RNA-Seq),转录因子结 合位点(Chip-Seq),甲基化模式(MeDIP-Seq),同时还可利用此数据发现新的编码基因 和非编码基因; 使用可视化组件对分析结果进行可视化处理。 2.表达表达谱数据分析流程谱数据分析流程 IntensityExpression profileQuality controlNormalizationDifferential gene expression analysis 基因芯片在一个颜色通道扫描后得到的原式图是色调单一,强度不同的亮点陈列图; 将原始的图像数据转换为基因表达矩阵; 对得到的基因表达矩阵的数据质量进行检测, 对得到的数据进行统计学分析, 从而估计和 校正试验误差,筛选出有效数据。 标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响。 标准化包括 芯片内的标准化和芯片之间的数据标准化。 芯片内的标准化方法, 如局部加权线性回归标准 化,参照点标准化,芯片之间的标准化方法如 Quantile; 前几部都是对表达谱数据的预处理,后期的数据分析包括差异基因表达分析、聚类分析、 判别分析等; a)差别基因表达分析可分析不同样本中起关键作用的基因,为后续研究提供方向; b)聚类分析是基因表达谱最广泛使用的统计技术, 聚类分析的目的再与寻找可能标准化或关 联的基因,从而预测位置基因的功能信息或已知基因的未知功能; c)判别分析能够依据样本的某些特性,判别样本的所属类型,利用已有数据建立分类器,然 后利用建立的分类器对未知样本的功能或状态进行预测。方法主要有 SVM,贝叶斯分类和 神经网络法等。 3.无生物学重复和有生物学重复时如何进行差异表达分析?无生物学重复和有生物学重复时如何进行差异表达分析? 答:(1)无生物学重复:)无生物学重复: 方法:FC(Fold change 倍数变化) 描述数据初值与终值之间的差异(一般是两个差别表达基因间或处理与对照之间),用标 准化后的两组数据相除得到的比例,一般 2-fold 表明两组数据是有显著差异的; 这种计算方法可以得到一组相对值, 而不是绝对值变化, 消除了系统误差以便于统计学分 析; 一般得到的 FC 值与设定的阈值进行比较即可得到表达有差异的基因; (2)有生物学重复:)有生物学重复: 方法:假设检验 a)具体步骤:提出实际问题;提出无效假设(H0)与备择假设(H1);选择显著性水 平(一般 =0.05);选择统计模型与相应的统计量;根据实验结果计算实验统计量; 判断检验统计量的 p-值 (表示事件发生的概率具有偶然性);将 p 值同选定的显著性水平 比较;拒绝或不拒绝 H0;回答所提出的实际问题。 b)假设检验根据数据类型(是否符合正态性)分为参数检验与非参数检验: 参数检验:符合正态分布可使用,常用的方法主要有 t 检验法,配对 t 检验法、最小二乘 法 非参数检验:不符合正态分布可使用,常用的方法有 Wilcoxon 秩和检验法,其基本方法 是根据表达量排序并按照排列顺序检验,检验结果较参数检验法更粗犷。 4.全基因组测序的步骤?全基因组测序的步骤? 答:(1)第一期:基因组调研图 整体测序深度不低于 20 倍覆盖度。 进行初步的数据分析,对基因组大小, GC 含量等做出初 步评估,确定框架图梯度文库构建具体策略; (2)第二期:基因组框架图 基因组覆盖度达到 90% 以上,基因区覆盖度达到 95% 以上,单碱基的错误率达到 1 万分 之一以内,整体测序覆盖深度不低于 60 倍覆盖度。同时对框架图进行基本基因注释和功能 注释,和简单的比较基因组学分析。 (3)第三期:基因组精细图 基因组覆盖度达到 95% 以上,基因区覆盖度达到 98% 以上,单碱基的错误率达到 10 万分 之一以内,整体基因组覆盖度不低于 100 倍,Scaffold N50 大小不低于 300Kb,对基因组精 细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。 5. 转录本测序,各数据分析工具的特点?转录本测序,各数据分析工具的特点? 转录本测序可分为 Small RNA-seq 和 RNA-seq: Small RNA-seq 主要用于检测 small RNA(主要是 miRNA)的表达水平,发现新的 small RNA RNA-seq: Poly(A)用以检测蛋白质编码基因的可变剪切体及表达水平; Total RNA (除 rRNA) 用于检测 mRNA 及 long noncoding RNA 的表达水平并发现新的 long noncoding RNA;数据 分析工具主要有:Bowtie,TopHat,Cufflinks,具体作用如下: a)Bowtie 是一个超级快速的, 较为节省内存的短序列拼接至模板基因组的工具。 它在拼接 35 碱基长度的序列时,可以达到每小时 2.5 亿次的拼接速度。Bowtie 并不是一个简单的拼接工 具,它不同于 Blast 等。它适合的工作是将小序列比对至大基因组上去。它最长能读取 1024 个碱基的片段。 b)TopHat 是一个快速的将 RNA-Seq 数据进行快速剪接映射的程序。 它使用超快的高通量短 读比对程序,将 RNA-Seq 的信息比对到哺乳动物大小基因组上,然后分析映射结果来鉴别 外显子之间的剪接点。 c)Cufflinks 利用 Tophat 比对的结果(alignments)来组装转录本,估计这些转录本的丰度, 并且检测样本间的差异表达及可变剪接调控。它通过接受线性的 RNA-Seq reads 并将线性片 段组装为一套最大简约的(parsimonious)转录本。然后根据 reads 数估计估计相关转录本的 丰度并将实验室预设的偏差考虑在内。 6.转录本拼接转录本拼接 最大简约转录本的组装方法: 组装一套转录本在链中找到最小的分割单元 P找到最 大的反义链在二分图中找到最大匹配数找到最小点覆盖 二分图:指顶点可以分成两个不相交的集使得在同一个集内的顶点不相邻(没有共同边)的 图。设 G=(V,E)是一个无向图,如果顶点 V 可分割为两个互不相交的子集(U,V),并且图中 的每条边(i,j)所关联的两个顶点 i 和 j 分别属于这两个不同的顶点集(i in U,j in V),则称 图 G 为一个二分图。 最大匹配:给定一个二分图 G,在 G 的一个子图 M 中,M 的边集中的任意两条边都不依附 于同一个顶点,则称 M 是一个匹配,选择这样的边数最大的子集称为图的最大匹配。 最小点覆盖:给定一个二分图 G,在 G 的一个子图 N 中,N 的点集中的点与所有的边都有 关联(把所有的边都覆盖),则称 N 是一个点覆盖,选择这样的点数最小的子集称为图的最 小点覆盖。 7. Illumina 测序原理测序原理 在聚合反应体系中加入修饰过的四种核苷酸, 它们分别被标记上终止基团和荧 光基团:3羟基上标记上叠氮基在延伸时起阻止聚合的作用,胞嘧啶上标记 上荧光基团。每一种核苷酸标记的荧光分子是不一样的。 聚合终止,每次加入一个修饰核苷酸,链聚合就被终止了,如下图 用激发光照射,被修饰的碱基发出荧光,记录荧光信号,则知这一步加入的是 什么核苷酸。 延伸回复: 加入二巯基丙醇去掉叠氮基; 用 TCEP(Tris (2-carboxyethyl) phosphine, 三(2-羧乙基)膦)处理,去掉荧光基团。 进入下一轮延伸,加入一个新的碱基。 原理的关键之处在于如何形成足够强的荧光信号。无疑这需要大量的模板。 怎样来获得大量模板呢?同时二代测序技术还要实现高通量测序, 即同时对大量 序列测序。如何将混合样品中序列彼此分开呢?illumina 桥式 PCR 技术可解决以 上两个问题 (1)样品准备 序列片段化:将混合样品中的核酸序列打断至 400bp 左右 短序列收集,并将末端补平。在 5端加一个 Pi 基团;3端加一个“A” 在两端分别加上不同的接头序列 (2)桥式 PCR 将样品平铺到预制的含与接头序列互补的平板上 (flow cell) , 平板结构如下: Flow cell 表面是寡聚引物 加上接头的序列与平板上寡聚引物互补配对 加上接头的序列与平板上寡聚引物互补配对,然后进行酶聚合反应 变性使原始模板链分离并洗净 模板链脱离 单链弯曲杂交在相邻的引物上 单链弯曲杂交在相邻的引物(与另一端结合的引物)上。 酶聚合形成双链桥式结构; 之后桥式结构打开形成的两个 copy 又在其各自周 围形成新的 copy。 酶聚合形成双链桥式结构 每个簇都有约 10000 个拷贝,且每个簇都代表一个独特序列 桥式双链分开,反向链(底 3-5上)被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论