chap5-DNA序列分析_第1页
chap5-DNA序列分析_第2页
chap5-DNA序列分析_第3页
chap5-DNA序列分析_第4页
chap5-DNA序列分析_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 4 22 生物信息学数据挖掘 1 第五章核酸序列分析 2020 4 22 生物信息学数据挖掘 2 纲要 第一节核酸序列分析基础第二节核酸序列的遗传性质分析第三节核酸序列的物理性质分析 2020 4 22 生物信息学数据挖掘 3 基因的结构基因的表达与调控功能位点 functionalsite 第一节核酸序列分析基础 2020 4 22 生物信息学数据挖掘 4 ATGInitiationcodon TAA TGA orTAGStopcodon GT AG AG GT TranscriptionStartsite 5 UTR 3 UTR Introns TATABox AATAAAPoly A signal Poly A tail CCAATBox Enhancer EXON EXON EXON 1 基因的结构 2020 4 22 生物信息学数据挖掘 5 2 基因的表达与调控 2020 4 22 生物信息学数据挖掘 6 3 功能位点 functionalsite 定义 与特定功能相关的位点 生物分子序列上的一个功能单元 或短片段 核酸序列的功能位点转录因子结合位点转录剪切位点翻译起始位点等蛋白质序列的功能位点常称为序列模体 Motif 序列模式蛋白质结构域作用部位 2020 4 22 生物信息学数据挖掘 7 功能位点示意 基因组序列中的相邻功能位点组合形成功能区域 functionalregion 2020 4 22 生物信息学数据挖掘 8 第二节核酸序列的遗传分析 分析步骤注意事项污染的剔除识别和遮蔽重复序列开放阅读框的识别CpG岛的识别基因功能区的预测DNA序列分析存在的问题 2020 4 22 生物信息学数据挖掘 9 识别序列中的非编码区序列中载体污染的剔除重复元件的发现CpG岛启动子位点Poly A位点核基质缔合区 Matrixassociationregion MAR 转录因子结合位点 1 分析步骤 2020 4 22 生物信息学数据挖掘 10 识别与鉴定序列中的基因序列的编码区 外显子 构建基因的外显子模型数据库相似性搜索与模式生物基因组的同源区比对 2020 4 22 生物信息学数据挖掘 11 2 注意事项 对真核生物序列 首先遮蔽重复序列程序的特定生物物种适用性程序的序列特定性 DNA或cDNA 序列的长度多方面的证据与验证 2020 4 22 生物信息学数据挖掘 12 3 污染的剔除 序列污染的来源载体序列接头和引物序列转座子和插入序列DNA和RNA样品污染序列污染的后果导致无意义的分析对序列的生物显著性作出错误的判断导致错误的叠连群拼接和ESTs分群导致数据库的污染 2020 4 22 生物信息学数据挖掘 13 序列污染的发现对载体数据库进行相似性搜索搜索序列中的限制性内切酶位点对其它数据库进行搜索 如宿主序列数据库等序列污染的剔除NCBI的VecScreenEMBL的Blast2EVEC识别出其边界 去除 2020 4 22 生物信息学数据挖掘 14 2020 4 22 生物信息学数据挖掘 15 2020 4 22 生物信息学数据挖掘 16 4 识别和遮蔽重复序列 重复序列存在的广泛性人类基因组约30 蟾蜍达70 重复序列对序列分析的影响序列分析严重失误错误的功能注释重复序列的特点多为RNA聚合酶 转录的部分区域几乎不会覆盖启动子或外显子编码区 2020 4 22 生物信息学数据挖掘 17 按照序列重复情况分类非重复序列轻度重复序列中度重复序列高度重复序列重复元件SINE ALU MIR LINELTR MALR ERVL散在重复元件 小RNA 卫星DNA 简单重复序列低复杂度序列 2020 4 22 生物信息学数据挖掘 18 重复序列分析常用的程序RepeatMasker http www repeatmasker org 主要针对灵长类和啮齿类动物 拟南芥 草本植物 果蝇等 也适用于其它哺乳和脊椎动物Censor http www girinst org censor 适用于任何物种重复序列分析应注意的问题重复序列数据库的完整性不同方法分析比较 2020 4 22 生物信息学数据挖掘 19 2020 4 22 生物信息学数据挖掘 20 2020 4 22 生物信息学数据挖掘 21 RepeatMasker分析结果 2020 4 22 生物信息学数据挖掘 22 2020 4 22 生物信息学数据挖掘 23 2020 4 22 生物信息学数据挖掘 24 Censor分析结果 2020 4 22 生物信息学数据挖掘 25 Censor分析结果 2020 4 22 生物信息学数据挖掘 26 一段核酸序列 单链DNA或mRNA 如果可能编码多肽或蛋白质 从它的5 端的翻译起始子后开始 以三联密码子方式编码氨基酸 到终止子结束 一个起始子和终止子之间的序列称为一个开放阅读框 openreadingframe ORF 由于起始子位置较难确定 通常就以DNA序列来推测开放阅读框的存在 一个双链DNA分子有6种读框 序列ATTCGATCGCAA可能的六种读码框为ATTCGATCGCAAATTCGATCGCAAATTCGATCGCAATTGCGATCGAATTTGCGATCGAATTTGCGATCGAAT 5 开放阅读框的识别 互补链 2020 4 22 生物信息学数据挖掘 27 一个ORF就是一个潜在的蛋白质编码区原核基因 一个编码区就是一个单独的ORF真核基因的编码区域是非连续的非编码区 内含子 不连续的编码片段 外显子 必须正确识别出内含子和外显子的边界 如果使用的是cDNA 问题就简化了一个DNA序列可能有多个ORF 其中只有少数是真正的编码区一段连续较长的ORF可能是编码序列一些短的ORF也可能编码具有生物功能短肽分析一个ORF是否编码 要结合序列本身和其它分析方法 才能做出正确的结论 2020 4 22 生物信息学数据挖掘 28 2020 4 22 生物信息学数据挖掘 29 2020 4 22 生物信息学数据挖掘 30 ORF OpenReadingFrame Finder 2020 4 22 生物信息学数据挖掘 31 6 CpG岛的识别 CpG岛也称为HTF岛 是一些富含GC的小区域 通常管家基因或频繁表达基因的启动子周围 通常在5 UTR 都含有非甲基化的CpG岛 80 的人类基因转录起始位点前存在CpG岛 而在基因组其他地方缺乏这种序列 查找序列中CpG岛的软件CpGplot http www ebi ac uk emboss cpgplot CpGislandsrevealing r it cgi bin wwwcpg pl 2020 4 22 生物信息学数据挖掘 32 2020 4 22 生物信息学数据挖掘 33 2020 4 22 生物信息学数据挖掘 34 CpG岛分析结果 2020 4 22 生物信息学数据挖掘 35 7 基因功能区的预测 信号搜索 检索与功能区有关的信号 启动子元件转录终止信号外显子剪切位点起始和终止密码子5 端外显子在核心启动子的下游3 端外显子的下游包含多聚 信号和终止信号内容搜索 序列的统计分析 检查终止密码子的出现频率 2020 4 22 生物信息学数据挖掘 36 7 1启动子与转录因子结合位点识别 启动子转录因子结合位点核心启动序列上下游相关的调控元件启动子识别的算法计算已知启动子序列和非启动子序列各自含有的转录结合位点的密度 然后形成每种结合位点在启动子序列上的密度比 组合每个单独的密度比值形成打分矩阵分析启动子区 非启动子区 编码区序列的核苷酸频率 2020 4 22 生物信息学数据挖掘 37 TATABox Locatedonpromoter 25bpupstreamoftranscriptionalstartsite Adaptedfromhttp www med unibs it marchesi genes html euk NotallpromotershaveaTATAbox 1ststep TATA bindingprotein TBP bindsTATAbox 2020 4 22 生物信息学数据挖掘 38 Promoters TATAbox ManyeukaryoticpromoterscontainasequencecalledtheTATAboxaround25 35bpupstreamfromthestartsiteoftranscription Ithasthe7bpconsensussequence5 TATA A T A A T 3 althoughitisnowknownthattheproteinwhichbindstotheTATAbox TBP bindstoan8bpsequencethatincludesanadditionaldownstreambasepair whoseidentityisnotimportant Initiatorelement Theinitiatorelementislocatedaroundthetranscriptionstartsite ManyinitiatorelementshaveaCat 1andAat 1 2020 4 22 生物信息学数据挖掘 39 启动子区预测工具 TRESNeuralNetworkPromoterPredictionDragonPromoterFinderTfsitescanSIGNALSCANCore PromoterPredictionProgramPromoter2 0PredictionServerTFSEARCH 2020 4 22 生物信息学数据挖掘 40 2020 4 22 生物信息学数据挖掘 41 2020 4 22 生物信息学数据挖掘 42 2020 4 22 生物信息学数据挖掘 43 NeuralNetworkPromoterPrediction结果 2020 4 22 生物信息学数据挖掘 44 2020 4 22 生物信息学数据挖掘 45 2020 4 22 生物信息学数据挖掘 46 2020 4 22 生物信息学数据挖掘 47 进一步分析转录起始位点上下游序列 转录起始位点的预测结果 2020 4 22 生物信息学数据挖掘 48 EPD 真核启动子数据库 寻找直系同源启动子 转录因子结合位点分析 启动子模型分析 起始密码子扫描 2020 4 22 生物信息学数据挖掘 49 2020 4 22 生物信息学数据挖掘 50 2020 4 22 生物信息学数据挖掘 51 2020 4 22 生物信息学数据挖掘 52 2020 4 22 生物信息学数据挖掘 53 http tools genome duke edu generegulation McPromoter McPromoter html 2020 4 22 生物信息学数据挖掘 54 2020 4 22 生物信息学数据挖掘 55 2020 4 22 生物信息学数据挖掘 56 TFSearch http www cbrc jp research db TFSEARCH html 2020 4 22 生物信息学数据挖掘 57 7 2其它顺式作用元件的预测 除启动子外 基因转录还受其它作用元件调控操纵子和终止子顺式作用元件含有保守的特征序列Cister Cis elementClusterFinder http zlab bu edu mfrith cister shtml 2020 4 22 生物信息学数据挖掘 58 2020 4 22 生物信息学数据挖掘 59 SV40Virus基因组预测 顺式作用元件TATASptEtsLSF 2020 4 22 生物信息学数据挖掘 60 7 3剪接位点预测 RNA转录时 整个基因均转录 然后切掉内含子 外显子拼接形成mRNA 剪接的供体和受体位点具有保守性供体位点 Donorsplicesite 内含子的5 端 通常以GT开始 基准序列为 A C AG GT A G AGT受体位点 Acceptorsplicesite 内含子的3 端 通常以AG结束 基准序列为CAG G分析和识别DNA编码区的重要标准之一 2020 4 22 生物信息学数据挖掘 61 2020 4 22 生物信息学数据挖掘 62 分析剪接位点的算法判别式分析法 如碱基频率表 权重矩阵神经网络法常用的分析工具SpliceView r it webgene wwwspliceview ex html NetGene2 http www cbs dtu dk services NetGene2 2020 4 22 生物信息学数据挖掘 63 2020 4 22 生物信息学数据挖掘 64 问题 应该对照数据库注解仔细分析预测结果与其它分析方法结合 2020 4 22 生物信息学数据挖掘 65 2020 4 22 生物信息学数据挖掘 66 编码区概率0表示内含子区 接近1表示外显子区供体区和受体区概率接近1表示可能存在受体或供体位点 2020 4 22 生物信息学数据挖掘 67 2020 4 22 生物信息学数据挖掘 68 7 4转录终止信号 多腺苷化是前体mRNA加工的重要步骤 切掉前mRNA的尾巴 合成一段polyA 识别序列为AATAAA或ATTAAA PolyA上游15 20 YGTGTTYY PolyA下游20 30 常用分析工具GRAILEXPHCpolya r it webgene wwwHC polya ex html 2020 4 22 生物信息学数据挖掘 69 2020 4 22 生物信息学数据挖掘 70 2020 4 22 生物信息学数据挖掘 71 2020 4 22 生物信息学数据挖掘 72 7 5密码子偏好性分析 编码区的序列组成特征编码区碱基频率的周期性模式碱基在密码子不同位置的倾向性分布密码子的使用频率常用方法碱基组成偏好性 basecompositionalbias 编码序列中三联体密码子上的4种碱基出现频率有差别密码子的3个位置各有其特征碱基概率分布 密码子使用频率 codonusage 密码子偏好性 codonbias 氨基酸同义密码子的使用频率与相应的同功tRNA的水平相一致大多数高效表达基因仅使用那些含量高的同功tRNA对应的密码子 2020 4 22 生物信息学数据挖掘 73 大肠杆菌核糖体蛋白mRNA哺乳动物核糖体蛋白mRNA1209个密码子中亮氨酸密码子2244个密码子中亮氨酸密码子UUA1次1 1 2次0 09 UUG2次2 2 9次10 1 CUU4次4 5 9次10 1 CUC3次3 4 27次30 3 CUA0次0 0 7次7 9 CUG79次89 0 47次52 8 2020 4 22 生物信息学数据挖掘 74 密码子偏好性的算法构建氨基酸的密码子偏好性表对于一段ORF 具有与偏好性相似特征 就更有可能是真正的编码序列一般采用滑动窗口技术分析常用工具CUSP http bioweb pasteur fr seqanal interfaces cusp html CodonUsageDatabase http www kazusa or jp codon CountCodon http www kazusa or jp codon countcodon html SYCO SynonymouscodonusageGribskovstatisticplot http bioweb pasteur fr seqanal interfaces syco html 2020 4 22 生物信息学数据挖掘 75 2020 4 22 生物信息学数据挖掘 76 2020 4 22 生物信息学数据挖掘 77 2020 4 22 生物信息学数据挖掘 78 2020 4 22 生物信息学数据挖掘 79 2020 4 22 生物信息学数据挖掘 80 2020 4 22 生物信息学数据挖掘 81 外显子区的密码子偏好的特异性高于正常区域 2020 4 22 生物信息学数据挖掘 82 7 6基因序列的从头分析 预测剪接位点和编码区尚不足以揭示基因结构编码区预测会错过短外显子 难以可靠预测外显子内含子边界剪接位点预测可能会产生大量假阳性位点综合功能性位点和编码区及非编码区的全局特征序列的从头分析整合若干独立的分析功能给出完整基因结构框架图从头分析与独立分析结合常用工具GeneBuilder r it sun webgene Pipeline 2020 4 22 生物信息学数据挖掘 83 2020 4 22 生物信息学数据挖掘 84 2020 4 22 生物信息学数据挖掘 85 真核基因中存在一些保守序列特征有助于进行计算预测 如 GT AG规则 密码子偏好性 六聚体频率 kozak序列 CpG岛 poly A 2020 4 22 生物信息学数据挖掘 86 Genemarkhttp opal biology gatech edu GeneMark Glimmerhttp cbcb umd edu software glimmer FGENES 基因识别程序 2020 4 22 生物信息学数据挖掘 87 2020 4 22 生物信息学数据挖掘 88 2020 4 22 生物信息学数据挖掘 89 假阳性 FalsePositive 多预测了假的编码区 即在非编码区预测出编码区 假阴性 FalseNegative 漏掉了真实的编码区 即将编码区预测为非编码区 过界预测 OverPrediction 由于基因边界很难准确定位 预测经常会超出实际边界 片段化 Fragmentation 内含子过大的基因 在预测时容易断裂成两个或多个基因 融合化 Fusion 距离过近的两个或多个基因 在的基因预测时容易被融合成一个很大的基因 8 DNA序列分析存在的问题 2020 4 22 生物信息学数据挖掘 90 9 DNA序列分析总结 搜寻重复元件对序列作同源性检索构建基因模型寻找潜在的转录因子结合位点 启动子信号预测基因终止位点装配外显子和翻译编码区通过蛋白质二级结构和功能模体分析验证这些结果的可靠性 2020 4 22 生物信息学数据挖掘 91 第三节核酸序列的物理性质分析 1 基本性质基本理化性质 统计信息限制性内切酶位点碱基组成 GC含量稳定性 解链温度常用软件BioeditVectorNTIsuitePrimeprimerplot it Server http hydra icgeb trieste it kristian dna plot it html 2020 4 22 生物信息学数据挖掘 92 Enzyme Primeprimer5限制性内切酶酶切位点分析 2020 4 22 生物信息学数据挖掘 93 Meltingtemperaturegraph Primeprimer5解链温度分析 25碱基滑动窗口 2020 4 22 生物信息学数据挖掘 94 GC graph Primeprimer5GC含量统计分析 25碱基滑动窗口 2020 4 22 生物信息学数据挖掘 95 Stability Primeprimer5稳定性分析 5碱基滑动窗口 2020 4 22 生物信息学数据挖掘 96 2020 4 22 生物信息学数据挖掘 97 2020 4 22 生物信息学数据挖掘 98 2020 4 22 生物信息学数据挖掘 99 2 DNA曲率分析第一个和最后一个碱基平面构成的一个矢量与长度无关 以 角度 碱基对 或 角度 螺旋数 来描述 可以判断一些弯曲构型或者刚性片段计算工具bend it Server http hydra icgeb trieste it kristian dna

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论