已阅读5页,还剩101页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
核酸序列分析及结构预测 主 讲 张 军 细胞生物学及遗传学教研室 第一节 核酸序列的数据形式 1. 串(string)符号或字符的有序排列,符号或字符 来自有限集合A, T, G, C。序列(sequence)与串是 同一概念。 s=ATTGCATATG;串的长度|s|; 串s某个位置的字符 表示为si ,1 i |s|。 特别的,长度为0的串称为空串(empty string),用 符号 表示。 2. 子串(substring)和子序列(subsequence),二 者不是相同的概念。 子串和超串 s=ATGCGGTA; t=TGCGG; s是t的超串 子序列和超序列 s=ATGCGGTA; t=TGTA; s是t的超序列 区间(interval) s=ATGCGGTACGTATACG; u=CG, si, i+1 3. 串u和w的拼接(concatenation),表示为uw。 例如 s = ATGCGGTA; t=TGCGG st = ATGCGGTATGCGG ts = TGCGGATGCGGTA 串的冥 s = AT;sss= AT AT AT=s3 串的前缀(prefix) s = ATGCGGTAGC; prefix(s,3)=ATG; prefix(s,0) = 存在且只存在s的另1个子串u, 使得s=tu, t是u的前缀 。 串的后缀(suffix) s = ATGCGGTAGC suffix(s,3) =AGC; suffix(s,2) =GC ;suffix(s,0) = 存在且只存在s的另1个子串u, 使得s=ut, t是u的后缀 。 杀手因子(killer agent),假定存在1个特别的串 |-1 在与其它串拼接的时候,起到删除相邻字符的作用 例如, s = ATGCGGTAGC s= TGCGGTAGC s = ATGCGGTAG ATGC GGTAG ? 无意义 (ATGC ) GGTAG ATGC ( GGTAG ) stu=(st)u=s(tu); |s| -1, |t| -1, |u| -1 |st| = |s| + |t| ,s和t可以是任何串 利用杀手因子可以表示1个串的子串,前缀和后缀 sij= i-1 s |s| -j prefix(s, k) = s |s| -k Suffic(s, k) = |s| -k s 第二节 序 列 比 较 序列比较的根本任务: 发现序列之间的相似性 辨别序列之间的差异 序列比较的目的: 相似序列 相似的结构,相似的功 能 判别序列之间的同源性 推测序列之间的进化关系 序列的相似性 同源(homology)- 具有共同的祖先 直向同源(Orthologous ) 共生同源(paralogous ) 相似(similarity) 同源序列一般是相似的 相似序列不一定是同源的 进化趋同(同功能) 直向同源(a1 in species I, a1 in species II) 共生同源(a1 and a2 in species I) 进化趋同水平转移 基因复制 序列相似性的描述 定性的描述 定量的数值 相似性 距离 序列比较的基本操作是比对( Alignment) 两个序列的比对是指这两个序列中各个字符的 一种一一对应关系,或字符的对比排列 。 例如,设有两个序列: s=GACGGATTAG,t=GATCGGAATAG Alignment2: GA-CGGATTAG GATCGGAATAG Alignment1: GACGGATTAG GATCGGAATAG 字母表和序列 字母表(字符或符号集合) 4字符DNA字母表:A, C, G, T 扩展的遗传学字母表或IUPAC编码 单字母氨基酸编码 符 号含 义说 明 GGGuanine AAAdenine TTThymine CCCytosine RG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong interaction (3 H bonds) WA or TWeak interaction (2 H bonds) HA or C or TNot-G BG or T or Cnot-A VG or C or Anot-T(not-U) DG or A or Tnot-C NG or A or T or CAny 扩展的遗传学字母表或IUPAC编码 序列比对的生物学背景 分子生物学实验技术和大规模测序方法的发展,使 复杂序列之间的比较成为实验室的常规数据分析。 基因组学的发展,物理图谱的构建,DNA的拼接求 。 一个或一些序列与其它数据序列的比较。 两个序列之间是否存在相同的子串。 个序列与数据库中序列是否存在相似的子串。 序列比较可以分为五种基本情况 : (1)两条长度相近序列相似性分析,找出序列的 差别 (2)判断一条序列的前缀与另一条序列的后缀相 似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列 (5)对多个序列进行上述4种分析 第三 节 两个序列的比较 1. 全局比较基本算法 通过全局比对(global alignment),了解序列的相似性 例如, s=ATTGCATATG;t=ATTGATATC s=ATTGCATATG t=ATTG ATATC 记分系统的引入与比对打分 匹配1 空配2 错配1 对s, t进行相似性比较,得到的最大记分值,称为2序 列的相似性,表示为sim(s, t)=maxscore i s=ATTGCATATG; s=ATTGCATATG t=ATTG ATATC; t=ATTG ATATC 8(-2)(-1)=5 4+ (-2) + (-1) 5 =-1 2. 局部比较 序列s和t的局部比较是通过局部比对(local alignment) 实现的,是s和t子串之间的比对。 例如, s=AATTGCATATG;t=ATTGT,对它们进行局部相 似性比较,表示 s(2,3,4,5)=t(1,2,3,4) 3. 半全局部比较 序列s和t的比对,序列长度相差较大 例如, s=AATTGCATATG;t=ATTGT,对它们进行全局相 似性比较,表示 s=AATTGCATATG; s=AATTGCATATG t= - ATTGT - - - - - ; t= A- TTG - - T - - - 半全局比对的核心是2个序列前缀与后缀 第四 节 相似性和距离 1. 相似性 相似性的度量是基于比对,2个序列的相似性可以 由sim(s, t)maxscore i 2. 距离 对任何的一个串实施一系列的变换后,可以转化 为另一个串 s t; t=AGCTT; s=TTA 2. TTA - - TTA AGTTA AGCTAAGCTT 变换的操作: 1 字符的替换 2 空格插入和删除 给予每个变换特定的开销(cost) dist(s,t)=mincost i 扩展的编辑操作 ACCGACAATATGCATA ATAGGTATAACAGTCA ACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒 可以通过基本操作实现 反向互补序列 RNA发夹式二级结构 第五节 通过点矩阵进行序列比较 “矩阵作图法” 或 “对角线作图” 序列1 序列2 实 例 序列1 序列1 自我比较 滑动窗口技术 两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。 滑动窗口技术 使用滑动窗口代替一次一个位点的比较是解决这个 问题的有效方法。 假设窗口大小为10,相似度阈值为8,则每次比较 取10个连续的字符,如相同的字符超过8个,则标 记 基于滑动窗口的点矩阵方法可以明显地降低点阵图 的噪声,并且明确无误的指示出了两条序列间具有 显著相似性的区域。 (a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基 因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基 因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。 (a) (b) 具有连续相似区域的两条DNA序列的简单点阵图 第六节 DNA片断的组装 1. 生物学背景 DNA测序技术的发展 2. 片断的组装(fragment assembly) 片断(fragment)的产生 理想情况 例如 ATTGGGCA; CGATT; TGGGCAGA 组装 - - ATTGGGCA - - CGATT - - - - - - - - - - - TGGGCAGA CGATTGGGCAGA 表决序列 复杂情况 碱基识别错误 序列方向未知 重复序列 缺乏覆盖 序列污染 复杂情况的组装模型 最短公共超串(shortest common superstring) 重构(reconstruction) 多连叠(multicontig) 第七节第七节 DNADNA序列分析序列分析 DNA序列分析 基因序列 基因表达调控信息 寻找基因牵涉到两个方面的工作 : 识别与基因相关的特殊序列信号 预测基因的编码区域 结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因上游区域,在组成 上具有一定的特征,可以通过序列分析识别这些 特征。 DNADNA序列分析步骤和分析结果评价序列分析步骤和分析结果评价 在DNA序列中,除了基因之外,还包含许多其它 信息,这些信息大部分与核酸的结构特征相关 联,通常决定了DNA与蛋白质或者DNA与RNA的相 互作用。 存放这些信息的DNA片段称为功能位点 如启动子(Promoter)、基因终止序列( Terminator sequence)、剪切位点(Splice site)等。 发现重复元素 数据库搜索 分析功能位点 序列组成统计分析 综合分析 一个基本的DNA序列分析方案 功能序列分析的准确性来自于对“功能序列” 和“非功能序列”的辨别能力。 两个集合: 训练集(training set) 用于建立完成识别任务的数学模型。 测试集或控制集(control set) 用于检验所建模型的正确性。 用训练集中实例对预测模型进行训练,使之通 过学习后具有正确处理和辨别能力。然后,用 模型对测试集中的实例进行“功能”与“非功 能”的判断,根据判断结果计算模识别的准确 性。 收集已知的功能序列和非功能序列实例 (这些序列之间是非相关的 ) 训练集 (training set) 测试集或控制集 (control set) 建立完成识别任务的模型检验所建模型的正确性 对预测模型进行训练, 使之通过学习后具有 正确处理和辨别能力。 进行“功能”与“非功能”的 判断,根据判断结果计算 模识别的准确性。 识别“功能序列”和“非功能序列”的过程 Sn 敏感性 Sp 特异性 Tp是正确识别的功能序列数, Tn为正确识别的非功能序列数, Fn是被错误识别为非功能序列的功能序列数, Fp是被错误识别为功能序列的非功能序列数。 敏感性和特异性的权衡 对于一个实用程序,既要求有较高的敏感性 ,也要求有较高的特异性。 如果敏感性很高,但特异性比较低,则在实 际应用中会产生高比率的假阳性; 相反,如果特异性很高,而敏感性比较低, 则会产生高比率的假阴性。 对于敏感性和特异性需要进行权衡,给出综 合评价指标。 功能位点分析 功能位点(functional site) 与特定功能相关的位点,是生物分子序列 上的一个功能单元,或者是生物分子序列 上一个较短的片段。 功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号( signal)等。 核酸序列中的功能位点包括转录因子结合位 点、转录剪切位点、翻译起始位点等。 在蛋白质序列分析中,常使用序列模式这个 名词,蛋白质的序列模式往往与蛋白质结构 域或者作用部位有关。 功能位点示意 基因组序列中若干个相邻的功能位点组合形成 功能区域(functional region)。 功能位点分析的任务 发现功能位点特征 识别功能位点 A 利用共有序列搜索功能位点 共有序列(common consensus)又称一致性片段 共有序列是关于功能位点特征的描述,它描 述了功能位点每个位置上核苷酸进化的保守 性 例如: NTATN 利用共有序列进行功能位点分析牵涉到两个方 面的问题, 如何构造共有序列 如何利用共有序列在给定的核酸序列上搜索 寻找功能位点,并计算所找到的功能位点的 可靠性 共有序列具有以下几个方面的特征 : (1)共有序列中既有保守的位置, 也有可变的位置; (2)任何位置上的核苷酸可以用15 种类型之一来表示: 核苷酸表示符号 符 号含 义义说说 明 GG腺嘌呤 AA鸟鸟嘌呤 TT胸腺嘧啶嘧啶 CC胞嘧啶嘧啶 RG or A嘌呤 YT or C嘧啶嘧啶 MA or C氨基 KG or T羧羧基 SG or C强氢键氢键 (3个氢键氢键 ) WA or T弱氢键氢键 (2个氢键氢键 ) HA or C or T非G BG or T or C非A VG or C or A非T(非U) DG or A or T非C NG or A or T or C任意碱基 共有序列构造过程: (1) 初始化共有序列为一系列可变位置,以“N”代 表 (2) 在可变位置寻找出现次数最多的核苷酸,并将 该位置转化为保守位置 (3) 对当前所得到的共有序列进行特异性检查,若 通过检查,转(5),否则转(4) (4) 形成与当前共有序列一致的位点子集,剔除不 一致的位点子集,转(2) (5) 从原位点集合中删除与当前共有序列一致的位 点,用确定的碱基替换“N”;若还有剩余位点, 则转(1),构造另外的共有序列。 TTATG ATATA TACGC TTGTC TCCAC TTATG ATATA TACGC TTGTC TCCAC TNNNN tTATG tACGC tTGTC tCCAC tTATG tACGC tTGTC tCCAC TNNNC 1 2 3 4 2 3 NNNNNTNN NN 非特异 TNNNC 非特异 tACGc tTGTc tCCAc 4 2 tACGc tTGTc tCCAc 3 TNSNC 特异 5 Consensus1: TNSNC 剩余位点: TTATG ATATA 5 Consensus2: NTATN TNSNC 在给定的序列中搜索与共有序列一致的序列片段 数据库搜索 共有序列表示方法的缺点: 是关于序列特征的一种定性描述,对于DNA序 列,它能够说明序列每个位置可能出现的碱基 类型,但是不能准确地说明各位置上不同类型 碱基出现的可能性大小。 B 用感知矩阵分析功能位点 用权系数描述功能位点各位置上每种核苷酸的相 对重要性 感知矩阵(或加权矩阵) 根据一系列功能位点的多重对比排列结果而建 立的 其大小为4n 4代表碱基的种类数目,n代表功能位点的长度 矩阵的每一个元素M(aj,j)的值代表第a种核苷酸 在功能位点第j个位置上出现的得分,a A,T,G,C。 123456 A18227-319 T26142-10 G3110-50-19 C5-916880 感知矩阵示例 对于一个序列s=a1a2an,根据对应位置上核苷 酸的类型,取感知矩阵中对应的权值,加和以后 得到该序列的得分 设S=ATTGCA,则 Ws = 1+6+14-5+8+19=43 T功能位点阈值 T非功能位点阈值 如果Ws T,则S是功能位点; 如果Ws T,则S是非功能位点。 感知矩阵M的构造算法 令A+代表功能位点集合 A-代表非功能位点集合 过程如下: (1)初始化M为零矩阵; (2)执行过程(3)-(6)的循环; (3)逐步取训练集合中的每个实例Si,如果Si A+,转 过程(4);如果Si A-,转过程(5); (4)如果W(Si) T,M不变,否则根据Si的核苷酸分 布将M中所有对应元素的值加1;转(6); (5)如果W(Si) T,M不变,否则根据Si的核苷酸 分布将M中所有对应元素的值减1;转(6); (6)若训练集合中的所有实例都处理过,则循环结束, 转(7),否则继续执行循环体,直到处理完所有实 例; (7)如果M稳定,则结束;否则转(2)。 上述算法反复调整感知矩阵M的元素值, 直到M矩阵能够正确识别训练集中的所有 功能位点和非功能位点。 对于最终得到的感知矩阵,要求其具有敏 感性和特异性,每一列上的元素值应该尽 可能地有明显的差别,以便反应功能位点 各个位置上的特点。 基因识别的一般方法 基因识别是生物信息学领域里的一个重要 研究内容 生物学背景 基因识别问题,在近几年受到广泛的重视 当基因组研究进入一个系统测序阶段 时,急需可靠自动的基因组序列翻译 解释技术,以处理大量已测定的但未 知功能或未经注释的DNA序列 一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序 列。 原核基因识别任务的重点是识别开放阅 读框,或者说识别长的编码区域。 (一) 基于基因密码子特性的识别方法 辨别编码区域与非编码区域的一种方法 检查终止密码子的出现频率 终止密码子出现的期望次数为: 每21个( 64/3)密码子出现一次终止密码子 基本思想: 如果能够找到一个比较长的序列,其相 应的密码子序列不含终止密码子,则这 段序列可能就是编码区域。 基本算法: 扫描给定的DNA序列,在三个不同的阅 读框中寻找较长的ORF。遇到终止密码 子以后,回头寻找起始密码子。 这种算法过于简单,不适合于处理短的 ORF或者交叠的ORF。 (二) 识别编码区域的另一种方法是 分析各种密码子出现的频率 例如,亮氨酸、丙氨酸、色氨酸分别有 6个、4个和1个密码子 将一个随机均匀分布的DNA序列翻译成氨基酸 序列,则在氨基酸序列中上述3种氨基酸出现的 比例应该为6:4:1 但是在真实的氨基酸序列中,上述比例并不正确 这说明DNA的编码区域并非随机 假设在一条DNA序列中已经找到所有 的ORF,那么可以利用密码子频率进 一步区分编码ORF和非编码ORF 利用这种方法,可以计算一个ORF成 为编码区域的可能性。 一个简单的统计模型 假设相继的密码子是独立的,不存在前后依 赖关系。 令fabc代表密码子abc在编码区域出现的频率 给定序列 a1,b1,c1, a2,b2,c2, an+1,bn+1 从密码子a1b1c1开始的阅读框,其n个密码子 的出现概率为 第二种和第三种阅读框n个密码子出现的概率分别为 第i个阅读框成为编码阅读框的概率 计算: 算法: 在序列上移动长度为3n的窗口,计算Pi 根据Pi的值识别编码的阅读框 (三) 基于编码区碱基组成特征的识别方 法 编码序列与非编码序列在碱基组成上有区别 单个碱基的组成比例 多个碱基的组成 通过统计分析识别编码序列 分析实例 真核基因识别的复杂性 真核基因远比原核基因复杂: 一方面,真核基因的编码区域是非连 续的,编码区域被分割为若干个小片 段。 另一方面,真核基因具有更加丰富的 基因调控信息,这些信息主要分布在 基因上游区域。 (一) 基本思路 找出基因两端的功能区域: 转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点 剪切给体位点 剪切接受体位点 各种不同的方法有不同的适应面,而 不同的方法有时可以结合起来以提高 基因识别的准确率。 关键问题是如何提高一个识别算法的 敏感性(sensitivity,Sn)和特异性( specificity,Sp)。 (二) 真核基因识别的主要方法 两大类识别方法: 从头计算方法(或基于统计的方法) 根据蛋白质编码基因的一般性质和特征 进行识别,通过统计值区分外显子、内 含子及基因间区域 基于同源序列比较的方法 利用数据库中现有与基因有关的信息( 如EST序列、蛋白质序列),通过同源比 较,帮助发现新基因。 最理想的方法是综合两大类方法的优点, 开发混合算法。 (三) 识别编码区域 两类方法 : 基于特征信号的识别 内部外显子 剪切位点 5端的外显子一定在核心启动子的下游 3端的外显子的下游包含多聚信号和终 止编码 基于统计度量的方法 根据密码子使用倾向 双联密码统计度量等 (四) 构建基因模型 基因识别最终任务是建立完整的基因结构模 型 一个理想的基因识别程序应该能够发现完整 的基因结构 (,e1, i1, , in-1, en , ) ATG-外显子1内含子 外显子 外显子n-UAG 基因剪切位点 剪切给体(donor)位点- “gt” 接受体(acceptor)位点- “ag” 基因的可变剪切 gene A 基因可变剪切示意 构建基因模型方法 剪切位点形成外显子和内含子的边界 搜集候选外显子 候选基因 候选基因是一条非相交的外显子和内 含子的链,表示为 (i0, e1, i1, , en, in) 其中ij代表内含子(0jn) el代表外显子(1ln) i0和in并非真实的内含子,它们分别代 表基因两侧的非编码序列 候选基因位于给定的DNA序列,并满足下列 一致性条件: (1)所有外显子加起来的长度是3的整数倍; (2)在各个外显子内部(除最后一个外显子 的最后一个密码子),没有终止编码; (3)第一个内含子-外显子边界(i0, e1)是翻 译起始编码,而最后一个外显子-内含子边界 (en, in)是终止编码。 位点图(分层标注剪切位 点) 另设两个特殊的顶点,即起点(source)和终点(sink)。 从起点到终点的任何一条路径代表一个可能的基因结构。 例如: 位点图上的路径 候选基因所对应的道路图中的路径 求最优路径 每一条弧附加一个权值 外显子、内含子度量 每个节点附加权值 剪切位点度量 综合评价 (五) 基于剪切比对的基因识别方法 基本思想是:利用数据库中的同源信息进 行基因识别,包括DNA、RNA和蛋白质数 据库。 其方法是: 首先通过分析所有可能的剪切接受体位 点和剪切给体位点,构建一组候选的外 显子。 然后进一步分析候选外显子,寻找所有 可能的外显子组合,寻找一个与已知目 标蛋白质或其他表达序列最匹配的组合 。 基因识别程序介绍 基因识别程序及访问地址 (HP主页;ESE-mail服务器;WSweb服务器;CL客户/服务 器协议; EX有可执行代码;SC有源代码) 第八节第八节 核酸的结构预测核酸的结构预测 RNARNA的二级结构预测的二级结构预测 RNARNA的三级结构预测的三级结构预测 第九节 生物信息分析工具GCG GCG (Genetics Computer Group) 软件包 是一个序列分析、数据库管理、数据挖 掘和可视化工具的综合系统 由140多个独立的程序组成,每个程序 进行一项单一的分析任务。 广泛应用 GCG支持的两种核酸数据库 GenBank数据库 简化版的EMBL核酸序列数据库 GCG支持的三种蛋白质数据库 PIR SWISS-PROT SP-TrEMBL数据库。 1、序列的两两比较 Gap: BestFit: FrameAlign:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年健康管理与服务模式创新
- 幼儿园停办清算通知书
- 广西兴业县征地通知书
- 广饶小学学校放假通知书
- 库房路面整修通知书
- 延吉学校延迟开学通知书
- 延边出租车禁运通知书
- 开发区大学城开学通知书
- 开江工业园停电通知书
- 张北供暖缴费通知书
- JJF 2137-2024 表面铂电阻温度计校准规范
- 夜间施工专项施工方案
- 铲车堆场服务技术方案
- 介绍哈萨克族的课件
- 劳动教育-专题一崇尚劳动(劳动的意义)
- 浙江省杭州市杭州中学2023-2024学年九年级上学期期中科学试卷
- 新版入团志愿书表格(含申请书范本)
- 浅圆仓外立面整体环状吊篮施工工法
- 计算机考试题目及答案计算机考试选择题
- GB/T 10003-2008普通用途双向拉伸聚丙烯(BOPP)薄膜
- 陕西西北工业大学电子信息学院党务秘书公开招聘1人【共500题附答案解析】模拟检测试卷
评论
0/150
提交评论