基因组信息分析_第1页
基因组信息分析_第2页
基因组信息分析_第3页
基因组信息分析_第4页
基因组信息分析_第5页
已阅读5页,还剩146页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章基因组信息分析5.1关于遗传语言5.2原核基因组特点5.3真核基因组特点5.4基因组序列分析5.5基因识别方法5.6非编码区与分析和调控元件建模

第一部分:搜索遗传语言;原核、真核基因组特点1、基因组DNA的奥秘遗传信息存贮在4种字符组成的核酸序列中“天书”——用遗传语言书写的人类遗传蓝本 包含的信息量巨大 更重要的是目前人类对它了解甚少 天书中只有4个字符(碱基A、T、G、C) 既没有段落,也没有标点符号 是一个长度为3×109的一维序列。

科学家对这本天书了解最多的部分就是遗传密码 或者说掌握了DNA对蛋白质编码的规律

关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分手也快。(2)密码子的使用有一定的统计规律对同义密码子的使用存在着偏爱 不同种属偏爱的密码子不同人类基因组: 密码子第三位取A、U的情况占90%

而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关

(3)密码子中的密码

三个碱基的位置与所编码的氨基酸性质存在着联系 例如: 芳香族氨基酸——以U作为第一位碱基 中间位置碱基的性质与氨基酸是亲疏水性相关 疏水氨基酸的密码子,其第二位碱基是U

亲水氨基酸的密码子,其第二位碱基是A

第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。

基因组信息人类基因组:编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能非编码区域对于生命活动具有重要的意义包括内含子、简单重复序列、移动元件、伪基因重复序列:

卫星(satellite)DNA

小卫星(mini-satellite)DNA

微卫星(micro-satellite)顺式调控元件:

启动子、增强子、沉默子2、探索遗传语言

用语言学的方法进行研究 自然语言 计算机程序设计语言 遗传语言 二进制序列0、1的长程关联性分析结果: 编码区域——自然语言 非编码区域——程序设计语言蛋白质编码区域所包含的信息相当于待加工的“数据”数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成

用密码学方法进行研究 是否存在其它密码?

——调控信息密码?

——蛋白质结构的密码?编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育3、关于生物复杂性

生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因230000/220000=210000≌103000

4、基因组计划带来的希望实验数据的积累速度在迅速地增加计算机科学和技术也在不断地发展

单个基因组分析

基因序列

基因功能 基因的表达调控 基因产物 基因多态性比较基因组分析

物种关系 物种进化 物种起源人、鼠基因组比较

人基因组鼠基因组鼠染色体上的颜色和数字代表在人染色体上对应的片段.老鼠约75%的基因与人类相同。SARS基因组(SevereAcuteRespiratorySyndrome)全基因组核酸搜索结果分段核酸搜索结果全基因组蛋白质搜索结果原核基因组特点

原核生物的遗传物质大都是环状DNA,它们基因组存在固有的特点,可以利用这些特点分辨物种,识别基因。长开放阅读框

开放阅读框(openreadingframe):结构基因内从起始密码子开始到终止密码子的一段核苷酸区域,其间不存在任何终止密码,可编码完整的多肽链,这一区域被称为开放阅读框。ORF表明该区域可能对应于一个原核生物基因的编码序列。

长开放阅读框绝大部分原核生物蛋白质的长度大于60个氨基酸在大肠杆菌E.coli中,蛋白质编码区域平均长度为316.8个密码子,不到1.8%的基因的长度小于60个密码子原核基因分析的简单原则若终止密码子出现在非编码核酸序列中,大约每21个密码子出现一次(3/64).如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为N个密码子的序列出现的几率为(61/64)N.长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性,即(61/64)N=0.05,这里N等于60,表示典型长度的ORF中密码子的数目。高基因密度

原核基因组中的基因密度非常高完全测序的细菌和古细菌的基因组数据表明,其中85%到88%的核酸序列与基因的编码直接相关。在大肠杆菌(E.coli)中总共有4,288个基因,平均编码长度为950bp,而基因之间的平均间隔长度只有118bp。简单的基因结构

原核基因为连续基因,其编码区是一个完整的DNA片段。

GC含量

碱基G、C相对于A、T的丰度很早就被看作是区分细菌基因组的特征之一.不同的原核生物中,GC含量(GCcontent)从25%到75%,变化非常大。大部分细菌是通过从其它生物体大规模获得基因(长度为几万甚至几十万个核苷酸)而进化的(水平转移).简而言之,许多细菌基因组表现为具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。真核基因组特点

基因组规模大非编码序列大基因结构复杂基因转录调控方式复杂可变剪接CpG岛等值区密码子使用偏性基因组规模

真核细胞的细胞核中一般有多条线性染色体,而且通常包含每条染色体的双拷贝。人的基因组总长度超过30亿对碱基,而大肠杆菌的基因组只有500多万个碱基。非编码序列巨大真核生物具有复杂的基因组结构。编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列,而在非编码序列中,各种重复序列占了很大一部分。基因结构复杂基因转录调控方式复杂

真核基因的表达涉及多种RNA聚合酶。与原核生物只使用一种由多个蛋白聚合而成的RNA聚合酶不同,真核生物至少使用由8到12个蛋白组成的三种不同类型的RNA聚合酶。RNA聚合酶I和III负责转录生成RNA分子,这些分子本身执行重要的功能,在所有的真核细胞中需要始终保持相当恒定的水平。RNA聚合酶II专门负责转录编码蛋白质的基因。RNA聚合酶II识别的启动子序列的多样性反映了区别基因的复杂程度,即在特定类型的细胞中和在特定的时间,区别哪些基因该表达而哪些基因不该表达。可变剪接

估计有20%或更多的人类基因因为可变剪接(alternativesplicing)而产生两种或多种不同的mRNA序列.有一个人类的基因已经被证明,相同的原始转录物可以产生64种不同的mRNACpG岛

真核生物基因组的GC含量的差别没有在原核生物间观察到的那么明显,但是CG两联核苷酸(常称作CpG,以表明连接两个核苷酸的磷酸二脂键)的出现频率仅为其随机出现的频率的20%,而没有发现其它核苷酸对有异常的出现频率。CpG岛许多人类基因5’-端的1~2kb片段中发现CpG岛(CpGisland),此处CpG的密度达到随机预测的水平。人类基因组全长序列的分析结果表明,大约有45,000这样的岛,并且有一半左右与已知的管家基因(housekeepinggene,指在所有组织和在发育的所有阶段都高水平表达的基因)是有关联的,其余的CpG岛有许多似乎是和组织特异性基因的启动子相关联的。CpG岛很少出现在不含基因的区域和那些发生多次突变的基因中。等值区

定义:具有一致碱基组成的长区域特征:等值区基因组序列的长度超过1,000,000对碱基虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡人类基因组大约可以划分为五个不同类型的等值区:a)

L1和L2,平均GC含量分别为39%和42%(欠GC))b)H1、H2和H3,GC含量平均值分别为46%、49%和54%

(丰GC)密码子使用偏性

每个氨基酸至少对应1种密码子,最多有6种对应的密码子不同物种、不同生物体的基因密码子使用存在着很大的差异(酵母精氨酸偏好AGA,果蝇偏好CGC)从生物学基础来看,不同的密码子使用模式的形成可能与基因的GC含量有关。基因组序列分析

DNA序列分析

——基因序列

——基因表达调控信息

寻找基因牵涉到两个方面的工作:识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构

基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。

5.4.1基因组序列分析步骤和分析结果评价在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。两个集合:训练集(trainingset)用于建立完成识别任务的数学模型。 测试集或控制集(controlset)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。收集已知的功能序列和非功能序列实例(这些序列之间是非相关的)训练集(trainingset)测试集或控制集(controlset)建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。识别“功能序列”和“非功能序列”的过程

Sn

——敏感性Sp——特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。敏感性和特异性的权衡对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡,给出综合评价指标。对于一个识别程序准确性可按下式进行综合评价:另一个综合评介指标为相关系数,其计算计算公式为:选择训练集和测试集在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集测试集的构成非常关键在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。建立标准的功能序列测试集合。如基因转录剪切位点的测试集合、编码区域的测试集合等。5.4.2核苷酸关联分析对于一个给定的基因组,最简单的计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的核苷酸

频率

A0.3248693727808C0.1751306272192G0.1751306272192T0.3248693727808酵母基因组核苷酸出现频率在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。核苷酸

频率

A0.344C0.155G0.157T0.343

M.jannaschii单链核苷酸出现频率基因和其它功能区域在正反两条链上出现的可能性通常一样核苷酸出现频率也不应该有偏差正反两条链在信息的组织结构方面不应该有差别单链上A和T、C和G的出现频率相近。正反两条链碱基互补的原则

单链上A和T、C和G的出现频率相近的解释两联核苷酸频率不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸酵母基因组两联核苷酸频率表对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.119而出现频率最低的只有0.028令:

Pij

——代表两联核苷酸(i,j)的出现频率

Pi——代表核苷酸i的出现频率则:

Pij’=Pij/(PiPj)

的值反应核苷酸i和j的关联关系如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。关联性分析

对于酵母基因组

PA=0.3248PAA=0.1193PAA’=0.1193/(0.3248*0.3248) =1.131>1

表明在两个连续位置上“A”的出现不是独立的,而是相关的。关联性分析

同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k)I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度三联核苷酸——基因密码子在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系蛋白的三级结构与密码子使用概率有密切的关系通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。在不同物种中,类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小针对酵母第一染色体的分析结果第二部分基因识别基因识别基因识别是生物信息学领域里的一个重要研究内容基因识别问题,在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列原核基因识别 重点在于识别编码区域非翻译区域(untranslatedregions,UTR)编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域

5’UTR---基因上游区域的非翻译区域3’UTR---基因下游区域的非翻译区域对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(readingframes)CAA

A

ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一个开放阅读框(ORF,openreadingframe)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率终止密码子出现的期望次数为:每21个(64/3)密码子出现一次终止密码子

基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。识别编码区域的另一种方法是分析各种密码子出现的频率

将一个随机均匀分布的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子但是在真实的氨基酸序列中,上述比例并不正确这说明DNA的编码区域并非随机序列假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法,可以计算一个ORF成为编码区域的可能性。一个简单的统计模型

假设相继的密码子是独立的,不存在前后依赖关系。

令fabc代表密码子abc在编码区域出现的频率 给定序列

a1,b1,c1,a2,b2,c2,…,an+1,bn+1

从密码子a1b1c1开始的阅读框,其n个密码子的出现概率为第二种和第三种阅读框n个密码子出现的概率分别为第i个阅读框成为编码阅读框的概率 计算:算法: 在序列上移动长度为n的窗口,计算Pi

根据Pi的值识别编码的阅读框基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个碱基的组成比例多个碱基的组成通过统计分析识别编码序列分析实例2、真核基因识别问题

真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。基因识别基本思路

找出基因两端的功能区域:

转录启动区终止区在启动区下游位置寻找翻译起始密码子识别转录剪切位点剪切给体位点剪切接受体位点各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异性(specificity,Sp)。

3、基因识别的主要方法两大类识别方法:从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域

基于同源序列比较的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。4、编码区域识别两类方法:基于特征信号的识别内部外显子 剪切位点5’端的外显子一定在核心启动子的下游3’端的外显子的下游包含多聚A信号和终止编码基于统计度量的方法根据密码子使用倾向双联密码统计度量等

在一个基因中,第i个(i=1,64)密码子相对使用倾向RSCUi的定义如下:Obsi是该基因中第i个密码子实际出现的次数

Expi是对应密码子期望的出现次数

aai是统计的第i个密码子出现的次数 syni是所有与第i个密码子同义密码子出现的次数RSCU大于1表示相应密码子出现的次数比期望次数高,而小于1则表示出现次数相对较少。(5-66)(5-65)

密码子使用倾向设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为:

fk是从第k位开始的双联密码的频率

Fk是该双联密码随机出现的频率(5-67)双联密码统计度量通过相似搜索发现编码区域或者外显子EST(ExpressedSequenceTags)cDNA

蛋白质序列目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程同时考虑序列特征信号和统计度量

GRAIL

用人工神经网络识别编码区域人工神经网络的概念4、别名人工神经系统(ANS)神经网络(NN)自适应系统(AdaptiveSystems)、自适应网(AdaptiveNetworks)联接模型(Connectionism)神经计算机(Neurocomputer)ANN具有学习(Learning)能力人工神经网络可以根据所在的环境去改变它的行为自相联的网络异相联的网络:它在接受样本集合A时,可以抽取集合A中输入数据与输出数据之间的映射关系。——“抽象”功能。不同的人工神经网络模型,有不同的学习/训练算法基本特征的自动提取

由于其运算的不精确性,表现成“去噪音、容残缺”的能力,利用这种不精确性,比较自然地实现模式的自动分类。普化(Generalization)能力与抽象能力

适应性(Applicability)问题

擅长两个方面:对大量的数据进行分类,并且只有较少的几种情况;必须学习一个复杂的非线性映射。目前应用:人们主要将其用于语音、视觉、知识处理、辅助决策等方面。在数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不是最佳近似解)等方面也有较好的应用。

生物神经网1、构成胞体(Soma)树突(Dendrite)胞体(Soma)

轴突(Axon)突触(Synapse)生物神经网3、六个基本特征:1)神经元及其联接;2)神经元之间的联接强度决定信号传递的强弱;3)神经元之间的联接强度是可以随训练改变的;4)信号可以是起刺激作用的,也可以是起抑制作用的;5)一个神经元接受的信号的累积效果决定该神经元的状态;6)每个神经元可以有一个“阈值”。人工神经元

神经元是构成神经网络的最基本单元(构件)。人工神经元模型应该具有生物神经元的六个基本特性。

人工神经元的基本构成

人工神经元模拟生物神经元的一阶特性。输入:X=(x1,x2,…,xn)联接权:W=(w1,w2,…,wn)T网络输入:

net=∑xiwi向量形式:

net=XWxn

wn∑x1w1x2w2net=XW…激活函数(ActivationFunction)

激活函数——执行对该神经元所获得的网络输入的变换,也可以称为激励函数、活化函数:o=f(net)

1、线性函数(LinerFunction)

f(net)=k*net+c

netooc4、S形函数

f(net)=a+b/(1+exp(-d*net))a,b,d为常数。它的饱和值为a和a+b。最简单形式为:f(net)=1/(1+exp(-d*net))

函数的饱和值为0和1。S形函数有较好的增益控制

4、S形函数

a+bo(0,c)netac=a+b/2简单单级网……x1x2…xno1o2omwnmw11w1mw2mwn1输出层输入层 简单单级网W=(wij)输出层的第j个神经元的网络输入记为netj:

netj=x1w1j+x2w2j+…+xnwnj其中,1≤j≤m。取NET=(net1,net2,…,netm)NET=XWO=F(NET)NeuralnetworkmathematicsInputsOutput学习规则有导师学习在学习训练过程中需要不断给网络成对提供一个输入模式和一个期望网络正确输出的模式,称为“教师信号”。当网络的输出与期望的教师信号不符时,则调整权值,能产生所期望的输出。

BP神经网络是指基于误差反向传播算法的多层前馈神经网络

反向传播算法的基本思路:学习过程由信号的正向传播和反向传播两个过程组成。正向传播时,输入样本由输入层进入,经隐层处理后传向输出层。若实际输出与教师信号不符,则转入误差的反向传播阶段。输出误差将通过隐层向输入层逐层反传,并把误差分摊而得到各层单元的误差信号,作为修正各单元权值的依据。权值的调整过程即BP网络的学习过程,直到网络输出精度满足要求为止。权值的更改梯度下降法的基本思想首先设置权W的一组初值,然后,连接计算均方误差相对于权的梯度,并按上式一小步小步地修正权值,当满足一定的准则时(比如MSE进入到下限的某一范围时)即停止。这时称为算法收敛。对于梯度下降算法来说,最大的问题是不能保证收敛到全局最优。梯度下降法的缺点输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段DNA序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性生物信息中,神经网络主要应用于:①序列编码分析;②蛋白质二级结构预测;③单肽及其切割位点预测;④遗传密码的结构和起源分析;⑤真核生物基因寻找和内含子剪接位点预测。第三部分调控元件识别序列模式1.功能结构域,functionaldomain2.模块,BLOCK3.模体,motif4.模式,pattern/profile功能结构域1.具有完整的、独立的三级结构2.具有特定的生物学功能3.一般长度,几十到几百个氨基酸4.允许插入/缺失,即允许存在gap模块/BLOCK1.几个到几十个氨基酸2.无gap,从全局多序列比对的结果直接处理得到3.描述蛋白质家族或者一类蛋白质的序列保守性BLOCK模体/Motif1.不具有独立的三级结构2.具有特定的生物学功能:结合,修饰,细胞亚定位,维持结构,等3.长度一般几个到几十个氨基酸或者碱基;4.例如,SUMO化的序列模体:Ψ-K-X-E(Ψ:A,I,L,V,M,F,P;X:任意氨基酸)模式/Pattern/Profile1.在算法上用来描述一类功能结构域,模体或者模块的表示方式2.根据序列数据,构建的预测模型3.数据形式:概率表示4.用来预测新的可能符合特定模式的序列5.例如,直接将Ψ-K-X-E视为SUMO化位点的,普适的“模式”,则可以预测所有包含该模式的蛋白质序列2.位点特异性打分矩阵(1)PositionSpecificScoringMatrix(PSSM)/WeightMatrixModel(WMM)(2)对蛋白质家族进行多序列比对分析,发现结果中保守的BLOCK(3)根据BLOCK序列推导相应的PSSM(4)不考虑gap的影响(5)BLOCK长度一般在几个~几十个残基/碱基锌指功能结构域的PSSMBLOCK->PSSM代表每一列二十种氨基酸矩阵中的数值:当前位置上,某种氨基酸出现的频率的log值第二种PSSM每一个位置上显示每种氨基酸或者碱基出现的频率碱基的位置四种碱基第三种PSSM每一个位置显示氨基酸/碱基出现的概率PSSM:思考与应用1.可以根据BLOCK推导得到的PSSM进行数据库的搜索,发现包含该模式的新的蛋白质,并预测功能2.需要思考的问题:(1)PSSM必须能够很好的反映BLOCK,Motif以及Domain的真实情况。然而,数据有限;如何解决?(2)根据PSSM如何计算新的序列?(3)PSSM中究竟包含着何等信息?问题一Pseudocounts1.如果训练数据中包含很多序列,并且每个位置上的氨基酸出现频率合理,则根据该训练数据得到的PSSM能够很好的反映训练数据的真实情况。否则,得到的PSSM可能会有明显的偏差2.解决方案,引入伪计数(pseudocounts)A.pseudocounts太多,PSSM偏离真实情况太远B.pseudocounts太少,许多可能的氨基酸变化就忽略了3.数据量大时,伪计数可以少一些,反之则要增大为计数的比例4.一般的经验,伪计数≤Pseudocounts(2)针对特定的氨基酸,如何确定是否需要引入伪计数?1.方法一:令f(i)为氨基酸i在蛋白质数据库(例如:UniProt)中的分布比例2.方法二:使用打分矩阵来衡量序列的相似性(GPS的思想)3.方法三:对其他的BLOCK分析,来估算当前BLOCK可能的氨基酸的分布4.方法四:blindguess…问题二:PSSM->发现1.计算log-oddsratio/Oddsratio2.Donotmiss:性能检验!!!3.结果需要计算Sn,Sp,Ac&Mcc4.需要计算Self-consistency,Leave-one-outvalidation&n-foldcross-validation计算log-oddsratioP(S|+),根据阳性训练数据计算出来的概率;Then,P(S|-)?1.负样本/阴性数据的概率计算2.计算方法:A.DNA序列,四种碱基出现的频率B.蛋白质序列,20种氨基酸出现的频率OddsRatioLog-oddsRatio计算流程:滑动窗口设定域值;窗口宽度9bp;依次打分,预测例:剪切模型(Splicing)计算log-oddsratio问题三:PSSM->信息?1.PSSM/motif/domain/BLOCK:每一个位置上究竟包含了什么样的信息?2.对于同一个motif/PSSM:有些位点较其他位点提供更多的信息,why?3.如何定量化“信息”?信息论:ClaudeShannon信息论的奠基人1,048,576个盒子:Yes/No?1.随机将10000RMB的支票放入1,048,576个盒子之一2.Play20questions:yes/no8个盒子1.最少多少个yes/no的问题能够定位支票?2.Answer:log28=31,048,576个盒子:Yes/No?1.随机将10000RMB的支票放入1,048,576个盒子之一2.Play20questions:yes/no220=1,048,576信息论1.2b=M;b为bit(binarydigit)信息2.M:所有概率的总量;因此:3.b=log2(M);=>b=-log2(1/M)=>b=-log2(P);所有概率相同,则P=1/M4.例:对于某一个motif的一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论