基因组信息分析精_第1页
基因组信息分析精_第2页
基因组信息分析精_第3页
基因组信息分析精_第4页
基因组信息分析精_第5页
已阅读5页,还剩154页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1基因组信息分析精基因组信息分析精第1页/共159页第1页/共159页第2页/共159页1、基因组、基因组DNA的奥秘的奥秘 遗传信息存贮在遗传信息存贮在4种字符组成的核酸序列中种字符组成的核酸序列中 “天书天书”用遗传语言书写的人类遗传蓝本用遗传语言书写的人类遗传蓝本包含的信息量巨大包含的信息量巨大更重要的是目前人类对它了解甚少更重要的是目前人类对它了解甚少天书中只有天书中只有4个字符(碱基个字符(碱基A、T、G、C)既没有段落,也没有标点符号既没有段落,也没有标点符号是一个长度为是一个长度为3109的一维序列。的一维序列。 第2页/共159页第3页/共159页 科学家对这本天书了解最

2、多的部分就是遗传密码科学家对这本天书了解最多的部分就是遗传密码或者说掌握了或者说掌握了DNA对蛋白质编码的规律对蛋白质编码的规律 关于密码子关于密码子(1)密码子的使用是非随机的)密码子的使用是非随机的 如果密码子的第一、第二位碱基是如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用那么第三位将尽可能使用G、C;反之亦然。;反之亦然。 如果三位都用如果三位都用G、C,则配对容易,分解难;,则配对容易,分解难; 三位都用三位都用A、U,则相反。,则相反。 一般地说,高表达的基因,要求翻译速度快,一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分手也快。要求密码子

3、和反密码子配对快、分手也快。 第3页/共159页第4页/共159页(2)密码子的使用有一定的统计规律)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同不同种属偏爱的密码子不同 人类基因组:人类基因组:密码子第三位取密码子第三位取A、U的情况占的情况占90%而第三位取而第三位取G、C仅占仅占10%密码子的使用偏性与基因功能、蛋白密码子的使用偏性与基因功能、蛋白质结构相关质结构相关 第4页/共159页第5页/共159页(3)密码子中的密码密码子中的密码 三个碱基的位置与所编码的氨基酸性质存在着联系三个碱基的位置与所编码的氨基酸性质存在着

4、联系例如:例如:芳香族氨基酸芳香族氨基酸以以U作为第一位碱基作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是亲水氨基酸的密码子,其第二位碱基是A第二位碱基是第二位碱基是G、C的密码子所编码的氨基酸的密码子所编码的氨基酸亲水性、疏水性居中。亲水性、疏水性居中。 第5页/共159页第6页/共159页基因组信息基因组信息人类基因组:人类基因组: 编码区域只占编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能对于非编码序列,尚不清楚其含义或功能非

5、编码区域对于生命活动具有重要的意义非编码区域对于生命活动具有重要的意义 包括包括内含子内含子、简单重复序列、移动元件、伪基因、简单重复序列、移动元件、伪基因 重复序列重复序列: 卫星(卫星(satellite)DNA小卫星(小卫星(mini-satellite)DNA微卫星(微卫星(micro-satellite) 顺式调控元件顺式调控元件:启动子、增强子、沉默子启动子、增强子、沉默子第6页/共159页第7页/共159页2、探索遗传语言、探索遗传语言 用语言学的方法进行研究用语言学的方法进行研究自然语言自然语言计算机程序设计语言计算机程序设计语言遗传语言遗传语言二进制序列二进制序列0、1的长程

6、关联性分析结果:的长程关联性分析结果:编码区域编码区域 自然语言自然语言非编码区域非编码区域 程序设计语言程序设计语言蛋白质编码区域所包含的信息相当于待加工的蛋白质编码区域所包含的信息相当于待加工的“数据数据”数据经过加工处理以后产生对应的蛋白质;数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于而非编码区域则相当于“程序程序”或或“指令指令”,确定如何在时间和空间方,确定如何在时间和空间方面控制基因的表达和蛋白质的合成面控制基因的表达和蛋白质的合成 第7页/共159页第8页/共159页 用密码学方法进行研究用密码学方法进行研究是否存在其它密码?是否存在其它密码?调控信息密码?调控信息

7、密码?蛋白质结构的密码?蛋白质结构的密码? 编码在编码在DNA上的一维程序如何在四维时空上的一维程序如何在四维时空中控制生命体的生长发育中控制生命体的生长发育第8页/共159页第9页/共159页3、关于生物复杂性、关于生物复杂性生物的复杂性不仅仅是基因的数目生物的复杂性不仅仅是基因的数目人类基因约为人类基因约为30000个个线虫有线虫有20000个基因个基因230000/220000=210000 103000 第9页/共159页第10页/共159页4、基因组计划带来的希望、基因组计划带来的希望 实验数据的积累速度在迅速地增加实验数据的积累速度在迅速地增加 计算机科学和技术也在不断地发展计算机

8、科学和技术也在不断地发展 第10页/共159页第11页/共159页单个基因组分析单个基因组分析基因序列基因序列基因功能基因功能基因的表达调控基因的表达调控基因产物基因产物基因多态性基因多态性第11页/共159页第12页/共159页比较基因组分析比较基因组分析物种关系物种关系物种进化物种进化物种起源物种起源第12页/共159页第13页/共159页第13页/共159页第14页/共159页人、鼠基因组比较人、鼠基因组比较 人基因组人基因组 鼠基因组鼠基因组 鼠染色体上的颜色和数字代表在人染色体上对应的片段.老鼠约老鼠约75%的基因的基因与人类相同。与人类相同。第14页/共159页第15页/共159页

9、SARS 基因组基因组(Severe Acute Respiratory Syndrome)第15页/共159页第16页/共159页全基因组核酸搜索结果全基因组核酸搜索结果 第16页/共159页第17页/共159页分段核酸搜索结果分段核酸搜索结果 第17页/共159页第18页/共159页全基因组蛋白质搜索结果全基因组蛋白质搜索结果 第18页/共159页第19页/共159页第19页/共159页第20页/共159页第20页/共159页第21页/共159页第21页/共159页第22页/共159页第22页/共159页第23页/共159页第23页/共159页第24页/共159页原核基因为连续基因,其编码

10、区是一个完整的DNA 片段。 第24页/共159页第25页/共159页第25页/共159页第26页/共159页第26页/共159页第27页/共159页第27页/共159页第28页/共159页第28页/共159页第29页/共159页第29页/共159页第30页/共159页第30页/共159页第31页/共159页第31页/共159页第32页/共159页第32页/共159页第33页/共159页第33页/共159页第34页/共159页第34页/共159页第35页/共159页第35页/共159页第36页/共159页第36页/共159页第37页/共159页第37页/共159页第38页/共159页第38页/

11、共159页第39页/共159页发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案第39页/共159页第40页/共159页第40页/共159页第41页/共159页收集已知的功能序列和非功能序列实例收集已知的功能序列和非功能序列实例(这些序列之间是非相关的(这些序列之间是非相关的 )训练集训练集(training set)测试集或控制集测试集或控制集(control set)建立完成识别任务的模型建立完成识别任务的模型检验所建模型的正确性检验所建模型的正确性对预测模型进行训练,对预测模型进行训练,使之通过学习后具有使之通过学习后具有正确处理和辨别能力。正确处理和

12、辨别能力。进行进行“功能功能”与与“非功能非功能”的的判断,根据判断结果计算判断,根据判断结果计算模识别的准确性。模识别的准确性。识别识别“功能序列功能序列”和和“非功能序列非功能序列”的过程的过程 第41页/共159页第42页/共159页pnnpnppnFTTSFTTS第42页/共159页第43页/共159页第43页/共159页第44页/共159页2pnSSAC)()()()(nnpppnnppnnpFTFTFTFTFFTTCC第44页/共159页第45页/共159页第45页/共159页第46页/共159页第46页/共159页第47页/共159页核苷酸核苷酸 频率频率 A0.32486937

13、27808 C0.1751306272192 G0.1751306272192 T0.3248693727808 酵母基因组核苷酸出现频率酵母基因组核苷酸出现频率第47页/共159页第48页/共159页第48页/共159页第49页/共159页核苷酸核苷酸 频率频率 A0.344C0.155G0.157T0.343 M.jannaschii单链核苷酸出现频率单链核苷酸出现频率第49页/共159页第50页/共159页基因和其它功能区域在正反两条链上出现的可能性通常一样 核苷酸出现频率也不应该有偏差 正反两条链在信息的组织结构方面不应该有差别 单链上A和T、C和G的出现频率相近。正反两条链碱基互补的

14、原则 单链上A和T、C和G的出现频率相近的解释第50页/共159页第51页/共159页第51页/共159页第52页/共159页酵母基因组两联核苷酸频率表酵母基因组两联核苷酸频率表对酵母基因组对酵母基因组两联核苷酸的两联核苷酸的统计结果统计结果其中核苷酸对其中核苷酸对出现频率最高出现频率最高的达到的达到0.119而出现频率最而出现频率最低的只有低的只有0.028第52页/共159页第53页/共159页关联性分析关联性分析 第53页/共159页第54页/共159页关联性分析关联性分析 第54页/共159页第55页/共159页41,2)(log)()(jijiijijppkpkpkI第55页/共15

15、9页第56页/共159页第56页/共159页第57页/共159页第57页/共159页第58页/共159页针对酵母第一染色体的分析结果针对酵母第一染色体的分析结果第58页/共159页第59页/共159页第59页/共159页第60页/共159页v基因识别是生物信息学领域里的一个重基因识别是生物信息学领域里的一个重要研究内容要研究内容 v基因识别问题,在近几年受到广泛的重基因识别问题,在近几年受到广泛的重视视 当人类基因组研究进入一个系统测序阶段当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或技术,以处理

16、大量已测定的但未知功能或未经注释的未经注释的DNA序列序列 第60页/共159页第61页/共159页v原核基因识别原核基因识别重点在于识别编码区域重点在于识别编码区域第61页/共159页第62页/共159页v非翻译区域(非翻译区域(untranslated regions, UTR) 编码区域两端的编码区域两端的DNA,有一部分被转录,有一部分被转录,但是不被翻译,这一部分称为非翻译区域但是不被翻译,这一部分称为非翻译区域 v5UTR-基因上游区域的非翻译区域基因上游区域的非翻译区域 v3UTR-基因下游区域的非翻译区域基因下游区域的非翻译区域第62页/共159页第63页/共159页v对于任何

17、给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。v例如,序列ATTCGATCGCAAv这三种阅读顺序称为阅读框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)第63页/共159页第64页/共159页一个开放阅读框(一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序)是一个没有终止编码的密码子序列。列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。框,或者说识别长的编码区域。第64页/共

18、159页第65页/共159页基于基因密码子特性的识别方法基于基因密码子特性的识别方法v辨别编码区域与非编码区域的一种方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率是检查终止密码子的出现频率 终止密码子出现的期望次数为:终止密码子出现的期望次数为: 每每21个(个( 64/3)密码子出现一次终止密)密码子出现一次终止密码子码子 第65页/共159页第66页/共159页基本思想:基本思想:如果能够找到一个比较长的序列,其相应如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序的密码子序列不含终止密码子,则这段序列可能就是编码区域。列可能就是编码区域。v基本算法

19、:基本算法:扫描给定的扫描给定的DNA序列,在三个不同的阅读序列,在三个不同的阅读框中寻找较长的框中寻找较长的ORF。遇到终止密码子以。遇到终止密码子以后,回头寻找起始密码子。后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的这种算法过于简单,不适合于处理短的ORF或者交叠的或者交叠的ORF。第66页/共159页第67页/共159页v识别编码区域的另一种方法是分析各种识别编码区域的另一种方法是分析各种密码子出现的频率密码子出现的频率 将一个随机均匀分布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列,则在氨基酸序列中上述序列,则在氨基酸序列中上述3种氨基酸出现的种氨基酸

20、出现的比例应该为比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有例如,亮氨酸、丙氨酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子但是在真实的氨基酸序列中,上述比例并不但是在真实的氨基酸序列中,上述比例并不正确正确这说明这说明DNA的编码区域并非随机序列的编码区域并非随机序列第67页/共159页第68页/共159页v假设在一条假设在一条DNA序列中已经找到所有的序列中已经找到所有的ORF,那么可以利用密码子频率进一步,那么可以利用密码子频率进一步区分编码区分编码ORF和非编码和非编码ORFv马尔柯夫链模型马尔柯夫链模型v利用这种方法,可以计算一个利用这种方法,可以计算一个ORF成为

21、成为编码区域的可能性。编码区域的可能性。第68页/共159页第69页/共159页v一个简单的统计模型一个简单的统计模型假设相继的密码子是独立的,不存在前后依假设相继的密码子是独立的,不存在前后依赖关系。赖关系。 令令fabc代表密码子代表密码子abc在编码区域出现的频率在编码区域出现的频率给定序列给定序列a1,b1,c1, a2,b2,c2, an+1,bn+1从密码子从密码子a1b1c1开始的阅读框,其开始的阅读框,其n个密码子个密码子的出现概率为的出现概率为nnncbacbacbafffp.2211111第69页/共159页第70页/共159页v第二种和第三种阅读框第二种和第三种阅读框n个

22、密码子出现的概个密码子出现的概率分别为率分别为1322211.2nnnacbacbacbfffp11332221.3nnnbacbacbacfffp第70页/共159页第71页/共159页v第第i个阅读框成为编码阅读框的概率个阅读框成为编码阅读框的概率计算:计算:v算法:算法:在序列上移动长度为在序列上移动长度为n的窗口,计算的窗口,计算Pi根据根据Pi的值识别编码的阅读框的值识别编码的阅读框321ppppPii第71页/共159页第72页/共159页基于编码区域碱基组成特征的识别方法基于编码区域碱基组成特征的识别方法v编码序列与非编码序列在碱基组成上编码序列与非编码序列在碱基组成上有区别有区

23、别单个碱基的组成比例单个碱基的组成比例多个碱基的组成多个碱基的组成v通过统计分析识别编码序列通过统计分析识别编码序列第72页/共159页第73页/共159页分析实例分析实例第73页/共159页第74页/共159页第74页/共159页第75页/共159页 真核基因远比原核基因复杂:真核基因远比原核基因复杂:v一方面,真核基因的编码区域是非连续一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。的,编码区域被分割为若干个小片段。v另一方面,真核基因具有更加丰富的基另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因因调控信息,这些信息主要分布在基因上游区域。上游区域

24、。 第75页/共159页第76页/共159页第76页/共159页第77页/共159页第77页/共159页第78页/共159页基因识别基本思路基因识别基本思路 找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动区 终止区终止区 在启动区下游位置寻找翻译起始密码子在启动区下游位置寻找翻译起始密码子 识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点第78页/共159页第79页/共159页v各种不同的方法有不同的适应面,而不各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因同的方法有时可以结合起来以提高基因识别的准确率。识别的准确率。

25、v关键问题是如何提高一个识别算法的敏关键问题是如何提高一个识别算法的敏感性(感性(sensitivity,Sn)和特异性()和特异性(specificity,Sp)。)。 第79页/共159页第80页/共159页两大类识别方法:两大类识别方法:v从头算方法(或基于统计的方法)从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域,通过统计值区分外显子、内含子及基因间区域 v基于同源序列比较的方法基于同源序列比较的方法利用数据库中现有与基因有关的信息(如利用数据库中现有与基因有关的信息(如EST

26、序序列、蛋白质序列),通过同源比较,帮助发现新列、蛋白质序列),通过同源比较,帮助发现新基因。基因。v最理想的方法是综合两大类方法的优点最理想的方法是综合两大类方法的优点,开发混合算法。,开发混合算法。第80页/共159页第81页/共159页两类方法两类方法 :v基于特征信号的识别基于特征信号的识别 内部外显子内部外显子剪切位点剪切位点5端的外显子一定在核心启动子的下游端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终端的外显子的下游包含多聚信号和终止编码止编码 v基于统计度量的方法基于统计度量的方法 根据密码子使用倾向根据密码子使用倾向双联密码统计度量等双联密码统计度量等第8

27、1页/共159页第82页/共159页v在一个基因中,第在一个基因中,第i个(个(i=1,64)密码子相对使用)密码子相对使用倾向倾向RSCUi的定义如下:的定义如下:vObsi是该基因中第是该基因中第i个密码子实际出现的次数个密码子实际出现的次数Expi是对应密码子期望的出现次数是对应密码子期望的出现次数 aai是统计的第是统计的第i个密码子出现的次数个密码子出现的次数 syni是所有与第是所有与第i个密码子同义密码子出现的次数个密码子同义密码子出现的次数vRSCU大于大于1表示相应密码子出现的次数比期望次数表示相应密码子出现的次数比期望次数高,而小于高,而小于1则表示出现次数相对较少。则表示

28、出现次数相对较少。iiiExpObsRSCU iiisynaaExp(5-66) (5-65) 密码子使用倾向密码子使用倾向第82页/共159页第83页/共159页v设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为: fk是从第k位开始的双联密码的频率Fk是该双联密码随机出现的频率4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF(5-67)双联密码统计度量双联密码统计度量第83页/共159页第84页/共159页通过相似搜索发现编码区域或者

29、外显子通过相似搜索发现编码区域或者外显子 EST(Expressed Sequence Tags)cDNA 蛋白质序列蛋白质序列第84页/共159页第85页/共159页v目前大多数预测程序都将数据库相似性目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程搜索的信息结合进基因预测过程v同时考虑序列特征信号和统计度量同时考虑序列特征信号和统计度量GRAIL用人工神经网络识别编码区域用人工神经网络识别编码区域第85页/共159页第86页/共159页第86页/共159页第87页/共159页第87页/共159页第88页/共159页第88页/共159页第89页/共159页第89页/共159页第

30、90页/共159页胞体胞体(Soma)树突(树突(Dendrite)胞体胞体(Soma) 轴突(轴突(Axon)突触(突触(Synapse)第90页/共159页第91页/共159页第91页/共159页第92页/共159页第92页/共159页第93页/共159页xn wnx1 w1x2 w2net=XW第93页/共159页第94页/共159页netooc第94页/共159页第95页/共159页第95页/共159页第96页/共159页a+b o(0,c)netac=a+b/2第96页/共159页第97页/共159页x1x2xno1o2omwnmw11w1mw2mwn1输出层输出层输入层输入层第97

31、页/共159页第98页/共159页第98页/共159页第99页/共159页InputsOutput),(),(),(),(14414133131221211111wxfywxfywxfywxfy),(),(),(231232212221121wyfywyfywyfy141312111yyyyy),(312wyfyOut2323232yyyy第99页/共159页第100页/共159页第100页/共159页第101页/共159页第101页/共159页第102页/共159页第102页/共159页第103页/共159页第103页/共159页第104页/共159页第104页/共159页第105页/共15

32、9页输入是一系列反映功能位点信号特征和序列编码统计特征的参数输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段输出就是对一段DNA序列是否是编码区域的判别结果序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性性第105页/共159页第106页/共159页第106页/共159页第107页/共159页第107页/共159页第108页/共159页第108页/共159页第109页/共159页第109页/共159页第110页/共159页BLOCK第110页/共159页第111页/共15

33、9页第111页/共159页第112页/共159页第112页/共159页第113页/共159页第113页/共159页第114页/共159页锌指功能结构域的PSSM第114页/共159页第115页/共159页代表每一列代表每一列二十种二十种氨基酸氨基酸矩阵中的数值:当前位置上,某矩阵中的数值:当前位置上,某种氨基酸出现的频率的种氨基酸出现的频率的log值值第115页/共159页第116页/共159页碱基的位置碱基的位置四种碱基四种碱基第116页/共159页第117页/共159页第117页/共159页第118页/共159页第118页/共159页第119页/共159页N第119页/共159页第120页/共159页第120页/共159页第121页/共159页第121页/共159页第122页/共159页第122页/共159页第123页/共159页第123页/共159页第124页/共159页第124页/共159页第125页/共159页第125页/共159页第126页/共159页第126页/共159页第127页/共159页第127页/共159页第128页/共159页第128页/共159页第129页/共159页第129页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论