(信号与信息处理专业论文)基于dna序列的功能位点识别.pdf_第1页
(信号与信息处理专业论文)基于dna序列的功能位点识别.pdf_第2页
(信号与信息处理专业论文)基于dna序列的功能位点识别.pdf_第3页
(信号与信息处理专业论文)基于dna序列的功能位点识别.pdf_第4页
(信号与信息处理专业论文)基于dna序列的功能位点识别.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)基于dna序列的功能位点识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

xj :。 ik 苏州大学学位论文使用授权声明 l t t ll l l1 1 1 1tl t lt1 ititl 17 3 2 6 18 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在二年一月解密后适用本规定。 非涉密论文囱 论文作者基名:叁磐日期艘! 翠幽 导师签名:善脚期:婶t 论 基于d n a 序列的功能位点识别中文摘要 基于d n a 序列的功能位点识别 中文摘要 由于基因序列中的功能位点与基因的调控、转录紧密相关,人们对这些位点进行 了广泛的分析。如何从d n a 序列中准确地检测出这些功能位点成为了生物信息学中 的一项长期热点。 本文首先提出了一种基于熵度量的改进位置权重矩阵法,并以此方法对原核生物 启动子进行识别。该方法首先运用信息论中的信息熵提取出原核生物启动子的保守位 点,然后利用启动子训练集和非启动子训练集构建两个相应的改进位置权重矩阵。根 据矩阵中相应于保守位点和关联片段的元素值,对测试序列进行计分,最后根据分值 对测试序列进行分类。在大肠杆菌基因序列上的实验结果表明,该算法在敏感性、特 异性、关联系数以及精确度方面优于现有的启动子识别算法。 第二,提出了一种基于新颖模式识别技术的核小体识别算法。此技术结合了两种 方法分别进行模式匹配和序列模糊性的去除。首先运用了电子技术中的镜像匹配滤波 器来匹配序列中的模式信息;再运用图像处理中的概率松弛标示进行后续处理,根据 位点左右的上下文信息减少或消除序列在测定过程中产生的噪声。将此技术应用到酵 母基因组上,得到的核小体分布图表明该算法在识别准确率方面有显著的提高。实验 结果同时也揭示出各物种之间核小体分布也许存在着一种共享的序列机制。 关键词:d n a 序列分析,启动子,位置权重矩阵,熵,保守位点,匹配滤波器,概率 松弛标示,核小体。 作者:吴琴琴 指导老师:王加俊教授 o nt h et r a i n i n gs e t b yu s i n gt h ev a l u e so ft h em a t r i xe l e m e n t si nt h es p e c i f i cc o l u m n s c o r r e s p o n d i n gt ot h ee x t r a c t e dc o n s e r v a t i v es i t e s ,t h et e s ts e q u e n c e sa r es c o r e da n d s u b s e q u e n t l yc l a s s i f i e d e x p e r i m e n t a lr e s u l t so ns e v e r a ld a t a s e t ss h o wt h a tt h ep r o p o s e d a l g o r i t h mo u t p e r f o r m st h ee x i s t i n go n e si ns e n s i t i v i t y , s p e c i f i c i t y , c o r r e l a t i o nc o e f f i c i e n t a n d p r e c i s i o n s e c o n d l yw ed e v e l o pan o v e lp a r e r nr e c o g n i t i o nb a s e da p p r o a c ht oi d e n t i f y n u c l e o s o m ep o s i t i o n s t h i st e c h n i q u ec o m b i n e st w om e t h o d sf o rn u c l e o s o m ep a r e m m a t c h i n ga n da m b i g u i t ye l i m i n a t i o n f i r s t l yt h em a t c h e dm i r r o rp o s i t i o nf i l t e ri su s e dt o m a t c ht h ep a t t e m si nt h ed n a s e q u e n c e ,a n dt h e nt h ep r o b a b i l i s t i cr e l a x a t i o nl a b e l i n g , w h i c hi s w i d e l yu s e di ni m a g ep r o c e s s i n g ,i su s e dt oe l i m i n a t et h en o i s ei nt h ed n a s e q u e n c eb yt h ec o n t e x t u a li n f o r m a t i o n w et h e na p p l i e dt h i sc o m b i n e df r a m e w o r kt ot h e s a c c h a r o m y c e se e r e v i s i a e ( y e a s t ) g e n o m e t h er e s u l t i n gn u c l e o s o m eo c c u p a n c ym a p so f t h ey e a s ts h o wt h a tt h e a c c u r a c y o fo u rp r o p o s e da l g o r i t h mh a sb e e ns i g n i f i c a n t l y i m p r o v e d e x p e r i m e n t a lr e s u l t sa l s os h o wt h a tm a y b eak i n do fm e c h a n i s mi ss h a r e db yt h e n u c l e o s o m eo c c u p a n c ym a p so fd i f f e r e n ts p e c i e s k e y w o r d s :d n as e q u e n c ea n a l y s i s ,p r o m a t c h e df i l t e r , p r o b a b i l i s t i cr e l a x a t i o nl a b e l i n g , i l 目录 第一章绪论1 1 1 序列分析的研究背景和研究意义2 1 1 2 序列分析的主要研究内容。2 1 2 1 基因2 1 2 2 内含子、外显子以及剪切位点2 1 2 3 转录起始位点、翻译起始位点以及启动子3 1 2 。4 核小1 本3 1 3 序列分析的研究现状4 1 3 1 启动子识别的研究现状6 1 3 2 核小体识别的研究现状6 1 4 本论文的研究内容与研究目标9 1 5 本论文的结构安排9 第二章生物信息学概述1 1 2 1 生物信息学的基本概念11 2 2 生物信息学的相关简史1l 2 3 生物信息学的主要研究内容1 2 2 4 生物信息学的研究意义1 2 2 5 生物信息学的一些研究方法。1 3 2 6 生物信息学方面的一些数据库1 3 2 6 1d n a 数据库14 2 6 2 基因组数据库1 4 2 6 3 蛋白质序列数据库1 4 2 7 生物信息学方面的一些期刊1 5 第三章基于熵度量的改进位置权重矩阵法在原核生物启动子识别中的应用1 6 3 1 引言1 6 3 2 基于熵度量的改进位置权重矩阵法:1 6 3 2 1 基于熵的保守性探测。1 6 3 2 2 改进的位置权重矩阵17 3 3 实验结果和讨论1 9 3 4 小结3 0 第四章基于镜像匹配滤波器和概率松弛标示的核小体识别算法3 1 4 1 引言31 4 2 镜像匹配滤波器与概率松弛标示结合的核小体识别算法小3 2 4 2 1 镜像匹配滤波器法3 2 4 2 2 概率松弛标示法3 5 4 2 3 镜像匹配滤波器与概率松弛标示结合的核小体识别算法。3 8 4 3 实验结果和讨论3 8 4 4d 、结4 5 第五章总结与展望4 6 缩略词表4 7 参考文献4 8 攻读学位期间公开发表的论文5 2 致 射5 3 基于d n a 序列的功能位点识别第一章绪论 第一章绪论 1 1 序列分析的研究背景和研究意义 随着分子生物学的发展,大量的生物数据涌现在人们面前。如何在这些海量数据 里挖掘出有用的生物信息,是生物信息学的研究重点与难点。目前生物信息学的大量 工作是针对基因组d n a 序列的【m 】。人们希望通过分析这些生物序列,获知其中对应 蛋白质编码的基因和基因调控序列,即所谓的序列上的功能位点。序列分析简单来说 即是对d n a 序列进行分析,通过其中呈现的规律,对其中的基因以及其它功能位点 进行自动识别。通过探索这些功能位点在序列上所处位置的规律,描述生物分子在基 因调控中的作用,从而发现基因表达调控的内在机理,进而指导人类疾病的诊断。 d n a 序列是遗传信息的源泉,它对蛋白质的编码是科学家们感兴趣的一个方面。 在d n a 序列分析中,识别蛋白质编码区或识别基因是关键内容之一。就目前分子生 物学技术的发展现状而言,实验测定d n a 序列比测定蛋白质序列要简单得多,因此 可以通过实验测定的一段基因序列推导蛋白质的氨基酸序列。然而要想由d n a 序列 得到蛋白质序列并非易事。一方面,由于许多蛋白质被编码在d n a 序列的不同区域, 对一段给定的d n a 序列,生物学家必须首先知晓编码区域从什么地方开始,到什么 地方结束,在基因中间哪些地方可能会出现间隔。为解决这个问题,就必须识别内含 子、外显子以及基因的剪切位点。 另外,详细分析非编码区域也有着重要的研究意义。目前的主要工作是分析与基 因表达调控相关的信息,包括分析各种功能位点和基因转录调控单元。功能位点是 d n a 序列上一些特殊的片段,即与蛋白质因子作用的位点,是与基因转录、翻译有 关的信号序列,包括启动子、起始密码子、转录起始位点、翻译起始位点、核小体等 在& 号手。 随着人类得到的基因组逐渐增多,科学家们开始通过比较各个基因组之间信息组 织的结构和规律,来研究物种之间的进化关系,这也是今后基因组序列分析的一个重 要的研究方向。 第一章绪论基于d n a 序列的功能位点识别 1 2 序列分析的主要研究内容 如上所述,序列分析的主要研究内容是运用各种方法分析d n a 序列,对其中的 基因以及其它功能位点进行自动识别。 序列中的功能位点包括基因、内含子、外显子、剪切位点、启动子、转录起始位 点、翻译起始位点、核小体等等。下面对这些功能位点分别作- 下简介: 1 2 1 基因 基因( g e n e ) 的概念随着遗传学、分子生物学、生物化学等领域的发展不断完善。 从分子生物学角度看,基因是合成有功能的多肽或r n a 分子所必需的所有核酸序列, 除了为蛋白质或r n a 编码的序列之外,还包括控制基因转录的序列。一般来说,基 因是负载特定生物遗传信息的d n a 分子片段,在一定条件下能够表达遗传信息,产 生特定的生理功能。有些生物的基因是r n a 分子。图1 1 显示了真核生物基因的一 般结构。 图1 1 真核生物基因的一般结构 1 2 2 内含子、外显子以及剪切位点 内含子( i n t r o n ) 是一个基因中的非编码d n a 片段,它分开相邻的外显子( e x o n ) 。 更精确的定义是,内含子是阻断基因显性表达的序列。d n a 上的内含子会被转录到 前体m r n a 中,但是r n a 上的内含子会在r n a 离开细胞核进行转译前被剪除。在 成熟m r n a 中被保留下来的基因部分称为外显子,这一过程如图1 2 所示。真核生 物的基因含有外显子和内含子,而原核生物中仅含有外显子。外显子与内含子之间即 2 基于d n a 序列的功能位点识别 第一章绪论 称为剪切位点。 图1 2 真核生物基因中,从前体m r n a 到m r n a ,外显子被保留,内含子被剪除。 1 2 3 转录起始位点、翻译起始位点以及启动子 转录起始位点( t r a n s c r i p t i o ns t a r ts i t e 或称t r a n s c r i p t i o ni n i t i a t i o ns i t e ) 是指d n a 序列中开始进行转录的位点。而翻译起始位点( t r a n s l a t i o ns u t r ts i t e 或称t r a n s l a t i o n i n i t i a t i o ns i t e ) 是d n a 序列中开始从核酸序列翻译成蛋白质氨基酸序列的位点。启动 子( p r o m o t e r ) 是位于结构基因5 端上游的一段d n a 序列,能够指导全酶同模板正 确结合,活化r n a 聚合酶,启动基因转录。启动子本身并不控制基因活动,它是通 过与转录因子结合来控制基因活动的。通常把基因转录起始位点前面即5 端的序列 称为上游( u p s t r e a m ) ,起始位点后面即3 端的序列称为下游( d o w n s t r e a m ) ,并把 起始位点的位置记为+ l ,下游的核苷酸依次记为+ 2 ,+ 3 上游方向依次记为一1 , 一2 ,一3 1 2 4 核小体 核小体( n u c l e o s o m e ) 是染色体的基本结构单位,由d n a 和组蛋白( h i s t o n e ) 构成。四种组蛋白h 2 a 、h 2 b 、h 3 和h 4 各二个分子,形成一个组蛋白八聚体,约 1 4 7 碱基对的d n a 分子盘绕在组蛋白八聚体构成的核心结构外面,就形成了一个核 小体。相邻核小体之间的d n a 序列含有组蛋白h 1 ,称为连接d n a 。图1 3 显示了 核小体的一般结构。 第一章绪论 基于d n a 序列的功能位点识别 ( o r eo f f8h i 譬t a 嗜芑m o - e 薯蚰- e 薯 1 3 序列分析的研究现状 图1 3 核小体的一般结构 目前应用在序列分析方面的一些方法主要包括以下几种【3 】:( 1 ) 数学统计方法和 概率论。数学统计方法和概率论是序列分析中一种常用的方法。通过综合分析,建立 合理的数学模型,定量地描述生物活动过程、活动规律或者本质特征。其中,隐马尔 科夫模型法( h i d d e nm a r k o vm o d e l ,h m m ) 在序列分析方面有着重要的应用。h m m 是最近几十年发展起来的时间序列模型,已广泛应用于语音识别、特征识别等方面。 在生物信息学中,h m m 也被应用在如d n a 编码区的识别、蛋白质家族的构模等; ( 2 ) 动态规划方法( d y n a m i cp r o g r w n m i n g ) 。动态规划法是一种解决多阶段决策问 题的最优化方法,或复杂空间的优化搜索方法。动态规划将比较复杂的问题划分为若 干阶段,通过逐段求解,最终获得全局最优解。在d n a 或者蛋白质序列的比对、基 因识别方面动态规划方法有着重要的应用;( 3 ) 机器学习与模式识别技术。大多数情 况下,生物信息学中的知识可以用序列的模式或者序列的特征来概括。在生物信息学 中,无论是基因识别,还是d n a 序列上的功能位点和特征信号的识别,或者是蛋白 质序列特征分析,都需要用到模式识别;( 4 ) 人工神经网络技术。神经网络属于信息 科学理论范畴,它是随着信息科学的开创而发展起来的。神经网络是由大量的简单处 理单元( 即神经元) 构成的非线性动力学系统,它具有的学习算法能使其对事物和环 境具有很强的自学习、自适应和自组织能力,能解决常规信息处理方法难以解决或无 4 基于d n a 序列的功能位点识别第一章绪论 法解决的问题,尤其是那些属于思维和推理方面的问题。在人工神经网络中,神经元 常被称为“处理单元”,有时从网络的观点出发又把它称为“节点 。人工神经元是生 物神经元的一种近似,在功能上讲它只是一阶逼近,仅仅近似地模拟了生物神经元的 三个过程。目前应用的一些神经模型包括:感知器模型、反向传播网络模型、自组织 特征映射模型、回归网络模型、混合网络和混合系统模型:( 5 ) 一些数据分析技术。 比如非参数统计,聚类分析技术等等;( 6 ) 支持向量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 。 支持向量机是近来较热门的一种方法,其研究背景是v a p n i k 的统计学习理论,通过 最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映 射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经网络方 法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此在生物信息学 中也开始受到重视;( 7 ) 此外还有法则系统、语言学方法、线性判别分析、决策树、 拼接列线、贝叶斯分类、傅里叶分析方法等。 影响这些算法有效性的因素包括测序误差和统计偏差,例如碱基组成。数据的噪 声也会极大地降低这些方法的效果,所以以上基于误差率较高的序列草图的识别结果 将明显劣于基于完成序列的识别结果。所以在运用这些算法时,也需要考虑到序列中 可能存在的偏差和错误。 序列数据的偏差或错误主要来自实验过程,这与其它科学数据的情况相同。这些 错误主要来自以下几个方面:( 1 ) 载体序列污染:在测定序列的实验过程中,载体序 列可能造成污染,致使序列记录数据中包含了载体序列;( 2 ) 异源序列污染;( 3 ) 序 列的重排和缺失;( 4 ) 重复序列污染;( 5 ) 测序误差和自然多态性:测序过程存在一 定的误差概率。在识别序列中的功能位点时,通过一定的方法减少序列中存在的偏差 和错误可以使得基于序列识别功能位点的有效性得到提高。但是目前并没有明确的算 法可以有效地去除序列中的偏差和错误。大部分算法是在实验测定的序列上直接进行 识别的。 d n a 序列中隐藏着大量的生命奥秘。正如d u l b e c c 0 1 9 8 6 年所说:“人类的d n a 序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。 要完全 破译这一序列以及相关的内容,我们还有相当长的路要走。 第一章绪论基于d n a 序列的功能位点识别 1 3 1 启动子识别的研究现状 启动子是位于结构基因5 端上游的一段d n a 序列,能够指导全酶同模板正确 结合,活化r n a 聚合酶,启动基因转录。目前国内外已经有很多方法可以进行启动 子识别【4 。1 4 1 。这些识别启动子的算法应用了一些基本的模式识别技术,比如神经网络 ( n e u r f ln e t w o r k s ) ,支持向量机( s u p p o r t v e c t o rm a c h i n e ) ,马尔科夫模型( m a r k o v m o d e l s ) 以及位置权重矩阵法( p o s i t i o nw e i g h tm a t r i x ) 。尽管在识别启动子方面人们 已经进行了广泛的研究,但是提出的这些算法识别启动子的效果仍然有待改进。比如, 尽管位置权重矩阵法可以很好地描述序列信息,直接运用位置权重矩阵法来预测识别 启动子的结果仍然比较差。这可能是因为位置权重矩阵没有考虑进碱基之间的关联导 致。接着,位置关联权重矩阵法( p o s i t i o n c o r r e l a t i o nw e i g h tm a t r i x ,p c w m ) 被提 出解决这个问题【l 。p c w m 法在构建位置权重矩阵时考虑进了碱基之间的关联,所 以p c w m 法比其他的方法达到的识别准确率要好。但是,算法提取出的保守位点没 有与代表关联的片段相对应,仍然是单核苷酸时的十个保守位点,因此尽管p c w m 识别准确率高些,它的特异性相对较低,因为它取出的保守位点不是相应关联片段中 最具有代表性的位点。除此之外,应用于启动子识别的还有多样性增量结合二次判别 分析( i n c r e m e n to fd i v e r s i t yw i t hq u a d r a t i cd i s c r i m i n a n ta n a l y s i s ,i d q d ) 的方法【1 4 1 。 此算法预测识别启动子的效果比概率关联权重矩阵法稍好,但是当研究对象为小样本 时结果不太准确,因为此算法中的二次判别式只在正态分布下有效,而小样本不一定 能呈现正态分布,所以此算法并不适用于小样本。此外用于启动子识别的算法还有贝 叶斯神经网络法( b a y e s i a nn e u r a ln e t w o r k sm e t h o d ) r 7 】与加强的马尔科夫模型法 ( e n h a n c e dh m mm e t h o d ) 【8 】,这两个方法都曾被应用来探测大肠杆菌的0 7 0 启动子。 尽管这两个算法在敏感性和特异性这两个性能参数上比前几个算法稍好,但是对于典 型的原核生物如大肠杆菌的启动子仍然不能准确地进行预测识别。 1 3 2 核小体识别的研究现状 核小体是染色体的基本组成单位,作为一种典型的d n a 与组蛋白结合的生物大 分子,它已经得到了高度重视和广泛研究。近年来,科学家们在核小体识别方面取得 6 基于d n a 序列的功能位点识别第一章绪论 了一些初步的成果。 : 多个科学小组相继在基因组范围内通过实验确定了酵母的核小体定位图。y u a n 等人最先在2 0 0 5 年通过实验测定部分核小体定位图谱【”】。他们首先使用b l a s t 比 对剔除了酵母3 号染色体中与其它染色体高度相似的序列,以保留下来的片段为基础 设计了一个微阵列。此微阵列由5 0 碱基对的寡核苷酸探针组成,相邻两个探针有2 0 碱基对的重叠。酵母染色质经过微球菌核酸酶消解,得到单核小体,并且用绿色荧光 染料( c y 3 ) 作上标记,再用红色荧光染料( c y 5 ) 标记全基因组的d n a ,将这两种 添加了标记的单核小体和全基因组d n a 混合,与微阵列探针杂交,利用基因芯片扫 描仪测定其杂交值,再输入隐马尔科夫模型( h m m ) 进行处理,从而得到酵母核小 体定位图。2 0 0 7 年,l e e 等人运用相似的实验原理对整个酵母基因组上的核小体进行 了定位【l6 1 。同年,并行测序技术逐渐成熟,从而对成百上千的核小体d n a 分子进行 直接测序成为可能。a l b e r t 等人在结合有组蛋白h 2 a z 的酵母核小体上最先作了尝试 u 刀。他们将经过染色质免疫共沉淀、微球菌核酸酶消解和凝胶纯化的h 2 a z 核小体 直接映射到参考基因组上,从而实现核小体的定位。但是因为只有含有h 2 a z 的核 小体被检测出来,如何运用测序技术大量地在体定位核小体仍然是一个问题。2 0 0 8 年,相同的实验小组探讨并解决了这个难题【l 引,他们运用染色质免疫共沉淀和加了标 签的组蛋白h 3 、h 4 的抗体在酵母基因组上映射了大量的核小体。随后,f i e l d 等人 也对酵母的在体核小体定位进行了研型1 9 1 。他们运用4 5 4 测序技术测序了一些酵母核 小体,将这些核小体通过b l a s t 序列比对剔除掉相似性高于9 5 的序列之后映射到 酵母基因组上。但是由于他们所用的测序技术的序列读数长度约为2 0 0 碱基对,并不 能够精确地定位核小体,另外他们的序列读数覆盖率也只有a l b e r t 等人所用的数据集 的四分之一。z h a n g 等人在2 0 0 9 年进行了相似的研刭2 0 1 ,发现相对于大肠杆菌d n a , 核小体更偏好于酵母d n a ,从而推断酵母基因组参与了核小体形成过程,认为内在 的组蛋白与d n a 之间的相互作用并不是在体核小体定位的主要决定因素。 这些传统的实验方案通过微球菌核酸酶轻微消解染色质可以相对准确地预测出 核小体的位置信息,但是,如果在整个基因组之上应用此方法的话,这种实验方法就 显得很昂贵,因此不切实际。在这种情况下,如何用更便捷的方法在染色质中定位核 小体就显得尤为迫切。 近年来,对核小体的统计研究显示,核小体的d n a 序列中有一些不同于非核小 7 第一章绪论基于d n a 序列的功能位点识别 体的特殊模式【2 1 1 ,这使得基于序列预测核小体成为可能。人们于是尝试从已知的大量 序列信息中来预测识别核小体的位置【2 2 3 1 1 。一些预测识别核小体的计算机方法也在这 个阶段逐步建立和发展起来。2 0 0 6 年,i o s h i k h e s 和同事利用比较基因组学法对酵母 基因组上的核小体进行了识别1 2 2 。用比较基因组学法识别出的核小体和实验测定的核 小体有一定的一致性,由此i o s h i k h e s 等人推论认为酵母中核小体定位至少部分由 d n a 序列决定。随后科学家s e g a l 和同事的研究工作进一步证明了d n a 序列和核小 体定位之间有着显著的关酬2 3 。,并且成功地证明了d n a 序列的确编码着放置核小体 的“区域”信息。在目前的计算机算法中,s e g a l 的计算机模型识别效果最好。基于d n a 序列信息,他的计算机模型可以识别酵母细胞中大量核小体的位置,和实验测出的核 小体相比,模型识别正确率可以达到5 0 。这些结果为基于序列的核小体定位研究 提供了一个很好的框架。p e c k h a m 在2 0 0 7 年提出用支持向量机模型来区分核小体形 成序列和核小体抑制序列【2 4 1 。识别精度与s e g a l 的模型结果持平,显示5 0 的核小 体可以由支持向量机算法来确定。2 0 0 8 年,y u a n 和l i u 提出了一个基于小波变换的 计算机模型来区分1 9 9 个核小体序列和2 9 6 个自由连接序列【2 5 1 ,实验结果证明这个模 型可以很好地区分核小体占据区域和核小体缺失区域,但是不能很精确地预测核小体 的确切位置。t e i f 和r i p p e 提出了一个统计热力学模型1 2 6 ,认为核小体定位可以看作 是核小体解离和沿一维d n a 晶格的再结合的热力学平衡过程,但是这一模型预测效 果有限,理论与实验结果之间仍然有很大差异1 2 7 】。尽管这些识别核小体位置的研究或 多或少地获得了一些成功,也还存在着诸多缺点。首先,尽管s e g a l 的计算机模型识 别核小体准确率达到5 0 ,和运用实验方法测出的核小体相比,准确度仍然不高。 到现在为止,核小体定位机制到底在多大程度上由d n a 序列决定仍然不是很清楚。 其次,序列本身在测定过程中就存在一些不确定的位点,根据这样的序列信息识别出 的核小体某些位置就可能出现偏差。另外,这些研究大部分是在特殊物种的核小体上 先进行训练,总结出核小体序列的使用偏好,再利用这些偏好在测试集中识别核小体, 这种做法在一定程度上影响及限制了在其他物种中预测识别核小体的准确率。因此如 何运用计算机方法更准确地预测识别核小体在染色质上的位置,仍然是一个亟待解决 的问题。 8 基于d n a 序列的功能位点识别第一章绪论 1 4 本论文的研究内容与研究目标 本论文主要研究基于d n a 序列的功能位点识别,具体研究启动子识别算法和核 小体识别算法。启动子指引d n a 进行转录,与基因的转录调控有着密切的关系。核 小体则是染色体的基本组成部分,其具有的特殊结构阻碍了蛋白质与环绕在组蛋白上 的d n a 接触,直接或间接地影响了基因表达调控过程的发生。在序列中准确识别启 动子和核小体对于了解基因表达调控的内在机理有着重大的意义。这一研究可以使人 们更为全面深刻地认识生物科学中的本质问题。本论文首先提出了一种启动子识别算 法,将信息论中的信息熵与改进的位置权重矩阵相结合,并将该方法应用于对大肠杆 菌启动子的分析中。其次,提出了基于d n a 序列的核小体识别算法,并运用该算法 在酵母基因组范围内对核小体进行识别。 本论文研究目标在于提高序列中功能位点( 如启动子、核小体) 识别算法的准确 率,基于序列信息更加准确地定位启动子和核小体,从而为快速有效识别更多真核生 物( 比如人类) 基因组中的启动子与核小体打下基础,也可以使人们进一步深入认识 与了解这些功能位点在基因表达调控中的作用。 1 5 本论文的结构安排 本论文结构安排如下: 第一章绪论:介绍了生物信息学的第一大研究领域即序列分析的研究背景和研 究意义、主要研究内容、研究方法和研究现状( 重点阐述了与本论文研究主题相关的 两种功能位点即启动子与核小体识别的研究现状) ,并概述了本论文的研究内容和研 究目标以及结构安排。 第二章生物信息学概述:介绍了生物信息学的概念、相关简史、研究内容、研 究意义、研究方法以及生物信息学方面的一些数据库和国内外著名期刊。 第三章基于熵度量的改进位置权重矩阵法在原核生物启动子识别中的应用:提 出运用信息论中的信息熵来度量序列中位点的保守性。将基于熵度量的改进位置权重 矩阵法应用于大肠杆菌启动子的识别,实验数据表明该算法性能参数优于目前其它的 启动子识别算法,可以有效地识别原核生物的启动子。 9 第一章绪论 基于d n a 序列的功能位点识别 第四章基于镜像匹配滤波器和概率松弛标示的核小体识别算法:提出将电子技 术中的镜像匹配滤波器应用到生物信息学,并运用图像处理学科中的概率松弛标示进 行后续处理。将该算法应用于酵母基因组,实验结果表明在整个酵母基因组上,相比 其它的核小体识别算法,结合了镜像匹配滤波器与概率松弛标示的算法可以更有效地 识别出更多正确的核小体。 第五章总结和展望:对本论文的主要研究工作进行了总结,并对下一步工作的 方向提出了自己的见解。 1 0 基于d n a 序列的功能位点识别第二章生物信息学概述 第二章生物信息学概述 2 1 生物信息学的基本概念 简单来说,生物信息学( b i o i n f o r m a t i c s ) 是- - f - 综合利用数学、计算机科学、信 息科学等各种技术研究生物系统规律的学科,具体研究如何运用各种技术揭示大量而 复杂的生物数据所赋有的生物学奥秘1 2 】。其研究重点主要体现在基因组学( g e n o m i c s ) 和蛋白质组学( p r o t e o m i c s ) 两个方面,具体说就是从核酸和蛋白质生物数据出发, 分析其中表达的生物信息。 2 2 生物信息学的相关简史 生物信息学是随着分子生物学的发展而产生、发展的。它的诞生最早可以追溯到 上个世纪的5 0 年代【3 】。1 9 5 6 年在美国田纳西州召开了首次“生物学中的信息理论研 讨会 ,预示着生物信息学的来临。在此后的时间里,生物学同化学、物理学和数学 等学科相互交叉渗透,取得了一系列划时代的科学成就。1 9 9 0 年美国启动人类基因 组计划,迄今已经完成了几十多种生物的全基因组测序工作。2 0 0 0 年6 月,被誉为 生命“阿波罗计划 的人类基因组计划,经过美、英、日、法、德和中国科学家的艰 苦努力,终于完成了工作草图,这是生物学史上的一个里程碑事件。与此同时,d n a 自动测序技术的快速发展使得d n a 数据库中的核酸序列公共数据量急速增长,生物 信息迅速地膨胀成数据的海洋。截至目前,仅登录在美国g e n b a n k 数据库中的d n a 序列总量就已超过7 0 亿碱基对。生物学数据的积累并不仅仅表现在d n a 序列方面, 与其同步的还有蛋白质氨基酸序列的增长。在这些数据基础上产生的数据库已达5 0 0 余个。这一切构成了一个生物学数据的汪洋。并且随着时间的推进,这些生物学数据 还将继续急速地海量积累。 数据量的巨大积累往往蕴含着潜在的突破性发现,生物信息学便是在生物信息海 量积聚这一前提下应运而生的交叉学科,它的出现标志着时代从积累数据向解释数据 转变。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义: 第二章生物信息学概述基于d n a 序列的功能位点识别 生物信息学是- f - j 交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和 解释等各个方面,综合运用数学、计算机科学和生物学的各种工具,来阐明和解释大 量数据所包含的生物学意义。生物信息学还有另一个名字:“计算生物学” ( c o m p u t a t i o n a lb i o l o g y ) ,此外,“计算分子生物学( c o m p u t a t i o n a lm o l e c u l a r b i o l o g y ) 和“生物分子信息学 ( b i o m o l e c u l a ri n f o r m a t i c s ) 等也经常用来指代这一交 叉学科。 2 3 生物信息学的主要研究内容 生物信息学最初更多地是关注数据库,那些数据库存储着来自基因组测序计划完 成的序列数据【2 j 。目前生物信息学已今非昔比,除了关注序列数据,还关注生物大分 子的结构、代谢途径和基因表达等等。生物信息学最使人们感兴趣的是它综合利用各 学科方法分析生物数据,根据核酸序列预测蛋白质序列、结构、功能等。 粗略地说,生物信息学主要是研究如何通过对生物数据的统计计算分析,更加深 入地理解d n a 序列、结构、演化及其与生物功能之间的关系,其研究涉及到分子生 物学、分子演化及结构生物学、统计学及计算机科学等许多领域。生物信息学是内涵 非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分 配和解释。这些内容包括“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确 切位置以及各d n a 片段的功能;以及在发现新基因信息之后进行蛋白质空间结构模 拟和预测,然后依据特定蛋白质的功能进行药物设计。另外,了解基因表达的调控机 理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述其中的内在 规律,从而指导人类疾病的诊断。 生物信息学的研究领域具体主要体现在以下几个方面:( 1 ) 序列分析;( 2 ) 基因 组注释;( 3 ) 计算进化生物学;( 4 ) 生物多样性的度量;( 5 ) 蛋白质结构预测;( 6 ) 蛋白质表达分析;( 7 ) 比较基因组学;( 8 ) 基因表达分析;( 9 ) 调控分析;( 1 0 ) 生 物系统模拟;( 1 1 ) 在药物研发方面的作用等等。 2 4 生物信息学的研究意义 生物信息学的研究,可以使人们更为全面深刻地认识生物科学中的本质问题。随 1 2 基于d n a 序列的功能位点识别第二章生物信息学概述 着人类基因组计划的快速发展,生物信息学技术在发现与识别功能基因、深入了解基 因与蛋白质的表达与调控方面都发挥着关键的作用。此外,生物信息学技术在基于基 因与蛋白质功能缺陷的合理化药物设计方面也有着巨大的潜力。同时,生物信息学研 究在医学上也有重要意义。通过生物信息学分析,可以了解基因与疾病之间的关系, 了解疾病产生的机理,可以帮助确定新药作用的目标和作用的方式,从而为设计新药 提供依据。另外,生物信息学技术在亲子鉴定、罪犯识别等各方面也都有着重要的应 用。 2 5 生物信息学的一些研究方法 生物信息学的研究方法有很多,各学科都有所涉及【3 2 】。比如统计学,包括多元 统计学,就是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的 隐马尔科夫模型( h m m ) ,在生物信息学中也有重要应用;运筹学,如动态规划法是 序列比对的基本工具;最优化理论与算法,在蛋白质空间结构预测和分子对接研究中 有重要应用;拓扑学,这里指几何拓扑,是d n a 超螺旋研究中的一个重要工具,此 外在多肽链折叠研究中也有应用;信号处理技术,如傅里叶变换和小波变换等都是生 物信息学中的常规工具;计算数学,如常微分方程数值解法是分子动力学的基本工具; 群论,在研究遗传密码和d n a 序列的对称性方面有重要应用;机器学习与模式识别 技术、人工神经网络技术、数据库技术及数据挖掘技术在生物信息学中的用途也极为 广泛。原则上讲,各种可以用于统计计算分析的技术或多或少都可能应用在生物信息 学的研究中,同时生物信息学的发展,也反过来为这些学科提供了一个新的发展前景 和机遇。 2 6 生物信息学方面的一些数据库 生物信息学方面的数据库层出不穷,主要可分为初级d n a 数据库和基因组数据 库以及蛋白质序列数据库3 1 。 第二章生物信息学概述基于d n a 序列的功能位点识别 2 6 1d n a 数据库 目前国际上有三个主要的d n a 序列公共数据库:欧洲分子生物学实验室 ( e u r o p e a nm o l e c u l a rb i o l o g yl a b o r a t o r y , e m b l ) ,美国国家生物技术信息中心即 g e n b a n k ( n a t i o n a lc e n t e rf o rb i o t e c h n o l o g yi n f o r m a t i o n ,n c b i ) 和日本d n a 数据库 ( d n ad a t a b a n ko fj a p a n ,d d b j ) 。这三大数据库于19 8 8 年达成协议,组成合作联 合体。它们每天交换信息,并对数据库d n a 序列记录的统一标准达成一致。每个机 构负责收集来自不同地理分布的数据( 如e m b l 负责欧洲,n c b i 负责美洲,d d b j 负责亚洲等) ,最后将来自各地的所有信息汇总在二起,三大数据库共同享有这些数 据并向世界开放,故这三大数据库又被称为公共序列数据库。 2 6 2 基因组数据库 第二个主要数据源是基因组数据库,来自各个已经完成的基因组计划。比如真核 生物酿酒酵母( s a c c h a r o m y c e sc e r e v i s i a e ) ,古菌种詹氏甲烷球菌( m e t h a n o c o c c u s j a n n a s c h i i ) 和原核生物流感嗜血杆菌( h a e m o p h i l u si n f l u e n z a e ) 以及大肠杆菌 ( e s c h e r i c h i ac o l i ) 等。 2 6 3 蛋白质序列数据库 s w i s s p r o t 和p i r 是国际上两个主要的蛋白质序列数据库,目前这两个数据 库在e m b l 和g e n b a n k 数据库上均建立了镜像站点。s w i s s p r o t 数据库包括了 从e m b l 翻译而来的经过检验和注释的蛋白质序列。该数据库主要由日内瓦大学医 学生物化学系和欧洲生物信息学研究所合作维护。s w i s s p r o t 的数据存在一个滞 后问题,因为将e m b l 的d n a 序列准确地翻译成蛋白质序列并进行注释需要一定 的时间。此外,一大批含有开放阅读框的d n a 序列尚未列入s w i s s p r o t 。为了解 决这一问题,建立了t r e m b l ( t r a n s l a t e de m b l ) 数据库。t r e m b l 也是一个蛋白 质数据库,它包括了所有e m b l 库中的蛋白质编码区序列,提供了一个非常全面的 蛋白质序列数据源,但这同时也导致了其注释质量的下降。p i r 数据库的数据则由美 国国家生物技术信息中心从g e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论