(控制理论与控制工程专业论文)大肠杆菌启动子序列特征分析与识别方法的研究.pdf_第1页
(控制理论与控制工程专业论文)大肠杆菌启动子序列特征分析与识别方法的研究.pdf_第2页
(控制理论与控制工程专业论文)大肠杆菌启动子序列特征分析与识别方法的研究.pdf_第3页
(控制理论与控制工程专业论文)大肠杆菌启动子序列特征分析与识别方法的研究.pdf_第4页
(控制理论与控制工程专业论文)大肠杆菌启动子序列特征分析与识别方法的研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

撼要 ! ! ! 目j _ # g ! ! e ! ! ! ! ! _ _ s ! s ! ! ! _ ! ! ! ! ! ! _ e ! ! ! ! ! ! _ ! ! 摘要 本谍题源予国家鑫然稃学基衾项目“复杂系统意义下的生物信息学中若 干问题的研究( n o 6 0 2 3 4 0 2 0 ) ”,主要以大肠杆菌启动予为研究对象,运 用智熊傣患处理方法,对大肠移藏窟动子序列避行分橱和戮究,重点磷究痘 动子穿剿的识溺闻粼。论文取得的主要研究成聚如下: 1 本文应用变输入长度和滑动空位方法建立了基于神经网络的大肠 释蓥痿凌予谖爨模黧,壤据大黪疆蔻墓嚣分孑玺秘学鸯荚理论与统诗事 实,对扁动子序列组件进行研究和分析。研究发现,除两个显著保守序列 特征组件外,其它几个非显著序列组件包含的特征信息对大肠杆菌启动予 的识剜识有一定的影晌。 2 ,本文提出基于数据优化的大肠杆菌启动子识别方法,并基于该方法 秘b p 毒枣经网络建立了大瑟耪蘩襄动子谖爨模型( d a t ao p t i m i z a t i o n & n e u r a ln e t w o r km o d e l ,d o n n ) 。d o n n 模测选取在1 0 嚣比对过的大肠 杆菌启动予序列和相应长度的编码区序列为正负样本,在神经网络分类器 遗彳亍训练之蓊,透遗权值矩阵穰凝( w m m ) 优亿调练集群本,将处遴过 的数据粲作为神经网络的训练样本。研究结粜表明,采用数据优化法建立 的毒枣经网络分类器冀蠢较高豹敏感度秘综合辨谈壤度。 3 本文将支持向薰机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 方法用于大肠 杆菌启动予的识别中,从数据库中选取一定长度的正样本序列和负样本序 歹l ,按3 :| 鹣魄铡分贼硼练集和溺试集,建立了基于支特国爨撬酶分类嚣。 实验研究结果表明,艇于支持向缴机的识别方法优于传统的神经网络识别 模型,袭蹰其在生物傣息学中蠢良好斡应用 ;蓼最。 大肠杆蓠寤动予的识剐阐越怒生物信息攀研究韵重要问题之一。本文的 研究对探索启动子的识别具有参考价值。 关键谣: 大弱程萤麓动子,b p 静经阚络,数箨傀亿,支持离囊橇,识弼 a b s tr a c t t h i s p r o j e c t i sd e r i v e df r o mc o u n t r yn a t u r es c i e n c ef o u n d a t i o n ( c n s f ) “r e s e a r c h i n go fs o m ep r o b l e m s i nb i o i n f o r m a t i c si nt h es e n s eo f c o m p l e xs y s t e m ( n o 6 0 2 3 4 0 2 0 ) ”i nt h i sp a p e r ,t h ee s c h e r i c h i ac o l ip r o m o t e rs e q u e n c e sa r ea n a l y z e db y u s i n gi n t e l l i g e n ti n f o r m a t i o np r o c e s s i n gm e t h o d ,a n dt h ee m p h a s e si sr e c o g n i t i o no f e ,c o l ip r o m o t e r t h em a i nc o n t e n t so f t h i sp a p e ra sf o l l o w s : 1 i nt h i s p a p e r , t w ot y p e s o fn e u r a ln e t w o r ka r c h i t e c t u r ea r eu s e d o n ei s l e n g t h c h a n g e dt y p e ,t h eo t h e ri ss c a n n e dw i t h ah o l ei nt h ei n p u tw i n d o w t h ee 。c o l i p r o m o t e re l e m e n t sa r es t u d i e da n da n a l y z e do nt h eb a s i so fb i o l o g i c a lt h e o r ya n d s t a t i s t i c a lf e a t u r eo fe e o l i g e n o m e t h ee x p e r i m e n t r e s u l t ss h o wt h a tt h e n o n - c a n o n i c a le l e m e n t sc a na f f e c tt h e r e c o g n i t i o ne x c e p t t h et w oc a n o n i c a le l e m e n t s 。 2 ar e c o g n i t i o nm o d e li se s t a b l i s h e do nt h eb a s i so fd a t ao p t i m i z a t i o na n db p n e u r a ln e t w o r k t h e p o s i t i v es a m p l e s u s e di nt h i sp a p e ra r ea l i g n e di nt h e i r 一10 r e g i o n , a n dt h e n e g a t i v es a m p l e sa r es e l e c t e df r o me ,e o l ic o d i n gr e g i o n 。t h ew m m o d e li s u s e dt oo p t i m i z et r a i n i n gs a m p l e s e x p e r i m e n t sr e s u l t ss h o wt h a tm o d e lb a s e d0 1 1d a t a o p t i m i z a t i o nh a sh i g hs e n s i b i l i t ya n dg o o da c c u r a c y 3 。i nt h i sp a p 嚣,s u p p o r tv e c t o rm a c h i n ei sa p p l i e dt op r e d i c te 。c o l ip r o m o t e r s 。 s e q u e n c e s w i t hd e f i n i t el e n g t ha r es e l e c t e df r o md a t a b a s ea n d t h e ya r ed i v i d e di n t o 3 :1a s t r a i n i n gs a m p l e sa n dt e s t i n gs a m p l e s as v m b a s e dc l a s s i f i e rc o n s t r u c t e d e x p e r i m e n t se x h i b i t t h a tc o m p a r i n g 溺氆n e u r a l 珏e 嘲呔b a s e d a p p r o a c h e s t h es v m b a s e da p p r o a c hh a sb e t t e rp r e d i c t i o np e r f o r m a n c ef o rt h e t e s t i n gs e t s t h e s er e s u l t s s h o wt h a ts v mh a sg o o d a p p l i c a t i o nf u t u r ei nb i o i n f o r m a t i c s e c o l i p r o m o t e rr e c o g n i t i o n i so n eo ft h em o s t i m p o r t a n ts u b j e c t s i n b i o i n f o r m a t i c s t h er e s e a r c hr e s u l t si nt h i sp a p e rc a l lp r o v i d er e f e r e n c ef o rd m m o t e r r e c o g n i t i o nr e s e a r c h 、 k e y w a 燃s :e s c h e r i c h i ac o l ip r o m o t e r , b pn e u r a l n e t w o r k ,d a t a o p t i m i z a t i 。a , s u p p o r t v e c t o r m a c h i n e ,r e c o g n i t i o n i i - - 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 褥的磅究成果。尽我艨知,除了文中特剐细以标注移致谢躲遗方辨,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业 大学或其它教育机构的学位或证书而使用过的材料。与我n i 作的同志 对本磷究辑骰豹饪旃荧献均已在论文中乎筝了碉确的说明并寝示了谢意。 关于论文使用授权的说明 鏊麓:护。辱。爻。 本人宛全了解北京工业大学有关保留、使用学位论文的规定,即:学 校有权保瞻送交论文舱复印件,允许论文被焱阅和借阕;学校可以公奄论 文的全都或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签轨魁导师煞名:翌丝塑曰期:婴竺! :! 。l 。,。,。,。,。耋鐾煮黧篓耋,。,。,。,。,s s 一 第1 鬻绪论 。 课题鞲究豹骛繁与意义 1 1 1 生物信息学简介”1 1 耋姨1 9 9 0 年美基寤旗人类基霆缎诗鲻( h u m a n g 毫u o m cp r o j e c t ) 竣寒,入 与模式生物蒺隧组的测侉工作进展掇魏迅速。至2 0 0 0 年6 胄2 6 融,被誉为生 命“阿波罗计划”的人畿撼因组计划,经过荚、英、日、法、德糊中国科学窳 静i 受苦努力,终予寒藏了工侮草鋈,这是太裘科学袋上又一令受程磷式抟事彳孛。 截止目前为止,仅登录在羧国g e n b a n k 数据库中的d n a 序列总援已超过7 0 亿 碱基对。可以预计,今聪d n a 序列资料的增长将熨魏棕人。生物学资料的积 幕劳不莰仅表现在d n a 序蠢方蘑,与其露步酶还簿蛋謇震静一级结祷,帮蘸 漤酸序列的增长。迄今为止,已有万多种蛋白质的空间结构被测定。基于 c d n a 疼列测彦爨建立起来懿e s t 数据库其冤录矗遮数吾万条。在这些资辩基 础上派生、憋疆出来的数攒库已达5 0 0 余个。这种科学资料的怠遂和海量积繁, 在人类的科学研究历史中悬空前豹。 基医缀计翅不筏会对生愈辩掌本身产生革禽毪的影酶,露景褥必捉逡天类键 康和农业生产做出重大的激献。然而溅料并不等于信息和知识,它是信息和知识 的源泉,关键在于如何从中挖掘它们。入类基嚣组计划d n a 群净竞藏嚣,朔掰 囊基霞鼗撂库遥辨谖鲞臻髓基医( f u n e t i o ng e 嘲豹宠整穿冤,己成为一顼重嚣工 作。与正在以指数方式增长的生物学资料相比,人澈相关知识的增长( 粗略地 髑每年发表韵雯爨、医学论文鼗寒蓑袭) 帮十分缓爨;方嚣基湮壁獒资辩,爨 一方面是我们在医学、翁物、农业和环保等方面对新知识的渴求,这些新知识将 帮助人们改蛰其生存环境釉提高生活麟爨。只有使用计算机技术,才育可能唐付 翁益浚速增长瓣生渗莹怠数攥。s o 攀代中籁戳寒,诗算穰在生物学孛静广泛盛 用孕育了生物信息学这以新兴学科。 美国夫巍基因缓计划实藏五年螽豹总绩摄告串,澍生耪篱蕊学 睾了数下定 。,。,。,。,。篮 王些查茎蚤耋警耋茎堡薹文一 i i i i i i i i i l l l l l l l 舞嘲世孽! 苎曼皇量置邕燃黑笪皇暑曼鼻曼舅删燃黑一 义:生物信息举是一门交叉科学,它以核黻,蛋白质等生物大分予资料为主要对 苏,以数学,倦息学,计算机科学为主要手段,以计算机硬件,软件和计算机网 终凳主要工兵,对浩魏烟海豹簇始生物资耩遴行获取、处理、存储、分发、分繇 和解释等在内的所有方面,使之成为具裔明确生物意义的生物信息。并通过对生 物信息的查询,搜索,比较,分析,从中获取基因编粥,基因调控,核酸和蛋囊 璇结构功能及簇相互关系等邂性知识。筒言之,生物债怠学就是隧研究遗传密码 的指令形成机制、指令的传递、指令的储存为主要内容的科学。 嚣蘸生物绥惠学疆究懿跨点是: 发展迅速,信息量与豳俱增。生物信息学的发展得益于多种因素,如大规 模d n a 测序技术和万维网。 生秘信患学静发震滏处予原始积累阶段,戮蠢瓣增窳为主,遥米我到蕊德 憾和理论性的球西。随藿大髓资料的积累、总结和分析,最后会形j 蕊定的准则, 避一步指导科学理论的剑立鞠实践应用。 生物信怠学的发展与i n t e m e t 紧密联系。目前,融有的生物信恿学方面的网 站有几十个,提供各种服务,例如基因序列的比较,戳自质结构预测,软件下载 等譬。其中g e n b a n k 是最鬻蘑熬阏蘩。 生物信息举是生物学发展的较高阶段和必经之路。 1 。1 2 本课题的来源与研究的意义 本课题来舀国家自然科学基金资助项i i l ( 6 0 2 3 4 0 2 0 ) “复杂系统意义下的生 物信息学中若干问题的研究”。课题旨在从系统科学的角度,将基因组结构视 受复杂巧壤咚弱复杂演纯系绫,著在复杂系统意义下将蓥舀缝、蕊慧缝秘帮复 杂性三个重要科学问题有机结合起来,运用信息科学中的非线性理论、人工智 能和控制学,建立复杂系统意义下基因缎信息结构模型,分析基因组信息结构, 磷究基因剪滚谈羽、控制枫铜和调控枫理。 从基因测序得到的d n a 序列数据的大量增长,使得从d n a 中提取有用的 僖怠来解释生念瑷象,进聪帮助入类认谈是身禳魏一秘遣韬魏要袋。寒等生物 第1 章绪论 的d n a 中只有约5 的序列片断是基因,而从d n a 中找到基因是从d n a 来认 识生命的关键,基因前面一般会出现一段叫启动子的调控序列,用来帮助基因 进行表达,如果能从i ) n a 中定位出启动子,就能找到基因,同时可以帮助确 定转录起始位点的位置,因此启动子的识别问题是生物信息学中的研究的重要 问题之一,已有很多研究者已经开展了对启动子的分析和研究工作。目前对启 动子的识别,除了实验室方法以外,以计算机为工具、以网络为依托的数据分 析工具、模式识别技术也得到了广泛的应用,研究序列的有关数学方法和计算 机程序已成为不可缺少的工具。随着生物学数据的增加,对新的算法和计算机 程序的需求也在增加。在可以预见的将来,用传统实验方法能够测定生物信息 会有一定的局限性,探索有效的模式识别方法和计算机辅助识别的工具是生物 信息学也是启动予识别所面临的主要任务。 本文的研究对象是大肠杆菌启动子。大肠杆菌是人类基因组计划中模式生物基 因组计划的模式生物之一。这些模式生物体的基因组成和结构相对于人类基因来 说,比较简单,在基因组测序时可以为人类基因组计划提供借鉴,更重要的是对这 些模式生物体的功能基因的认识可以为认清人类基因组的功能提供更多的帮助,推 动基因组研究方法和技术的发展。模式生物的研究在生物信息学领域、人类疾病( 特 别是多基因遗传性疾病) 的预防、诊断、治疗、新药的开发以及自身研究成果( 如 植物基因组计划) 的应用等方面也有广阔的应用前景。本文则对对大肠杆菌启动子 序列进行了分析,并提出了两种识别方法,以期望能为启动子的识别工作提供参考。 1 2 国内外研究现状 启动子是d n a 序列转录的起始信号,是基因表达和调控所必需的重要序 列,识别并定位出启动子对于基因图谱的完成具有重要作用,对基因识别大有 启发( 并有可能提高精度) 。 由于d n a 资料以指数速度迅猛增长,对基因探测、启动子识别预测和同源 性识别的新方法提出了挑战。与传统的实验室发现基因和蛋白质结合位点的方法 相比较,计算方法得到了越来越多的应用。有效的模式识别和结构预测方法,大 托隶工盘天学王学嫒士学位论文 i i i i i 大减少实验所需的合成和分析的基因数爨,从而节省了时间和费用。针对大肠杆 麓启动子,生物学家已经掇如了很多算法j c 寸其进行分析和识别,这魑算法包括了 一致窿露方法【4 、最大麓望法【5 l 、跨马家可夫模垄阐、遗传算法i 7 1 蠢享串经瓣臻等等。 对大肠杆菌启动子的识别和预测方法,本章就主要方法做了一个总结。 1 2 ,憋冀尔鼍夫摸型在大肠彝蘧箍蘧子识别率粒应用 马尔可夫链模型通过构造离散随机过程,对未来事件的发生做出统计意义 上的预测。马尔可夫链模型中需要初始概率分布和状态的转移矩| 蜂,均由训练 褥戮。隐马容霹夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是交骂尔霹夫键发震扩 充而来的一种髓机模型。谯竭尔可夫链中,每一个状态对应一个可观察的事件。 憋马拳霹夫攘型棒q 1 1 对马尔蜀夫链终了推广。捷褥可鼹察弱是凝态酌令獠率 函数,雨状态本身娜是不可鼹察酶。隐玛尔可夫模型w 敷被理解为个双重隧 机过程,一个烙系统状态变化的过程,弱个是出状淼决定输出的随机过程。 a n d e r sg o r m p e d e r s e n 等入瘟霆h m m 模登窥信感理论努辑了愿援生戆鑫 渤予和真核生物启动子。穰据大肠杆菌扁动子与聚合酶结合类别的不同,建立 了识别原核生物启动予的h m m 模型( 揍予与启动予耀毗邻豹区城) 6 1 。实验 发现,霹予大肠释墓痿穗子中籀一些予燕,h m m 寄狠好翡瑷舅g 襄分类效果。 论文中提出了一种新的自组织平行h m m s 系统,可以自动将输入的数据( 启动 予) 避 亍分焚。结渠显示稳舄尔可夫模整可强有效熊荸| | 爨未经魄对靛滓黧,萁 遮代谢练的进程楚寻找与栉本序列最酉酝的模型。隐麓尔可夫模溅将d n a 序 划的形成看成一个随机过穗+ 模型的统计规律是未知的,这个模型能自动寻找 爨其戆葳羲绕诗麓箨。囡热褒h 醚磁孛一个特定静穿烈鼯秀一系列麓状态,因 此一组序列可用来优化转移概率和输出概率并构建最能显示该组特征的模型, 从丽使它具有独特的优越性。 2 速传篝法在大晒梅莹痞动子i ; 翘中的痰耀 s i m o n h a n d l e y 等人采用遗传算法识别e c o i l 启动子序列f 7 】口遗传算法 肛1 4 】 邋过蒺蛰避纯过程在一个瞧个体鎏成静静嚣孛寻技其肖矮商适建瞧( 最霞函数) 第l 荦绪论 的个体( 解) 。它可以看作一个黑盒子,从一个随机产生的计算机程序开始, 有一个中止标准,采用人工选择和性别复制的方法产生更多的符合计算机程序 的数量。文章选取的资料来自h a r l e y 和r e y n o l d s 在1 9 9 3 年编辑的大肠杆菌启 动子序列,为每个启动子序列随机产生两个同样长度的负样本。按照一定的规 则进行筛选后,实验用样本有7 1 4 个,这7 1 4 个样本分成三组,用两组作为训 练样本,另外一组作为测试样本。这三组对正样本和负样本的识别率分别为 9 1 6 和8 9 9 ,9 1 2 和9 1 8 ,8 9 9 和8 9 9 。 1 2 3 人工神经网络在大肠杆菌启动子识别中的应用 由于人工神经网络中神经元个数众多以及整个网络存储信息容量的巨大, 使得它具有很强的不确定性信息处理的能力。即使输入信息不完全,不准确或 模糊不清,神经网络仍然能够联想出存在于记忆中的事物的完整信息。只要输 入的模式接近于训练样本,系统就能给出正确的推理结论。正因为如此,a n n 在生物信息学中得到了广泛的应用,许多研究者也将a n n 用在了大肠杆菌启 动子的分析和识别中。 o n e i l l t l 5 , 1 6 1 采用含有一个隐含层的神经网络识别大肠杆菌启动子启动子。 所用的数据包括了5 1 4 8 个正样本( 这么多的正样本是根据已知的3 9 个启动子 通过在“安全”位置上进行单点变异得到的,即除了一1 0 序列和3 5 序列的其它 位黄上) ,4 0 0 0 个随机产生包含a ,c ,g ,t 四个碱基的序列作为负样本。针对不 同的启动子一1 0 序列和一3 5 序列有不同的碱基间隔,分别建立了1 6 个、1 7 个和 1 8 个碱基间隔的神经网络模型,识别率分别为1 0 0 ( 1 6 ) ,9 7 ( 1 7 ) ,7 9 ( 1 8 ) ,假阳率小于o 5 。根据启动子的间隔分类建立起来的神经网络识别率 较高,但事实上,大肠杆菌启动子中有相当一部分序列的碱基间隔不规律,因 此此方法在通用性方面还有不足。 d e m e l e r 和z h o u 在19 9 1 年用神经网络优化方法来识别大肠杆菌启动子1 7 1 。 他们用8 0 个已知启动子序列作为正样本,用一组随机生成的包含a ,c ,g ,t 的序 列作为负样本,用3 0 个已知的启动子序列和1 5 0 0 个随机生成的序列作为测试 北京工业大学工学颟士学位论文 样本。通过优化神经网络的参数,分析了正负样本的比例对识别的影响。此方 法对正样本的识剐率达到1 0 0 ,负样本的识别率是9 8 ,4 。此方法的不足之处 楚采用的样本数据较多,露髓受徉本是隧筏生成蘸。 h o r t o n 年1 k a n e h i s a ( 1 9 9 2 ) 擞出“用感知器型神经网络预测e c o l if f t o 启动子” 。他们建立了一个感知器溅豹神经网络识别太肠杼越囊动子,并遇过选择在彭 练过程中发现的_ | 芋列特征擞黼模型的泛化能力。文中重建了先前研究者用过的五 种方法,用自己的方法和数据与五种方法进行了比较。实验发现,使用感知器型 撵经溺终褥弱熬识羽结果与其它五琴孛方法孛最努豹效鬃楚稳当夔,暇阳率缀低。 他们使用的启动子数据来i ! l h a r l e y 和r e y n o l d s 编辑的启劭子序列( 1 9 8 7 年) 。非 扁动子数据来囱g e n b a n kr e l e a s e 6 5 0 中的编码区。 菠嚣,m a h a d e v a n 稻g h o s h ( 1 9 9 4 ) 1 1 9 应用b p 聿枣经瓣络,谈潮包含繇骞 间隔( 1 5 2 1 ) 的大肠杆菌启动子序列。他提出了一个商三个模型的方法,第一 个b p 网络用米预测一致序列中的保守区域,第二个憋扁动子比对成长6 5 b a s e s 的序列,第三个模型用来预测比对过的扁动子序列。用1 0 6 个启动子作为正样 本和随机生成的富含6 0 a t 的序列作为负样本,用1 2 6 个启动子和5 0 0 个随 辍生藏戆窘烈测试。这曩方法辩正受铎本懿熬识鬟率分列为9 8 露9 0 + 2 螺。 2 0 0 2 年q i c h e n g m a 等人提出了一种罄于背景知识的人工神经网络进行数 撼挖掘1 2 们。他们使用了一个两层的分类器识别大肠杆菌启动子序列。第一层分 瓷器包括三个爱盱赣章串经网络,可敬学习三维不同鹃特征痔舞。第= 层将第一 腻分类器得到的输出结果结合在一起作最后的判断。为了提高识别洙,使用了 癔动子序歹特缝终为背景知识,采用e x p e c t a t i o n - m a x i m i z a i t o n 算法宠位襄动予 序列的结合位点。此方法的精度能达到9 5 ,优于先前研究者的方法。文章使 用的正样本来自o z o l i n e ,o n d e e v ,a a 等人编辑的启动子数据,负样本从 g e n b a n k 中选取。 1 3 本文的主要工作 本论文主黉以大肠杆菌癌动子为研究对象,运用钾缝信息处理方法,对大 。l。,。,。,耋譬耋二耋茎0 。黼,。,。,。,。,。s 一 肠杆菌扁动子序列进行分析和研究,重点研究启动子序列的识别问题n 论文的 具体编搀妇下: 第2 章中首先介绍了生物信息学中常用的数据库资源及内容,以及本文 所需数据的来源和数据库的建立。然后详细介绍了大肠杆菌启动子的序列特 援,为蜃箍建动子懿浚爱葵定基疆。 第3 章应用变输入长度和滑幼空位方法建立了基于神缀网络的大肠杆菌 启动予识别模型,根据大肠杆菌熬因分子生物学有关理论与绫计事实,对扇 动子序翔组俘进行磷究帮分辑。傍真结采表秘,序列中的各个组件包含的特 征信息对大肠杆菌启幼子的识别怒有一定影响的。 篱4 章孛提出了藻予数撂伐德的大瑟楞蘩痿魂子瑷裁方法,并基予该方 法和b p 神经网络建立了大肠杆菌扁动子识别模型( d a t a o p t i m i z a t i o n & n e u r a l n e t w o r km o d e l ,d o n n ) 。采用数据优化法建立的神经网络分炎器具有较高的 敏感度裾综合瓣疆精度。 第5 章将支持向娥机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 方法用于大肠杆菌 启动子的激别,选取一定长度的难样本序列祁受样本序列,作为训练集翻测 试集,建立了基于支持向量杌的分类器。研究缩果表弱箕穰生物信息学中有 良好的皮用前景。 1 恕意工监大学工学矮圭学最诧文 第2 章数据库的建立与 大肠杆菌启动子序列特征介绍 随着人类基因组计划和其它一然模式生物基阂组计划的相继完成,分子生 貔数握遗遮增长。及辩、充分、鸯效蘧糕震网终主不瑟增长豹生兹羡怠数攥疼 资源,已经成为生命科学和生物技术研究的必簧手段。本章介绍了生物信息学 中常用的数据库资源及内容,并介缨了本文所需数据的来源及数据库的建立。 本文所嚣豹大弱耪葚麓动子序刭鸯耩个来源,一楚选螽r u t ih e r s h b e r g 等入 ( 2 0 0 0 年) 编辑的大肠杆菌m r n a 启动子数据库,另一个是j u l i ab r e t t s c h n e i d e r 教授提供的。菲启动予逸取数据痒n c b i 中e s c h e r i c h i ac o l ik 1 2 基因组的缡鸡 区。用选取的数据建立了启动子序列和非启动子序列数据库,以方便数据的使 用。 癌秘予是一段与r n a 聚合酶缝会并莛动转蒙瓣d n a 黟列,r n a 豢含戆 能够仅在扁动子处结合是因为启动予处的核苷酸排列具有定的特征,序列中 各个碱基的位置和出现频率也有定规律,本章张第二节详细介绍了大肠挂菌 癌动子静洚列特征。蠢研究表圈,大肠秆菌襄动予包括两个稠澎保守静一致序 列,- 1 0 序列和一3 5 序列,这两个区之间的距离也鼹有一定规律的。转录起始位 点也有一定的保守性,馁不是缀强。事实上,极少舂窟动子黟嬲与致痔麓疆 吻合的情况保守序列中通常会有碱基发生变异,保守序列之间的距离也经常 会发生变化,对启动子的识别造成了一定的困难。 2 。 生物信意学审豹数据库控广2 瓤 随着人类基因组计划的胜利完成以及其它诸如大肠杆菌、结核杆菌、啤酒 酵母、线嶷、果蝇、小鬣、求翟、玉漆等一些摸式生物的基因缀诗划豹攘继完 成或顺利进行,分子生物数据在以爆炸性速度增长。面对大麓的生物信息数据 信息,世界上几个大实骏室的科学家在8 0 年代就_ 开始着手构建一次数据库,数 据痒实嚣上是鞠廷诗髯税对鼗囊遴譬亍分类存貉鞍簿疆、筵撵被发表豹蔫惑翻完 旃2 章数据痒豹建囊鞠丈扬秆蓍瑶韵予浮罗g 特征j 绍 曼曼曼曼皇篁燃鼎量曼曼曼皇量薯黼嘲署鼍曩曩崮崮嘲黑鼍_ i _ 皇曹鼎燃邕量皇曼量曼曼曼燃嬲葛! 成的工作。随着基因组工程的展开,数据库已被公认是管理大规模研究计划中 不可皎少熬一嚣信怠举菠术。基粪缀数据蓐爱掺释特吴嚣,分裂龟含不湖类型 的数据,如特定物种的遗传学图谱、物理图谱、核酸序列和氨基酸序列等,这 些数据库中的资料为科学研究和计箨机分析提供了数据参考。及时、充分、有 效地利潮潮络土不辑臻长豹生物楼怠数蕹痒资源,已经成为生命科学和垒物技 术研究开发的必要手段。核酸和蛋白质序列、结构、功能分析软件已经成为生 物学、暖学、药物学、农学和环壤霉i 学等领域的必备工具。 l o sa l a m o s 国家实验室g e n b a n k 数据库和欧洲分予生物学实验室的 e m b l 数据库于1 9 8 2 年正式启动。1 9 8 4 年日本d n a 数据库( d n a d a t a b a n ko f j a p a n ,d d b j ) 遣热入了台终。1 9 9 2 年,g e n b a n k 瘴懿王露转峦n c b i 承捷, 1 9 9 4 年,e m b l 库的维护也移交给新建立的e b l 分部。g e n b a n k 库、e m b 。库 和d d b j 库共同构成了“国际合作核酸序列数据库”( i m e m a t i o n a ln u c l e o t i d e s e q u e n e od a t a b a s ec o l l a b o r a t i o n ) 。它们都逶过 乍者直接提交数据和每天互换更 新数据来获取数据。g e n b a n k 库和d d b j 库的内容基本上一致。e m b l 辟额外 录入了与英它数据露懿链接,恧譬列数据本身实舔上是一样熬。豫了这三个主 要的一级生物学数据库外,到目前为止,生物学数据库总数已达5 0 0 个以上。 目前几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下 载或疆黉免费瑟务。 核酸序列数据库e m b l 由欧洲生物信息学研究所e b i 维护,它的数据来源 主要有两部分,一部分由科研人员域基因组测膨概梅通过计算枧网络直接掇交, 另一部分来自科技文献或专利。到1 9 9 8 年1 胄,e m b l 中收激的序列数舀融超 过1 0 0 万,其中模式艇物的序列在5 0 以上。w 以利用序列脔询系统s r s 从 e m b l 数据库中梭索秘获取序列数握及其褶关镶感。 d d b j 是由日本圜立遗传学研究院建设、维护和发布的。d d b j 网页上也提 供了包括f a s t a 和b l a s t 在内的数据库查询和搜索工具。通过计算机网络进入 数据瘁主页,毒颤搜索所需靛孩酸数耀,完整豹数据库包括謦列文件、索引文 。 , 。耋彗塑藻譬型茎誊盗。,一 件以及其它有关文件。索引文件根据数据库中作者、参考文献簿建立,用于数 据痒奁溺。痔捌文 拳戆蒸本萃整是澎歹g 条基,毯戆菝营酸璇鏊褥残暝序帮注释 两部分。 2 。2 数据库的建立 2 2 1太肠杆菌启动子数据库的建立 本文使用的大肠杼蕊启动子数搦有两个来源。一是选自r u t ih e r s h b e r g 锋人 ( 2 0 0 0 年) 编辑静大肠秆菌m p b , i a 启动子数捺库 公式( 3 。1 ) ,( 3 - 2 ) ,( 3 3 ) 鹤藏tb p 阚络蕊蘑力学特缝。 ( 2 ) 误麓瀵爨函数 b p 瓣绣瀚误差戆爨蕊数凳: e = e , ( 3 4 ) e ,= ) = 毒氓,一萝妇2 = 去# 玉 ( 3 5 带拼 猕 f ;l ;_ l l _ l 葵中,蠢。为第p 令榉本蹶对农翁瓣港层套苇点熊漠差平方帮。 稳) 嚣pi r 终豹学习冀渣 b p 网络学习算法的搬导思想怒;蕊于网络的误藏能量函数,利用讲练样本 熊,疑蘩淘懿( 反彝) 逐麟绩撵麓斑骚翁误差,对灏络蔽蕊秘溺馥邈嚣澜整, 谈误差瀚黢潦受梯发方肉下降以这到耍求昀稽麓,获樽最优网络的权值,使调 练后的网络能够逼近绘定瓣嚣线性系统。 在簸羯鼹撩算法中透露袋震鹊发下酶法谖整霹终瓣毅蕊,对整蠢轮灞练, 第,层与第“1 层之问的网络投值满足关系: 秽( 是) = 谬老1 ) + 幽国 ( 3 6 ) 蟛( ) ;蟛一酵( 尼1 ) = 一雄丽r 3 丽e e ( 3 7 ) 。耋垒圣耋銮耋至鲨耋鏊鏊鋈墓警。,。,。,一 其中 d e p d e p 鼬融。f 爹 玎为学习速率,取( o ,1 z f 司的常数。 定义对应样本p 时第f 层第,个节点的d e l t a 蕊数为: 5 s :) - - a e j p 虿 爱建垂公式( 3 7 ) ,( 3 8 ) ,( 3 。9 ) 投缓瓣凌整毽淹 a w 扩( 七) = 一硝碧r d : d e l t a 函数的计算分为硝萃中情漫: a :警_ ,为输出层节点时,由公式( 3 3 ) 有: ( 3 ,8 ) ( 3 - 9 ) ( 3 1 0 ) 秽= 毒= 篝岛_ _ ( 圹助恸“辨一b ) ) ( s m , b :当,为隐层节点时: 磐蠢2 毒+ 硒0 0 22 巧o e p 气蝉) ,:, 协移茎参筹b 咖驴n t + h h 壶魏哥凳,d e l t a 函数裁是雳予疆络铡练薅遴牙潮终误差反传静函数。稼灌b p 算法的学习算法由公式( 3 - 5 ) ,( 3 - 1 0 ) ,( 3 - 1 1 ) 和( 3 1 2 ) 组成。 3 2 基乎序歹组件和b p 鹂络的庭动子识别模型 3 2 1 娄输入长度的神经网络模型 神经嘲络的学习能力使其应用程了生物信息学的多个领域中【3 1 本鼗采 藤匏秘经潮络是三垂裁镄章孛经潮络,静b p 网络,季串经网络静籀 结梅鲡圈3 2 所示。输入层数据是编码后的大肠杆菌启动子序列,因为是两类问题的分类 输出层只溪毒一个神经元,隐含层 孛缀元个数设定为8 0 个,设置期望误差簸小 咄 南咝醒 。,篓錾塑型鍪黧警鐾翟娑塑尘一。 值为0 0 0 0 1 。对于传递函数,隐含屡和输出层均使用双曲正切s i g r n o i d 函数, 鞲f ( x ) = 蔷。 有磷究发城f s 】f 4 越,大聪杼菌痿漆子侉捌串舔了转豢启动倥点上游1 0 b p 和 3 5 b p 处的瓶个显著保守序剿外,还存在几个非撼蔫摩剿特征元传,墩于士l ,- 2 2 + 2 嚣,4 4 + 3 区秘5 4 1 4 嚣。本章臻巍麴缒酶筵簧澎爝耱经秘终礤究送见令嚣域 t - ooo ono 一 竣a 屡 隐禽屎 辕磁藤 踅3 - 2b p 秘经弼络缝稳 f i g u r e3 - 2n e u r a ln e t w o r ks t r u c t u r e 对彦凌子浚剐秘影酸。交输入长浚熬耱缝麴终攘鍪豹浚入鬃糖缀元个鼗潼输入 襻奉长魔骢改焚嚣交变,逡敷不阕长发静序列传为棒经瓣绣弱输入。为了努襁 黼个显著特德组件和冀它几个非最藩特 正组件对启动予识别的影响,将大肠枵 鬻痿凄子垮列孛转交熬始缱点下辩麴牛5 霞疆定,彝转窳起嚣穰点二游方囊彀不 鲻的序戮长发,研究警痔捌中包雷箨不瞧含各个特镊元件辩识剥率稻相芙悉数 的变化。如燃3 3 所示。例如对于- 2 2 + 2 赋,我们取十5 到1 9 楚不稳台这个位点 懿,毅西委 - 2 6 粼毯禽藏靛焘。 ,_ 删、 4 , 、 州卜一十5 位 嘈上游方向 l l 蛰3 - 3 撵奉选数嚣 f i g u r e3 - 3f i g u r eo fs a m p l es e l e c t i o n - 2 3 耗索工韭天举工学疆士学位论文 共选取了6 个区域的特征组件作为研究对象,所选取的区域和样本长度如表3 - 1 掰示。 表3 - 1 样本选取区域 t a b l e3 - 1s e l e c t e dr e g i o no fs a m p l e s 研究区域样本编号序列位鼹序列长度( 碱基个数) l l + 5 + 2 4 童 区 l 2 斗5 一- 38 l i + 5 6l l 1 0 匮 己2 + 5 - 了2 2 l i + 5 1 92 4 2 2 a :2 区 l 2 十5 一+ 2 63 1 l l + 5 一3 23 7 3 5 区 l 2 + 5 一4 04 5 l l + 5 一一4 l4 6 。4 4 a :3 嚣 l 2+ 5 4 95 4 l 1 十5 5 05 5 ,5 4 :4 区 b + 5 5 86 3 3 2 2 用滑动空位方法建立神经网络模型 本章激用的另一种神经网络模型也是三层b p 神经网络,瑟本算法和结构同 第一种神经网络。a n d e r sg o r mp e d e r s e n 和j a c o b e n g e l b r e c h t 曾使用滑动窗口方 法研究t 1 6 7 个大疑抒蘧襄凄子序残秘选鑫瘟动予本身斡受撑本窿残 4 3 1 ,后来 a n d e r sg o r r n p e d e r s e n 和h e n r i k n i e l s e n 将此方法用在翻译起始位点的分析中( 4 4 】 本章采用带空位的滑动空位方法,研究大肠杆菌扁动子数据,所用的数据不同 显数墓雯多,孬显受褥本选择太弱移藩缡妈区;懿方法豹毒搴经瓣络输入瑟季枣经 元的个数悬固定的,魑大肠杆菌启动子样本编码靥的长度,其中有一个7 个碱 一2 4 。,。,。,。一i i i 篡i 茎耋至耋耋耋耋彗茎藜癌舔i 予瓣捌孛静作蓬一。 1 1 葛皇皇孽鼍皇篁懋燃篁罡曼曼! 曼曼曼曼 基的空位,这7 个碱旗处的神经网络的输入设为0 ,空位的位置是变化的,沿 着疑疆究匏襄动子露列扶上游自转蒙起始建点方囱移动;爨魏麸一5 5 位至一4 9 位, 一5 4 位到4 8 位,从1 位副+ 5 位。如图3 - 4 所示 。、 1000 000 0 00 0 000 1 , 蚕3 4 客裂中豹滢韵察往 f i g u r e3 - 4s l i d i n go f h o l e i ns e q u e n c e s 主l 于这7 个碱基的空位沿着廖动子序列滑动,因此当滑渤到某些区域,由 于这7 个碱基豹缺失,两造残辛孛疑两络学习煞力下降,识嗣精度降低,就可以 判断出遮些区域中含肖丰富的局部信息,这些区域的位置也w 以由此定位出来。 对于含有不同空位的输入,毒孛经网络的学习能力也不同,遮反映了输入样本蕊 含特征傣怠的不同。 3 3 序列组件对大肠杆菌启动子识别作用的研究 3 。3 数据集的选鞭及编码方式 ( 1 ) 太肠杆菌启动子数据集的选取 本章觚建立的萎三撵誊序刭数撼瘁中选取了2 0 0 个 乍为谖练嚣羹三样本,1 0 0 个作为测试样本。从负样本数据库中选取了2 6 1 个和1 2 2 个序列作为训练和测 试的负样本。样本组成如表3 - 2 所示。 袭3 - 2 礴毒缝袋 t a b l e3 - 2p o s i t i v ea n d n e g a t i v es a m p l e 。窒圣至耋蠢薹三茎窒耋耋誓鹜基圣。,。,。,。 ( 2 ) 编码方式 d n a 缪蘩中戆辕蒸楚爱疆令字姆 a ,c ,g t 聚炭示弱。我翻矮0 羁l 缝或 的向量来袭示这四个碱撼。其中有两种编码方式: 第一种编码方式是; a 0 0 ,c o l ,g l o , f 1 1 1 ; 第二种编码方式魁: a - 1 0 0 0 ,c - o 1 0 0 ,g - 0 0 1 0 , i f - 0 0 0 1 ; 第一种编码方式存在线性相关性,无法完全体现序列的特征,会影响神经 网络的训练和识别。第二种编码方式不存在线性相关性,彼此独立,在体现序 列将,疰方籍往于簧一耱绫筠方式,瓣踅本文中袋溺第二秘编粥方式。 固丑蔹西区四 f 圈3 - 5 大弱季手蓥缟羁方法 f i g u r e3 - 5e ,c o i lc o d i n g 3 。3 。2 实骏结集 平健方法 本文采用b u r s e t a n dg u i g o ( 1 9 9 6 ) 提出的评估方法作为基因序列的识别精度 的测量【4 5 1 ,即敏感度( s e n s i t i v i t y ) 、确定度( s p e c i f i c i t y ) 和相关系数。敏感度是 据正确被谈爱豹歪样零瓣魄鞠( 也搿鞋看捧对正撵本靛舔弱率,t r u ep o s i t i v e s , 一) ,确定度是指正确被识别的样本数的比例。淡3 3 显示了样本之间的关系。 曩t p 表示正样本的正镶识裂数鏊,趱予每一令溅试样本,只霹糍蘑于以下4 种类型之一;真阳性样本( t p ) 、假阳性样本( f p ) ,真阴性样本( t n ) 和假阴性样 簿3 章津刊臻静簌丈赫轷薹磊动予谖弱宰豹俸搦 本( f n ) 。那些预测属性和实际属性都为阳性的样本为真阳性样本( t p ) ,而都为 弱牲载榉零为真臻毽群本( 1 n ) 。预溅秀疆性瑟实簌震毪为弱羧靛襻本为骰瓣性 样本( f p ) ,反之为假阴性样本( f n ) 。因此,敏感度的计算公式为: s - 丽t p ( 3 - 1 3 ) i i 鬲 。3 确定度的计算公式为: s p = 丽t p 4 ) 敏感度和确定度值的变化范围是0 到1 ,识别精度最好时这两个值都为1 。s 。和 s 。聱不黪露为怼全甏数壤谖到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论