




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)病毒基因组生物信息可视化系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
陆王红:病毒基冈组生物信息可视化系统研究捅要随着人类基因组计划的初步完成,生物信息学的研究重点己悄然的从生物数据的积累转到生物数据的处理和信息提取。然而,在对d n a 序列的研究过程中,代数学范畴的传统分析方法难以发挥人脑在模式识别方面的强大能力。本文以病毒基因组为研究对象,对其通用模型、序列z 曲线的构建、图形数据库建立等进行了研究。并在此基础上,构建新城疫病毒( n e 、v c 嬲t l ed i 嬲e m s ,n d v ) 生物信息可视化系统,具体研究内容如下:1 核酸序列z 曲线构建研究。主要在对经z 变换得到的空间数据点分析的基础上,给出一种基于包围盒的抽稀方案,应用该方案动态调整抽稀因子,实现对核酸序列所含生物遗传信息的多精度显示。实验表明,该方案既能对全基因组序列进行整体研究,又能对个别重要基因展开细节钻研,为序列同源性比较和分子进化研究提供了新思路。2 基于c s 模式的生物信息可视化系统模型研究。在总结给出生物信息可视化系统的一般工作流程的基础上,对传统c s 模式进行研究,提出一种基于c s模式的生物信息可视化结构模型,该模型解决生物核酸序列数据的转换、处理、显示、分析等问题。3 n d v 生物信息数据库的建立。针对不同格式序列文件结构、z 变换后的空间数据点数据结构、曲线属性数据结构,建立n d v 生物信息数据库。通过矢量化曲线图,建立n d v 病毒基因组核酸序列z 曲线图形数据库;然后建立核酸序列数据库;最后,实现图形数据库和序列数据库的挂接。4 生物信息可视化系统实现与应用。重点研究基于c s 模式的n d v 生物信息可视化系统的设计与实现,并应用该系统进行生物信息显示、全基因组可视化分析以及不同基因序列可视化分析。关键词:生物信息学,生物信息可视化系统,z 变换,包围盒,抽稀,图形数据库,c s 模式结构i i扬州大学硕士学位论文a b s t r a c ta l o n g 、) l ,i t l lm ec o m p l e t i o no fh u 【l n a l lg e n i m i c sp r o j e c t ,m ek e yr e s e a r c ho fb i o i 川o 衄a t i c sh 嬲t r a n s f e r r e df 如mc o l l e c t i l l gd a _ t at op r o c e s s i n gd a :t aa n da b s 仃a c t i n gi i 怕m a t i o n h o w e v e r ,i nt h ep r o c e s so f 觚a l y z i n gt 1 1 ed n as e q u e n c e ,t h et r a i d i t i o n a lm e m o d sb a s e do ns t a t i s t i c sc o u l d l l tp l a yt h es t r o n gp o w e ro fp e o p l e sb r a i ni np a mr e c o g l l i z i n g r e g a r d i n gv i r u sg e n o m e 嬲t h er e s e a r c ho b j e c t ,n l i sd i s s e r t a t i o nd o e ss o m ef e 锄c ho nt l l ec o m m o nm o d c l ,m ec o n s 仃u c t i o no fzc u r v ea n dt h ee s t a b l i s l l l n e n to f舀_ 刁1 1 ) h i c 出畋i b a s e a tl a s t ,i tt a l k sa b o u tt l l ec o r r e s p i o r l d i n gp r o b l e i n si i la p p l y i n gt h em o d e lt ob u i l d 1 en d vb i o i n f o 册a t i c sv i s u a l i z a t i o ns y s t e m 1 t kr e s e a r c ho fc o n s 仃u c t i n gt l l ezc u r v eo fn u c l e o t i d es e q u e c n c e n 啪u 曲锄a 1 豇i n gt l l ed i s t r i b u t i o no ft i 圮s p a t i a lp o i n t sb yt - 仃a _ l l s f o m l e d ,ar a r e 蛳n ga l g o r i t h i nb a s e do nb o u i l d i n gb o xi sa p p l i e dt 0c o n s m j c tt 1 1 ezc eo fi m c l e o t i d es e q u e i l c e a p p l y i n gm ea l g o r i t h ma i l d 删u s t i n g 吐l ev a l u eo fr a r e 匆i n gf a c t o rd y n 锄i c a l l y ,廿1 eu s e rc o u l da c l l i e v eam u l t i p r e c i s i o nzc u r v ec 0 r r e s p o n d e dt ot h el n i c l e o t i d es e q u e n c e e x p e r i m e n t sl l a ep r o v e dt t l a tm i sa l g o r i t l l mi sc o i e i l i e n tf o rg e n c r a lr e s e a r c ho nc o m p l e t eg e n o m es e q u e n c ea n dd e t a i l e dr e s e a r c ho ns o m es p e c i f i cg e n e ,a n dp r 0 v i d e san e wi d e af o rh o m o l o g ) rc o i n p a r i s o n 锄dm o l e c u l a re v 0 l u t i o ns t u d y 2 1 kr e s e a r c ho f b i o i n f 0 1 m a t i o nv i s u a l i z a t i o ns y s t 锄i n o d e lb 嬲e d0 nc sm o d e d u et 0m ep r o b l e m so fd a t am 趾a g e m e m ,i n t e g r a t i o n 锄da p p l i c a t i o ni i l l eb i o i i 面皿 1 a l t i o nv i s 砌i z a l i o ns y s t e m ,廿l i sd i s s e r t a t i o nf i r s u ys 眦su pt l l eg e r l e m lp r o c e s s ,觚d 也c ng i v e sak 砌o fm o d e lb 硒e do nc sm o d e m sm o d e ls o l v e sm e缸a 1 1 s f 0 咖a t i o n ,m ep m c e s s i o 玛l ed i s p l a 弘t l l e 锄a l y s i o fm l c l e o t i d e 3 1 1 l ee s t a b l i s l h n e n to fn d vb i o i n f o n i l a t i o nd a t a b 嬲e a c c o r d i i 培t 0t l l e嬲洳t e c t u r eo fd i 航r e n tf o m a ts e q u e n c ef i l e ,n l es 仇l 咖eo fs p a c e p o i n t s 础e rz 仃a n s f 0 姗e dm l dt l l ed a t as 仃u c t u r eo fc 珈ea t t r i b u t e t h en d vb i o i n f o r m a t i o nd a 缸出嬲ei se s 切【b l i s h c d n 哟u 曲v e c t o r i z a t i o nt l l ezc u “eg 咄t l l ezc u n ,eg m p t l i c出止出a s eo ft l l em l c l e o t i d es e q u e c n c eo fv i m sg e n o m ei se s t a b l i s h e d ;m l dt l l e nn l en u c l e o t i d es e q u e c n c ed a 讪鹪ei sa l s of 0 u n d e d f i 砌l y m e1 1 i t c h i n go fg r a p l l i cd a _ 劬嬲e锄dn u c l e o t i d es e q u e c n c ed a 讪嬲ei sm a d e 4 t h ei i l l p l e m e n t a t i o n 肌da p p l i c a t i o no fb i o i i l f b 锄a t i o n 访s 眦i 2 m i o ns y s t e m 陆王红:病毒基因组生物信息可视化系统研究i i it h ed e s i 弘a n di i l l p l e m e n t a t i o no fn d vb i o i n f i o 珊a t i o nv i s u a l i z a t i o ns y s t e mb 嬲e do nc sm o d ei sm ee m p h a s i si nt l l i s 幽哪) t e r 锄dt l l es y s t e mi su s e dt od i s p l a ys o m eb i o i l l f 0 肌a t i o i l t om a l v i s 伽i z a t i o n 删y s i so fc o m p l e t eg e l l o i n e 锄dd i 仃e r e n tg e n o m es e q u e n c e k 叼啊o r d s :b i o i 墒n n a t i c s ,b i o i 晌n t l a t i c sv i s 砌i z a t i o ns y s t e m ,z 一仃a i l s f o m ,b o u n d i n gb o x ,r a r e 矽i i l g ,掣a p h i cb 撕b 鹊e ,c sm o d ea r c l l i t e c t u r e扬州大学学位论文原创性声明和版权使用授权书学位论文原创性声明本人声明:所量交的学健论文是在导师指导下独立进行硬究工作所取褥酶研究成果。除文中已经标明引用的内容外,本论文不包含蔟他个人或集体已经发表的研究成果。对本文的研究徽出贡献的个人裁集体,均已在文孛以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名:法互杰工签字日期:挑年月年日学位论文版权使用授权书本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交学位论文的复印传秘电子文档,允许论文被查阅秘借阅。本人授权扬州入学可以将学位论文的全部或部分内容编入有关数据席进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。慰对授权中国科学技术信息研究所将本学位论文收录到中囡学位论文全文数据库,并通过网络向社会公众提供信息服务。学位论文住者签名:礅王三三签字躁期:以g 年月4 墨导烬签名:签字豳期:抄峰杏月够墨陆王红:病毒基因组生物信息可视化系统研究第一章绪论2 0 世纪5 0 年代,d n a 双螺旋结构的阐明开创了分子生物学时代,以生物学和医学为主要研究内容的生命科学研究从此进入了前所未有的高速发展阶段。2 0世纪8 0 年代后期,人类基因组计划( h l 衄a ng e n o m ep r o j e c t ,h g p ) 和其它模式生物基因组计划相继启动,人类期望在基因图谱的基础上,将d 】妣上所有基因的位置、结构、功能及相互作用全部破译,从而真正理解生命的生长、发育、疾病、衰老及死亡等奥秘。人类基因组计划的初步完成【l 卅和其它些模式生物基因组计划的相继完成或全面实施【】,把生命研究推向更高的境界,同时也为生物信息学创造了施展身手的巨大空间。1 1 生物信息学概述1 1 1 生物信息学的产生由于d n a 自动测序技术的快速发展,d n a 数据库中的核酸序列公共数据量以每天1 0 6 b p 速度增长,生物信息迅速地膨胀成数据的海洋。据统计,目前g e i l b a n k中约有3 0 0 0 多万条核酸序列,s 、s s p r o t 中约有1 9 万条蛋白质序列,p d b 中约有3 2 0 0 0 多套结构图像数据,生物信息目录数据库d b c a t 收集的生物数据库已达5 1 0 多个,同时生物分子数据量每1 5 个月翻一番,生物分子数据发展的速度超过了摩尔定律( 即半导体芯片上的晶体管数量每1 8 个月翻一番) 。这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。毫无疑问,分子生物学从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,“生物信息学”( b i o i n f o r r l l a t i c s ) 正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对d n a 序列的统计计算分析,更加深入地理解d n a 序列、结构、演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。精确的说,生物信息学是一门结合计算机科学、数学及生物学的交叉学科,它主要2扬州大学硕士学位论文以核酸和蛋白质两种生物信息载体为研究对象,通过对生物信息的获取、加工、存储、分析和释读,以达到理解数据中生物学含义的目的。生物信息学的产生大大推动了整个生命科学的发展,渐渐成为生命科学研究的前沿。1 1 2 生物信息学的发展现状生物信息学从产生至今经历了两个阶段:前基因组时代( 又称测序基因组时代) 和后基因组时代( 又称功能基因组时代) 。目前生物信息学正处在这样一种时代的交叉中,在核酸、蛋白质序列及结构呈指数级增长的同时【“7 1 ,生物信息学的研究重点已悄然的从生物数据的积累转到生物数据的整合处理峭叫。随着基因组计划的不断进展,我们拥有的海量数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识,也就是说,只有经过生物信息学手段的分析处理,我们才能获得对基因组的正确理解,因此可以说是人类基因组计划为生物信息学提供了兴盛的契机,创造了施展身手的巨大空间。生物信息学已然深入到了生命科学的方方面面。事实上,欧美等发达国家在生物信息方面已有较长时间的积累。从数据库的角度来讲,早在6 0 年代,美国就建立了手工搜集数据的蛋白质数据库。美国洛斯阿拉莫斯国家实验室1 9 7 9 年就已经建立起g k i l b a i l k 数据库,欧洲分子生物学实验室1 9 8 2 年就已经提供核酸序列数据库e m b l 的服务,日本也于1 9 8 4 年着手建立国家级的核酸序列数据库d d b j 并于1 9 8 7 年开始提供服务。从专业机构的角度来讲,美国于1 9 8 8 年在国会的支持下成立了国家生物技术信息中心( n c b i ) l lu j ,其目的是进行计算分子生物学的基础研究,构建分子生物学数据库;欧洲于19 9 3年3 月就着手建立欧洲生物信息学研究所( e b i ) l l ,日本也于1 9 9 5 年4 月组建了自己的信息生物学中心( c i b ) 【1 2 】。从数据分析技术的角度来讲,早在1 9 6 2 年,z u c k e r k a n d l 和p a u l i n g 就将序列变异分析与其演化关系联系起来,从而开辟了分子演化的崭新研究领域;1 9 “年,d a v i e s 开创了蛋白质结构预测的研究;1 9 7 0 年,n e e d l e m 锄和c h 发表了广受重视的两序列比较算法;1 9 7 4 年,r a t i l e r 首先运用理论方法对分子遗传调控系统进行处理分析;19 7 5 年,p i p a s 和m c m a i l o n 首先提出运用计算机技术预测r n a 二级结构;随着1 9 7 6 年之后大量生物学数据分析技术的涌现,s c i e n c e 于1 9 8 0 年第2 0 9 卷就已经发表了关于计算分子生物学的综述;陆王红:病毒基因组生物信息可视化系统研究3正如我们现在所看到的那样,在8 0 9 0 年代,生物学数据分析技术在国外更是获得了突飞猛进的发展。从专业出版业来看,由于没有专业的期刊,起初的专业文献都散落在各种其他领域的期刊中;到了1 9 7 0 年,出现了c o m p u t e rm e t l l o d sa n dp r o 雕吼si i lb i o m e d i c i n e 这本相关期刊;到1 9 8 5 年4 月,就有了第一种生物信息学专业期刊c o m p u t e r a p p l i c a t i o n 洫t l b i o s c i e n c e s ;现在,我们可以看到的专业期刊已经很多了,包括书面期刊和网上期刊两种,如b i o i i 怕姗a t i c s ( f o m e d yc o m p u t e ra p p l i c a t i o l l si nm eb i o s c i e n c e s ) 、a c t ab i o t h e o r e t i c a 、b i oh 面m a t i c st e c l l i l o l o g y & s y s t e m 、b i o i 幽r n ln e w s l e t t e r 、b r i e f i n g si nb i o i 疵珊a t i c s 以及j o u n l a lo fc o m p u 协t i o n a lb i o l o g y 等。从网络资源来看,国外互联网上的生物信息学网点非常繁多,大到代表国家级研究机构的、小到代表专业实验室的都有,大型机构的网点一般提供相关新闻、数据库服务和软件在线服务,小型科研机构一般是介绍自己的研究成果,有的还提供自己设计的算法的在线服务,总体而言,基本都是面向生物信息学专业人士,各种分析方法虽然很全面,但却分散在不同的网点,分析结果也需专业人士来解读。目前,绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3 家数据库系统产生:他们共同组成了d d b j e m b l g e n b a n k 国际核酸序列数据库,每天交换数据,同步更新。其他一些国家,如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资源的同时,也分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术,服务于本国生物医学研究和开发,有些服务也面向全世界开放。国内对生物信息学领域也越来越重视,自北京大学物理化学研究所于1 9 9 6 年建立了国内第一家生物信息学网络服务器以来,我国生物信息学也蓬勃发展了起来,国内近年来开展生物信息学研究的单位主要有:北京大学、清华大学、中国科学院生物物理所、军事医学科学院、上海生命科学研究院、中国科学院微生物所、中国科学院遗传所人类基因组中心、中国医学科学院、天津大学、复旦大学、南开大学、中国科技大学、东南大学、内蒙古大学等。北京大学于1 9 9 7 年3 月成立了生物信息学中心,中科院上海生命科学研究院也于2 0 0 0 年3 月成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站,但从全国总体上来看与国际水平差距很大。一方面,国内生物( 医药) 科学研究与开发对生物信息学研究和服务的需求市场非常广阔;另一方面,真正开展生物信息学具体研究和服务的机构或公司却相对较少,仅有的几家科研机构主要开展生物信息4扬州大学硕士学位论文学理论研究,声称提供生物信息学服务的公司所提供的服务也仅局限于简单的计算机辅助分子生物学实验设计,而且服务体系并不完善;目前国内互联网上已经有了几家生物信息学网站,但大部分偏于所有生物( 医) 学领域的新闻报道,生物信息学专业技术服务的含量太少,研究力量薄弱,这就与国外有了较大差距。扬州大学的生物信息学相关研究主要是从新城疫病毒( n e w c a s t l ed i s e a s e m s ,n d v ) 开始的。新城疫被世界动物卫生组织( o l e ) 列入a 类疾病,严重危害世界养禽业,世界范围内已经发生过四次大的流行。我国是n d v 发生较为严重的国家,每年由于n d v 所造成的损失巨大,n d v 已成为我国兽医科技领域重点研究的畜禽病毒之一。早期,扬州大学兽医学院在刘秀梵院士和其他教授的领导下,在禽流感、新城疫等重要动物疫病流行病学研究中,做了一系列基础性工作,研制出鸡马立克氏病2 + 3 型双价活疫苗等5 种新疫苗,研制出针对重要畜禽病原体的单抗1 0 0 多种,建立了快速诊断检验的新方法,为制定相关疫病的有效防制对策提供了重要科学依据。同时,在重要畜禽疫病的发病机理和免疫机理及新城疫病毒基因组结构等基础研究中有重要发现,在载体和重组疫苗等高新技术研究中取得重要成果。但是,随着新城疫病毒研究的不断深入,涌现出大量的生物数据,迫切需要利用生物信息学的理论与方法,构建新城疫病毒相关数据库及分析平台,缩短实验周期,提高研究效率。1 2 生物信息可视化技术1 2 1 可视化技术概述1 可视化技术的产生人类的视觉功能允许人类对大量抽象的数据进行分析。人的创造性不仅取决于人的逻辑思维,而且取决于人的形象思维。为了了解数据之问的相互关系及发展趋势,人们求助于可视化技术。所谓“可视化”( s u a l i z a t i o n ) ,是指人通过视觉观察并在头脑中形成客观事物的影像的过程,这是一个心智处理过程。在传统的权威英文字典中可视化的定义是:在头脑中形成的某个人或某件事的图像。今天“可视化 这个词被赋予了不同于传统的内涵,它用来指借助技术手段把信息和数据用图像化的、交互的方式展现出来,以扩大人的认知【1 3 1 4 】。它是利用计算机图形学和图像处理技术,将陆王红:病毒基因组生物信息可视化系统研究5数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。可视化提高了人们对事物的观察能力及整体概念的形成等;可视化结果便于人的记忆和理解,同时其对于信息的处理和表达方式有其他方法无法取代的优势。可视化技术以人们惯于接受的图形、图像,并辅之以信息处理技术,将被感知、被认知、被想象、被推理、被综合及被抽象了的对象属性及其变化发展的形式和过程,通过形象化、模拟化、仿真化、现实化的技术手段表现出来。可视化不仅是客观现实的形象再现,也是客观规律、知识和信息的有机融合( 可视化技术不仅用来表现静态的知识,同时可用于动态地描述和表达客观对象的发展演化规律以及进行动态知识的获取) i l 引。2 可视化技术的分类可视化技术最早运用于计算科学中,根据侧重面不同,其主要分为三个分支:科学计算可视化( 刚i z a t i o ni ns c i e n t i 6 cc o m p u t i n g ,简称v i s c ) 、数据可视化( d a :t a s u a l i z a t i o n ) 和信息可视化( h l f o m a t i o n 刚i z a t i o n ,简称i v ) 。1 ) 科学可视化科学计算可视化是2 0 世纪8 0 年代后期随着计算机技术的迅速发展而出现的一门新兴技术。1 9 8 7 年美国国家科学基金会给v i s c 下的定义是:“v i s c 是一种计算方法,它将符号或数据转换为直观的几何图形,便于研究人员观察其模拟和计算过程,是用来解释输入到计算机中的图像数据,并从复杂的多维数据中生成图像的一种工具”。v i s c 是当前数学建模与仿真领域中一个引人注目的新的研究方向,其研究目标是要把通过实验或数值计算方法得到的大量数据表现为视觉可以直接感觉的计算机图形图像,以便直观地观察分析数据、揭示出数据间内在联系。v i s c 作为研究工具,拥有对数据和模型的操纵能力,研究者能够方便地调整科学模型和参数,使它们迅速逼近物理真实,因此在军事、地理、环境、商业、生物医学、g i s 等领域获得广泛应用它能够把科学数据,包括测量获得的数值、图像或是计算中涉及、产生的数字信息变为直观的、以图形图像信息表示的、随空间和时间变化的物理现象或物理量呈现在研究者的面前,使他们能够观察、模拟和计算1 1 6 j 。v i s c 是计算机图形学的一个重要领域,它的核心是将三维数据转换为图像,它涉及到标量、矢量、张量的可视化、流场的可视化、数值模拟及计算的交互控6扬州大学硕士学位论文制、海量数据的存储、处理及传输、图形及图像处理的向量及并行算法等。主要应用领域包括:医学及医疗、地震勘探、气象预报、分子结构、流体力学、有限元分析、天体物理、海洋观察、地理信息、洪水预报、环境保护掣1 7 j 。2 ) 数据可视化数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。数据可视化是可视化技术在非空间数据领域的应用,它改变了传统的通过关系数据表来观察和分析数据信息的方式,使人们能够以更直观的方式看到数据及其结构关系,发现数据中隐含的信息。数据可视化的基本思想是将数据库中的每个数据项作为一个图形元素表示,例如点、矩形条、扇形片等,大量的数据构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。数据可视化技术被广泛应用于自然科学、医学、工程技术、金融、通信、商业、油气勘探、生物分子学等领域。一些可视化软件相继出现,提高了各个行业的工作效率,也促进了可视化技术的发展【l 引。3 ) 信息可视化信息可视化是在计算机、网络通讯技术支持下,以认知为目的,对非空间的、非数值型的和高维信息进行交互式视觉表现的理论、技术与方法。它是这样一个过程,它将信息转化为一种视觉形式,充分利用人们对可视化模式快速识别的自然能力去进行观测、浏览、判别和理解信息1 1 4 1 。信息可视化不仅用图像来显示多维的非空间信息,使用户加深对信息含义的理解,而且用形象直观的图像来指引检索过程,加快检索速度( 使发现知识的过程和结果易于理解和在发现知识过程中进行人机交互) 。其重点是通过计算机技术、数字技术、多媒体技术,将那些通常难以设想和接近的环境与事物,以动态直观的方式表现出来,从而揭示自然和社会的发展规律,达到认识世界和改造世界的目的i l 引。信息可视化技术的研究内容主要包括:层次信息结构可视化、多维数据结构可视化、时变数据结构可视化、网络运行状态可视化、分布环境算法可视化、网络浏览历史可视化等【2 0 1 。其主要应用在超级计算机性能评价、网络运行状态监控、海量数据存储结构监控、地理、人口、矿产、市场等领域【2 。3 可视化技术的发展现状陆王红:病毒基因组生物信息可视化系统研究7人们对计算机可视化技术的研究已经历了一个很长的历程,与国内相比,国外的起步较早,可视化技术首先在一些发达国家的研究中心、著名大学、大公司的研究中心进行,并逐步推广应用。如:n a s a 的a m e s 研究中心,l a w r e n c el i v e r m o i 也国家实验室,l o sa l a m o s 国家实验室,i b m 研究中心,u i u c 的n c s a ,海军研究实验室等。目前,可视化技术主要应用于医学及医疗、地震勘探、气象预报、分子结构、流体力学、有限元分析、天体物理、海洋观察、地理信息、大气物理、环境保护等领域,已经有了一批通用和专用的商品化软件。随着研究的深入,可视化技术取得了丰硕的研究成果,比如三菱电信息技术中心( m e r l )对体数据的实时动态显示系统、s e n s a b l et e c h n o l o 西e s 公司的商品化的具有里反馈的三维交互设备、具有三维触觉功能及全新人机交互手段s e l l sa b l et e c l l i l o l o g i e s h p a n t o m 系统。我国的可视化技术始于9 0 年代初,目前,研究单位主要有:清华大学计算机系、中科院计算所、中科院软件所、浙江大学等机构。其主要应用在气象、物探、空气动力学、核技术等领域。近年来,开始在医疗领域得到广泛应用【2 2 j 。1 2 2 生物信息可视化技术发展现状科学可视化的目的是理解、分析和解释数据,因此生物信息可视化可分为3 个层次:分子模型化分子信息显示信息关联显示。构建分子三维模型来体现d n a分子双螺旋空间缠绕结构或蛋白质折叠结构,是最基本的生物信息可视化技术。随着分子生物学的发展,有更多的分子信息需要显示,如d n a 的z 曲线变换田j 、蛋白质亲疏水表面、基因突变等,这就促使分子信息可视化技术进一步发展。生物分子数据的最大特点是存在着复杂的相互关系,如d n a 到r n a 的映射关系,基因调控信息与基因表达数据之间的关系,基因之间的相互作用关系等,这一特点决定了生物信息可视化技术向信息关联显示的方向发展剀。目前,国外的研究中心、大公司、高校等机构都在从事着生物信息的可视化研究,市场上可见的主流可视化软件主要有s n a p 、g b n e i o u s 、c l cc o m b i n e dw o d 出e n c h 、g e n c h e c k 、m bd n aa i l a l y s i s 和g e n t l e 几种,其中s t i a p 和g e n e i o u s主要适用于w i n d o w s 、m a c 和l i i l u ) 【系统平台,c l cc o i n b i n e dw o d 【b e n c h 是这几种工具中较为复杂的一种,它集成了c l cg i e n e 和蛋白质工作台的所有特性功能【2 5 】。8扬州大学硕士学位论文1 3 本论文研究意义和研究内容1 3 1 论文研究意义随着基因组和蛋白质组研究的深入,越来越多基因的结构和功能得到阐明,建立简洁的、无冗余的、友好的、专用性强的二级数据库及分析系统已成为一个研究热点【2 6 1 。然而,由于生物信息数据的复杂性及其分析工具的复杂性,构建一个生物信息分析系统是一项复杂的工程,特别是构建一个可视化的分析系统。其难点主要体现在数据更新、研究模型的选择、数据挖掘和应用集成等几个方面,其中研究模型的选择尤为重要。特别是病毒基因组,由于病毒具有进化速度快等特点,致使数据增长迅速,对数据更新、数据管理、数据挖掘提出了更高的要求。在生物信息学的发展日趋成熟的今天,在运用几何学方法进行生物学研究刚起步的情况下,如何构建各种类型的专用病毒基因组生物信息可视化系统,对浩如烟海的原始数据进行存储、管理、比较、分析、挖掘,满足生物学研究人员研究和应用的需求,是生物信息学研究人员面临的一个重要课题。本课题来源于江苏省动物预防医学重点实验室开放课题“病毒基因组生物信息几何学分析关键技术研究 ( k 0 6 0 1 5 ) ,目标是通过该课题研究,建立新城疫病毒( n e w c 嬲t l ed i s e 嬲ev i f i l s ,n d v ) 生物信息可视化系统,从几何学角度出发,为生物学研究人员提供一个数据管理、显示分析、信息挖掘的平台。病毒基因组生物信息可视化系统研究对于实现核酸序列数据和可视化显示分析的最大结合起到了很好的作用,其是全基因组序列所载遗传信息的最大反馈,弥补了传统基于统计学的研究方法的不足,推动整个生命科学的突破性发展,具有重要的研究意义和价值。1 3 2 论文研究内容本文在对传统z 曲线理论进行分析研究的基础上,提出一种基于包围盒的抽稀算法,试图给出一个病毒基因组通用的基于c s 模式生物信息可视化系统模型及其在数据集成、数据管理、显示设置、曲线编辑、曲线分析、应用集成等方面的解决方案,最后以构建新城疫病毒( n d v ) 生物信息分析系统为例,研究了该模型的实现过程。陆王红:病毒基因组生物信息可视化系统研究9具体研究内容如下:1 ) 核酸序列z 曲线的构建研究。主要在对经z 变换得到的空间数据点分析的基础上,对基于包围盒的抽稀算法进行研究,首次将其用于z 曲线构建。实验表明,该方案巧妙地实现了一条核酸序列可同时对应多条不同精度曲线的创新,既可对全基因组序列进行整体研究,又可对个别重要基因展开细节钻研,为序列同源性比较和分子进化研究提供了新的思路。2 ) 生物信息可视化系统模型研究。针对生物信息可视化系统的数据集成、数据管理、应用集成等问题,先总结给出生物信息可视化系统的一般工作流程,进而研究基于c s 模式的体系结构模型,解决生物核酸序列数据的转换、处理、显示、分析等问题,最后提出一种基于c s 模式的生物信息可视化系统的结构模型。实践证明,该模型能较好的保持系统功能在逻辑上的相对独立性,提高系统和软件的可维护性和可扩展性。3 ) 分析研究g e n b 锄l ( 格式和f 嬲t a 格式核酸序列文件结构、z 变换后的空间数据点数据结构、曲线属性数据结构,建立n d v 生物信息数据库。通过矢量化曲线图,建立n d v 病毒基因组核酸序列z 曲线图形数据库;然后建立核酸序列数据库;最后,实现图形数据库和序列数据库的挂接。4 ) 生物信息可视化系统实现与应用。重点研究基于c s 模式的n d v 生物信息可视化系统的设计与实现,并应用该系统进行生物信息显示、全基因组可视化分析以及不同基因序列可视化分析。陆王红:病毒基冈组生物信息可视化系统研究1l第二章生物信息可视化理论基础目前,生物信息学的主要研究方向是核酸研究和蛋白质研究。核酸由细胞核提出的一种酸性物质得名,其可分为两大类:脱氧核糖核酸( d e o x ) ,r i b o n u c l e i ca c i d ,d n a ) 和核糖核酸( r e b o n u c l e i ca c i d ,r n a ) ,其中d n a 主要分布在细胞核内,少量在线粒体中【2 7 】。生物d n a 序列所携带的大量遗传信息的传递与表达与其核苷酸序列结构之间存在密切关系,因此深入研究d n a 序列结构,对于生命起源与奥秘的揭示、遗传疾病的治疗以及新一代d n a 计算机的研制等都具有重要的现实意义。以人类基因组计划顺利完成为标志的后基因组时代的到来,各学科领域科学家分别从不同学科角度对d n a 序列结构进行研究成为新的热点之一。抽象来看,对d n a 序列结构的研究主要在微观和宏观两个层次展开。具体讲,则涉及基因识别、基因表达机理、序列特征提取、基因组演化、基因组整体功能和调节网络等方面。但由于d n a 序列结构具有非线性、突变性、有序性、某种程度的随机性和异常复杂性等特点,使得研究人员在短期内完全理解由a 、g 、c 和t 4 种碱基字母组成的d n a 序列结构是不现实的。读懂这部仅有4 个碱基字母写成的没有标点符号的大书,还需要科学家对d n a 序列结构进行更深入、更全面的研究j 。2 1 聊蛆序列概述2 1 1d n a 序列组成d n a 代表脱氧核糖核酸,d n a 序列是一切生命有机体的生物遗传信息的载体,数十亿年来生物进化的历史都记录在这长长的序列之中,与生物的繁殖、遗传和变异有密切的关系。d n a 分子中的主要碱基是腺嘌呤( a d e n i n e ,a ) ,鸟嘌呤( g 啪i n e ,g ) ,胞嘧啶( c y t o s i n e ,c ) 和胸腺嘧啶( 1 1 1 ) 忸i n e ,t ) 。通常,用a 、t 、c 、g 四种字母来代表四种碱基,不同数量的这四种字母按不同顺序排列的一维链就构成了d n a 序列,如a c c t c a c g g g a a g c t t c a g g 则表示一个d n a 序列u w 。2 1 2d 1 悄序列可视化自1 9 9 5 年首个完整基因组测序完成以来,核苷酸序列数据呈指数级增长,大约1 2扬州大学硕士学位论文每1 4 个月核苷酸序列数据就会翻一番,这为聊悄序列结构的研究既带来了机遇,同时也带来了巨大挑战。在这样一种情形下,针对d n a 序列内部结构分析的统计研究方法愈发显得重要,但对生物学研究人员来说,d n a 序列可视化能够提供更加直观的信息。其可视化方法主要分为两种:图形表示和图像表示。图形表示是指把d n a 序列映射成空间的线性结构,如d n a 序列的一维、二维、三维以及多维行走等,多为曲线表示形式;而图像表示则是把d n a 序列映射到空间的一个区域或体域,多为2 d 或3 d 图像表示形式。在d n a 序列可视化表示方面,j e 胁y ( 1 9 9 0 ) 首先提出了一种称之为混沌游戏表示【3 0 】( c h a o sg 锄er e p r e s e 删i o n ,简称c g r ) 的子序列结构可视化方法,它是一种以d n a 序列驱动简单迭代函数系统( i t e r a t e df u n c t i o ns y s t e m ,简称i f s ) 产生分形图像的经典方法。文献 3 l ,3 2 】中,郝柏林院士等提出了另一种基于d n a 子序列出现频率的可视化方法,同样能产生类似的分形图像。这些分形图像充分表明d n a 序列具有整体和局部的结构性和长程相关性。2 0 0 0 年,d a i l i e la s l l l o c k 提出并研究了新的基于迭代函数系统的d n a 序列分形表示方法1 3 3 4 0 】,并引入演化计算思想,对混沌自动机进行演化以对序列进行可视化分类。现在,用图形表示d n a 序列的方法越来越多,有2 维的、3 维的和4 维的等。比如张春霆院士的z 曲线4 1 1 ,廖波的2 d 、3 d 图形表示模型【4 2 4 6 】;黜di c m 的3 d 图形表示模型;基于s w ol 胁l 的元胞自动机( c a ) 原理的二维可视图谱【4 7 】。在可视化图形的基础上,构造进化树是后基因时代系统发育的一个重要方向。郑文新用z 曲线来分析冠状病毒的进化关系【4 8 】;廖波在其2 维模型上【4 9 】也对冠状病毒基因的进化关系进行了分析。他们用几何中心和协方差矩阵来反映曲线的中心位置和曲线分布情况,然后通过计算最大特征值和相应的向量之间的夹角余弦值来获得距离【5 0 1 。2 2 研妊序列z 曲线理论对于d n a 序列的分析,传统的方法是基于统计学的,基本上属于代数学范畴。然而从笛卡儿时代起,人们就知道代数学与几何学方法是等价的,但各有特点,相互补充,缺一不可【5 1 】。d n a 序列的z 曲线理论主要包含以下几个方面:应用z 变换原理对d n a 序列进行数据转换;应用合适的抽稀算法对空间数据点进行抽稀;选取恰当的表现陆王红:病毒基因组生物信息可视化系统研究1 3图元,应用拟合函数生成空间曲线。2 2 1z 变换对于给定的一条d n a 序列,设其共有n 个碱基,从头至尾依次考察此序列,每次只考察一个碱基,记n 为考察的步数( n - l ,2 ,l ) 。在考察的过程中记录下一、c 、g 、r 出现的次数,分别用锄、c 玎、嘞、砀表示。由于有如+ c 一+ 嘞+ 殇= 一,所以锄、c 疗、锄、可以由三个变量h ,蜥z 刀表示,勃,蝴,钿的定义如下:i 勃= ( + 锄) 一( g + 砀) ;嘞一场, 蝴:( 如+ ) 一( 嘞+ 砀) = 一h砀,朔,锄【_ ,l 门= o l ,2 ,( 2 1 )i 钿= ( 以+ ) 一( 锄+ ) 2 一品,则工n ,y 疗,z 甩可以对应于三维空间的一点岛,为了研究方便,引进了直角坐标系,则每一个节点的直角坐标可表示为:勃,蜥,锄e 【_ ,l ,l = o ,1 ,2 ,( 2 - 2 )转换后的三个分量有着明确的生物学意义。其中锄表示嘌呤碱基和嘧啶碱基沿d n a 序列的分布,当序列中嘌呤( 嘧啶) 碱基为主时( 即总数过半) ,勃 oh o 帆 ok 蜘0 蚬 蚬0 z 2 姻,则增加包围盒相应边的大小,生成新的包围盒;否则保留原包围盒,转入s 钯p5读入下一个点巧b ,均,刁) ,计算坐标差值挑,锄,蛔,将其与当前包围盒的大小进行比较。s t 印7 :依次下去,假设在读入点弓b ,所,刁) 时,如果坐标差值铆 三0 锄 圳锄 三,则停止增长盒子,此时记录下当前的点毋,并对点疡、点毋点毋一l 进加权平均,得出的点作为它们的代表点,记为b 1 。s t 印8 :将点毋作为第二个盒子的起始点并转入s t 印4 ,读入点毋+ l 、点弓+ 2 ,重复前面的步骤,得到代表点只2 、只。s t e p9 :将代表点、b :应用样条曲线拟合函数进行拟合,即可得出此1 6扬州大学硕士学位论文基因序列文件的空间曲线。如果想改变显示的精度,可转入s t 印3 ,改变的值。2 2 3 图形元素的选择在计算机图形学中,表现数据信息的图形元素有点、线、面、环、体和场,其中线包括直线、折线、曲线,面包括曲面、流面。曲线被定义为一个点在空间运动的轨迹,曲面被定义为曲线上所有点运动而产生的轨迹【5 6 j 。d n a 序列文件进行z 变换后,转换成与碱基序列一一对应的空间数据点,这些点呈现较强的离散性,为了更利于遗传信息变化的比较与分析,将空间曲线作为进一步研究d n a 序列的可视化形式。2 2 4 拟合函数的选择前文把空间曲线作为d n a 序列进一步研究的可视化形式,因此选取恰当的拟合函数对d n a 序列对应的空间数据点的拟合尤为重要。因非均匀b 样条曲线具有局部性、几何不变性、几何造型的灵活性以及可用统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 惊蛰节气课件
- 情景式对联窍门课件
- 大学秋季迎新活动方案
- 2026届陕西省西安市第六十六中学高二化学第一学期期中预测试题含解析
- 杨梅促销方案
- 美团员工试题及答案
- 幼儿园散学典礼的活动方案
- java三层框架面试题及答案
- 幼儿园电工面试题及答案
- 红与黑考试题及答案
- 2025年蛟川书院分班测试题及答案
- 飞机数字孪生与预测性维护集成
- 2025《煤炭购销合同》
- 2025年行政执法证考试必刷题库与答案
- 基孔肯雅热防控知识考试试题含答案
- 2025年机关事业单位技能资格考试-文秘资料技师历年参考题库含答案解析(5卷套题【单项选择题100题】)
- 吉林化工(危险化学品)、医药企业电气设备设施安全隐患排查指南
- 劳动用工考试试题及答案
- 护理消毒液的配置
- 2025年职业指导师(四级)考试模拟试题汇编与模拟试题解析
- 2025年全新公安基础知识题库(含答案)
评论
0/150
提交评论