(计算机软件与理论专业论文)MDL数据库与虚拟筛选技术跨平台对接技术研究与应用.pdf_第1页
(计算机软件与理论专业论文)MDL数据库与虚拟筛选技术跨平台对接技术研究与应用.pdf_第2页
(计算机软件与理论专业论文)MDL数据库与虚拟筛选技术跨平台对接技术研究与应用.pdf_第3页
(计算机软件与理论专业论文)MDL数据库与虚拟筛选技术跨平台对接技术研究与应用.pdf_第4页
(计算机软件与理论专业论文)MDL数据库与虚拟筛选技术跨平台对接技术研究与应用.pdf_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文深入研究了当前化学信息管理系统和虚拟筛选系统的发展现状及其存在的问 题,分析了现有的化学信息学软件技术及虚拟筛选工作流程,针对现如今新药研究周 期长、效率低这一现状,采用j a v a 软件技术,集中研究并实现了基于t c p 的s o c k e t 的跨平台数据通讯通方法,从而为现有化学信息管理系统m d li s i s b a s e 与l i n u x 集群上的虚拟筛选系统d o c k p o c k e t 搭建了一条可靠、有效的跨平台数据通讯通道, 并在w i n d o w s 平台下构建了易于被用户操作的可视化平台c h e m m a n a g e r 系统,从而 使分布在u n i x 、l i n u x 和w i n d o w s 等不同操作系统平台下的化学信息学软件能协同工 作,将虚拟筛选的操作过程d o c k 、p o c k e t 整合到w i n d o w s 下,实现了m d l 数据、d o c k 和p o c k e t 虚拟筛选过程的可视化管理,方便化学科研人员的操作过程,提高了计算机 药物辅助过程的可靠性和工作效率,方便研究工作的开展。 关键宇:跨平台数据通讯t c ps o c k e t b d l 虚拟筛选 a bs t r a c t i nt h i sp a p e r , i n - d e p t hs t u d yo ft h ec u r r e n tc h e m i c a li n f o r m a t i o nm a n a g e m e n ts y s t e m s a n dv i r t u a ls c r e e n i n gs y s t e ma n dt h ed e v e l o p m e n to ft h ee x i s t i n gp r o b l e m s ,a n a l y s i so ft h e e x i s t i n gc h e m i c a li n f o r m a t i c ss o f t w a r et e c h n o l o g ya n dv i r t u a ls c r e e n i n gp r o c e s sf o rn e w d r u gr e s e a r c hi sn o wl o n g ,l o we f f i c i e n c yo ft h ec u r r e n ts i t u a t i o n ,t h eu s eo fj a v as o f t w a r e t e c h n o l o g y , a n df o c u so nt h ea c h i e v e m e n tb a s e do nt c ps o c k e tc r o s s p l a t f o r m d a t a c o m m u n i c a t i o nm e t h o df o re x i s t i n gc h e m i c a li n f o r m a t i o nm a n a g e m e n ts y s t e mm d li s i s b a s ea n dl i n u xc l u s t e r so nt h ev i r t u a ls c r e e n i n gs y s t e md o c k p o c k e tb u i l dar e l i a b l e a n de f f e c t i v ec r o s s p l a t f o r md a t ac o m m u n i c a t i o nc h a n n e l s ,a n du n d e rt h ew i n d o w sp l a t f o r m b u i l tb ye a s y - t o - u s e rv i s u a l i z a t i o np l a t f o r m - c h e m m a n a g e rs y s t e m ,s ot h a ti nu n i x ,l i n u x a n dw i n d o w so p e r a t i n gs y s t e ma n do t h e rp l a t f o r m su n d e rt h ec h e m i c a li n f o r m a t i c s s o f t w a r ec a nw o r kt o g e t h e rt ot h ev i r t u a ls c r e e n i n gp r o c e s sd o c k ,p o c k e ti n t e g r a t e di n t o w i n d o w s ,t h er e a l i z a t i o no ft h em d ld a t a ,d o c ka n dp o c k e tv i r t u a lv i s u a l i z a t i o no ft h e s e l e c t i o np r o c e s st of a c i l i t a t ec h e m i c a lo p e r a t i o n ss t a f ft oi m p r o v ed r u gc o m p u t e r - a s s i s t e d p r o c e s so ft h er e l i a b i l i t ya n de f f i c i e n c yt of a c i l i t a t et h er e s e a r c hw o r kc a r r i e d o u t k e yw o r d s : o r o s s - pia t f o r md a t ac o m m u nic a tio nt o ps o c k e t m d lt h e v ir t u a is c r e e n i n g 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,m d l 数据库与虚拟筛选技术跨平台对 接技术研究与应用是本人在指导教师的指导下,独立进行研究工作所取得的成果。 除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过 的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 作者签名: 三月4 日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权使 用规定,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕士学位论文 全文数据库和c n k i 系列数据库及其它国家有关部门或机构送交学位论文的复印件和 电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇 编学位论文。 作者签名: 年2 月孕日 指剽雠遭幽年三月平 5 7 第一章绪论 1 1 引言 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索 和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是2 1 世 纪自然科学的核心领域之一。其研究重点主要体现在基因组学( g e n o m i c s ) 和蛋白学 ( p r o t e o m i c s ) 两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构 功能的生物信息。 生物信息学是一门利用计算机技术研究生物系统之规律的学科。 目前的生物信息学基本上只是分子生物学与信息技术( 尤其是因特网技术) 的结合 体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机, 研究方法包括对生物学数据的搜索( 收集和筛选) 、处理( 编辑、整理、管理和显示) 及 利用( 计算、模拟) 。 生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须 先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能 很早就已经开始,1 8 6 6 年孟德尔从实验上提出了假设:基因是以生物成分存在;1 8 7 1 年m i e s c h e r 从死的白细胞核中分离出脱氧核糖核酸( d n a ) ;1 9 4 4 年c h a r g a f f 发现了著 名的c h a r g a f f 规律;与此同时,w i l k i n s 与f r a n k l i n 用x 射线衍射技术测定了d n a 纤维的结构:1 9 5 3 年j a m e sw a t s o n 和f r a n c i s c r i c k 在n a t u r e 杂志上推测出d n a 的 三维结构( 双螺旋) ,d n a 以磷酸糖链形成双股螺旋,脱氧核糖上的碱基按c h a r g a f f 规 律构成双股磷酸糖链之间的碱基对。这个模型表明d n a 具有自身互补的结构,根据碱 基对原则,d n a 中贮存的遗传信息可以精确地进行复制他们的理论奠定了分子生物学的 基础。d n a 双螺旋模型已经预示出了d n a 复制的规则,1 9 5 8 年m e s e l s o n 与s t a h l 用实 验方法证明了d n a 复制是一种半保留复制。c r i c k 于1 9 5 4 年提出了遗传信息传递的规 律,d n a 是合成r n a 的模板,r n a 又是合成蛋白质的模板,称之为中心法则( c e n t r a l d o g m a ) ,这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指 导作用。1 9 6 3 年经过n i r e n b e r g 和m a t t h a i 的努力研究,编码2 0 氨基酸的遗传密码得 到了破译。限制性内切酶的发现和重组d n a 的克隆( c l o n e ) 奠定了基因工程的技术基础。 正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现 也就成了一种必然。2 0 0 1 年2 月,人类基因组工程测序的完成,使生物信息学走向了 一个高潮。由于d n a 自动测序技术的快速发展,d n a 数据库中的核酸序列公共数据量以 每天1 0 6 b p 速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积 累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能, “生物信息学 正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研 究如何通过对d n a 序列的统计计算分析,更加深入地理解d n a 序列,结构,演化及其 与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统 计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组 信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是 “读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各d n a 片段的 功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定 蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容, 根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律阳1 。它的 研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传 语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前 沿。 化学信息学是一门应用信息学方法来解决化学问题的学科。 2 0 世纪中后期,伴随着计算机技术的发展,化学家开始意识到,多年来所积累的 大量信息,只有通过计算机技术才能让科学界容易获得和处理,换言之,这些信息必 须通过数据库的形式存在,才能为科学界所用。这一新领域出现以后,没有一个恰当 的名称。活跃在这个领域的化学家总是说他们在“化学信息 领域工作。然而,因为 这一名称难以将处理化学文献的工作和发展计算机方法来处理化学信息的研究分别开 来。所以,一些化学家就称之为“计算机化学 ,以强调采用计算机技术来处理化学 信息工作的重要性。但是,这个名称容易与理论化学计算,即“计算化学 混淆2 1 。 1 9 7 3 年,由n a t o 高级研究所夏季学校在荷兰n o o r d w i j k e r h o u t 举办的一次研讨班, 首次将在在不同化学领域工作,但都是采用计算机方法处理化学信息,或是用计算机 技术从化学数据中获取知识的科学家集中在一起。这次研讨班的名称就定为“化学信 息学的计算机表征与处理”。参加这次会议的科学家主要从事化学结构数据库,计算 机辅助有机合成设计,光谱信息分析和化学计量学等方面的研究,或者开发分子模拟 软件。研讨班期间,这些化学家意识到,一个新的研究领域已经形成,而且,它隐含 在化学各分支之间。 从此之后,应用于解决化学问题的计算机科学和信息学方法悄然进入了化学的各 个领域。 可见,无论是生物信息学还是化学信息学均需要利用计算机和网络作为其研究平 台,从网络中获取数据,利用远程计算机完成计算分析任务;同时,生物信息学和化 学信息学软件分布在u n i x 、l i n u x 和w i n d o w s 等不同的操作系统平台上。因此,对从 事生物信息与化学信息学研究的工作者来说,拥有一个通用的跨系统的网络研究平台 将会如虎添翼。本论文研究立足于分子设计研究室所现有的网络硬件设备,通过网络 架构的构建和软件设置建立了一个开放、方便、实用的网络研究平台。利用该平台, 用户可以在指定网域内任意一台计算机上获取研究数据,提交计算、研究任务,也可 以借助任意一台w i n d o w s 或l i n u x p c 图形工作站远程登录中心的u n i x l i n u x w i n d o w s 服务器进行工作,实现所内的数据、计算、图形等资源的共享,节省了网络和计算资 2 源,方便了研究工作的开展。 1 2 生物信息学与化学信息学的发展现状 化学信息学( c h e m o i n f o r m a t i c s ) 作为化学领域中近几年发展起来的一个新的分 支,是建立在多学科基础上的交叉学科,利用计算机技术和计算机网络技术,对化学 信息进行表示,管理,分析,模拟和传播,以实现化学信息的提取,转化与共享,揭 示化学信息的实质与内在联系,促进化学学科的知识创新。化学信息学正在设法提供 一个以用化学结构为框架的通用化学语言,来组织化学领域的全部知识。化学信息学 是化学与药物研究发展工作中的一项关键技术,是在分子水平上进行药物研究与创新 的基础。当今的化学研究机构需要获取、管理和挖掘大量的化学数据与信息。这些资 源通常还要在跨学科多领域的小组之间共享和使用“。化学信息学解决方案使得这些 操作变得方便快捷,提高了化学和药物研究工作的效率。 1 2 1 虚拟筛选技术的发展 虚拟筛选实际上是依据特定的模型将含有特定性质或特征的虚拟分子从虚拟库中 提取出来的过程。目前可以大致分为两类:基于指数值的筛选和基于模式识别的筛选。 基于受体三位结构的虚拟筛选是其中典型的代表。小钉。 以计算机科学为基础的信息技术,由于其对现实的强大模拟能力,成为国际上新 药创制领域研究的首选方法。其中,以多样性为基础的虚拟库及虚拟筛选技术起着致 关重要的作用。基于受体三维结构的虚拟筛选是发展最早的一种也是目前最为成熟应 用最广的虚拟筛选技术,又被称为分子对接技术n 1 。这种技术的理论基础是药物分子 与靶标间相互作用的“钥匙和锁”的关系。这种理论认为高活性、高选择性的化合物 一定与受体的活性位点存在几何外形、理化性质及其在分子表面分布的互补。基于受 体结构的药物设计方法就是以这个理论为基础发展起来的:科学家根据受体活性表面 的特征设计配体分子,并手动地将设计的配体分子放入活性位点中旋转、移动进行对 接,同时对每一种合适的对接计算体系的能量及其它相关参数以判断分子与活性位点 的作用情况,最终设计出与活性位点几何互补、理化性质分布互补的配体分子。 基于这种设计方法人们发展了多种自动对接和判断化合物在受体活性位点作用优劣的 算法并加以自动化以适用于数量巨大的化合物库,最终形成了基于受体三维结构的虚 拟筛选技术“1 。目前这类技术的代表主要有d o c k 8 1 、a u t o d o c k 1 等软件。 随着信息技术在新药研究中应用的不断加深,一种以虚拟技术为基础,以人类基 因组数据为源关的新药研究开发流程正在逐步形成n 盯,如图1 1 ,它的日趋成熟将新 药研发的效率得到全面的提高。 但这只是一种理想模式,目前建立这样的研发平台还存在较大的困难。这主要是 因为在这一平台中对计算及信息处理具有极高的要求,如基因组数据分析、基因功能 预测、生物靶分子即蛋白质三维结构的从头预测、基于蛋白三维结构的功能分析、基 3 于量子理论的分子多样性分析与计算、基于模式识别的虚拟筛选等研究均需要对海量 的数据进行高速处理、分析、高性能计算及实时可视化。其中的任何一项研究内容都 不是一台超级计算机、一个研究机构乃至一个国家所能单独完成的,迫切需要更高性 能的计算设各及跨学科、跨地域的广泛合作才能真正实现。 d i v or 5 i t y ! 业竺竺旦 t r g t s :o m _ t h b i na 。t or g i a h p u ic h e m 。i s t ? 凹1l 新鲔研发流程 e s c i e n c e 的出现为新药研发高效平台的创立提供了良好的机遇。e s c l e n c e 是建 立在新一代网络技术和广域分布式高性能计算环境基础上的全新科学研究模式。其核 心思想是将全球各种硬件平台的高性能计算机整台成一个虚拟的超级计算机,实现与 地理无关的计算资源、数掘资源、存贮资源等的全球共享。基于es c i e n c e 进行科学 研究的合作者将共享这一虚拟的超级计算机,他们的研究结果可以实现实时交流,是 全球科研合作无缝连接的最佳方法。es c i e n c e 平台以千兆级的高速网络、整合多平台 高性能计算机的网格为硬件基础,以智能平台中间件为跨不同操作系统的软件平 台,提供任何单独一台超级计算机都不能进行的万亿规模的超级计算能力、高性能实 时可视化及与地理分布无关的数据存取和高速网络互联。它提供的超高性能计算及与 地域无关的数据处理和合作模式恰恰是以信息技术为核心的新的高效新药研发平台所 迫切需要的。因此基于e s c i e n c e 建立高效的新药研发平台是缩短新药的研发周期、 减少研发费用、降低研发风险的最有效的可行方案”。 i22m d l 数据库技术在新药研究中的作用 然而,化学信息的有效管理也是该新药研究开发过程中至关重要的一个环节,是 保证整个开发流程顺利进行的关键技术。一个好的决策离不开可靠的数据,这使得科 学家们对信息管理工具的需求同益加大。目前,通过专业的商用数据库管理系统,如 圄 圄 固 m d l 公司的i s i s h o s t 或i s i s b a s e ,或者a c c e l r y s 公司的a c c o r d ,用户可进行存储、 查寻,并显示化学结构、生物活性及相关信息,从而能够方便地检索和存取数据库中 的数据信息;同时,它还提供相关的开发工具,帮助用户建立起自身的各类数据库, 更加有效、便捷地管理和共享自身积累的数据信息 1 3 1 0 m d l 是世界著名的向生命科学和化学工业提供信息内容和管理工具的领导者,m d l 公司作为化学信息软件服务应用商,为用户提供化学信息管理系统及各种化学和制药 信息情报数据库。m d lb e i l s t e i n 数据库是最全面、最权威的有机化学结构、反应、 性质、文献数据库。m d l 化学专利数据库( m d lp a t e n tc h e m i s t r yd b ) 提供自1 9 7 6 年以 来化学及生命科学专利文献中的化合物、化学反应以及相关信息。m d li s i s 是工业标 准级的化学信息管理系统,已应用于全球超过8 0 9 6 的化学与制药企业。在我国,很多大 学、医院、科研单位及相关重点实验室都已经在使用m d l 的软件产品。其中应用比较 广泛的有m d li s i s b a s e “朝 b s i 。 1 2 3m d l 数据库与虚拟筛选技术的协同工作 基于靶标的虚拟筛选是新药研究过程中的一个关键环节,为了进一步提高这一流 程的工作效率,考虑将用于管理分子信息的数据库系统与虚拟筛选体系进行有效整合。 也就是说,利用化学专业数据库软件m d li s i s b a s e 为虚拟筛选提供虚拟数据库,虚 拟库中的每个分子通过d o c k 、p o c k e t 等方法对一系列靶标进行匹配筛选,并打分,再 将带有评分结果的字段写回数据库,并使整个过程自动化。以后,每向数据库导入一 个分子,就可以对该分子进行筛选,评分,并在库中显示结果。此项课题的研究成功 将为新药研究工作带来极大的便利,推动新药研究的进一步发展。而且,继该项课题 成功之后,可以通过类似技术,将m d li s i s b a s e 与更多其它的药物辅助设计软件、 m p q c 量化计算软件等进行跨平台的无缝对接,为海量化学信息的深入挖掘带来更大的 发展潜力,为计算机应用技术在化学信息学领域拓展更加广阔的发展空间。 1 3 论文研究目的及意义 1 3 1 研究的目的 通过化学专业软件m d li s i s b a s e ,并以建立在高性能并行计算为基础发展和建立 具有适用于新药研究的高效化学信息管理系统,实现w i n d o w s 下m d li s i s b a s e 数据 库软件与面向l i n u x 系统的d o c k 及p o c k e t v 2 虚拟筛选专业软件的跨o s 平台无缝对接, 完成跨l i n u x 和w i n d o w s 平台数据库文件的文件提交与回写,从而为先导化合物的虚 拟筛选提供数据来源,最终再将虚拟筛选结果文件写回数据库中,达到数据库的自动 更新管理,从而提高新药研发的效率,缩短新药研发周期。 1 3 2 研究的意义 药物的一切性质均是由其三维结构所决定的,计算化学技术可以从化合物的结构 s 出发准确预测有机分子的相关性质,化学信息资源一直缺乏有效的管理及发掘。计算 机技术与化学信息的有机结合为长期以来海量化学信息资源一直缺乏有效的管理提出 了有效的解决方案,为海量化学信息的高效管理和深入挖掘创造了条件。 作为一门新兴的多领域交叉学科,化学信息学有其独特的解决化学问题的方法, 主要可以分为三大类:基于数据、基于逻辑和基于原理。第一类主要是指建立多种数 据库管理系统和数据库,利用其中的数据。第二类主要是利用已有的数据库中的数据, 并在此基础上,利用归纳、推理和分类等方法将数据转化成知识,并对知识实施有效 的管理,以便于知识得到广泛地应用。最终,能用于解决实际的化学问题。第三类主 要是利用已有的量子化学的理论,对相关的化学问题丌展研究。其中,前两类方法而 言,它们注重于适用大量的化学信息的分析处理,其核心在于化学结构的分析比较、 相关物化性质的分析处理的方法和应用研究。而第三类方法主要注重化合物个体的相 关性质精确分析的方法及其应用研究。这三类方法的合理组合将对化学家开展相关的 研究起到辅助作用,促进化学界的研究方法和工业界的生产方式不断革新。同时它与 迅速崛起的高科技关系密切,是绿色化学和绿色化工的基础,是联系化学化工为国民 经济可持续性发展服务的桥梁,是实现化学创新的有效方法之一川。 由此,能清楚地看到,数据库技术的应用在化学信息学领域中的重要地位,是信 息学领域必不可少的手段和工具。从而,建立具有适用于新药研究的高效化学信息管 理系统被提上同程。但是,仅有数据库并不能满足当前新药研发的需求,化合物分子 数目之多,理化性质千差万别,药物研发人员要从众多化合物分子中找出某个合适的 对象还需借助其他工具软件来帮助处理数据库中的分子数据信息,使之更具研究意义。 国内外各类先进计算机化学辅助软件种类繁多,应用的平台环境也不尽相同,有些甚 至需要跨o s 平台操作。目前,国内领先的化药研究机构对这类专业软件投入使用,但 很多技术还有待突破。所以,寻求一种有效的解决途径来使这些药物辅助设计的应用 软件有机结合,协同工作对今后药物研究具有极大的现实意义。并且,本课题的研究 也是对今后各类药物辅助设计应用软件衔接技术的一项新的探索。是计算机技术在生 物信息学领域应用的一个创新点。 1 4 论文主要研究内容和结构 1 4 1 论文主要研究内容 主要研究专业数据库软件系统m d li s i s b a s e 与虚拟筛选技术的跨平台对接问 题。而跨o s ( l i n u x 与w i n d o w s ) 平台网络数据通讯技术是本文研究的关键。 这里m d li s i s b a s e 是一个面向w i n d o w s 的应用软件,而d o c k 、p o c k e t v 2 则是在 l i n u x 系统环境下工作并且需要建立在远程大规模集群上的虚拟筛选软件体系。因此, 要想将此化学信息管理系统( m d li s i s b a s e ) 与虚拟筛选系统( d o c k 、p o c k e t v 2 ) 进行整 合,则需要跨平台技术的应用。 6 本文研究的重点就是异种操作系统数据通讯方法。研究现有的数据通讯技术,力 求寻找一种有效的、适合我们现有系统的跨平台通讯方式。 针对本课题需要解决的问题,在本文接下来的章节中,将从以下几个方面内容逐 步详细地探讨,并提出解决方案: 1 首先,系统调研目前生物化学信息网络研究平台的几种比较成熟工作模式及网 络、硬件环境,并作出详细分析和比较;并针对当前工作任务探索有利于提高新药研 究工作效率的、适合虚拟筛选工作流程的解决方案。 2 针对提出的解决方案,研究跨平台网络通信技术,总结比较进程间通信方式, 并重点研究s o c k e t 通信方式、相关通信协议及其通信原理。 3 研究守护进程和多线程服务器机制及其在本系统中的应用。 1 4 2 论文结构安排 第一章是绪论,介绍生物信息学与化学信息学的由来及其发展现状,引出课题, 并提出本文研究的目的、意义,据此指出本文的研究重点。 第二章讨论了生物信息学和化学信息学网络研究平台的构建,分析了当前生化信 息网络研究平台的工作模式,并对其网络及计算机硬件环境进行了讨论,由此提出了 一种适合于虚拟筛选工作流程的新研究平台的初步模型。 第三章对跨平台网络通信技术进行研究,总结和比较各种进程间通信方式,提出 适合本研究平台的通信方式s o c k e t ;并介绍了相关通信协议t c p i p 协议,阐述流式 s o c k e t 的通信机制。 第四章讨论了守护进程和多线程服务器机制在本研究系统中的应用。 第五章新研究平台c h e m m a n a g e 进行设计、实现,并对实验结果进行分析总结。 第六章对本文进行总结,并对我们新研究平台的未来进行展望。 最后是参考文献和致谢。 7 第二章生物信息学和化学信息学网络研究平台的构建 2 1 生化信息网络研究平台分析 生物信息学( b i o i n f o r m a t i c s ) 和化学信息学( c h e m o i n f o r m a t i c s ) 是信息科学与传 统化学、生物学相融合而产生的两门新兴交叉学科,二者既有其本身的学科特点和分 工,有着紧密的联系。狭义的生物信息学仅指基因和蛋白质的序列、发育、遗传的本 质,破译隐藏在d n a 学列中的遗传语言及其意义。广义的生物信息学则包含生物信息 的获取、加工、储存、检索、分析和解读等诸多方面,并综合运用数学、计算机学、 化学、物理学和生物学等工具,解释生命现象本质,以达到理解数据中生物学含义的 目标,几乎包括了所有计算机和信息技术在生命科学中的应用。生物信息学是随着分 子生物学的发展而逐渐形成,其广阔的应用前景,特别是在医学领域中的应用潜力, 促进了这一学科的飞速发展。目前生物信息学已经广泛融入生物学几乎所有领域的研 究,对生物学的传统研究方法产生了巨大的影响,甚至对传统的研究结论提出质疑幻。 化学信息学也称为计算机化学,是近几年发展起来的一个新的化学分支,他利用 计算机和网络技术,对化学信息进行表示、管理、分析、模拟和传播,实现化学信息 的提取、转化与共享,解释化学信息的实质与内在联系,促进化学学科的知识创新。 狭义的化学信息学仅进行化学信息的处理与分析,特别是分子信息在计算机中的存储 等等;广义的化学信息学则包含化学计量学、理论化学、计算化学、分子模拟等与计 算机应用有关的所有化学研究2 。在学科的应用范围上,目前化学信息学已经成为 药物设计、材料设计、化工生产、燃料能源等领域的重要信息和理论支柱,特别是分 子设计药物谁及、材料设计结合产生了两大重要应用研究领域:计算机辅助药物设计、 计算机辅助材料设计钉。 2 1 1 生化信息学的研究特点及解决方案 生物信息学和化学信息学的发展历史和研究领域虽然不尽相同,但它们有以下两 点共同特征: 1 二者研究对象的数据量以及研究分析这些数据所需计算量均十分巨大,因此必 须采用网络为研究平台,将海量的数据集中存储在网络服务器上,需要的时候,再有 目的和有选择地下载,大量的计算任务也放到专门配置的计算服务器上运行“6 1 恤1 。 2 生物信息学和化学信息学的研究,分析依赖于有着创新思想的软件,包含各种 商业软件系统和大量免费的甚至开源的小型软件;由于开发历史、授权形式的原因, 它们运行在不同的系统平台之上。比如生物信息学软件g c g 和i n s i g h ti i 、药物设计软 件s y b y l 的运行平台,为s g ii r i x 或l i n u x 操作系统;而生物信息学软件m d l i s i s b a s e 、m d li s i s d r a w 、d sg e n e 、药物设计软件d sm o d e l i n g 等,运行在w i n d o w s 、 8 l i n u x 平台之上;而大多数免费专业软件选择的系统平台是u n i x l i n u x ,如d o c k 、 a u t o d o c k 等埔ll 砌。 以上两点特征,特别是第二点,给我们的研究工作带来了较大的困难,因为通常 的计算机只安装w i n d o w s 操作系统,极少采用l i n u x 平台,当需要使用u n i x 、l i n u x 平台的专业软件时,就很不方便,不得不在不同的工作站之间来回周旋。解决这一问 题,主要有以下几种方案们: 1 采用双系统的工作方式,在同一台计算机上同时安装w i n d o w s 和l i n u x 两个系 统。这样,当需要使用另一系统中的软件时,只需重新启动计算机,切换到另一系统 即可,系统间数据的传输可通过优盘或者公用分区来解决。这种方案也有一个变种, 即:采用可以自启动的l i n u x 系统光盘,不用安装系统即可享受l i n u x 的乐趣,专业 应用以v i g y a a n c d 最为著名,该关盘集成了几十款常用的生物信息学研究工具,最新 版为2 0 0 5 年9 月7 日发布的1 o 版“6 1 “盯。 但是,这种方案仍然没有从根本上解决问题,无法同时使用两个系统,而且系统 维护比较困难,常常出现引导程序出错的情况。此外,光盘引导的系统和软件一般很 难实现及时的升级,而且有些专业软件由于临时文件写操作失败而不能正常执行。 2 安装于w i n d o w s 平台上的类l i n u x 系统,如著名的c y g w i n 。它是在w i n d o w s 平 台上运行的一个l i n u x 模拟环境( a p i 层) ,由最初c y g n u ss o l u t i o n s 公司开发,服从 g n u 自由软件分发规范。它可以帮助程序开发人员把应用程序从u n i x l i n u x 移植到 w i n d o w s 平台,是一个功能强大的工具集。如果软件能够在c y g w i n 下面编译、运行, 实际上也就是能在w i n d o w s 下面编译和运行,只不过需要有一中间层a p i ,模拟某些 l i n u x 特有的操作。目前,已经证实很多专业软件可以在c y g w i n 中编译运行,比如著 名的分子对接软件d o c k 、a u t o d o c k 等,为我们的研究提供了极大的方便。 这种解决方案的缺点,是很多软件暂时还无法在c y g w i n 上实现,而且,即使得以 实现,易用性也较差,因为毕竟不是标准的l i n u x 系统。我们认为,c y g w i n 可以弥补 d o s 编程能力不足的缺陷,运行s h e l l 、a w k 、p e r l 等脚本程序或进行简单的数据分析 处理尚可,但目前还无法作为大型和中型专业软件的运行环境1 n 8 1 9 1 。 3 采用虚拟机的方式,常用的软件有v m w a r e 、v i r t u a lp c 等,它们可以在w i n d o w s 系统中虚拟出一台标准的p c 机,对该虚拟机器的操作不会影响当前系统的设置。虽然 目前虚拟系统的技术已经比较成熟,但是这种解决方案对系统要求较高,而且在虚拟 系统启动或关闭的瞬间,一旦断电容易造成子系统的崩溃而丢失虚拟机中数据。所以, 目前虚拟系统更多地用于测试新软件的使用环境等“2 1 。 4 此外,还可以采用网络解决方案,即本地工作站安装w i n d o w s 系统,而采用 x - s e r v e r 等方式,远程登录u n i x l i n u x 系统进行研究工作,这是最为合理的方式。x 服务器为xw i n d o ws y s t e m 的分布式网络中连接到x 终端的服务器。从终端用户的角 度来看,x 服务器相当于一个多视窗操作的服务器。实际上,x 服务器应用程序提出客 户请求,要求在各个终端运行视窗管理服务。x 服务器( 为xw i n d o ws y s t e m 的部分) 9 一般安置在大型机、小型机或者工作站中基于u n i x 的操作系统。x 服务器可与w i n d o w s 终端服务器产品相比,只是后者运行在基于w i n d o w s 的操作系统中协1 。 2 2 网络和计算机硬件环境 随着互联网的高速发展以及l i n u x 企业应用的成熟,l i n u x 被广泛应用于服务器领 域,如何实现l i n u x 的远程管理成为网络管理员的首要任务。我们经常见到的几种最 为常用的w i n d o w s 下远程管理l i n u x 服务器的方法,基本上都是利用s e c u r e c r t , f s e c u r es s h 抑或是p u t t y 等客户端工具通过s s h ( s e c u r es h e l l ) 服务来实现w i n d o w s 下管理l i n u x 服务器的,这些客户端工具几乎不需要什么配置,使用简单们。 2 2 1 现行系统管理服务器方式及其不足 目前,分子设计研究室就是采用s e c u r e c r t 作为客户端工具,通过s s h 服务来实 现w i n d o w s 下管理l i n u x 服务器的。 1 s s hn 9 1 与s e c u r e c r t 的结合实现l i n u x 服务器的远程管理n 们“0 1 ( 1 ) s s h 技术 传统的网络服务程序,如f t p 、p o p 和t e l n e t 在传输机制和实现原理上是没有考 虑安全机制的,其本质上都是不安全的;因为它们在网络上用明文传送数据、用户帐 号和用户口令,别有用心的人通过窃听等网络攻击手段非常容易地就可以截获这些数 据、用户帐号和用户口令。而且,这些网络服务程序的简单安全验证方式也有其弱点, 那就是很容易受到“中间人 ( m a n - i n - t h e - m i d d l e ) 这种攻击方式的攻击。所谓“中 间人”的攻击方式,就是“中间人 冒充真正的服务器接收你的传给服务器的数据, 然后再冒充你把数据传给真正的服务器。服务器和你之间的数据传送被“中间人”一 转手做了手脚之后,就会出现很严重的问题。 s s h 是英文s e c u r es h e ll 的简写形式。通过使用s s h ,你可以把所有传输的数据 进行加密,这样“中间人 这种攻击方式就不可能实现了,而且也能够防止d n s 欺骗 和i p 欺骗。使用s s h ,还有个额外的好处就是传输的数据是经过压缩的,所以可以 加快传输的速度。s s h 有很多功能,它既可以代替t e l n e t ,又可以为f t p 、p o p 、甚至 为p p p 提供一个安全的“通道”。 最初的s s h 是由芬兰的一家公司开发的。但是因为受版权和加密算法的限制,现 在很多人都转而使用o p e n s s h 。o p e n s s h 是s s h 的替代软件包,而且是免费的,可以预 计将来会有越来越多的人使用它而不是s s h 。 最后,s s h 在运行方式上也很有特色。不像其他的t c p i p 应用,s s h 被设计为工 作于自己的基础之上,而不是利用包装( w r a p p e r s ) 或通过i n t e r n e t 守护进程i n e t d 。 但是许多人想通过t c p 包装来运行s s h 守护进程。虽然你可以通过t c p d ( 从i n e t d 上运 行启动) 来运行s s h 进程,但这完全没有必要。 ( 2 ) s s h 协议的内容 1 0 s s h 协议是建立在应用层和传输层基础上的安全协议,它主要由以下三部分组成, 共同实现s s h 的安全保密机制。 传输层协议,它提供诸如认证、信任和完整性检验等安全措施,此外它还可以任 意地提供数据压缩功能。通常情况下,这些传输层协议都建立在面向连接的t c p 数据 流之上。 用户认证协议层,用来实现服务器的跟客户端用户之间的身份认证,它运行在传 输层协议之上。 连接协议层,分配多个加密通道至一些逻辑通道上,它运行在用户认证层协议之 上。 当安全的传输层连接建立之后,客户端将发送一个服务请求。当用户认证层连接 建立之后将发送第二个服务请求。这就允许新定义的协议可以和以前的协议共存。连 接协议提供可用作多种目的通道,为设置安全交互s h e l l 会话和传输任意的t c p i p 端 口和x 1 1 连接提供标准方法。 ( 3 ) s s h 的安全验证 从客户端来看,s s h 提供两种级别的安全验证。 第一种级别( 基于口令的安全验证) ,只要你知道自己的帐号和口令,就可以登录 到远程主机,并且所有传输的数据都会被加密。但是,这种验证方式不能保证你正在 连接的服务器就是你想连接的服务器。可能会有别的服务器在冒充真正的服务器,也 就是受到“中间人”这种攻击方式的攻击。 第二种级别( 基于密匙的安全验证) ,需要依靠密匙,也就是你必须为自己创建一 对密匙,并把公有密匙放在需要访问的服务器上。如果你要连接到s s h 服务器上,客 户端软件就会向服务器发出请求,请求用你的密匙进行安全验证。服务器收到请求之 后,先在你在该服务器的用户根目录下寻找你的公有密匙,然后把它和你发送过来的 公有密匙进行比较。如果两个密匙一致,服务器就用公有密匙加密“质询 ( c h a l l e n g e ) 并把它发送给客户端软件。客户端软件收到”质询”之后就可以用你的私人密匙解密再 把它发送给服务器。 与第一种级别相比,第二种级别不需要在网络上传送用户口令。另外,第二种级 别不仅加密所有传送的数据,而“中间人 这种攻击方式也是不可能的( 因为他没有你 的私人密匙) 。但是整个登录的过程可能慢一些。 ( 4 ) s s h 的应用 首先,s s h 最常见的应用就是,用它来取代传统的t e l n e t 、f t p 等网络应用程序, 通过s s h 登录到远方机器执行你想进行的工作与命令。在不安全的网路通讯环境中, 它提供了很强的验证( a u t h e n t i c a t i o n ) 机制与非常安全的通讯环境。实际上,s s h 开发 者的原意是设计它来取代原u n i x 系统上的r c p 、r l o g i n 、r s h 等指令程序的;但经过 适当包装后,发现它在功能上完全可以取代传统的t e l n e t 、f t p 等应用程序。 传统b s d 风格的r 系列指令( 如r c p ,r s h ,r l o g i n ) 往往都被视为不安全的,很 容易就被各种网络攻击手段所破解,几乎所有找得到有关u n i x 安全的书或文件,都会 一而再、再而三地警告系统管理者,留心r 系列指令的设定,甚至要求系统管理者将r 系列指令通通关闭。 而用来替代r 系列指令的s s h ,则在安全方面做了极大的强化,不但对通讯内容可 以进行极为安全的加密保护,同时也强化了对身份验证的安全机制,它应用了在密码 学( c r y p t o g r a p h y ) 中已发展出来的数种安全加密机制,如s y m m e t r i ck e yc r y p t o g r a p h y ,a s y m m e t r ick e yc r y p t o g r a p h y ,o n e w a yh a s hf u n c t io n ,r a n d o m n u m b e r g e n e r a t i o n 等,来加强对于身份验证与通讯内容的安全保护。通讯时资料的加密有 i d e a ,t h r e e - k e yt r i p l ed e s ,d e s ,r c 4 - 1 2 8 ,t s s ,b l o w f i s h 等数种多种安全加密 算法可供选择,加密的k e y 则是通过r s a 进行交换的。资料的加密可以对抗i p s p o o f i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论