（应用化学专业论文）化学信息导航系统.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：56 大小：3.31MB 积分：0 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

（应用化学专业论文）化学信息导航系统.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ab s t r a c t c h e m ic a l in f o r m a ti o n n a v ig a t io n s y s te m is a n in fo r m a t io n a l c o n c lu d in g s y s t e m a b o u t c h e m ic a l re s o u rces o n in t e rn e t . it g iv e s c la s s ify in g s e rv ic e a n d s e a rc h in g s e rv ic e to v a r io u s c h e m ic a l in f o r m a t io n a l r e s o u r c e n o d e s . c o n s id e r in g m o s t ly w h a t u s e r s n e e d , t h e s y s te m is d e s ig n e d f o r th e u s e rs to u s e n u m e r o u s re s o u r c e s o n in te rn e t to f in d w h a t t h e y w a n t . d ir e c t lin k is n o t n e e d e d b e tw e e n th e u s e r a n d t h e r e s o u r ce. t h e s y s t e m c a n o b t a in t h e in f o r m a tio n fo r th e u s e r b y th e p r o g r a m s w ith o u t u s e r s n o ti c e . t h is w ill g r e a t ly g iv e t h e u s e r c o n v e n ie n c e s . t h e s y s te m p r o v id e 1 0 c la s s ify in g s e rv ic e s w h ic h h a v e a b u n d a n t c o n te n t s in c lu d in g n e a r ly a ll ty p e s o f c h e m ic a l in f o r m a tio n o n in te r n e t. s e v e r a l a p p lic a t io n s a r e a ls o p r o v id e d in c lu d in g m a ilin g lis t w h ic h c a n g iv e th e u s e r s b e tt e r s e rv ic e s . t h e s y s te m is d e s ig n e d a s a d y n a m ic a p p lic a t io n s y s te m m a in ly d e p e n d s o n s e rv e r s id e p ro g r a m m in g . j a v a b e in g u s e d a s p ro g r a m m in g la n g u a g e , j s p i s e rv le t b e in g u s e d a s t h e d e v e lo p in g m e t h o d a n d x m l b e in g u s e d a s t h e m a in s to r a g e m e d ia , t h e s y s t e m is d e v e lo p e d t o b e a s c a la b le , te m p la t e - b a s e d , c ro s s - p la t fo r m e d in f o rm a t io n a l s y s t e m a n d c a n b e a u to m a t ic ly m a in ta in e d b y p r o g r a m s . t h e s y s t e m c a n b e a u t o m a t ic ly e x p a n d e d t h ro u g h t h e h ig h m o d e lin g s t ru c t u r e o f j s p f ile s a n d r e s o n a b le x m l d a t a s t r u c tu r e . o n ly x m l f ile is n e e d e d to b e c h a n g e d w h e n a d d in g f u n c t io n s t o t h e s y s te m . t h e s y s t e m w ill a d j u s t t h e p a g e d is p la y s a c c o rd in g to th e f ile c o n te n t a u t o m a t ic ly w it h o u t m o d if y in g p ro g r a m s o r p a g e f ile s o f t h e s y s te m . s o m e s c h e d u le d p r o g r a m s a r e a ls o u s e d t o m a in t a in t h e s y s te m w h ic h c a n p e r io d ic a lly c h e c k a n y c h a n g e s o f th e r e s o u rc e s , u 冈 a te t h e c a c h e f ile s , f in d th e e r r o r s o f t h e r e s o u rc e u r l a n d r e p o r te to a d m in is tr a to r . t h e m a in m a in te n a n c e t a s k o f th e a d m in is t ra to r is to m o d ify t h e c o n f ig u r a t io n fi le b y u s in g a p r o g r a m w it h a g r a p h ic a l u s e r in t e rf a c e d e v e lo 网 b y j a v a a ft e r re c e iv in g th e e rr o r r e p o r t . t h is p r o g ra m is a ls o u s e d t o a d d o r d e le te c o n t e n t s o f t h e s y s te m . k e y w o r d s : c h e m ic a l in f o rm a tio n , in f o r m a tio n s y s t e m , d y n a m ic s y s te m , j a v a , j s p , s e rv le t , x m l 1 前言因特网是一个庞大的全球性计算机网络。目前，因特网的发展极为迅猛，以几何级数的速度增长，己覆盖上百个国家和地区，连接十几万个子网，网上计算机的总数己达到几千万。各个国家的信息网络先后建立直接或间接通道与因特网互联，这种全球计算机信息网络的出现摆脱了地理位置的束缚，加速了信息传输的速度，实现了信息资源的国际共享。 n i e l s e n 公司因特网统计服务最新发布的数字 ( 2 0 0 1 年8 月2 7日) 表明，目前全球网民的数量已经接近 5亿。美国著名信息市场研究公司国际数据公司预计到今年年底全球网民人数将超过 6亿，全球电子商务规模将超过 i 万亿美元。中国互联网产业的形势似乎比全球更为乐观。根据c n n i c的最新统计，联网计算机与去年年底相比增长了四成，达到 1 2 5 4 万台;网民数量增长了五成，达到3 3 7 0 万。用户分布在地域、性别、年龄等方面达到了相当的均衡。中国网络媒体异军突起，正在引发意义深远的信息媒体革命。全国己有1 0 个骨千互联网，获准经营互联网业务的单位达3 6 0 0 家。域名数7 0 万，网上中文站点2 6 万多个。在用户获取信息方面，新闻占6 3 . 5 ，科技、教育信息占3 1 . 4 。预计到2 0 0 5 年，我国联网计算机将达4 0 0 0 万台，因特网用户数将达2 亿，上网人口普及率达到巧% 左右。带宽瓶颈约束将消除，能满足用户多方面要求。 1 . 1因特网上的化学资源作为国际性的计算机互联网络，因特网拥有非常丰富的各类资源和服务，主要服务类型包括万维网服务 ( w o r l d w i d e w e b ，简作 ww w) 、文件传送 ( f i l e t r a n s f e r p r o t o c o l f t p ) 、远程登录( t e l n e t ) 、电子邮件( e l e c t r o n i c al m a i l ) . 新闻组( n e w s g r o u p ) , 讨论组 ( u s e n e t ) 、基于菜单方式的信息查询 ( g o p h e r ) 、文件查询 ( a r c h i e ) 、全文搜索 ( wid e a r e a i n f o r m a t i o n s e a r c h , w a i s ) 、主机用户查询 ( f i n g e r ) 、超级远程登录 ( h y t e l n e t ) 等等，种类繁多，而且大多是免费服务。网络资源覆盖各个领域和各个方面，从科学技术到文学艺术几乎无所不包。化学作为自然科学中的一个重要基础学科，在因特网上有着非常丰富的资源。按照服务内容大致可分为如下几个方面: 主页发布:全世界很多大专院校的化学系及科研机构都制作并维护自己的主页 ( h o m e p a g e ) ，发布其最新研究信息; . .川 .州目.一产品销售:一些化学仪器公司、药品公司等商业机构利用万维网宣传自己的产品，免费分发试用品，国外一些网络技术比较先进的国家甚至可以通过电子商务直接利用网络环境销售产品; 软件分发:一些开发化学软件的公司及一些参与软件开发的大专院校的研究机构，主要通过网络介绍其软件产品，提供免费试用版，销售其正式版本，并提供网络在线技术支持; 在线讨论: 网络中存在着很多大大小小的讨论组、邮件群以及电子公告牌系统( b u l le t i n b o a r d s y s t e m , b b s ) ，为化学工作者提供各方面的信息，并提供一个在线交流的场所; 数据库服务:很多化学组织提供化学数据库服务，以前需要到特定机构去查阅的化学数据现在可以实时地在网络上查询，如晶体学数据库、化学文摘等; 在线学习:网上还有很多化学方面的电子教材、参考书、辅助教学软件等，可以进行在线阅读和学习，学生可以利用这些辅助手段弥补课堂教学的不足; 电子刊物:各化学出版社一般也在网上推出发行刊物的电子版、出版图书的介绍、某些章节的片段甚至图书全文，极大地方便了化学工作者。尤其对于中国的化学工作者，可以看到最新的消息，避免了传统刊物由于种种原因造成的滞后现象。总之，化学方面的资源极其丰富，而且随着网络的高速发展，新资源、新节点层出不穷，几乎每天都会有新的资源节点涌现出来。我国的化学网络资源经过化学工作者的不断努力，也己积累了丰富的内容。以上服务内容在国内均己出现，而且这些内容除了由化学机构、组织在维护外，还出现了一些个人制作并维护的化学信息类服务节点。这些节点虽然在内容上不够全面、丰富，在制作上与专业人员制作的网站相比还存在很大差距，但已可以表明我国化学工作者积极丰富我国网络化学信息资源的热情，而且可以说明一部分化学工作者己经具备了在因特网上进行信息发布的基本能力，掌握了使用网络获取信息的基本方法。但我国的网络化学资源节点在数量上与先进国家相比，还有相当的差距。 1 .2因特网上的信息系统在因特网上存在着大量以发布信息为主要内容的信息系统，由于万维网技术的飞速发展，各种相关技术大量涌现，这些信息系统多以万维网服务为主要技术实现手段。 _- - - - - - - - - 份，，，，，， . . . . . . . . 即目 . . 叫 . . . . . . . . . 各种信息系统大致可分为以下几类: 原始信息发布:如一些大学、科研机构在网页上公布自己的最新研究成果或消息，出版社发布刊物信息，报社发布自己报刊的电子版等等，这些信息都是原始信息，是第一手资料。发布这些信息的节点也就成了该信息的始发地。信息整理加工:如很多新闻类网站，它们刊发的消息都是从上面提到的那些原始信息发布节点中筛选出来的，也许经过了一些处理，如进行分类整理。这种类型的节点数量较大，如果设计得好，分类比较科学的话，可以在很大程度上方便使用者。信息检索:为了满足人们查找特定信息的需要，信息检索系统应运而生。小的系统只查找某些领域的资源，如一些特定数据库的检索服务，或一些内容相关的网站的内容搜索，甚至只查找自己网站的信息。大的系统则查找范围要广的多，它们通常要在网络中进行漫游式搜索，通过自动信息采集程序收集信息，还需要进行加工、整理并保存在数据库中以提供检索服务。这类系统通常被称作“ 搜索引擎 ( s e a r c h e n g i n e ) ，是目前深受用户喜爱并被广泛使用的一种信息系统。搜索引擎不仅搜集原始信息发布节点，也搜索信息整理加工节点，加上检索关键字往往涵义不够单一，所以查找出来的结果通常包含较多的冗余信息，需要使用者判断取舍。目前国内外较大的搜索引擎不下数十种，能合理、准确地使用搜索引擎是在因特网上寻找信息的重要方法。 1 .3信息导航系统概论信息导航系统，也称搜索引擎( s e a r c h e n g i n e ) 是随着因特网信息的迅速增加，从 1 9 9 5年开始逐渐发展起来的技术。按照一定的策略，搜索引擎在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。搜索引擎提供的导航服务己经成为互联网上非常重要的网络服务，搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。根据信息导航系统所基于的技术原理，可以把它们分成三大主要类型: 基于r o b o t 的信息导航系统、目录 ( d ir e c t o ry ，也叫做c a t a lo g ) 和m e t a 信息导航系统。 1 、基于r o b o t 的信息导航系统这种信息导航系统的特点是利用一个称为r o b o t ( 也叫做s p i d e r , w e b c r a w l e r 或 w e b w a n d e r e r )的程序自动访问w e b 站点，提取站点上的网页，并根据网页中的链接 3 _- - 一一进一步提取其它网页，或转移到其它站点上。 r o b o t 搜集的网页被加入到信息导航系统的数据库中，供用户查询使用。基于r o b o t 的信息导航系统由三个主要部分构成: r o b o t , i n d e x 和搜索软件。 r o b o t 从一个事先制定好的u r l s 列表出发，这个列表中的u r l s 通常是从以往访问记录中提取出来的，特别是一些热门站点和wh a t s n e w ” 网页，从 u s e n e t 等地方检索得到的 u r l s 也常被用作起始u r l s ，此外，很多搜索引擎还接受用户提交的u r l s ，这些u r l s 也会被安排在列表中供r o b o t 访问。 r o b o t 访问了一个网页后，会对它进行分析，提取出新的u r l s ，将之加入到访问列表中，如此递归地访问we b . r o b o t 作为一个程序，可以用c , p e r l , j a v a 等语言来编写，可以运行在u n i x , s o l a r i s , wi n d o w s , n t , o s 2和 m a c等平台上。r o b o t 设计是否合理将直接影响它访问 w e b 的效率，影响搜索数据库的质量，另外，在设计r o b o t 时还必须考虑它对网络和被访问站点的影响，因为r o b o t 一般都运行在速度快、带宽高的主机上，如果它快速访问一个速度比较慢的目标站点，就有可能会导致该站点出现阻塞甚至当机。 r o b o t 还应遵守一些协议，以便被访问站点的管理员能够确定哪些内容能被访问，哪些不能。 i n d e x 是一个庞大的数据库， r o b o t 提取的网页将被放入到i n d e x 中以便建立索引，不同的搜索引擎会采取不同方式来建立索引，有的对整个h t ml文件的所有单词都建立索引，有的只分析h t m l 文件的标题或前几段内容，还有的能处理h t ml 文件中的 m e t a标记或其它不可见的特殊标记。基于r o b o t 的信息导航系统一般要定期访问大多数以前搜集的网页，刷新i n d e x , 以反映出网页的更新情况，去除一些死链接，网页的部分内容和变化情况将会反映到用户查询的结果中，这是基于r o b o t 的信息导航系统的一个重要特征。 i n d e x 在建立索引时，一般会给网页中每个关键词赋予一个等级值，表示该网页与关键词之间的符合程度。当用户查询一个关键词时，搜索软件将搜索i n d e x ，找出所有与关键词相符合的网页，有时候这些网页可能有成千上万，等级值的用途就是作为一种排序的依据，搜索软件将按照等级值从高到低的顺序把搜索结果送回到用户的浏览器中。不同的信息导肮系统在计算等级值时使用了不同的方法，但它们都以关键词在网页中出现的位置和频率为基本依据，例如，关键词出现在标题中的网页可能比只出现在其它地方的网页更符合要求，关键词出现在网页的前面可能比只出现在网页的后面更符合要求，同一个关键词出现多次的网页又可能比只出现一两次的网页更符合要求， 4 把这些因素综合起来考虑便可得出一个计算等级值的公式。不过，绝大多数信息导航系统都没有只按照上述因素来确定计算公式，它们还加入了一些特殊考虑，例如， e x c i t e 能检查是否有很多链接指向同一个网页，如果是的话，它就把这个网页的等级值稍微提高一些，理由是这样的网页一般都具有更大的访问量。尽管各个信息导航系统都有一套复杂的等级值计算公式，但仅仅依靠一个数值并不能真正反映出网页的质量，事实上，有些网页在设计时就考虑到了i n d e x 的特点，故意使用一些技巧让自己得到很高的等级值，以便能排在查询结果的前列，达到提高访问量的目的。 2 、目录目录与基于r o b o t 的信息导航系统所不同的是，目录的数据库是依靠专职编辑或志愿人员建立起来的，这些编辑人员在访问了某个w e b 站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的u r l 和描述放在这个类别中，当用户查询某个关键词时，搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述，当目录的编辑人员认可该网站及描述后，就会将之添加到合适的类别中。目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别，另外，用户也可以利用目录提供的搜索功能直接查找一个关键词，不过，由于目录只在保存的对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，这也是目录与基于 r o b o t 的搜索引擎之间的一大区别。商业性质的目录一般都是依靠一群专职编辑来建立和维护的，最出名的商业目录 y a h o o !雇用了大约一两百名编辑，他们维护的目录一共收集了上百万个站点。不少学术或研究性质的目录是依靠志愿者来建立和维护的，这些志愿者可能是普通的i n t e r n e t 用户，也可能是一群大学生，还有可能是专家学者，1 9 9 8年才成立的o p e n d i r e c t o ry 采取了开放管理模式，所有 i n t e r n e t 用户都可以申请成为它的志愿编辑，目前 o p e n d i r e c t o ry的编辑人员已超过了1 4 0 0 0 人。由于目录是依靠人工来评价一个网站的内容，因此用户从目录搜索得到的结果往往比从基于r o b o t 的信息导航系统得到的结果更具参考价值， y a h o o ! 能取得成功，与此有着莫大的关系。事实上，现在很多搜索站点都同时提供有目录和基于r o b o t 的搜索服务，以便尽可能地为用户提供全面的查询结果。 3 , m e t a 信息导航系统 m e t a 信息导航系统也叫做m u l t i p l e s e a r c h e n g i n e ，它的特点是本身并没有存放网页信息的数据库，当用户查询一个关键词时，它把用户的查询请求转换成其它搜索引擎能够接受的命令格式，并行地访问数个搜索引擎来查询这个关键词，并把这些搜索引擎返回的结果经过处理后再返回给用户。严格意义上来讲， m e t a 信息导航系统只能算是一种用户代理，而不是真正的搜索引擎。多数m e t a 信息导航系统在处理其它搜索引擎的返回结果时，只提取出每个搜索引擎的结果中前面 1 0- 5 0 条，并将这些条目合并在一起返回给用户，因此最后结果的数量可能会远少于直接在一个搜索引擎上进行查找所得到的数量。 1 . 4化学信息导航系统目前因特网上的化学资源与日俱增，如何使化学工作者，尤其是缺乏上网经验的用户能充分、有效地使用网络资源成为巫待解决的问题。目前已经出现了一些搜集整理化学资源的节点，但大多内容不全，更新较慢，而且专门针对化学资源进行搜索的系统非常少。现在，我们根据网络发展的最新情况，结合当前最先进的开发技术，开发出“ 化学信息导航系统” 。该系统是一个网络化学信息资源的整理、综合、归纳、搜索系统，并在开发中重点实现了跨平台开发及系统的自动维护。 1 .4 . 1系统内容本系统是一个信息归纳系统。由于原始信息发布需要大量第一手材料和繁杂的原始录入，如键盘输入或通过扫描仪等输入设备进行录入，所以大多数网络信息系统都是信息转载类型的系统。规模小的只收集、整理小范围的信息发布节点，规模大的系统，如一些大型搜索引擎，可以收集数以万计、甚至十万、百万计的网页的内容。这类系统的软硬件成本很高，需要有较大的持续投资支持，本身也有创收行为，如为客户发布广告等，是以商业模式运作的网络系统。我们的 “ 化学信息导航系统”是为方便化学工作者使用网络化学信息资源而创建的。本系统是通过南开大学的校园网连接到国家教育及科研网上的，是为了科研目的而开发的，没有商业用途，也缺乏大的投资。所以，这个系统不可能做成一个基于r o b o t 或自编辑目录的搜索引擎。我们的作法是选择比较优秀的信息转载节点，对它们进行 6 分类、筛选、整理、归纳，以分类服务的方式发布在我们的系统上。由于信息转载节点一般都收集了一些资源节点的内容，通过合理的选择，综合很少的信息转载网站就可以涵盖大量信息资源。更新及时的信息转载节点会非常关注它所收集的网站，及时跟踪其内容的任何变化并反映在自己的节点上。我们的系统只要注意这些信息转载节点的变化就可以及时反映网络信息资源的变化了。如果把原始信息发布类型的节点称作第一级信息系统，信息转载类型的节点称作第二级信息系统的话，我们开发的 “ 化学信息导航系统”就是建立在第二级信息系统之上的信息归纳系统。目前本系统已经开发的分类服务包括以下内容: 期刊信息服务:包括网上化学类书籍刊物、文摘、文章、专利等信息内容及检索。数据库服务: 包括各类化学数据库资源节点信息及一些数据库的检索。软件信息服务: 包括化学类软件公司介绍和软件的信息。讨论组服务:包括化学类邮件群、新闻组、电子公告牌等资源。会议信息服务:包括化学会议信息。化学资源信息:包括化学类综合资源节点信息。机构信息服务:包括化学机构、团体、科研院校方面的信息。教育信息服务:包括化学方面的教育相关的信息资源。试剂仪器信息: 包括化学试剂、仪器方面的信息资源。本系统还提供了搜索服务，可以搜索本站保存的资源，也可以利用其他搜索引擎为用户服务。本系统自身不设数据库，而是把用户要搜索的内容转发到其他搜索引擎上，并对结果进行处理后返回给用户。在整个搜索过程中，用户始终没有离开我们的系统，就可以对国内外若干个搜索引擎进行查询，极大地方便了用户的使用。 1 .4 .2系统的技术特点 1 . 4 .2 . 1跨平台应用网络服务根据访问流量的大小，需要的基本配置也不同。对于访问量比较大的系统，需要有高速、畅通的网络环境，同时还需要配备高性能的计算机作为服务器，选择处理能力强的服务器软件。如果网站有动态内容，还需要编写高效的万维网服务程序。对于访问流量比较小的系统，基本配置就可以适当降低，同时也不至于过多地影响服务的性能。由于这些基本配置影响着网络服务系统的初期投资，规模较小的网站 7 一- - -，，一不太可能一次性地配备成大规模系统所需的高配置，只有在系统发展规模逐渐扩大后，再根据情况选择合适的配置。这就意味着服务系统刚开始创建时选择的计算机、操作系统、服务器软件，都有可能发生变化，如操作系统从win d o w s n t 转为f r e e b s d ，或由于服务器硬件设施改变，如从微型计算机改为工作站，操作系统也从f r e e b s d变为 s o la r i s等。至于万维网服务器软件的选择余地就更大了。鉴于这种情况，如果一个信息网站有较多的动态内容，需要维护的服务程序就会很多。除了初期需要程序开发之外，一旦有配置变化就需要改写甚至完全重写这些服务程序以适应新的操作系统或服务器软件，用于程序维护的工作量非常大，而且造成了代码重复开发的浪费。我们开发的这个系统充分考虑到了这个问题，选用了j a v a 语言作为程序开发的主要编程语言， j s p i j a v a b e a n s / s e r v l e t 作为服务器端编程的主要实现，配合合理的服务程序设计模型，使得该系统可以适应从小规模节点到大规模系统的转化。规模较小、访问流量小时，该系统需要的配置比较低，较高档次的微机即可胜任;规模较大时，只需调整软硬件配置，如使用工作站、服务器作为服务器硬件，选择相应操作系统和高性能的服务器软件，而构成整个系统的文件、程序不需任何改动即可迁移到新的软硬件环境中，只需对服务器软件作一些设置上的调整，用户方不需任何改动即可访问系统，整个服务器的升级对用户来说是透明的，甚至对网站维护人员都是透明的。为了实现这种跨平台应用，本系统在设计规划时没有选用一般系统都要用到的数据库，而改用平台无关的x ml文件作为系统主要的存储媒介。 1 .4 .2 .2自动维护一般网站除了在初期建设时要花费开发人员一定的时间和精力外，在运作起来以后，为了内容不至于陈旧、落伍，必须及时更新内容，需要进行日常维护。这种维护，视网站规模的大小，工作量可能会很大。本系统在网站的全自动维护上进行了有益的尝试，系统可以自动进行大量的日常维护工作而不需管理人员的参与。本系统己经实现的自动维护主要有以下两个方面的内容: 内容更新:通过一些定时运行的程序自动检查系统收集的网络资源节点的内容有没有变化。如果内容发生了改变，则自动收集新的内容及时反映到系统页面中。这些程序还会监视主要网络资源的地址是否改变，一旦原地址无法访问就会通知管理人员进行检查，这样就保证了本系统提供的资源的可访问性。页面变化:当收集的信息资源节点的某些信息发生变化，如访问地址的变化，或吕对信息节点进行了增删操作，都会导致系统页面内容的变化。本系统通过编程方法可以自动适应这些变化，一旦发现了这些变化，就会动态调整页面，及时反映出修改、增删过的内容。作为网站的维护人员，需要做的主要的维护工作就是根据自动程序的反馈修改有变动的资源网站，以及增添新的信息节点甚至新的服务类型，删除过时的、不再选用的网站资源，而这一切操作都是通过一个用纯粹的j a v a 语言开发的设置程序完成的，该程序具有简便易用的图形用户界面，本身也可以跨平台运行，可随系统进行迁移。系统维护人员只需操作该程序即可完成对整个系统的维护，甚至不需要具备动态网站程序的开发能力。一- - - - - ，，，，，， .一_ 2系统架构及相关技术 2 . 1系统概述化学信息导航系统是基于因特网万维网服务的信息归纳系统，主要实现因特网上的化学信息资源的归纳、整理、搜索等任务。对一般信息资源采取归纳、整理的作法，集中展示在本系统中。系统本身也提供搜索服务，不过只是将用户的搜索要求转发到其他搜索引擎上，并把结果取回呈现给用户。整个过程都是由本系统完成的，也就是说，用户只需连接到本系统，不必连接其他网站。一般网站在传递搜索请求时，只是把用户简单地连接到某个搜索引擎上，用户在访问这类节点时，当进行关键词搜索时，就会实际建立与某个搜索引擎的连接，接收该搜索引擎的回应页面，并且脱离了原来的网站。这样一般用户在使用中会由于这种页面的变化而感到不适应，而且使用起来也很不方便。本系统与这类网站有着根本的不同，向搜索引擎发送请求以及接收搜索结果都是由服务器端程序完成的，实际建立的是运行本系统的服务器与搜索引擎之间的连接。这样就极大地方便了用户的使用，使用户所需的任何资源信息都可以在不脱离本系统的情况下获得，只到索取最终资源时才需要直接连接信息资源所处的节点。本系统不保存这些最终资源，只为用户提供资源存放的位置。比如用户需要寻找某一篇文献，通过本系统的使用可以了解到该文献保存在哪里，但本系统不保存该文献的内容，如果用户需要取得其内容，需要实际连接到该文献保存的网站。 2 .2系统体系结构规划 2 . 2 . 1动态网站我们所建立的信息导航系统的服务是建筑在 h t t p协议之上的、基于客户机朋民务器模式运行的一项因特网服务内容。在h t m l 2 . 0 的规范中“ 表单” ( f o r m) 标记允许用户将信息传递给万维网服务器上的某个程序进行处理。该程序按 “ 参数名=数值” 的格式接收用户在浏览器上输入的信息并按照网页开发人员设计的程序进行处理，然后将结果送回客户机。这类程序甚至可以插入到静态页面中，在浏览器要求该页时被 1 0 触发执行。 “ 通用网关接口” ( c o m m o n g a t e w a y i n t e r f a c e , c g i ) 就是万维网服务器运行这类程序的通用接口，一般服务器软件都支持这种规范。当前流行的计算机编程语言基本上都可以作为编写 c g i 程序的语言。由于程序的参与，万维网服务器提供的页面文件就不是原来的静止不变的内容，而是可以在程序控制下提供各不相同的、动态的内容。 2 .2 .2客户端编程当今很多网站在进行网站设计时，会将部分需要程序产生的动态内容交给运行浏览器的客户机来处理，这一方面是为了减轻服务器的负荷，另一方面也是由于目前运行浏览器的计算机功能普遍比较强，有足够强的程序处理能力。进行这种设计时，根据浏览器采取的执行程序的技术，服务器端会把程序源代码、编译后的代码或某种特殊类型的数据传送到客户机浏览器中，由相关技术运行程序或解释数据，把运行结果显示在客户机的显示设备上。客户端编程有其优势，如充分利用客户机的强大工作能力，分担网络和服务器负荷，提高网络响应速度和灵敏度等。但客户端编程也存在几个问题:有些技术需要针对客户机的操作系统和浏览器软件进行设计，甚至针对浏览器的不同版本也需要编写不同的程序;用户需下载程序，使用不方便，且造成一定的网络负担;有些技术存在安全问题，象a c t i v e x这样的技术危险性也非常大， a c t i v e x控件可以完成任何功能，如果被恶意使用，后果可能会非常严重。 2 . 2 . 3服务器端编程服务器端编程就是处理程序在服务器上运行，产生的结果被送回浏览器。如果不考虑网络传输速度等因素，除了客户端的图形化显示之外，服务器端编程几乎可以完成客户端编程的所有功能传统的使用c g i 机制进行的服务器端编程。由于效率低下、浪费服务器进程空间等问题，一度成为服务器端编程的瓶颈问题。现在己经产生了很多新的技术有效地解决了这些问题，这些技术包括a s p , p h p , j s p i s e r v i e t 等，在不同的应用领域都获得了很大的成功。 2 .2 .4服务器端编程与客户端编程的比较服务器端编程与客户端编程相比较，最主要的差别就是程序的执行环境不同。前者运行在服务器上。程序开发调试只是针对特定平台进行，所以开发过程相对简单，代码维护任务比较轻松。而客户端编程要针对客户端的不同运行环境，需要考虑的问题相对较多，有的甚至需要针对不同浏览器以及浏览器的不同版本编写不同的代码，程序维护的工作量较大。而最大的缺点就在于需要客户机下载程序，对于用户的使用来说不够方便，而且一般要求客户机的配置相对较高，浏览器的版本也要求较高。比如当前采用客户端编程机制的网站，如果客户机仍然使用低配置的计算机，就不能达到这些网站所要求的客户机配置，也就无法使用这些网站了。本系统力争面向尽可能多的用户，如果使用客户端编程手段，需要他们去下载插件、控件等，将会给这些用户的使用带来极大的不便。另外。本系统尽量允许用户使用任何配置的计算机，只要他们能够连接到因特网上并拥有一个万维网浏览器，就要使他们能无条件地使用本系统。所以选择我们建立的化学信息导航系统以服务器端编程作为主要的编程手段。服务器端编程的主要缺点就是当访问量较大时，服务器的负担会比较重。解决方法主要有两个:一个是升级服务器的软硬件，使之适应大规模访问的要求;二是利用服务器的分布计算来分散负荷，采用多个服务器分担访问量。 2 . 2 . 5系统体系结构本系统需要跟踪网上化学资源的变化情况，及时更新内容。从技术上讲需要建设成一个以服务器端编程为主的动态网站。程序语言选用j a v a 语言，利用该语言的跨平台运行等优势，并借鉴了j a v a 计算的体系结构。实际构建系统时，使用s e r v l e t 作为服务器端响应程序的主要技术，j s p提供 s e r v l e t 的前端表示，根据不同情况选择了j s p 的两种开发模型，使系统既可以适应小规模的应用，也可以承担大规模的访问。为了更好地实现本系统的跨平台移植，本系统采用了规范严谨、平台无关的x ml 文件作为存储介质，存储服务和分类数据。通过对x ml文档结构的精心处理，本系统的处理程序可以灵活地适应该文档内容的变化，在系统开发完成后，只需对该文件进行修改而无需变动系统程序，从而保证了跨平台的可移植性。本系统还配备了维护程序进行系统维护。保证了配置文件内容的正确性 _ _一- ，自. 口 - 一一一 _- 并极大 1 2 地降低了系统管理员的维护工作量。 2 .3系统采用的相关技术 2 . 3 . 1编程语言一j a v a j a v a是一种广泛使用的网络编程语言，它是一种新的计算概念。j a v a技术是计算技术的一次革命，其核心是从 “ 以桌面计算为中心”转移到以“ 网络计算为中心” 。对于企业来说，这种变革的重要影响是把复杂性从桌面转移到网络和服务器上，使得管理工作可以中心化，同时也提供强大的本地处理能力。j a v a计算解决了当前企业计算中的许多不足之处，它的许多优秀特性使得它日益广泛地被采用。作为一种程序设计语言， j a v a具有简单、面向对象、不依赖于机器结构、具有可移植性、鲁棒性、安全性等特点，并且提供了并发的机制，具有很高的性能:其次，它最大限度地利用了网络， j a v a 的小应用程序可在网络上传输而不受c p u和环境的限制:另外，j a v a 还提供了丰富的类库，使程序设计者可以很方便地建立自己的系统。 2 .3 . 1 . 1 j a v a 语言的主要特点 j a v a 语言的主要特点是: 使用简单:j a v a语言是一种面向对象的语定的任务，开发人员只需理解一些基本概念，用程序。言，它通过提供最基本的方法来完成指就可以用它编写出适合于各种情况的应面向对象: j a v a语言是纯粹的面向对象的开发语言，它的设计集中于对象及其接口，提供了简单的类机制以及动态的接口模型。对象中封装了它的状态变量以及相应的方法，实现了模块化和信息隐藏;而类则提供了一组对象的原型，并且通过继承机制，子类可以使用父类所提供的方法，实现了代码的重用。分布性: j a v a 是面向网络的语言，通过它提供的类库可以处理t c p i i p 协议，用户可以通过通用资源定位指针u r l 地址在网络上很方便地访问其它对象。鲁棒性:j a v a在编译和运行程序时，都要对可能出现的问题进行检查，以避免程序中错误的发生。它提供内存垃圾自动收集机制来进行内存管理，防止程序员在管理内存时产生错误。通过集成面向对象的例外处理机制，在编译时j a v a 提示出可能出现但末被处理的例外，帮助程序员正确地进行选择以防止系统的崩溃。另外，j a v a在编译时还可捕获类型声明中的许多常见错误，防止动态运行时不匹配问题的出现. 安全性:在网络和分布环境下，防止病毒的入侵是必须重视的重大问题。j a v a语言不支持指针，一切对内存的访问都必须通过对象的实例变量来实现，这样就防止了程序员使用 “ 特洛伊木马”等欺骗手段访问对象的私有变量，同时也避免了指针操作中容易产生的错误。体系结构中立:j a v a解释器生成与体系结构无关的字节码指令，只要安装了j a v a 运行系统，j a v a 程序就可以在任意的处理器上运行。这些字节码指令对应于j a v a 虚拟机中的表示， j a v a 解释器得到字节码后，对它进行转换，使之能够在不同平台上运行。可移植性:平台无关性使得j a v a 程序可以方便地被移植到网络上的不同机器。同时， j a v a的类库中也实现了不同平台的接口，使这些类库可以移植。另外，j a v a 编译器是由j a v a 语言实现的， j a v a 运行系统有标准c 语言实现，这使得j a v a 系统本身也具有移植性。解释执行:j a v a 解释器直接对j a v a 字节码进行解释执行。字节码本身携带了许多编译时信息，使得连接过程更加简单。高性能:和其它解释执行的语言如b a s i c . t c l不同，j a v a 字节代码的设计使之能够很容易地直接转换成对应于特定c p u的机器码，从而得到较高的性能。多线程:多线程机制使应用程序能够并行执行，而且同步机制保证了对共享数据的正确操作。通过使用多线程，程序设计者可以分别用不同的线程完成特定的行为，而不需要采用全局的事件循环机制，这样就很容易地实现网络上的实时交互行为。可扩展性: j a v a的设计使它适合于一个不断发展的环境。在类库中可以自由地加入新的方法和实例变量而不会影响用户程序的执

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用化学专业论文）化学信息导航系统.pdf

文档简介

温馨提示

最新文档

评论

（应用化学专业论文）化学信息导航系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档