(应用化学专业论文)化学信息导航系统.pdf_第1页
(应用化学专业论文)化学信息导航系统.pdf_第2页
(应用化学专业论文)化学信息导航系统.pdf_第3页
(应用化学专业论文)化学信息导航系统.pdf_第4页
(应用化学专业论文)化学信息导航系统.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t c h e m ic a l in f o r m a ti o n n a v ig a t io n s y s te m is a n in fo r m a t io n a l c o n c lu d in g s y s t e m a b o u t c h e m ic a l re s o u rces o n in t e rn e t . it g iv e s c la s s ify in g s e rv ic e a n d s e a rc h in g s e rv ic e to v a r io u s c h e m ic a l in f o r m a t io n a l r e s o u r c e n o d e s . c o n s id e r in g m o s t ly w h a t u s e r s n e e d , t h e s y s te m is d e s ig n e d f o r th e u s e rs to u s e n u m e r o u s re s o u r c e s o n in te rn e t to f in d w h a t t h e y w a n t . d ir e c t lin k is n o t n e e d e d b e tw e e n th e u s e r a n d t h e r e s o u r ce. t h e s y s t e m c a n o b t a in t h e in f o r m a tio n fo r th e u s e r b y th e p r o g r a m s w ith o u t u s e r s n o ti c e . t h is w ill g r e a t ly g iv e t h e u s e r c o n v e n ie n c e s . t h e s y s te m p r o v id e 1 0 c la s s ify in g s e rv ic e s w h ic h h a v e a b u n d a n t c o n te n t s in c lu d in g n e a r ly a ll ty p e s o f c h e m ic a l in f o r m a tio n o n in te r n e t. s e v e r a l a p p lic a t io n s a r e a ls o p r o v id e d in c lu d in g m a ilin g lis t w h ic h c a n g iv e th e u s e r s b e tt e r s e rv ic e s . t h e s y s te m is d e s ig n e d a s a d y n a m ic a p p lic a t io n s y s te m m a in ly d e p e n d s o n s e rv e r s id e p ro g r a m m in g . j a v a b e in g u s e d a s p ro g r a m m in g la n g u a g e , j s p i s e rv le t b e in g u s e d a s t h e d e v e lo p in g m e t h o d a n d x m l b e in g u s e d a s t h e m a in s to r a g e m e d ia , t h e s y s t e m is d e v e lo p e d t o b e a s c a la b le , te m p la t e - b a s e d , c ro s s - p la t fo r m e d in f o rm a t io n a l s y s t e m a n d c a n b e a u to m a t ic ly m a in ta in e d b y p r o g r a m s . t h e s y s t e m c a n b e a u t o m a t ic ly e x p a n d e d t h ro u g h t h e h ig h m o d e lin g s t ru c t u r e o f j s p f ile s a n d r e s o n a b le x m l d a t a s t r u c tu r e . o n ly x m l f ile is n e e d e d to b e c h a n g e d w h e n a d d in g f u n c t io n s t o t h e s y s te m . t h e s y s t e m w ill a d j u s t t h e p a g e d is p la y s a c c o rd in g to th e f ile c o n te n t a u t o m a t ic ly w it h o u t m o d if y in g p ro g r a m s o r p a g e f ile s o f t h e s y s te m . s o m e s c h e d u le d p r o g r a m s a r e a ls o u s e d t o m a in t a in t h e s y s te m w h ic h c a n p e r io d ic a lly c h e c k a n y c h a n g e s o f th e r e s o u rc e s , u 冈 a te t h e c a c h e f ile s , f in d th e e r r o r s o f t h e r e s o u rc e u r l a n d r e p o r te to a d m in is tr a to r . t h e m a in m a in te n a n c e t a s k o f th e a d m in is t ra to r is to m o d ify t h e c o n f ig u r a t io n fi le b y u s in g a p r o g r a m w it h a g r a p h ic a l u s e r in t e rf a c e d e v e lo 网 b y j a v a a ft e r re c e iv in g th e e rr o r r e p o r t . t h is p r o g ra m is a ls o u s e d t o a d d o r d e le te c o n t e n t s o f t h e s y s te m . k e y w o r d s : c h e m ic a l in f o rm a tio n , in f o r m a tio n s y s t e m , d y n a m ic s y s te m , j a v a , j s p , s e rv le t , x m l 1 前言 因特网是一个庞大的全球性计算机网络。目 前,因特网的发展极为迅猛,以几何 级数的速度增长,己覆盖上百个国家和地区, 连接十几万个子网,网上计算机的总数 己达到几千万。各个国家的信息网络先后建立直接或间接通道与因特网互联,这种全 球计算机信息网络的出现摆脱了 地理位置的束缚,加速了信息传输的速度,实现了 信 息资源的国际共享。 n i e l s e n 公司因特网统计服务最新发布的数字 ( 2 0 0 1 年8 月2 7日) 表明,目 前全 球网民的数量已经接近 5亿。美国著名信息市场研究公司国际数据公司预计到今年年 底全球网民人数将超过 6亿,全球电子商务规模将超过 i 万亿美元。中国互联网产业 的形势似乎比 全球更为乐观。 根据c n n i c的最新统计, 联网计算机与去年年底相比 增 长了四成,达到 1 2 5 4 万台;网民数量增长了五成,达到3 3 7 0 万。用户分布在地域、 性别、年龄等方面达到了相当的均衡。 中国网络媒体异军突起,正在引发意义深远的信息媒体革命。全国己 有1 0 个骨千 互联网,获准经营互联网业务的单位达3 6 0 0 家。 域名数7 0 万,网上中文站点2 6 万多 个。 在用户获取信息方面, 新闻占6 3 . 5 , 科技、 教育信息占3 1 . 4 。 预计到2 0 0 5 年, 我国联网计算机将达4 0 0 0 万台, 因特网 用户数将达2 亿, 上网人口 普及率达到巧% 左 右。带宽瓶颈约束将消除,能满足用户多方面要求。 1 . 1因特网上的化学资源 作为国际性的计算机互联网络,因特网拥有非常丰富的各类资源和服务,主要服 务类型包括万维网服务 ( w o r l d w i d e w e b , 简作 ww w) 、文件传送 ( f i l e t r a n s f e r p r o t o c o l f t p ) 、 远程登 录( t e l n e t ) 、 电 子邮 件( e l e c t r o n i c al m a i l ) . 新闻 组( n e w s g r o u p ) , 讨论组 ( u s e n e t ) 、 基于菜单方式的信息查询 ( g o p h e r ) 、 文件查询 ( a r c h i e ) 、 全文搜 索 ( wid e a r e a i n f o r m a t i o n s e a r c h , w a i s ) 、主机用户查询 ( f i n g e r ) 、超级远程登录 ( h y t e l n e t ) 等等, 种类繁多, 而且大多是免费服务。网络资 源覆盖各个领域和各个方 面,从科学技术到文学艺术几乎无所不包。化学作为自 然科学中的一个重要基础学科, 在因 特网上有着非常丰富的资源。按照服务内容大致可分为如下几个方面: 主页发布:全世界很多大专院 校的 化学系及科研机构都制作并 维护自己的主页 ( h o m e p a g e ) , 发 布其最新 研究 信息; . .川 .州 目.一 产品销售:一些化学仪器公司、药品公司等商业机构利用万维网宣传自己的产品,免 费分发试用品,国外一些网络技术比较先进的国家甚至可以通过电子商务直 接利用网络环境销售产品; 软件分发:一些开发化学软件的公司及一些参与软件开发的大专院校的研究机构,主 要通过网络介绍其软件产品,提供免费试用版,销售其正式版本,并提供网 络在线技术支持; 在线讨论: 网络中存在着很多大大小小的讨论组、 邮件群以及电子公告牌系统( b u l le t i n b o a r d s y s t e m , b b s ) , 为化学工作者提供各方面的信息, 并提供一个在线交流 的场所; 数据库服务:很多化学组织提供化学数据库服务,以前需要到特定机构去查阅的化学 数据现在可以实时地在网络上查询,如晶体学数据库、化学文摘等; 在线学习:网上还有很多化学方面的电子教材、参考书、辅助教学软件等,可以 进行 在线阅读和学习,学生可以利用这些辅助手段弥补课堂教学的不足; 电子刊物:各化学出版社一般也在网上推出发行刊物的电子版、出版图书的介绍、某 些章节的片段甚至图书全文,极大地方便了化学工作者。尤其对于中国的化 学工作者,可以看到最新的消息,避免了传统刊物由于种种原因造成的滞后 现象。 总之,化学方面的资源极其丰富,而且随着网络的高速发展,新资源、新节点层出不 穷,几乎每天都会有新的资源节点涌现出来。 我国的化学网络资源经过化学工作者的不断努力,也己积累了丰富的内容。以上 服务内容在国内均己出现,而且这些内容除了由化学机构、组织在维护外,还出现了 一些个人制作并维护的化学信息类服务节点。这些节点虽然在内容上不够全面、丰富, 在制作上与专业人员制作的网站相比还存在很大差距,但已可以表明我国化学工作者 积极丰富我国网络化学信息资源的热情,而且可以说明一部分化学工作者己经具备了 在因特网上进行信息发布的基本能力,掌握了使用网络获取信息的基本方法。但我国 的网络化学资源节点在数量上与先进国家相比,还有相当的差距。 1 .2因特网上的信息系统 在因 特网上存在着大量以发布信息为主要内 容的信息系统, 由于万维网技术的飞速 发展,各种相关技术大量涌现,这些信息系统多以万维网服务为主要技术实现手段。 _- - - - - - - - - 份 , , , , , , . . . . . . . . 即 目 . . 叫 . . . . . . . . . 各种信息系统大致可分为以下几类: 原始信息发布:如一些大学、科研机构在网页上公布自己的最新研究成果或消息,出 版社发布刊物信息,报社发布自己报刊的电子版等等,这些信息都是原始信 息,是第一手资料。发布这些信息的节点也就成了该信息的始发地。 信息整理加工:如很多新闻类网站,它们刊发的消息都是从上面提到的那些原始信息 发布节点中筛选出来的,也许经过了一些处理,如进行分类整理。这种类型 的节点数量较大,如果设计得好,分类比较科学的话,可以在很大程度上方 便使用者。 信息检索:为了满足人们查找特定信息的需要,信息检索系统应运而生。小的系统只 查找某些领域的资源,如一些特定数据库的检索服务,或一些内容相关的网 站的内容搜索,甚至只查找自己网站的信息。大的系统则查找范围要广的多, 它们通常要在网络中进行漫游式搜索,通过自动信息采集程序收集信息,还 需要进行加工、整理并保存在数据库中以提供检索服务。这类系统通常被称 作“ 搜索引 擎 ( s e a r c h e n g i n e ) , 是目 前深 受用户喜爱并被 广泛使用的 一种 信 息系统。搜索引擎不仅搜集原始信息发布节点,也搜索信息整理加工节点, 加上检索关键字往往涵义不够单一, 所以 查找出来的结果通常包含较多的 冗 余信息,需要使用者判断取舍。目前国内外较大的搜索引擎不下数十种,能 合理、准确地使用搜索引擎是在因特网上寻找信息的重要方法。 1 .3信息导航系统概论 信息导 航系统, 也 称搜索引 擎( s e a r c h e n g i n e ) 是随 着因 特网 信息的 迅速增 加, 从 1 9 9 5年开始逐渐发展起来的技术。按照一定的策略,搜索引擎在互联网中搜集、发现 信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息 导航的目 的。搜索引擎提供的导航服务己经成为互联网上非常重要的网络服务,搜索 引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。 根据信息导航系统所基于的技术原理, 可以 把它们分成三大主要类型: 基于r o b o t 的 信息导 航系统、目 录 ( d ir e c t o ry , 也叫 做c a t a lo g ) 和m e t a 信息导 航系统。 1 、基于r o b o t 的信息导航系统 这种信息导 航系 统的 特点 是 利用一 个称为r o b o t ( 也叫 做s p i d e r , w e b c r a w l e r 或 w e b w a n d e r e r )的程序自 动访问w e b 站点,提取站点上的网页,并根据网页中的链接 3 _- - 一一 进一步提取其它网页, 或转移到其它站点上。 r o b o t 搜集的网页被加入到信息导航系统 的数据库中,供用户查询使用。 基于r o b o t 的信息导航系统由三个主要部分构成: r o b o t , i n d e x 和搜索软件。 r o b o t 从一个事先制定好的u r l s 列表出 发, 这个列表中的u r l s 通常是从以往访问记录中提 取出来的,特别是一些热门站点和wh a t s n e w ” 网页,从 u s e n e t 等地方检索得到的 u r l s 也常被用作起始u r l s , 此外, 很多搜索引擎还接受用户提交的u r l s , 这些u r l s 也会被安排在列表中供r o b o t 访问。 r o b o t 访问了一个网页后, 会对它进行分析,提取 出新的u r l s ,将之加入到访问列表中,如此递归地访问we b . r o b o t 作为一个程序, 可以用c , p e r l , j a v a 等语言来编写, 可以运行在u n i x , s o l a r i s , wi n d o w s , n t , o s 2和 m a c等平台上。r o b o t 设计是否合理将直接影响它访问 w e b 的效率, 影响搜索数据库的质量, 另外, 在设计r o b o t 时还必须考虑它对网络和被访问 站点的影响, 因为r o b o t 一般都运行在速度快、 带宽高的主机上, 如果它快速访问一个 速度比较慢的目 标站点, 就有可能会导致该站点出 现阻塞甚至当机。 r o b o t 还应遵守一 些协议,以便被访问站点的管理员能够确定哪些内容能被访问,哪些不能。 i n d e x 是一个庞大的数据库, r o b o t 提取的网页将被放入到i n d e x 中以 便建立索引, 不同的搜索引擎会采取不同方式来建立索引,有的对整个h t ml文件的所有单词都建 立索引, 有的只分析h t m l 文件的标题或前几段内容, 还有的能处理h t ml 文件中的 m e t a标记或其它不可见的特殊标记。 基于r o b o t 的信息导航系统一般要定期访问大多数以前搜集的网页, 刷新i n d e x , 以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到 用户查询的结果中,这是基于r o b o t 的信息导航系统的一个重要特征。 i n d e x 在建立索引时,一般会给网页中每个关键词赋予一个等级值,表示该网页与 关键词之间的符合程度。当用户查询一个关键词时,搜索软件将搜索i n d e x ,找出所有 与关键词相符合的网页,有时候这些网页可能有成千上万,等级值的用途就是作为一 种排序的依据,搜索软件将按照等级值从高到低的 顺序把搜索结果送回到用户的浏览 器中。 不同的信息导肮系统在计算等级值时使用了 不同的方法,但它们都以关键词在网 页中出现的位置和频率为基本依据,例如,关键词出现在标题中的网页可能比只出现 在其它地方的网页更符合要求,关键词出 现在网页的前面可能比只出现在网页的后面 更符合要求,同一个关键词出 现多次的网页又可能比 只出 现一两次的网页更符合要求, 4 把这些因素综合起来考虑便可得出一个计算等级值的公式。不过,绝大多数信息导航 系统都没有只按照上述因素来确定计算公式, 它们还加入了一些特殊考虑, 例如, e x c i t e 能检查是否有很多链接指向同一个网页,如果是的话,它就把这个网页的等级值稍微 提高一些,理由是这样的网页一般都具有更大的访问量。 尽管各个信息导航系统都有一套复杂的等级值计算公式,但仅仅依靠一个数值并 不能真正反映出网页的质量, 事实上, 有些网页在设计时就考虑到了i n d e x 的特点,故 意使用一些技巧让自己得到很高的等级值,以便能排在查询结果的前列,达到提高访 问量的目的。 2 、目录 目 录与基于r o b o t 的信息导航系统所不同的是, 目 录的数据库是依靠专职编辑或志 愿人员建立起来的, 这些编辑人员在访问了某个w e b 站点后撰写一段对该站点的描述, 并根据站点的内容和性质将其归为一个预先分好的类别, 把站点的u r l 和描述放在这 个类别中,当用户查询某个关键词时, 搜索软件只在这些描述中进行搜索。很多目 录 也接受用户提交的网站和描述,当目 录的编辑人员认可该网站及描述后,就会将之添 加到合适的类别中。 目 录的用户界面基本上都是分级结构,首页提供了 最基本的几个大类的入口,用 户可以一级一级地向 下访问,直至找到自己 感兴趣的类别,另外, 用户也可以利用目 录提供的搜索功能直接查找一个关键词,不过,由于目 录只在保存的对站点的描述中 进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目 录与基于 r o b o t 的搜索引擎之间的一大区别。 商业性质的目 录一般都是依靠一群专职编辑来建立和维护的,最出名的商业目录 y a h o o !雇用了大约一两百名编辑,他们维护的目 录一共收集了上百万个站点。不少学 术或研究性质的目 录是依靠志愿者来建立和维护的, 这些志愿者可能是普通的i n t e r n e t 用 户, 也可能 是一群大学生, 还 有可能是专 家学者,1 9 9 8年 才成立的o p e n d i r e c t o ry 采取了开放管理模式,所有 i n t e r n e t 用户都可以申 请成为它的志愿编辑,目 前 o p e n d i r e c t o ry的编辑人员已 超过了1 4 0 0 0 人。 由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往 往比从基于r o b o t 的信息导航系统得到的结果更具参考价值, y a h o o ! 能取得成功,与 此有着莫大的关系。 事实上, 现在很多搜索站点都同时提供有目 录和基于r o b o t 的 搜索 服务,以便尽可能地为用户提供全面的查询结果。 3 , m e t a 信息导航系统 m e t a 信息导航系统也叫做m u l t i p l e s e a r c h e n g i n e ,它的 特点是本身并没有存放网 页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引 擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把这些搜索 引擎返回的结果经过处理后再返回给用户。 严格意义上来讲, m e t a 信息导航系统只能算是一种用户代理,而不是真正的搜索 引擎。多数m e t a 信息导航系统在处理其它搜索引擎的返回结果时, 只提取出每个搜索 引擎的结果中前面 1 0- 5 0 条,并将这些条目 合并在一起返回给用户,因此最后结果的 数量可能会远少于直接在一个搜索引擎上进行查找所得到的数量。 1 . 4化学信息导航系统 目前因特网上的化学资源与日 俱增, 如何使化学工作者,尤其是缺乏上网经验的 用户能充分、有效地使用网络资源成为巫待解决的问 题。目 前已经出现了一些搜集整 理化学资源的节点,但大多内 容不全,更新较慢,而且专门针对化学资源进行搜索的 系统非常少。现在,我们根据网络发展的最新情况,结合当前最先进的开发技术,开 发出“ 化学信息导航系统” 。该系统是一个网络化学信息资源的整理、综合、归纳、 搜 索系统,并在开发中重点实现了跨平台开发及系统的自 动维护。 1 .4 . 1系统内容 本系统是一个信息归纳系统。由于原始信息发布需要大量第一手材料和繁杂的原 始录入,如键盘输入或通过扫描仪等输入设备进行录入,所以 大多数网 络信息系统都 是信息转载类型的系统。规模小的只收集、整理小范围的信息发布节点,规模大的系 统,如一些大型搜索引擎,可以 收集数以万计、甚至十万、百万计的网页的内容。这 类系统的软硬件成本很高,需要有较大的持续投资支持,本身也有创收行为,如为客 户发布广告等,是以 商业模式运作的网络系统。 我们的 “ 化学信息导航系统”是为方 便化学工作者使用网络化学信息资源而创建的。 本系统是通过南开大学的校园网连接到国家教育及科研网上的,是为了 科研目 的 而开发的, 没有商业用途, 也缺乏大的投资。 所以, 这个系统不可能做成一个基于r o b o t 或自 编辑目 录的搜索引擎。 我们的作法是选择比 较优秀的信息转载节点,对它们进行 6 分类、筛选、整理、归纳,以分类服务的方式发布在我们的系统上。由于信息转载节 点一般都收集了 一些资源节点的内容,通过合理的选择,综合很少的信息转载网站就 可以涵盖大量信息资源。更新及时的信息转载节点会非常关注它所收集的网站,及时 跟踪其内容的任何变化并反映在自己的节点上。我们的系统只要注意这些信息转载节 点的变化就可以及时反映网络信息资源的变化了。如果把原始信息发布类型的节点称 作第一级信息系统, 信息转载类型的节点称作第二级信息系统的话,我们开发的 “ 化 学信息导航系统”就是建立在第二级信息系统之上的信息归纳系统。 目前本系统已经开发的分类服务包括以下内容: 期刊信息服务:包括网上化学类书籍刊物、文摘、文章、专利等信息内容及检索。 数据库服务: 包括各类化学数据库资源节点信息及一些数据库的检索。 软件信息服务: 包括化学类软件公司介绍和软件的信息。 讨论组服务:包括化学类邮件群、新闻组、电子公告牌等资源。 会议信息服务:包括化学会议信息。 化学资源信息:包括化学类综合资源节点信息。 机构信息服务:包括化学机构、团体、科研院 校方面的信息。 教育信息服务:包括化学方面的教育相关的信息资源。 试剂仪器信息: 包括化学试剂、 仪器方面的信息资源。 本系统还提供了搜索服务,可以搜索本站保存的资源,也可以利用其他搜索引擎 为用户服务。 本系统自 身不设数据库,而是把用户要搜索的内 容转发到其他搜索引擎 上,并对结果进行处理后返回给用户。在整个搜索过程中,用户始终没有离开我们的 系统,就可以对国内外若干个搜索引擎进行查询,极大地方便了用户的使用。 1 .4 .2系统的技术特点 1 . 4 .2 . 1跨平台 应用 网络服务根据访问流量的大小,需要的基本配置也不同。对于访问量比较大的系 统,需要有高速、畅通的网络环境,同时还需要配备高性能的计算机作为服务器,选 择处理能力强的服务器软件。 如果网站有动态内容,还需要编写高效的万维网服务程 序。对于访问流量比较小的系统,基本配置就可以适当降低,同时也不至于过多地影 响服务的性能。由于 这些基本配置影响着网络服务系统的初期投资,规模较小的网 站 7 一- - -, ,一 不太可能一次性地配备成大规模系统所需的高配置,只有在系统发展规模逐渐扩大后, 再根据情况选择合适的配置。这就意味着服务系统刚开始创建时选择的计算机、操作 系统、 服务器软件, 都有可能发生变化, 如操作系统从win d o w s n t 转为f r e e b s d , 或 由于服务器硬件设施改变,如从微型计算机改为工作站,操作系统也从f r e e b s d变为 s o la r i s等。至于万维网服务器软件的选择余地就更大了。鉴于这种情况,如果一个信 息网站有较多的动态内容,需要维护的服务程序就会很多。除了初期需要程序开发之 外,一旦有配置变化就需要改写甚至完全重写这些服务程序以适应新的操作系统或服 务器软件,用于程序维护的工作量非常大,而且造成了代码重复开发的浪费。我们开 发的这个系统充分考虑到了这个问题, 选用了j a v a 语言作为程序开发的主要编程语言, j s p i j a v a b e a n s / s e r v l e t 作为服务器端编程的主要实现, 配合合理的服务程序设计模型, 使得该系统可以适应从小规模节点到大规模系统的转化。规模较小、访问 流量小时, 该系统需要的配置比 较低, 较高档次的微机即可胜任;规模较大时,只需调整软硬件 配置,如使用工作站、 服务器作为服务器硬件, 选择相应操作系统和高性能的服务器 软件, 而构成整个系统的文件、程序不需任何改动即可迁移到新的软硬件环境中,只 需对服务器软件作一些设置上的调整, 用户方不需任何改动即可访问系统, 整个服务 器的升级对用户来说是透明的,甚至对网站维护人员都是透明的。为了实现这种跨平 台应用, 本系统在设计规划时没有选用一般系统都要用到的数据库,而改用平台无关 的x ml文件作为系统主要的存储媒介。 1 .4 .2 .2自 动维护 一般网站除了在初期建设时要花费开发人员一定的时间和精力外,在运作起来以 后,为了内容不至于陈旧、落伍,必须及时更新内容,需要进行日 常维护。这种维护, 视网站规模的大小,工作量可能会很大。本系统在网站的全自 动维护上进行了有益的 尝试,系统可以自 动进行大量的日 常维护工作而不需管理人员的参与。本系统己经实 现的自动维护主要有以下两个方面的内容: 内 容更新:通过一些定时运行的程序自 动检查系统收集的网络资源节点的内 容有 没有变化。如果内容发生了改变,则自 动收集新的内容及时反映到系统页面中。这些 程序还会监视主要网络资源的 地址是否改变,一旦原地址无法访问 就会通知管理人员 进行检查,这样就保证了本系统提供的资源的可访问性。 页面变化:当收集的信息资源节点的某些信息发生变化, 如访问 地址的 变化, 或 吕 对信息节点进行了增删操作,都会导致系统页面内容的变化。本系统通过编程方法可 以自 动适应这些变化,一旦发现了这些变化,就会动态调整页面,及时反映出修改、 增删过的内容。 作为网站的维护人员,需要做的主要的维护工作就是根据自 动程序的反馈修改有 变动的资源网站,以及增添新的信息节点甚至新的服务类型, 删除过时的、不再选用 的网站资源,而这一切操作都是通过一个用纯粹的j a v a 语言开发的设置程序完成的, 该程序具有简便易用的图形用户界面,本身也可以跨平台运行,可随系统进行迁移。 系统维护人员只需操作该程序即可完成对整个系统的维护,甚至不需要具备动态网站 程序的开发能力。 一- - - - - , , , , , , .一_ 2系统架构及相关技术 2 . 1系统概述 化学信息导航系统是基于因特网万维网服务的信息归纳系统,主要实现因特网上 的化学信息资源的归纳、整理、搜索等任务。对一般信息资源采取归纳、整理的作法, 集中展示在本系统中。系统本身也提供搜索服务,不过只是将用户的搜索要求转发到 其他搜索引擎上,并把结果取回呈现给用户。整个过程都是由 本系统完成的,也就是 说,用户只需连接到本系统,不必连接其他网站。一般网站在传递搜索请求时,只是 把用户简单地连接到某个搜索引擎上,用户在访问这类节点时,当进行关键词搜索时, 就会实际建立与某个搜索引擎的连接,接收该搜索引擎的回应页面,并且脱离了原来 的网站。 这样一般用户在使用中 会由于这种页面的变化而感到不适应,而且使用起来也很 不方便。本系统与这类网站有着根本的不同,向 搜索引擎发送请求以及接收搜索结果 都是由 服务器端程序完成的,实际建立的是运行本系统的服务器与搜索引擎之间的连 接。这样就极大地方便了用户的使用,使用户所需的任何资源信息都可以在不脱离本 系统的情况下获得,只到索取最终资源时才需要直接连接信息资源所处的节点。本系 统不保存这些最终资源,只为用户提供资源存放的位置。比如用户需要寻找某一篇文 献,通过本系统的使用可以了解到该文献保存在哪里,但本系统不保存该文献的内容, 如果用户需要取得其内容,需要实际连接到该文献保存的网站。 2 .2系统体系结构规划 2 . 2 . 1动态网站 我们所建立的信息导航系统的服务是建筑在 h t t p协议之上的、基于客户机朋 民 务 器模式运行的一项因特网服务内容。 在h t m l 2 . 0 的规范中“ 表单” ( f o r m) 标记允 许用户将信息传递给万维网 服务器上的某个程序进行处理。该程序按 “ 参数名=数值” 的格式接收用户在浏览器上输入的信息并按照网页开发人员设计的程序进行处理,然 后将结果送回客户机。这类程序甚至可以 插入到静态页面中,在浏览器要求该页时被 1 0 触发执行。 “ 通用网 关接口” ( c o m m o n g a t e w a y i n t e r f a c e , c g i ) 就是万维网 服务器运行 这类程序的通用接口,一般服务器软件都支持这种规范。当前流行的计算机编程语言 基本上都可以作为编写 c g i 程序的语言。由于程序的参与,万维网服务器提供的页面 文件就不是原来的静止不变的内容,而是可以在程序控制下提供各不相同的、动态的 内容。 2 .2 .2客户端编程 当今很多网站在进行网站设计时,会将部分需要程序产生的动态内容交给运行浏 览器的客户机来处理,这一方面是为了减轻服务器的负荷,另一方面也是由于目前运 行浏览器的计算机功能普遍比较强,有足够强的程序处理能力。进行这种设计时,根 据浏览器采取的执行程序的技术,服务器端会把程序源代码、编译后的代码或某种特 殊类型的数据传送到客户机浏览器中,由相关技术运行程序或解释数据,把运行结果 显示在客户机的显示设备上。 客户端编程有其优势,如充分利用客户机的强大工作能力,分担网络和服务器负 荷,提高网络响应速度和灵敏度等。 但客户端编程也存在几个问题:有些技术需要针 对客户机的操作系统和浏览器软件进行设计,甚至针对浏览器的不同版本也需要编写 不同的程序;用户需下载程序, 使用不方便,且造成一定的网络负担;有些技术存在 安全问 题, 象a c t i v e x这样的技术危险 性也非常大, a c t i v e x控件可以 完成 任何功能, 如果被恶意使用,后果可能会非常严重。 2 . 2 . 3服务器端编程 服务器端编程就是处理程序在服务器上运行,产生的结果被送回浏览器。如果不 考虑网络传输速度等因素,除了客户端的图形化显示之外, 服务器端编程几乎可以完 成客户端编程的所有功能传统的使用c g i 机制进行的服务器端编程。由于效率低下、 浪费服务器进程空间等问题, 一度成为服务器端编程的 瓶颈问题。现在己 经产生了 很 多新的 技术有效地解决了 这些问题, 这些技术包括a s p , p h p , j s p i s e r v i e t 等, 在不同 的应用领域都获得了很大的成功。 2 .2 .4服务器端编程与客户端编程的比较 服务器端编程与客户端编程相比较,最主要的差别就是程序的执行环境不同。前 者运行在服务器上。程序开发调试只是针对特定平台进行,所以开发过程相对简单, 代码维护任务比较轻松。 而客户端编程要针对客户端的不同运行环境,需要考虑的问 题相对较多, 有的甚至需要针对不同浏览器以及浏览器的不同版本编写不同的代码, 程序维护的工作量较大。而最大的缺点就在于需要客户机下载程序,对于用户的使用 来说不够方便,而且一般要求客户机的配置相对较高,浏览器的版本也要求较高。比 如当前采用客户端编程机制的网站,如果客户机仍然使用低配置的计算机,就不能达 到这些网站所要求的客户机配置,也就无法使用这些网站了。 本系统力争面向尽可能多的用户,如果使用客户端编程手段,需要他们去下载插 件、控件等,将会给这些用户的使用带来极大的不便。另外。本系统尽量允许用户使 用任何配置的计算机,只要他们能够连接到因特网上并拥有一个万维网浏览器,就要 使他们能无条件地使用本系统。 所以 选择我们建立的化学信息导航系统以服务器端编 程作为主要的编程手段。 服务器端编程的主要缺点就是当访问 量较大时,服务器的负担会比 较重。 解决方 法主要有两个:一个是升级服务器的软硬件, 使之适应大规模访问的要求;二是利用 服务器的分布计算来分散负荷,采用多个服务器分担访问量。 2 . 2 . 5系统体系结构 本系统需要跟踪网上化学资源的变化情况,及时更新内容。从技术上讲需要建设 成一个以服务器端编程为主的动态网 站。 程序语言选用j a v a 语言,利用该语言的 跨平 台运行等优势,并借鉴了j a v a 计算的体系结构。实际构建系统时,使用s e r v l e t 作为服 务器端响应程序的主要技术,j s p提供 s e r v l e t 的前端表示,根据不同情况选择了j s p 的两种开发模型, 使系统既可以 适应小规模的应用, 也可以承 担大规模的访问。 为了更好地实现本系统的跨平台移植, 本系统采用了规范严谨、平台无关的x ml 文件作为存储介质,存储服务和分类数据。 通过对x ml文档结构的精心处理, 本系统 的处理程序可以灵活地适应该文档内容的变化,在系统开发完成后,只需对该文件进 行修改而无需变动系统程序,从而保证了跨平台的可移植性。 本系统还配备了维护程序进行系统维护。保证了配置文件内容的正确性 _ _一- , 自. 口 - 一一 一 _- 并极大 1 2 地降低了系统管理员的维护工作量。 2 .3系统采用的相关技术 2 . 3 . 1编程语言一j a v a j a v a是一种广泛使用的网络编程语言,它是一种新的计算概念。j a v a技术是计算 技术的一次革命,其核心是从 “ 以桌面计算为中心”转移到以“ 网络计算为中心” 。对 于企业来说,这种变革的重要影响是把复杂性从桌面转移到网络和服务器上,使得管 理工作可以中心化,同时也提供强大的本地处理能力。j a v a计算解决了当前企业计算 中的许多不足之处,它的许多优秀特性使得它日益广泛地被采用。 作为一种程序设计语言, j a v a具有简单、面向 对象、不依赖于机器结构、具有可 移植性、鲁棒性、安全性等特点,并且提供了并发的机制,具有很高的性能:其次, 它最大限度地利用了网络, j a v a 的小应用程序可在网络上传输而不受c p u和环境的限 制:另外,j a v a 还提供了丰富的类库,使程序设计者可以很方便地建立自己的系统。 2 .3 . 1 . 1 j a v a 语言的主要特点 j a v a 语言的主要特点是: 使用简单:j a v a语言是一种面向对象的语 定的任务,开发人员只需理解一些基本概念, 用程序。 言,它通过提供最基本的方法来完成指 就可以用它编写出适合于各种情况的应 面向对象: j a v a语言是纯粹的面向对象的开发语言,它的设计集中于对象及其接 口,提供了简单的类机制以 及动态的接口 模型。对象中封装了它的状态变量以及相应 的方法,实现了模块化和信息隐藏;而类则提供了一组对象的原型,并且通过继承机 制,子类可以使用父类所提供的方法,实现了 代码的重用。 分布性: j a v a 是面向网 络的语言, 通过它提供的 类库可以处理t c p i i p 协议, 用户 可以 通过通用资源定位指针u r l 地址在网 络上很方便地访问 其它对象。 鲁棒性:j a v a在编译和运行程序时,都要对可能出现的问题进行检查,以避免程 序中错误的发生。它提供内存垃圾自 动收集机制来进行内 存管理,防止程序员在管理 内存时产生错误。通过集成面向对象的例外处理机制,在编译时j a v a 提示出可能出现 但末被处理的例外,帮助程序员正确地进行选择以防止系统的崩溃。另外,j a v a在编 译时还可捕获类型声明中的许多常见错误,防止动态运行时不匹配问题的出现. 安全性:在网络和分布环境下,防止病毒的入侵是必须重视的重大问题。j a v a语 言不支持指针,一切对内 存的访问都必须通过对象的实例变量来实现,这样就防止了 程序员使用 “ 特洛伊木马”等欺骗手段访问对象的私有变量,同时也避免了指针操作 中容易产生的错误。 体系结构中立:j a v a解释器生成与体系结构无关的字节码指令,只要安装了j a v a 运行系统,j a v a 程序就可以在任意的处理器上运行。这些字节码指令对应于j a v a 虚拟 机中的表示, j a v a 解释器得到字节码后, 对它进行转换, 使之能够在不同平台上运行。 可移植性:平台无关性使得j a v a 程序可以方便地被移植到网络上的不同机器。同 时, j a v a的类库中也实现了 不同平台的 接口, 使这些类库可以 移植。另外,j a v a 编译 器是由j a v a 语言实现的, j a v a 运行系统有标准c 语言实现, 这使得j a v a 系统本身也具 有移植性。 解释执行:j a v a 解释器直接对j a v a 字节码进行解释执行。字节码本身携带了许多 编译时信息,使得连接过程更加简单。 高性能:和其它解释执行的语言如b a s i c . t c l不同,j a v a 字节代码的设计使之 能够很容易地直接转换成对应于特定c p u的机器码,从而得到较高的性能。 多线程:多线程机制使应用程序能够并行执行,而且同步机制保证了 对共享数据 的正确操作。通过使用多线程, 程序设计者可以分别用不同的线程完成特定的行为, 而不需要采用全局的事件循环机制, 这样就很容易地实现网络上的实时交互行为。 可扩展性: j a v a的设计使它适合于一个不断发展的环境。在类库中可以自 由 地加 入新的方法和实例变量而不会影响用户程序的执

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论