(信号与信息处理专业论文)基于web+services的跨平台检索系统的研究与开发.pdf_第1页
(信号与信息处理专业论文)基于web+services的跨平台检索系统的研究与开发.pdf_第2页
(信号与信息处理专业论文)基于web+services的跨平台检索系统的研究与开发.pdf_第3页
(信号与信息处理专业论文)基于web+services的跨平台检索系统的研究与开发.pdf_第4页
(信号与信息处理专业论文)基于web+services的跨平台检索系统的研究与开发.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于w e bs e r v i c e s 的跨平台检索系统的研究与开发 摘要 数字图书馆是国家信息基础设施的重要组成部分,目前己成为评价一 个国家信息基础水平的重要标志。随着计算机技术与互联网的飞速发展, 各种数字资源层出不穷。不同种类数据源和数据平台的增多适应了数字图 书馆的发展需要,对于用户来说,为了查准、查全所需要的资料,却不得 不分别进入不同的查询系统,熟悉每个数字资源的检索方式和显示格式, 为检索工作带来了诸多不便。 为了解决上述问题,本文设计了一种基于w e bs e r v i c e s 技术的跨平台 检索系统的结构。该系统的实现可以使用户在一个统一的界面和查询环境 下对不同数据源的信息进行查询,并得到一个经过集成的、格式统一的检 索结果页面。 本文首先介绍了跨平台检索技术的概念及其工作原理,分析了目前实 现跨平台检索的几种方案。由于受到所选用技术等因素的制约,这些跨平 台检索系统的实现模式并没有从真正意义上解决分布式技术的相关问题, 同时这些方法在结构和应用上还不能达到真正的统一资源、整合发布的要 求。因此,设计并开发一种模式新颖、技术先进的跨平台检索系统具有重 要的意义。通过对j 2 e e 技术、w e bs e r v i c e s 技术以及m v c 设计模式进行 分析可知,w e bs e r v i c e s 技术能够适应i n t e r n e t 的发展需求,从根本上解决 了分布式技术的相关问题,采用w e bs e r v i c e s 技术实现跨平台检索系统具 太原理工大学硕士研究生学位论文 有明显的优势;而基于m v c 设计模式的s t r u t s 应用框架在开发大型w e b 应用系统中同样具有突出的优势。 本文选用w e bs e r v i c e s 和s t r u t s 技术相结合的方法完成了跨平台检索系 统的结构设计;采用j d b c 数据库互联技术连接数据库;完成了w e bs e r v i c e s 模块数据的获取和查询功能;同时在w e b 服务器端采用s t r u t s 框架技术进 行设计开发,完成了获取w e bs e r v i c e s 服务器端的检索数据、查询操作的 具体实现以及用户界面与查询结果界面的显示等功能。 本文利用太原理工大学图书馆现有的书目数据资源,对该方案的实现 进行了验证和测试。在方案的实现过程中,系统采用j b o s s 作为w e b 服务 器,选用j a v a 语言进行编程、j s p 技术开发网页。经测试,系统性能稳定、 运行良好,能够完成预期目标。 关键词:数字图书馆,数据整合,跨平台,中间件,w e bs e r v i c e s ,s t r u t s h 太原理工大学硕士研究生学位论文 b a s e d o nw e b s e r v l c e sc r o s sp l a t f o r m r e t r i e v a ls y s t e mr e s e a r c h a n dd e v e l o p m e n t a b s t r a c t t h ed i g i t a ll i b r a r yi st h en a t i o n a li n f o r m a t i o ni n f r a s t r u c t u r ei m p o r t a n t c o n s t i t u e n t ,a tp r e s e n th a sb e c o m ea p p r a i s e san a t i o n a li n f o r m a t i o nb a s i cl e v e l o n eo ft h ei m p o r t a n ts y m b 0 1 a l o n gw i t ht h ei n t e m e tr a p i dd e v e l o p m e n t ,e a c h k i n do f d i g i t a lr e s o u r c e se m e r g eo n ea f t e ra n o t h e ri n c e s s a n t l y ,t h ed i f f e r e n tt y p e d a t a p o o l a n dt h ed a t ap l a t f o r mi n c r e a s e d a d a p t t ot h e d i g i t a ll i b r a r y d e v e l o p m e n tn e e d ,r e g a r d i n gt h eu s e r , f o rs e a r c h e sa c c u r a t e l y , l o o k su pt h e m a t e r i a lw h i c ha l ln e e d s ,c a nn o tb u te n t e rt h ed i f f e r e n ti n q u i r ys y s t e m s e p a r a t e l y , f a m i l i a re a c hd i g i t a lr e s o u r c e sr e t r i e v a lw a ya n dd e m o n s t r a t i o nf o r m , s e a r c hf o rw o r kb r o u g h tm a n yi n c o n v e n i e n c e s i no r d e rt os o l v et h ea b o v ep r o b l e m ,t h i sp a p e rd e s c r i b e st h ed e s i g no f aw e bs e r v i c e sb a s e do nt h e c r o s s - p l a t f o r mt e c h n o l o g yr e t r i e v a ls y s t e m s t r u c t u r e 。t h es y s t e ma l l o w st h eu s e rt oa c h i e v eau n i f i e di n t e r f a c ea n dq u e r y e n v i r o n m e n to fd i f f e r e n td a t as o u r c e s o fi n f o r m a t i o ni n q u i r i e s a f t e ro n ea n db e i n t e g r a t e d ,u n i f i e df o r m a tf o rt h es e a r c hr e s u l t sp a g e s t h i sp a p e ri n t r o d u c e dac r o s s p l a t f o r mc o n c e p tr e t r i e v a lt e c h n o l o g y i i i 太原理工大学硕士研究生学位论文 a n di t sw o r k i n gp r i n c i p l e s ,a n a l y s i so f t h ec u r r e n ti n t e r - p l a t f o r mi n d e x e ds e v e r a l o p t i o n s d u et ot h es e l e c t e dt e c h n o l o g yf a c t o r s ,t h e s ec r o s s p l a t f o r mr e t r i e v a l s y s t e mf o rt h em o d e la n dd o e sn o ts o l v et h er e a lm e a n i n go fd i s t r i b u t e d t e c h n o l o g y r e l a t e di s s u e s ,t h e s em e t h o d sa l s oi nt h es t r u c t u r ea n da p p l i c a t i o n a l s oc a nn o ta c h i e v et h er e u n i f i c a t i o no fr e s o u r c e s ,i n t e g r a t i n gt h er e q u i r e m e n t s o fp u b l i c a t i o n t h e r e f o r e ,t h ed e s i g na n dd e v e l o p m e n to fan e wm o d e la n d a d v a n c e dt e c h n o l o g y , c r o s s p l a t f o r mr e t r i e v a ls y s t e mi so fg r e a ts i g n i f i c a n c e b a s e do nj 2 e e ,w e bs e r v i c e sa n dt h em v c d e s i g np a t t e r na n a l y s i si n d i c a t e s t h a tw e bs e r v i c e si n t e r n e tt e c h n o l o g yt oa d a p tt ot h en e e d so fd e v e l o p m e n t , f r o mt h ef u n d a m e n t a ls o l u t i o nt ot h ed i s t r i b u t e dt e c h n o l o g yr e l a t e di s s u e s ,w e b s e r v i c e st e c h n o l o g yt oa c h i e v ec r o s s p l a t f o r mr e t r i e v a l s y s t e mh a so b v i o u s a d v a n t a g e s ;a n db a s e do nt h em v cd e s i g np a t t e ms t r u t sa p p l i c a t i o nf r a m e w o r k i nt h e d e v e l o p m e n to fl a r g e - s c a l e w e ba p p l i c a t i o n s e q u a l l yp r o m i n e n t a d v a n t a g e s i nt h i s p a p e r w eu s es t r u t sw e bs e r v i c e s t e c h n o l o g ya n dt h e c o m b i n a t i o no ft h ec o m p l e t i o no fc r o s s - p l a t f o r mr e t r i e v a ls y s t e mt h es t r u c t u r e d e s i g n ;u s i n gj d b cd a t a b a s ei n t e m e tt e c h n o l o g yt oc o n n e c tt ot h ed a t a b a s e ; w e bs e r v i c e sc o m p l e t e dam o d u l ed a t aa c c e s sa n ds e a r c hf u n c t i o n s a tt h es a m e t i m ew e b 。u s i n gs t r u t sf r a m e w o r k t e c h n o l o g y , d e s i g na n dd e v e l o p m e n t ,s e r v i c e c o m p l e t e d i t s a c q u i s i t i o no fw e bs e r v i c e s s e r v e r - r e t r i e v a lo fd a t a q u e r y o p e r a t i o na n dt h er e a l i z a t i o no f t h eu s e ri n t e r f a c ea n dq u e r yr e s u l t ss h o wt h a tt h e i n t e r f a c ef u n c t i o n s 太原理工大学硕士研究生学位论文 u s eo f t a i y u a nu n i v e r s i t y o f t e c h n o l o g yl i b r a r y e x i s t i n g b i b l i o g r a p h i cd a t a b a s e s ,t h et o p i co ft h ep r o g r a mt oa c h i e v et h ec e r t i f i c a t i o na n d t e s t i n g i nt h ep r o c e s so f t h er e a l i z a t i o no ft h ep r o g r a m ,t h es y s t e mu s e sj b o s sa s aw e bs e r v e r , u s ej a v ap r o g r a m m i n gl a n g u a g e ,j s pt e c h n o l o g yd e v e l o p m e n t w e bp a g e a f t e rt e s t i n g ,t h es y s t e mi ss t a b l e ,w e l l f u n c t i o n i n g ,t oc o m p l e t et h e a n t i c i p a t e dg o a l s k e yw o r d s :d i g i t a ll i b r a r y , d a t ac o n f o r m i t y , c r o s sp l a t f o r m ,m i d d l e w a r e , w e bs e r v i c e s ,s t r u t s v 声明 本人郑重声明:所呈交的学位论文。是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名: 鎏瘥 e t l t 习: 迦2芏:生 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的。 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名:叟蕴 e t l t l l :丝z :2 导师签名: 太原理工大学硕士研究生学位论文 第一章绪论 1 1数字图书馆概述 计算机技术、网络通讯技术的迅猛发展为图书馆迎来了一次数字化革命,数 字图书馆迅速成为中外图书馆界乃至社会各界关注和研究的热点问题。 1 1 1 数字图书馆产生背景 数字图书馆的研究开发,是伴随着国际互联网的发展和普及而兴起的。其前 身可追溯到早期的图书馆自动化系统,世界上最早的计算机图书馆检索系统是 1 9 5 4 年有美国海军兵器中心图书馆建立的,它是世界上第一个文献检索系统。随 后图书馆自动化在美国兴起,2 0 世纪7 0 年代美国建立了三大图书馆网络:联机计 算机图书馆中心( o c l c ) 、研究图书馆信息网( r l i n ) 、西部图书馆网( w l n ) 。 二十世纪九十年代以来,随着互联网的迅猛发展,高新技术的日益普及,特 别是知识经济的兴起,网上信息的有序组织越来越引起世界各国的重视。1 9 9 3 年 美国制订了“国家信息基础结构”( n i l ) 行动计划,继而提出了建设“全球信息基础 设施”( g i i ) 的主张;1 9 9 4 年欧盟宣布在欧洲建立信息社会的计划,确定了欧洲 信息社会应用领域;同年俄罗斯成立了俄联邦信息政策委员会,1 9 9 5 年俄杜马通 过了俄罗斯信息、信息化和信息保护法;日本、加拿大、法、英、南非等许 多国家也都以政府行为采取了相应的对策和行动。这些都进一步推动了图书馆自 动化系统向数字化、网络化的发展。为在竞争中处于领先地位,不少国家和地区 的图书馆在政府的大力支持下积极行动起来,配合n i l 的建设开展数字图书馆的 研究和建设,并取得相当成效。 1 1 2 数字图书馆的概念 数字图书馆是一门全新的科学技术,也是一项全新的社会事业。它是一种拥 有多种媒体内容的数字化信息资源,能为用户方便、快捷地提供信息的高水平服 务机制。虽然称之为“馆”,但并不是图书馆实体:它对应于各种公共信息管理与 太原理工大学硕士研究生学位论文 传播的现实社会活动,表现为各种新型信息资源组织和信息传播服务。它借鉴图 书馆的资源组织模式、借助计算机网络通讯等高新技术,以普遍存取人类知识为 目标,创造性地运用知识分类和精准检索手段,有效地进行信息整序,使人们获 取信息消费不受空间限制,很大程度上也不受时间限制。其服务是以知识概念引 导的方式,将文字、图像、声音等数字化信息,通过互联网传输,从而做到信息 资源共享。每个拥有任何电脑终端的用户只要通过联网,登录相关数字图书馆的 网站,都可以在任何时间、任何地点方便快捷地享用世界上任何一个“信息空间” 的数字化信息资源。 概括地说,数字图书馆就是虚拟的、没有围墙的图书馆,是基于网络环境下 共建共享的可扩展的知识网络系统,是超大规模的、分布式的、便于使用的、没 有时空限制的、可以实现跨平台无缝链接与智能检索的知识中心。数字图书馆既 是完整的知识定位系统,又是面向未来互联网发展的信息管理模式,可以广泛地 应用于社会文化、终身教育、大众媒介、商业咨询、电子政务等一切社会组织的 公众信息传播。 1 1 3 数宇图书馆的基本要素 一、数字化资源 数字化资源是数字图书馆的“物质”基础。数字图书馆的信息资源主要包括原 先用纸张形式存储的信息转换为电子计算机中的数字化信息,其中除文字信息外, 还有大量图形、图像信息以及声音、视频、动画等数字式信息,利用计算机把多 种信息通过多媒体技术有机结合在一起进行统一存储和管理。其中用数字化的方 法将信息存储的主要形式从纸质载体变成了磁性介质上的电磁信号,对文献起到 了保护作用。尤其是一些古籍珍善本和历史遗物,这也是最初数字图书馆思想的 由来。数字式信息为压缩存储空间,改进信息的组织方式,提高检索速度,方便 用户远程检索等奠定了基础。 二、网络化存取 高速的数字通信网络是数字图书馆的存在基础,数字图书馆依附于网络而存 在。信息的网络传输使数字图书馆超越时空观念,跨越馆藏信息的地域界限。通 过网络传输,使用户必须到图书馆查阅信息,变成了读者可以在世界上的任何地 2 太原理工大学硕士研究生学位论文 方、任何时间查阅任何一个开放的数字图书馆的信息,大大缩短了信息传递时间 以及信息提供者和使用者的距离,从而加快了信息交流与反馈的速度。 数字图书馆内部本身由局域网构成,一般是高速主干联接数台服务器及工作 站,外部通过数台广域网服务器面向浩瀚的互联网。 三、分布式管理 分布式管理是数字图书馆发展的高级阶段,它意味着全球数字图书馆遵循统 一的访问协议之后,数字图书馆可以实现“全球检索”,全球数字图书馆将像现 在的互联网联接网站一样,把全球的数字化资源联为一体,联接成为一个巨大的 图书馆。分布式管理之所以是数字图书馆的基本要素,在于它强调标准协议的重 要性,只有全球共同遵循t c p i p 协议,才有互联网的今天,数字图书馆技术还没 有这样一个公认的标准协议,因此技术标准的选择和参与制订,对每一个数字图 书馆先驱者来说都是至关重要的。 1 1 4 数字图书馆的基本结构 无论计算机技术怎样发展,网络结构多么复杂,图书馆信息服务的基本模型 是始终如一的:这就是“信息源图书馆读者”构成的三角架构,图书馆充当 一个知识整理的中间人的角色。计算机与网络的出现使图书馆的信息服务能够更 为全面、及时、准确、高效,数字图书馆技术在各个环节上加固了这种模型,使 信息社会中图书馆的作用和效益发挥到极至。 数字图书馆的基本结构如图1 1 : 旬k 图书馆服务器 对象服务器 读者 图1 1数字图书馆的基本结构 f i g u r e1 1d i g i t a ll i b r a r yb a s i c ss t r u c t u r e 3 太原理工大学硕士研究生学位论文 图1 - l 中,图书馆服务器的作用是负责管理目录数据的索引和查询,对象服 务器负责管理数字化数据,是信息源,可以由图书馆设立,也可以由任何社会信 息部门设立。他们与读者构成三角形架构。读者通过广域网或者图书馆内部的局 域网( 电子阅览室) 发出查询请求,经w e b 服务器处理后传递给图书馆服务器( 类 似于查询目录卡片) ,图书馆服务器将查询结果通知对象服务器并由对象服务器 取出最终结果发送给读者,这就实现了数字图书馆对象数据的发布。 1 2 论文的目的和意义 作为知识经济的重要载体,数字图书馆是国家信息基础设施的重要组成部分, 目前已成为评价一个国家信息基础水平的重要标志和本世纪各国文化科技竞争的 焦点之一。对于我国来说,数字图书馆的研发起步较晚,因此,建设基于w e b 应 用系统的数字图书馆更加具有必要性和紧迫性。 数字图书馆是一种分布式的大型数据库系统,同时由于数字资源建设的不同 步以及所采用技术的不同,各种数字资源都有自己的数据结构、组织方式、查询 方式以及显示界面,他们都提供自己的信息检索服务。这些服务是孤立存在的, 没有进行集成,对于用户来说,为了查准、查全所需要的资料,不得不分别进入 不同的查询系统,熟悉每个数字资源的检索方式和显示格式。本课题的目的就是 为用户解决这种检索困难,使其可以在一个统一的界面和查询环境下对不同数据 源的信息进行查询,并在统一的界面中获取不同格式的数字资源信息,从而使用 户的检索工作变得轻松而高效。同时为建设基于w e b 应用系统的数字图书馆工作 提供一条有意的尝试途径。 1 3 论文的主要内容 我省在文献资源平台建设方面已取得了一定的成绩,各高校及科研机构文献 资源已基本实现计算机自动化管理及局域网内的资源共享。2 0 0 4 年底“山西省科技 基础条件平台建设”项目正式立项,该项目的子项目之一“山西省工程文献资源中 心服务平台建设”项目,由太原理工大学图书馆承担。太原理工大学图书馆是 c a l l s 成员馆,文献资源经过多年建设,在理工科技文献方面已很有特色。 本项目建设的要求为:在现有成果的基础上,依托太原理工大学图书馆现有 4 太原理工大学硕士研究生学位论文 资源,提炼理工科技文献数据,构建相应数据库:依托现有网络环境与省中心平 台联接,向省中心上传( 下载) 数据,同时提供文献资源的网络检索服务:实现 地区范围内理工科技文献信息资源广泛的共建、共享。本项目建设的内容包括: 书目资源数据库及平台建设、学位论文摘要数据库建设。 本课题主要研究该子项目中的书目资源数据库及平台建设:即依托太原理工 大学图书馆现有馆藏资源,建设工程文献书目数据库,统一整合现有的异构系统 的数据库资源;开发新的数据支撑平台,实现异构系统数据库的无缝连接为 用户提供统一的检索界面。在上述原则的基础上,本文对跨平台检索系统及其相 关技术进行了分析、研究,并对早期跨平台检索系统的实现模式加以研究、对比, 设计了一种基于w e bs e r v i c e s 的跨平台检索系统的开发方案。该系统的实现主要 完成以下工作: 1 跨平台检索系统的结构设计; 2 元数据的获取及管理; 3 数据格式及内码转换; 4 查询函数的设计及查询功能的实现; 5 w e b 服务模块查询功能的实现; 6 用户主页与结果页面的开发。 最后,本文利用太原理工大学现有的书目数据库,对该方案进行验证和测试。 太原理工大学硕士研究生学位论文 第二章跨平台检索技术概述 2 1跨平台检索的概念 2 1 1数字图书馆分布式数据源分析 一、电子数据源的多样性 数字图书馆的数据按其实体区分有全文( 原文) 、文摘、索引等;数据存储 方式有数据库、文件系统等;数据分布上有本地和网上;文件格式有文本、多媒 体、超媒体;数据归属上有自建、购买和赠送等;数据的内容形式上又有图书、 期刊、事实数据等。对用户而言,要查到所需学科的各种资料,在分散的资源中, 他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面 和检索策略。即使这样,他也很可能遗漏了某些数据源,费时费力而且查全率较 低。 二、数据发布形式的多样性 电子资源目前主要有专用服务器客户端和w e b 发布两种方式。专用服务器 客户端模式主要应用在目前的o p a c 、z 3 9 5 0 以及某些光盘数据库系统等方面。 i n t e r n e t 的发展使w e b 发布方式成为信息发布的主流方式,也成为跨平台检索系 统主要面对的处理对象。 虽然同为w e b 发布方式,但是每种电子数据源的用户界面、检索点、检索策 略和显示方式都因为数据源的特点和系统设计等不同而千变万化。同样是电子图 书,“超星”、“书生”和“a p a b i ”都有各自的检索特点:“超星”的检索点是书名、作 者、出版社和出版日期;“书生”多了i s b n 、丛书名和摘要;“a p a b i ”又多了关键 词、全面检索和全文检索等检索点。电子图书如此,那么电子期刊之间、期刊与 图书及其它资源间的差异就更显而易见了。 2 1 2跨平台检索的概念及意义 由于数字图书馆分布式数据源的上述特点,给用户的检索工作带来了诸多不 便。跨平台检索系统正是针对这个问题而出现的。所谓跨平台检索,简单的说, 6 太原理工大学硕士研究生学位论文 就是把多个数据库系统进行整合、集成,供读者在一个统一的检索界面下进行检 索。 跨平台检索系统可以将不同媒体、 用户,从而节省用户获取资料的时间, 不同类型的数字资源以整合的方式显示给 提高查准率和查全率。 2 1 3 跨平台检索的基本原理 跨平台检索是以多个分布式异构数据源为对象的检索系统。这种系统向用户 提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发 地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以集成,在 经过去重和排序等操作后,以统一的格式将结果呈现给用户。跨库检索的这种基 本原理,决定了它的优点:提供统一的检索接口,能够减轻用户学习检索不同数 据源的负担;并发检索,能节省用户总的检索时间;结果集成,大大方便了用户 的浏览和选择。该系统是由用户界面层、命令转换层、资源汇总层、应用代理层 四大部分构成的。系统模型如图2 1 所示。 用应 用 户资用全 户 命 源检部 界 令汇索 数 转总代据 面 换层理库 层层 图2 - 1 跨平台检索系统模型 f i g u r e2 - 1 c r o s sp l a t f o r mr e t r i e v a ls y s t e mm o d e 用户界面:用户界面包括检索输入界面、检索结果输出界面和目标库信息表 维护晃面。在检索输入界面中,用户输入待检索词,系统将检索条件发送给目标 库信息表中所指向的数据库群。在输出界面中,检索结果将展现为一个线性的列 表,是经过排序处理的、格式一致的信息。在目标库信息表的维护界面中,可以 注册用户需要检索的目标数据库群。 命令转换层:命令转换层首先接受用户的命令,然后从目标信息表中取出发 送目标信息,并与用户的检索条件集成,形成向目标数据库发送请求的命令串, 7 太原理工大学硕士研究生学位论文 最后将各检索命令串发送给相应的检索代理层。 资源汇总层:汇总处理层从各个返回的检索结果中分别整理出有用的信息, 经过排序处理后形成统一的格式发送到输出界面,返回给检索者。 检索代理层:负责与具体的各个数据库进行通信,并将已处理好的检索命令 串发送到相应的数据库系统,同时,检索代理器还负责收集返回的检索结果,并 将结果递交给汇总处理层。 2 2 跨平台检索系统中异构数据库连接与存取的相关技术 数字图书馆是一个分布式的大型数据库系统,即以分布式海量数据库为支撑, 基于智能检索技术和宽带高速网络技术的大型、开放、分布式数据库。从这个概 念阐述中,我们可以看出,要实现跨平台检索,就必须解决分布式技术的几个相 关问题: 1 必须能够对某台远程计算机另一个地址空间产生调用; 2 必须与异构平台及相关操作系统实现互操作; 3 必须有通过合适的网络协议进行理解并实现通信的能力: 4 能够与使用同一种编程语言或不同编程语言建立的各种软件组件进行协作。 面对当前信息资源和网络环境的复杂性,要实现异构数据库的跨库检索,传 统的d b m s ( 数据库管理系统) 已经很难解决。近几年许多新的相关技术相继推 出,综合应用这些技术可进行异构数据库之间的连接和数据转换,接受用户对些 数据库的并行交叉访问和查询,对查询结果进行融合处理并反馈给用户端。纵览 近年来的进展,主要包括以下相关技术: 2 2 1公共网关接口技术c g i 利用c g i 可实现w e b 与数据库的连接,c g i ( c o m m o ng a t e w a yi n t e r f a c e ) 是最 早的w e b 程序设计方式,它提供一个外部应用程序与w e b 服务器交互的标准接口, 遵循c g i 标准编写的w e b 服务器端的可执行程序称为c g i 程序。c g i 最大的用处 之一是其与浏览w e b 站点的用户之间的交互能力,使信息网关、反馈机制、访问 数据库、查询等一系列灵活复杂的操作得以实现。利用c g i 实现与数据库的连接, 最大的优点在于其通用性。目前几乎所有的h t t p 服务器都支持c g i 。 太原理工大学硕士研究生学位论文 2 2 2 开放式数据库互连技术o d b c o d b c ( o p e n d a t a b a s e c o n n e c t o r ) 是由m i c r o s o f t 推出的基于c 语言的开放数据 库互连技术,主要针对客户端服务器结构的数据库。它包含访问不同数据库所要 求的o d b c 驱动程序及驱动程序所支持的函数,应用程序通过调用不同的驱动程 序所支持的函数来操纵不同的数据库。若想使应用程序操作不同类型的数据库, 就要动态地链接到不同的驱动程序上。 2 2 3j a v a 数据库互连技术j d b c j d b c ( j a v ad a t a b a s ec o n n e c t o r ) 是j a v a s o f t 公司设计的j a v a 语言的数据库a p i ( 应用编程接口) ,主要针对浏览器服务器结构的w e b 数据库。j d b c 的出现是 j a v a 编程中最重大的突破之一,它使得j a v a 程序与数据库服务器的连接更加方便。 与其他的数据库存取技术相比,j d b c 继承了j a v a 语言的所有特点,不仅具有独 立于平台运行、面向对象、坚固性好的优点,而且具有多线程、内置检校器来防 止病毒入侵等功能,更加适合网络应用。j d b c 的这些特点也特别适合于实现对 w e b 异构数据库的访问。j d b c 是连接i n t e r n e t 上异构数据库的最好方法。使用 j d b c 能够方便地向任何关系数据库发送s q l 语句。浏览器从服务器上下载含有 j d b c 接口的j a v a a p p l e t ,由浏览器直接与数据库服务器连接,自行进行数据交换。 j d b c 完成三项工作:( 1 ) 建立与数据库的连接;( 2 ) 发送s q l 语句;( 3 ) 处理查询结 果。应用j a v a 语言和j d b c 编写具有统一的用户查询界面的应用程序,可实现在 浏览器端对多个位于不同数据库服务器上的异构数据库的选择查询。 2 2 4a s p 技术和j s p 技术 a s p ( a c t i v es e r v ep a g e ) 是m i c r o s o f t 公司于1 9 9 7 年推出的一个功能强大的 w e b 应用程序开发技术,a s p 在w e b 服务器上解释脚本,可产生并执行动态交 互式、高效率的站点服务器应用程序。a s p 可以胜任基于微软w e b 服务器的各种 动态数据发布。a s p 脚本是在w e b 服务器端解释执行的,当遇到访问数据库的脚 本命令时,a s p 通过a c t i v e x 组件a d o ( a c t i v e xd a t ao b j e c t s ) 与数据库对话,通 过o d b c 与后台数据库相连,由数据库访问组件执行访问数据库操作。并将执行 结果动态生成一个h t m l 页面,返回w e b 服务器端,以响应浏览器的请求。在用 9 太原理工大学硕士研究生学位论文 户端浏览器所见到的是纯h t m l 表现的画面,例如用表格来表现的后台数据库表 中的字段内容。由于a s p 结合了脚本语言,可以通过编程访问a c t i v e x 组件,并 且具有现场自动生成h t m l 的能力,所以它成为建立动态w e b 站点的有效工具。 在结构关系上,a s p 是通过o d b c 与数据库打交道。因此,可向上层兼容各类数 据。 另一种相似的动态网页技术j s p 由s u n 公司于1 9 9 9 年发布,j s p 支持的是完 全的j a v a ,可以充分发挥j a v a 面向对象编程的强大功能,可以使用j 2 e e 标准服 务,使用大量的j a v aa p i ,如j d b ca p i 。在j s p 的众多优点之中,其中之一是它 能将h t m l 编码从w e b 页面的业务逻辑中有效地分离出来。用j s p 访问可重用的 组件,如s e r v l e t 、j a v a b e a n 和基于j a v a 的w e b 应用程序。j s p 还支持在w e b 页 面中直接嵌入j a v a 代码。可用两种方法访问j s p 文件:浏览器发送j s p 文件请求、 发送至s e r v l e t 的请求。 2 2 5x m l 中间件技术 目前网上有很多信息格式是半结构化或非结构化的,其来源极端异构。利用 x m l 作为中间件对这些信息进行元数据搜索,提供一个统一界面的检索系统是一 个较好的应用方案。x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是由 w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 组织于1 9 9 8 年2 月制定的一种通用语言规范, 它是专门为w e b 应用程序而设计的s g m l 的简化子集。x m l 最大的优点在于它 的数据描述和传送能力,具备很强的开放性。为了使基于x m l 的数据交换成为可 能,必须实现数据库的x m l 数据存取,并且将x m l 数据同应用程序集成,进而 使之同现有的规则和技术相结合。开发基于x m l 动态应用( 如动态信息发布、动 态数据交换等) 的前提是所支持的数据库必须能支持x m l 。x m l 提供描述不同类 型数据的标准格式,例如:数据库记录、图形、声音等,并且可以正确、一致地 解码、管理和显示信息。 2 3国内外跨平台检索技术研究现状 目前,已有很多商业机构和图书馆在从事跨库检索技术的研发,如w e b f e a t 公司的w e b f e a tp r i s m 、e xl i b r i s 公司的m e t a l i b 、e n d e a v o r 公司的e n c o m p a s s 、 l o 太原理工大学硕士研究生学位论文 i n n o v a t i v ei n t e r f a c e s 公司的m i l l e n n i u ma c c e s sp l u s ( m a p ) 、清华同方也提出了数 字化图书馆知识网络服务共建共享项目。以上的几种跨库检索技术在功能和技术 上有很多共同点,但也各有其特色和核心技术。 一、通过格式转换实现跨数据库的检索 即将各种异构数据库的部分数据导入一个数据库系统中。其优点:一是检索 反应速度快。二是不会因个别数据库访问失败而影响整体检索效率。其缺点:一 是收录的数据库数量不能太多。基于这种模式的技术,只能实现对有限数据库的 集中和检索。二是涉及版权问题。要将商业数据库的数据导入生产一个新的集成 数据库并提供服务,需获得源数据库供应商的授权,否则,可能引起版权的纠纷。 二、运用元搜索引擎实现跨数据库的检索 元数据整合方式是目前应用较多的跨平台系统。元搜索引擎主要运用于网页 信息搜索,而现有各种电子资源数据库都提供相应的客户端接口,因此可利用元 搜索引擎的原理对各个异构数据库进行统一检索。 元搜索引擎是通过对多个全文数据库按一定标准( 如d c ) 进行标引后,组成 一个元数据集,通常用数据库方式储存。通过一个发布系统( w e b 服务器) 与客 户端进行交互。用户看到的是一个集成后的多数据库查询系统,得到的是对原始 数据的描述信息。通过一个特定连接,用户可以直接从原始数据库中得到原文数 据。如图2 2 所示。 v i 原文发布系统l 【元数据发布系统】 ”原始数据源 客户端 图2 - 2 元数据整合模式 f i g u r e 2 2 m e t a d a t ac o n f o r m i t yp a t t e r n 太原理工大学硕士研究生学位论文 三、通过数据库中间件实现跨平台的检索 用中间件实现的异构数据库跨库检索系统一般来讲可以分为三个部分: ( 1 ) 统一检索界面。它的主要功能为:以账户和密码登录或i p 检测的方式实现读者的 身份认证;接受读者输入的检索要求;允许读者选择自己需要的数据库或者选择 所有的数据库,选择排序方式等;给读者使用该操作系统提供相关的说明、要求 和帮助等;将跨库检索系统查询的结果显示给读者;( 2 ) 数据处理系统。它的主 要作用是:按照检索系统的要求,对读者输入的检索词和构建的检索式进行一定 的规范,然后将检索要求( 检索指令) 提供给中间件进行下一步的处理;接收中 间件从各个数据库获取的结果;对接收的数据进行相应处理,包括数据合并、去 重和排序;可以按照统一检索界面对读者选择的其他排序要求进行重新排序等: ( 3 ) 中间件。中间件是2 0 世纪8 0 年代末9 0 年代初发展起来的基础软件,是一 种构建网络分布式应用系统的重要支撑工具,其主要功能是解决网络分布计算机 环境中多异构数据资源的互联共享问题,实现多种应用软件的协调工作。它的主 要功能是将读者输入的检索词、检索表达式按照各个数据库的要求转换成其能够 接受的检索式和检索指令,提供给各个数据库进行检索;获取各个数据库返回的 检索结果,并按照统一检索平台要求的数据格式进行转换:将转换后的数据提供 给数据处理层进一步的处理。采用中间件技术,将来自用户的查询请求分解成对 不同原始数据库的独立访问请求,通过标准( o d b c 、o l e 、j d b c 和a d o n e t ) 或非标准的数据访问接口( a p i ) 对原始数据库进行实时访问并将结果整合后通过 发布系统( 或直接) 返回给用户。如图2 2 所示。 这种方式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时 得到反映:原文获取可以直接通过中间件获得,从而省去原文数据库的原文发布 服务:但应用局限于原始数据库必须提供访问接口,而且由于各数据库的速度问 题而影响到用户得到结果的时间。另外中间件的开发和获取各数据库后的数据整 合策略和技术需要合理规划。 1 2 太原理工大学硕士研究生学位论文 数据处理( 数据合并、去重、排序) l i工i工 i 纛巍 中间件中间件中间件 ( 检索指令( 检索指令( 检索指令 转换,结果获 转换,结果获转换,结果获 illi lc n k i 锨据ii8 嚣ii 书譬据ii 图2 - 2 中间件模式 f i g u r e 2 2 m i d d l e w a r ep a t t e r n 2 4 小结 本章介绍了跨平台检索技术的概念及其工作原理,分析了目前实现跨平台检 索的几种方案。通过分析可以看出,由于受到所选用技术等因素的制约,这些跨 平台检索系统的实现模式并没有从真正意义上解决分布式技术的相关问题,同时 这些方法在结构和应用上还不能达到真正的统一资源、整合发布的要求。因此, 设计并开发一种模式新颖、技术先进的跨平台检索系统具有重要的意义。 随着计算机与互联网技术的飞速发展,新一代w e b 应用程序w e bs e r v i c e s 技术和m v c 设计模式的出现,为新型跨平台检索系统的实现提供了技术上的支 持。下一章将就这些技术分别进行介绍、分析。 太原理工大学硕士研究生学位论文 第三章系统主要技术基础 3 1 中间件技术 3 1 1中间件技术的概念及特点 i n t e r n e t 及w w w 的出现,使计算机的应用范围更为广阔,许多应用程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论