已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)web服务在搜索引擎中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 w 曲服务是当前万维网技术讨论的热点,作为一种分布式技术的革新,它最大的 优势在于定义了应用程序之间交互的标准化,并且使用x m l 作为数据传输的中间格 式,突破了应用程序所在平台和实现语言的限制,为各种基于w 曲的应用程序的开发 提供了广阔的前景。 本文首先阐述与w 曲服务相关的一系列核心技术、标准以及规范等基本概念, 然后结合w e b 服务与搜索引擎技术,探索w 曲服务在资源搜索和信息检索方面的应 用,并对w 曲服务技术本身的发展做了一定的展望。 其次,基于前面的理论研究,结合搜索引擎和信息检索技术的特点,探索如何利 用w 曲服务来增强搜索引擎的搜索能力。本文从功能整合的角度出发,以w 曲服务 为基础,尝试将资源信息系统的内部检索能力和搜索引擎的广域网搜索功能相结合, 以统一的方式搜索不用类型的资源,从而增大搜索引擎的数据检索范围。此外,本文 还探讨了w 曲服务在移动应用程序开发中的优势与不足,通过模拟器来模拟移动设备 对w 曲服务的访问。利用w 曲服务的平台无关特性,能够在一定程度上提高应用程 序的开发效率。作为对理论的实践,本文设计实现了一个小型搜索器的系统雏形,命 名为u i l i s e a r c h ,在程序设计的过程中验证了w 曲服务技术的关键特性和本文对w 曲 服务应用方式的一些设想,得到了较为理想的效果。 最后本文通过分析万维网的发展趋势,展望w 曲服务在下一代万维网将发挥的 巨大作用,同时结合搜索引擎下一代万维网中角色的转变,探讨w 曲服务给下一代万 维网中的搜索引擎所能带来的积极影响。 关键字:w e b 服务、搜索引擎、s o a p 、万维网 江南大学硕士学位论文 a b s t r a c t w e bs e r v l c eh a sb e c o m eo n eo ft 1 1 em o s tl m p o r t a n tw e b r e l a t e dt e c h n o l o 舀e s a sa r e n o v a t i o no fd i s 砸b u t e dt e c h n o l o g y ,山em o s ta d v a l l t a g ep m v i d e db yw 曲s e r v i c ei s s t a n d 矾i z a t i o no fc o 姗u i l i c a t i o nb e 附e e na p p l i c a 廿o n sa c m s sw e b w 曲s e r v i c eu s e s x m l 船d a t af b 玎m to fe x c h a n g i n ga l l dc o 姗u i l i c a t i n g ,w l l i c hm a k ei te a s i e rf o r c o m p o n e n t l e v e l i n t e g r a d o n hm i sp 印e r ,血ec o r et e c h n o l o g i e so fw 曲s e n ,i c e ,a sw e ua st 1 1 es t a n d a r d sa n d a r c h i t e c m r e ,m ec o m b i n a t i o no fw e bs e r v i c ea n ds e a r c he n 百n er e l a t e dt e c l l l l o l o g ya r e b e 啦d e s c r i b e d t h e n ,m ef u n c d o n a l i t i e so fw e bs e i c ei nt l l ea r e ao fi n f o 册a t i o ns e a r c h a n dr e m e v a la r ei n v e s g a t 甜 a f t e rt h a t ,b a s e do nt h er e s e a r c l l i n ga l l da i l a l y s i so fw e bs e r v i c e ,c o n s i d e 血gt 1 1 e f e a t i l r e so fi n f o 皿a t i o ns e a r c ha n dr e t r i e v a l ,t l l em a i nw o r ko ft l l i sp a p e ri st o 丘n dh o ww r e b s e r v i c ee i l l l a n c e st l l es e a r c h i n ga b i l i t yo fs e a r c he n 垂n e i i l t e g r a t i o ni st l l em a i nf a c t o ro ft 1 1 e r o l eo fw 曲s e r v i c eo nt h ef i e l do fs e a r c he n g i n e h l t e g r a t et l l ea b i h t yo fi n f b 皿a t i o n r e m e v a li ni n f o 胁a d o nm a n a g e m e n ts y s t e mi m os e a r c h e n g i n e ,a n dt 1 1 e nr e m e v e i n f o 珊a t i o n 舶md i f f e r e n t 】d n d so fs o u r c ei nau i l i f i e dw a y f u m l e 肌0 r e ,i l l l i sp a p e rt t l e b e n e f i ta l l ds h o n a g eo f 山ec o m m u n i c a t i o nw i t l lm o b i t ed e v i c ev i aw e bs e r v i c ea r e 卸a l y z e d ,卸dt l l i sp m c e s si se n “a t e d m o r e o v e r ,ad e m os y s t e m ,n a m e du i l i s e a r c h ,i s d e s i g n e da l l dp a n l yi m p l e i n e n t c d ,t l l 】r o u 曲w h i c ht ov e r i f yo i l rr e s e a r c h i n ga l l da s s u m p t i o n o nw 曲s e r v i c e t 1 1 en e x tg e n e f a t i o no fw o d dw i d ew 曲卸dw e bs e r v i c ea r ea l s ob e i i l gp m s p e c t e di n t l l i sp 印e r a sm e 衄j nt e c l l n o l o g yo fc o 蚴u i l i c a t i n g ,w 曲s e n ,i c ew mt a k em o r e i m p o n a l l tm l ei nt t l en e x tg c n e m t i o no fw w w a j l ds e a r c he n 舀n e k e yw o r d s :w 曲s e r v i c e ,s e a r c he n 西n e ,s o a p ,w o r l dw i d ew 曲 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名 毋嘶辟 日期:w 年月,日 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 虢芬a ,衿翩签名:笤逸 日期:n 1 ,年月日 第一章绪论 1 1 课题研究背景 第1 章绪论 随着社会信息化程度的不断提高,万维网作为公共基础设施,日益成为日常生活 中不可或缺的工具,人们通过万维网进行信息查阅、网上购物、考试报名、影音点播 以及视频电话等一系列活动;与此同时,互联网也从最初的一个信息浏览的空间发展 成为一个可供各种应用程序和智能设备获取资源和集成应用的平台。万维网发明人 n mb 啪e r s l 成就万维网的发展做过如下的预想:“在第一阶段,万维网变成了一个 有利于人们相互合作的强大工具;在其发展的第二阶段,合作延伸到了计算机,机器 变得可以分析万维网上的所有数据包括内容、链接、以及人与计算机之间的交 互。”1 1 j 当前的万维网也正是按照这一设想,在不断的演变。 1 1 1 万维网的发展历程 在万维网诞生初期的十年间,随着网络技术的发展和万维网用户数目的不断增 多,万维网上的信息量呈飞速地增长,应用模式也从c s 到b s 再到中间件以及智能 化的方向不断变化,浏览模式从单纯静态删l 页面到动态页面,并提供用户和网站 的交互功能。这一时期,万维网作为信息查阅和浏览的工具发挥了巨大的作用,主要 便是静态或动态的网页。 2 0 0 0 年以后至今,万维网所扮演的角色不再仅是作为信息浏览的工具,各种类 型的应用程序进入到万维网,多种多样的智能设备或移动设备连接到网络,并以万维 网作为一个平台,进行应用间的、设备问的以及应用与设备间的信息交互与功能集成。 万维网本身也在不断发展来适应这一转变,其所体现出来的核心思想便是资源共享和 协同工作。资源的种类多种多样,包括具有特定逻辑功能的软件模块或特定设备的计 算能力等软硬件资源,也包括特定格式信息或领域本体知识等不同层次的资源等等。 协同工作则是指设备与应用程序间的同步、组合与智能化。 下一代的万维网将是带有语义的万维网,也就是语义w 曲。语义w 曲是一组w 曲 标准的集合,提供一种通用的框架来使各种设备能够理解发布在网络中的信息的意义 【2 】。在语义w 曲下,信息通过一组被良好定义的术语表来描述,例如可使用标记语 言r d f 来描述资源的语义信息。其通过属性和属性的值,来建立资源与资源之间的 联系,机器通过术语表来理解资源信息的意义,演绎资源之间的联系。 随着万维网的不断演变,与网络相关的各种技术也在发展变化之中,从早期的 s g m l 、 r 蹦l 技术到c g i 、a s p 、j s p 以及中间件技术,再到如今已成为热点的w 曲 服务技术、a g e n t 技术、网格、p 2 p 以及语义搜索等等。同时,万维网的发展与相关 技术的发展相互影响,共同促进,使得技术的发展同样以交互、共享和协作为主线, 江南大学硕士学位论文 在不断演变。 1 1 2w e b 服务的价值 w 曲服务( w 曲s e r v i c e ) 是当前万维网发展中的热点技术之一。当越来越多的 应用汇集到万维网,应用之间迫切需要解决的一个问题便是通信与协作的问题,早些 时候的c 0 r b a ( c o 衄o no b j e c tr e q u e s tb r o k e ra r c l l i t e c 眦,公共对象请求代理架构) 和d c o m ( d i s 证b u t c dc o m p o n e n t0 b j e c tm o d e l ,分布式组件对象模型) 便是为解决 应用程序之间的通信问题所衍生的技术,这些技术使用点标识来确定中间件中的目标 对象,使用方法标识来确定所调用方法的签名【3 l 。尽管这两种技术已经在许多平台上 得到了实现,然而由于标准不够开放( 都是由某一厂商制定的) ,其实现办法无一例 外的都是以来于单一产品提供商的解决方案,这使得更广范围的应用间通信受到了限 制,而且无法扩展到像安全与事务管理那样的更高级别的服务中去。然而事实上,企 业更多地希望在企业系统外部与分布式应用程序整合,而且这种整合与应用程序的出 品商和平台无关,并且具有很高的可互操作性,最好还能够很方便的部署,这便是问 题所在。 w 曲服务作为一种新型的分布式计算模式,便是在这样的背景下产生的。可以说 w 曲服务是一套开放的规范,建立在一系列i i l t e m e t 标准之上,诸如:h 兀1 p 、l 、 s o a p 、w s d l 、u d d i 以及w s f l 【4 ,5 一。w e b 服务协议栈如下所示: 表1 1 w 曲服务协议栈 t 0 0 i l a y e r b u s i n e s si s s u e s w s f ls e r v i c ef i o w u d d l s e r v i c ed i s c a v e r y & p u b i i c a t i o n o s e r v i c ed e s c r i d t i o n 互 竺 s e r v i c el m d i e m e n t a 埘0 n 皇 w s d l 。 s e r v i c ei n t e r f a c e o 啼 芯 j a s e r v i c em e s s a g i n g o 己 一 石 s o a px m l - b e dm e s s a g n g o h t t p 。f t p 。s m t pt r a n s d 0 r t 这些都是开放的标准而不是属于某一厂商,这使得任何企业或个人,只要符合 w 曲服务标准,都可以和授权的外部应用进行通信,从而实现了平台无关性。 1 2 w e b 服务在搜索引擎中的应用 1 2 1 需要什么样的搜索引擎 万维网上信息纷繁复杂浩瀚如海,这使得如何找到真正所需要的信息存在一定困 难,在从互联网上获取信息的过程中,需要人脑与机器的配合,并且以人为主导,由 人脑来过滤处理信息。此外,因特网中的节点数目也在不断快速增长,根据n e t c r a 正c o m 第一章绪论 在2 0 0 5 年l o 月的调查,仅2 0 0 5 年9 月份一个月,因特网中便增加了超过2 6 0 万个 可响应的服务器节点j 。如何在这众多的资源和信息中进行有效的信息搜索,是解决 信息饥饿的关键。在这一过程里,搜索引擎( s e a r c he n 百n e ) 发挥着重要的作用,作 为信息和资源检索的门户( p o n a l ) ,搜索引擎以一定的策略在因特网中搜集发现信息 和资源,对信息和资源进行分析、提取和组织,并为用户提供搜索服务,从而起到信 息和资源导航的作用。 搜索引擎分为目录式搜索引擎、机器人式搜索引擎和元搜索引掣8 1 ,近些年随着 语义w 曲的兴起,又出现了以资源的语义为检索目标的语义搜索引擎,但由于语义 w 曲本身技术发展还不完善,所以语义搜索引擎大多在试验阶段,尚无成型的产品。 万维网上充斥着大量非结构化或半结构化的离散异构数据,当前大多的商业搜索 引擎,无论属于那种类型,最终的实现办法基本都是通过抓回网页数据,进行全文检 索匹配( 人工或通过机器人程序自动检索) ,进而找出搜索的结果。这在以文档为中 心的万维网第一阶段确实能够发挥巨大作用,帮助用户迅速查找有用信息。但随着万 维网的发展,其重心已经不在是静态的文档,而是各种各样分布于不同系统的资源, 包括各种信息系统如数字图书馆等中的结构化信息数据、各种多媒体数据库中的多媒 体信息、各种外部设备的采样数据如卫星照片以及个人移动设备的上下行信息如m o 。 消息等等,对于这些外部系统的信息,以全文匹配为主检索办法的搜索引擎往往没有 很好的解决方案。 另外,对于搜索引擎而言,与外部资源管理系统的通信多采用分布式的w 曲计 算模型如c 0 r b a 、d c o m 或e j b 等,然而在对这些技术的使用上都有语言或平台的 限制,如c o r b a 必须运行在支持c o r b a 对象的平台上;d c o m 必须运行在w i n d o w s 平台上;e j b 必须使用j a v a 来开发等。这使得当有新的信息系统与搜索引擎进行整合 时,必须开发适应新系统的连接器,系统维护变得困难,而且这种异构的分布式对象 连接本身就很复杂,实现成本较高。 万维网的发展趋势就是成为一个机器间设备间进行交互和协作的平台,这使得万 维网内资源本身将越来越多地带有语义信息,以更好地支持应用程序问的协作;与此 同时搜索引擎的角色也在发生变化,不仅为人服务,同时也为机器服务,成为设备问 资源查找和知识发现的中间桥梁。 理想的搜索引擎不但能够搜索发现文档数据,也能搜索和发现各种资源,能够和 外部的各种异构资源管理系统交互,结果信息能够以不同的方式返回给用户;同时, 搜索引擎还要能够直接和智能手机等移动设备交互,在语义w 曲环境下,可以进行知 识的发现、推理和演绎j 。 1 2 2w e b 服务带来的契机 以w e b 服务为核心的分布式计算模式,能够为搜索引擎的发展带来新的契机。如 前所述,w 曲服务建立在公认的标准之上,不受某一种平台或语言的限制,并且通过 h 兀 p 传输,对防火墙是友好的;这为系统间或系统内模块间的交互和整合带来了便 江南大学硕士学位论文 利条件,尤其是对于分布式的系统,更是如此。对于搜索引擎而言,w e b 服务体现了 如下几点优势: 与外部资源系统的整合w 曲服务具有良好的交互模式和发现机制,不受目标 系统平台的限制,并且使用x m l 作为中间数据格式,可以描述各种类型的业 务对象,适合企业问系统的交互与合作。典型如搜索引擎与数字图书馆的整合 以及数字图书馆间的整合等。此时搜索引擎可以充分利用资源系统本身的检索 和搜索功能,藉此来增加自身有效数据的搜索范围。 应用程序与搜索引擎的交互w 曲服务使得任何授权的外部应用程序都可以调 用搜索引擎的搜索功能,将搜索能力整合到自身的功能之中。比如g 0 0 9 l e 实 验室开放的g 0 0 9 l es e a r c hw 曲a p i 就是个很好的例子例。 与移动设备的交互通过w 曲服务技术,万维网上的应用程序可以实现与移动 设备的交互。随着现实生活中各种移动业务的不断增多,w 曲服务在这一领域 的作用将越来越突出。 总之,w 曲服务技术作为一种新兴的分布式计算模式,能为资源搜索和信息检索 领域带来新的发展。 1 3 论文所作的工作及论文组织 目前,w 曲服务和搜索引擎都是网络技术特别是万维网技术研究的热点,但以 w 曲服务技术为核心的系统开发还不具规模,本课题将深入探讨与研究w 曲服务在 搜索引擎下的应用,分析w e b 服务对搜索引擎实现方式所能带来的影响,目的在于通 过研究w 曲服务这一新型的远程数据交换模式,在分布式w 曲信息检索中发挥的作 用以及应用价值,来认识w 曲服务技术在下一代分布式软件开发中的意义。同时,下 一代的h l t e m e t 是带有语义的万维网,也就是语义w 曲,而w 曲服务作为网络环境下 信息交换技术的一种革新,正是语义w 曲研究的核心技术。所以说,对w 曲服务技 术本身以及应用的深入研究无论在学术上还是在实际应用中都是有现实意义的。 本文主要研究w 曲服务技术在搜索引擎和信息检索系统的实现方式上所能带来 的变革。通过理论研究和对前人成果的分析,设计了一个小型搜索器的系统模型,命 名为u i l i s e a r c h ,以此作为对理论研究的实践。同时,这一模型设计了可开放的w 曲 服务接口,用于模拟与移动设备的互连,可以进行不同的方式的应用程序整合。 本文的另一个研究重点是搜索引擎和信息检索系统之间搜索功能的整合,其可行 性的基础便是w e b 服务。典型如搜索引擎和数字图书馆的交互,w 曲服务为这种交 互提供了良好支持,彼此间的实现细节对另一端是透明的,符合简单、通用的原则。 本文对这一方面也作了深入的探讨。 本论文组织如下: 第一章序论 第二章对w 曲服务技术作深入细致的探讨和研究,包括w 曲服务的基本概念、 4 第一章绪论 核心技术、在各种领域的应用以及所使用的协议、未来发展趋势等方面。进而对这些 方面的应用进行了总结和分析,同时研究已有的一些w e b 服务相关成果,对w 曲服 务技术本身的发展做了一定的展望。 第三章在前面章节理论研究的基础上,结合搜索引擎和信息检索技术的特点,进 行将w 曲服务与搜索引擎相结合的一些尝试,尝试将资源信息系统的内部检索能力和 搜索引擎的广域网搜索功能相结合,以统一的方式搜索不同资源,以此来增大搜索引 擎有效数据的检索范围。同时,作为对理论的实践,本章介绍了我们设计的一个小型 搜索器的系统模型,在设计开发过程中验证了w 曲服务技术的关键特性和对w 曲服 务应用方式的一些设想。 第四章分析了万维网的发展趋势,着重探讨w 曲服务在下一代万维网下的搜索 引擎中所能发挥的作用。在w 曲服务技术的支持下,搜索引擎将扮演越来越重要的角 色。 第五章总结全文,展望下一步的工作。 第二章w 曲服务研究综述 第2 章w e b 服务研究综述 究竟w 曲服务是什么? 从不同的角度可以给出不同的定义。最具代表性的一种 说法为:w 曲服务就是通过标准的w 曲协议,可编程访问的w 曲组件【“。其最初由 i b m 和m i c m s o f t 发起,之后受到学术界和业界的广泛支持,并且越来越受到重视。 随着近几年电子商务的发展,网络服务也越来越多,这使得软件之间的互通和互动变 得非常重要,为了能更好的使这些服务功能相互运作,需要有一个能够尽量实现简单 并且跨平台的技术,这便是w 曲服务【1 1 】。 2 1w e b 服务架构 从功能上来看,可以认为w 曲服务是通过h t p 协议,以x m l 来描述数据交换 格式的r p c ( r e m o t ep r o c e d l l r ec a l l ) 。 r p c 由来已久,最初主要的实现方式是直接基于t c p 口协议,以自定义的二进 制数据格式来进行数据交换,这使得程序实现起来比较复杂,而且不能很好的解决跨 平台问题。这一时期主要是通过专门的客户端软件来接收数据,执行特定的任务,典 型如c s 模式的应用软件。之后万维网兴起,浏览器大行其道,数据以h 蹦l 格式跨 越h t t p 进行传播;此时的数据作为信息的载体,由 r l 标签来定义格式,供用户 在万维网浏览信息。这里的r p c ,基本都是h 兀p 协议中标准的p o s t ,g e t 等操作, 功能相对单一,而且用h r m l 无法描述业务对象,当越来越多的应用需要跨越w 曲 进行功能上的交互时,h r m l 作为机器通信的介质就显得有些力不从心。之后便是 w 曲服务,w 曲服务是对r p c 技术的革新,完全基于标准的协议,并且以订l 作为 中间数据格式,能够良好地解决平台异构的问题,同时以踟盯p 来传输,对防火墙也 是友好的。 从架构方面看,w 曲服务由服务提供者( s e r v i c ep r o v i d e r ) 、服务请求者( s e r v i c e r e q u e s t e r ) 和服务代理( s e i c eb r o k e r ) 组成,下图描述了这一架构: 2 查 l 发布 一:苌 图2 1 w 曲服务架构 上图中有三个基本操作,分别是发布( p u b l i s h ) 、查找( f i n d ) 和绑定( b i n d ) 。服务的 江南大学硕:l 学位论文 提供过程为,服务提供者以一定的方式发布其所提供的服务,发布的方式可以是任意 的,比如通过e m a i l 直接发送给服务请求者。但更有效的发布方式是将其提供的服务 发布到统一的公共目录中,这一公共目录便是u d d i 公共目录。之后服务请求者通过 服务代理,到公共目录去搜索其需要的服务,然后根据搜索到的服务条目去调用该服 务,当获得授权并绑定服务以后,请求者和提供者便直接进行通讯和交互,无需再通 过服务代理。 在上述过程中,w 曲服务参与者之问的交互都是使用一系列标准的协议。服务提 供者通过w s d l ( w 曲s e r v i c ed e s c d p t i o nl 柚g u a g e ) 来描述服务,这是一个基于x m l 的标记语言,专门用来描述w 曲服务的实现,实质上就是通过x m l 这种万能的描述 语言来描述服务提供者所提服务的接口,了解了某一w 曲服务的w s d l 描述,就等 于知道了调用该服务所需要的全部信息。然后服务提供者通过u d d i ( u n i v e r s a l d e s c r i p d o n ,d i s c o v e r ya n dh l t e g r a t i o n ) 来发布服务,这里,服务代理和服务请求者同 样也是通过u d d i 来进行查找服务和绑定服务。u d d i 同样也是基于v i l 的一种描 述规范,规定了如何进行w 曲服务发布、发现和绑定的细节。最后是w 曲服务的调 用过程,服务请求者通过向服务对象发送s o a p ( s i m p l e0 b j e c t a c c e s sp m t o c 0 1 ) 消息 与服务对象实体进行交互,执行结果同样也是通过s o a p 消息返回给客户端;这里所 说的s o a p 消息是一种通过x m l 来描述的数据交换格式,实质就是按统一标准,对 用于数据交换的中间对象进行序列化和反序列化。不难发现,w 曲服务架构中的模块 间的交互都是基于) 。l 格式来进行传递的,这是因为利用x m l 表示的消息容易被 程序阅读和理解,并且x m l 文档具有跨平台和松耦合的特点,可以说讧l 是整个 w 曲服务的基础叫。 基于上述讨论我们不难发现w 曲服务具有如下些特性: w 曲服务所构成的是一个分布式环境,可以通过接口和代理访问远程的业务 对象,并可在对象上执行操作。 w 曲服务使用三层模型,定义了三种角色。 w 曲服务的组件是松耦合的。服务请求者可以在运行时查询代理,得到某服 务的接口,进而进行服务绑定,而不必硬编码一个u r l 地址或方法的名称, 这使得基于w e b 服务的网络可以是自我维护的。 w 曲服务基于标准的网络协议进行通讯,并且相关协议都是基于x m l 的语 法,受到广泛平台的支持,确保了w 曲服务的异构可操作性和宿主无关性。 2 2w e b 服务核心技术 从技术角度看待w 曲服务,其核心技术包括w 曲服务本身的一些技术,诸如x m l 技术、w s d l 技术、u d d i 技术以及w s f l 技术;同时也包括w 曲服务在使用过程中 的一些衍生技术,包括w 曲服务的组合技术、w 曲服务安全性以及w 曲服务的自动 化问题等等 第二章w 曲服务研究综述 2 2 1 通过s o a p 来调用服务 s o a p 全称为简单对象访问协议,是一种用于发送x m l 消息的机制,可以用来 发送消息,也可用于发送x m l 格式编码的远程过程调用请求。s o a p 由三个基本部 分组成,分别为s 0 a p 信函( s o a pe n v e l o p e ) 、s o a p 编码规则和s 0 a pr p c 表达形 式。其中s o a p 信函是s o a p 消息的载体,在s 0 a p 的编码规则中,使用标签 和 进行定义,这是整个消息体的根节 点,是s o a p 消息的必要组件,s o a p 信函上还有一些附加的属性,例如命名空间标 准等。信函包括两个主要的子节点,分别为消息头( ) 和消息体 ( 的属性中说明了命名空间 等信息;消息头定义的是消息的附加信息,在实际运行中,消息头是可以省略的,此 处定义的内容为发送到终端的类型和消息类型:消息体包含了实际发送的内容,这里 包括了搜索条目的条数、条目类型、主机名称以及快照等信息【l3 】。 9 江南大学硕士学位论文 图2 3 s o a p 消息体样例 上图所示的是一个简化了的s o a p 消息,基本展示了s o a p 的全貌。对于基于s o a p 的r p c 的s o a p 格式与此大同小异,不同在于涉及到了一些方法签名。s o a p 的强大 之处在于其可以描述任意类型的对象,这使得网络中异构节点之间共享计算能力成为 可能。 2 2 2 服务的描述 如前所述,遵循广泛承认和支持的标准,是w e b 服务的最大优势之一,之所以 这样讲,是因为标准的普及能带来众多好处,比如不同的铁轨公司生产的铁轨都能接 到一起,并且任意厂商出产的列车都能在上行驶,就是因为一切皆遵循着标准。s o a p 便是作为这一标准而诞生的,用于不同应用程序之间交换数据的统一标准,并带来了 1 0 第二章w 曲服务研究综述 众多好处,同样,服务的描述也需要标准,这便有了w s d l 的产生。 w s d l 全称为w 曲服务描述语言,是一种基于v i l 语法的描述语言。使用w s d l 可以方便地将w e b 服务提供者与w 曲服务请求者联系起来,并可以获得s o a p 的支 持。w s d l 使用统一的标准格式,不受平台和语言的限制,能够自动为w 曲服务模 块生成代理( p m x y ) ,从这个角度可以说w s d l 是服务提供者与服务请求者之间的一 个契约【1 2 14 1 。 从w s d l 的实现细节来看,它由两部分组成:抽象定义( a b s 仃a c td e f i i l i t i o n s ) 和实体定义( c o n c r c t ed e f i i l i t i o n s ) 。一个w s d l 文档定义了一个服务,服务由不同的 端口组成( p o n ) ,一个端口由一个网络地址和一个绑定( b i n d i n g ) 组成。绑定定义 了服务请求者连接该端口时具体的传输协议和编码协议,理论上讲可以是任意的标准 协议,但一般为h 兀1 p 和s o a p 。协议和与服务相关的其它抽象信息是相互独立的, 这使得服务对象可以在不同服务器上实现同一个逻辑内容的服务,这为服务失效和服 务替换提供了支持。下面是一个简化版g o o g l ew 曲服务a p i 的w s d l 定义【9 】: 震糕黼一| 2 鬲 = ;p o n 西蓠赫m ;j 舔g l e s 溢汹n 一震蒸 i 蒸i j篆= 薰i i i 霉i i 纂三i 。 s 。 = 墓! j 竺竺“矍! :粤鬟! 塑。3 鹧罂爹= ;- 垂i i !i i 薹: i 爹 鎏誊。“ ! i i :i i 矗 羞j 銎= = 要i 和u t 两粤黟s a 蜘i ? 劬】;e i 塔:d o 鳓驰l e s 嘲蚺8 e s p 6 蛹e ”, ii 蓦i 至蓦i 至i 盯 = 擘 : 兰 磊藩每。n 篷萋差薹鋈i = :- 篓 薹; 誊; 一薹霎; ?i 细吼谛磅 。i = :。 i i i i i i j i i j = j :i = 二i i i ii 扩 毒抽i n d j 赡垂基眦a q 纳百e s 魁嘞蛳n d m 醮聊;一”啪;蠛:g 0 0 瑚蠛e a f c h 购畔 三兰 冀i 二 ;” | l t 攀:粤硒鬻! 勤蘸蘩i 幢鎏讳垂寨篱攀辫蓬;a 肿卸鬻i 二“| i i i i i j 弘 o p e 糟n o nn a m e - ”d o g o o e s e a r c h 三= 雪: !i 纛兰薹;兰 :;量 翥二= ;i: 焉 = i ;! 至兰 _ :至釉。印:呻魍舶“嘲,d 1 。“2 1 啪:卿够磐脚耐 | l :董iij 垂_ _ _ | = i 运二i n p 呲薹= 要 三! 三 ! 兰 囊! ; j 篓 _ 2 。薹薹萋 1 薹= i 鬟嘞:b o d y ! 黧5 ”e n c 嘿鲤。m 嘲! c e 5 ”黟卿o g l e 8 粤。h ”卢 jii: i 缈“耻氅i = :j :ii :i i i ii ;。 :_ 0 u 商藩 i i !兰: 薰; 篓三 三i := 芝jx薰: j 三z i - :i 寨瓣:j 9 哆! 囊? ! i 孽:n 霪孥。j 季璺o g l e s e a r c ”, ; i ;- i i ! ;| 二j 铂u i p 唾 i :; 薹霎 誉兰 i 薯”= 薰篓 o 湎i o n = = = = 薰i : i = ii= 纛i 饥i 。d i _ | _ :i i 一; i ;j = ;= = i ! | | | i _ | | | ! j ;i i i i i _ _ | _ = i j i ;i i :。鬟誊摹。喜鼍;参。、。溪4 0 。i 囊i 。一鬈。誊“囊。i蠹i碧:囊ii篱囊i鬟jt纛。j 这里省略了一些附加端口的定义,和一些关于编码细节的定义( 当然这在实际运 江南大学硕士学位论文 行中十分重要) 。从上图不难看出,文档定义了一个d o g o o 雷e s e a r c h 的端口,并且接 收d o g o o g l e s e a r c h 类型的m e s s a g e 对象,返回d o g 0 0 9 l e s e a r c h r e s p o n s e 类型的m e s s a g e 对象,这两个对象在文档的其它位置均有定义,但在上图没有给出。接下来的b i n d i n g 节点便是定义的绑定细节,指定了s t y l e 属性为r p c 的s 0 a p 标签,表示这是基于s 0 a p 的r p c 。 通过这样一个描述文档,就可以知道调用g o o g l ew 曲服务的全部细节,同时不 过分考虑其内部实现,而将其搜索功能整合到其它的应用程序之中,后续章节将介绍 的本文设计的系统模型中,将有一部分功能用到g o o 酉e 的服务,来提升自身的搜索 能力。 2 2 3 服务的发布 如同用户需要访问某一个万维网站点之前,必须要知道其网络域名或p 地址一 样,服务请求者希望调用服务,就必须知道服务对应w s d l 文件的u r l ;这便产生 了一个服务提供者和服务请求者之间的联系问题一一如何找到需要的服务。联系这两 种角色的桥梁便是u d d i ,统一描述发现与集成【l 引副。 u d d i 定义了一套关于w 曲服务发布注册表的规范,使得服务参与者可以在这类 注册表中发布和查找企业和服务,包括服务的接口和实现。u d d i 规范的官方站点为 u d d i 0 r g ,以及m m 和微软的镜像站点。u d d i 规范主要包含两项内容:数据结构 和应用程序编程接口,也就是w e b 服务的a p i 。u d d i 注册表之于w 曲服务,就好比 电话号码本之于电话一样。企业级的注册表包含如下三类信息: 白页( w l l i t ep a 鐾e s ) :提供有关企业本身的信息,在这里如果知道企业的名称, 便可以藉此找到其它的其它信息,一般这类信息都是显示生活中实际存在的 数据。有了这类信息,就可以自动查找地址簿、客户列表等业务对象。 黄页( y e l l o wp a g e s ) :提供分类功能,根据其业务,将企业划分到相应的类 别中。一个企业可以属于多个类别。 绿页( g f e e np a g e s ) :绿页包含的是企业所提供的w 曲服务的相关技术信息, 包括实现的接口、所访问的网络结点等。 u d d i 有五种核心的数据结构类型,它们分别为b u s i n e s s e n 6 t y ( 商业实体) 、 b u s i n e s s s e r v i c e ( 商业实体所发布的服务) 、b i n d i n g t c m p l a t e ( 所发布服务的技术信息) p i l b l i s h e r a s s e n i o n ( 商业实体之间的关联) 和t m o d e l ( 技术指纹) 。其中前三者具有父 子关系,即b u s i n e s s e n t i t y 包含若干b u s i n e s s s e r v i c e ,而b u s i n e s s s e r v i c e 包含若干 b i n d i n g t e l n p l a t e ,也就是说,商业实体可以发布自己的不同的服务,而所发布的服务 由服务的技术信息来确定其服务的接口、相关参数等技术要点,通过这样的设置,服 务请求者即可知道哪个商家具有哪些特定的服务,而这些服务的获取需要符合怎样的 技术规范。u d d i 的数据模型如下图所示,这里t m o d e l 在u d d i 的其他数据结构类型 中以引用的形式出现,类似于元数据的功能,其他数据结构通过引用某些t m o d e l 来 将自己限定于某个范围。这里要注意的是,所要引用的t m o d e l 是这个t m o d e l 的发布 1 2 第二章w 曲服务研究综述 者定义的,使用者要了解这个t m o d e l 的具体含义需要通过其对象中的描述 ( d e s 嘶p t i o n ) 或者指向某处的u r l 来获得进一步的信息。换个角度来考虑,t m o d e l 结构中的任何一个部分都是抽象的,只是一种符号的表示【。 图2 5 u d d i 数据模型图 。 此外,u d d i 的规范里还包括了关于w 曲服务发布的接口定义,这使得服务请求 者可以通过编程的方式进行对u d d i 信息的访问,这里的a p i 编程规范包含查询a p i 和发布a p i 两个部分,这为服务的自动发布带来了可能,编程人员可以通过u d d i 注 册的交互工具来创建丰富的接口,来进行b u s s i n e s s e n t i t y 和t m o d e l 的信息发布。 。 2 2 4w e b 服务与工作流 上述的三个方面:s o a p 、w s d l 与u d d i 解决了w 曲服务访问、描述和发布的 问题,使得万维网中不同的商业逻辑应用模块都可以方便地包装成为w 曲服务,并以 统一的方式进行交互。然而有些时候,当需要解决一个相对复杂的综合性问题时,往 往需要多个系统的多个模块间的通讯与交互,而且需要按照一定的业务规则和逻辑进 行,很多时候用户希望在这种标准的途径基础之上对商业过程进行建模,并且能够定 义各个参与者之间的关系和约束;这便是最初w 曲服务工作流的思想。 所谓工作流( w o r k n o w ) ,就是为完成某一特定任务,而定义的一系列执行过程 的序列,包括一组活动及其相互的关系,活动的开始条件和结束条件等等,从而达到 业务自动化的目的。 基于w 曲服务的工作流,是将工作流的概念引入w e b 服务的体系结构,充分利 用w e b 服务能够对万维网中不同业务逻辑的功能模块进行无缝集成的优势,以达到 w e b 服务工作的自动化或半自动化。在这种需求的驱动下所产生的w 曲服务流语言 w s f l ( w 曲s e r v i c ef l o wl a n g u a g e ) ,便是一种用于w e b 服务的工作流描述语言。 该语言最初由i b m 提出,并在两个层面上发布了一些标准,包括用有向图模型 来定义和执行商业模型,以及定义一种公共的接口并且允许把商业流程输出成为w 曲 江南大学硕士学位论文 服务。总体来说,w s f l 是一种建模工具,使用人和机器都容易理解的v i l 语言作 为描述手段。由于w 曲服务良好的跨平台的性质,使得w s f l 能够跨越技术和商业 的边界对商业流程进行建模,这是对工作流的新发展。 工作流由w s f l 文档描述,一个w s f l 文档包含若干流模型( f l o wm o d e l s ) 和 全局模型( g 1 0 b a lm o d e l s ) ,用以联系不同的角色】。角色在工作流模型中代表服务 提供商的类型,假设希望开发一个旅游系统,这里既要和用户交互,也要和外部计算 节点如航空公司或目的地的汽车租赁公司等交互,工作流将这种流程进行图形化的表 示。 在实现过程中,角色、消息、控制链以及数据链等元素都是通过基于垤l 的语 法来描述和实现,从而可以把所描述的处理流程当成一个独立的w 曲服务,并可以把 该流程的某些活动输出成为该服务的公共接口。 2 3 与信息检索相关的w e b 服务技术 与本论文所讨论的资源搜索与信息检索相关的w 曲服务包含一系列范畴,经过 研究总结,主要有如下几个方面。 2 3 1 数字图书馆领域的w e b 服务检索规范 在数字图书馆领域,分布式信息检索一直是讨论的热门话题,w 曲服务为其发展 带来了新的契机。在此之前,信息检索多采用z 3 9 5 0 协议进行数据传出和交互,这 一协议是该领域的a n s i s 0 标准。但是这种协议基于t c p m 进行二进制的数据传 输,实现复杂,而且是基于有状态的连接,不适于w e b 应用的开发。随着万维网的发 展,相关部门开始计划发布z 3 9 5 0 的下一个版本:z 斟g 。 z 玳g 可以说z 3 9 5 0 面向w 曲的版本,充分利用了w e b 服务的优势,主要包括 s r w ,i i 、c q l 、z o o m 、e z 3 9 5 0 、z e e r e x 五个部分【1 8 】。 s r w i ,( s e a r c hr e m e v a l w 曲s e n ,i c e u r l ) ,是一个针对w e b 应用的信息检索协 议,定义了一个抽象的、通用的模型,不同系统的具体实现都可以映射到该抽象模型 上,从而可以实现万维网中不同资源以及分布式数据库的统一检索,可以说s r w ,i , 利用z 3 9 5 0 的长处和二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学走读协议合同范本
- 律师费退款协议书
- 离婚协议书住址
- 清朝劳动协议书
- 2025年汽车冰库测试题及答案
- 2025至2030塑料挤压制品行业产业运行态势及投资规划深度研究报告
- 猪圈转卖协议书
- 2025年购房与房产中介服务合同
- 2025至2030车库加热器行业产业运行态势及投资规划深度研究报告
- 2025-2030绿色建筑行业市场现状供需分析及投资价值规划报告
- 2025年广东省中考英语试卷深度评析及2026年备考策略
- (2025)全市党员干部党规党纪廉政知识竞赛题库及答案
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 驯龙高手优质获奖课件
- 《韩国20-90年代的近代文学史分析报告7200字》
- 紫外光固化涂料
- 2023年云南交投集团招聘笔试题库及答案解析
- GB/T 13377-2010原油和液体或固体石油产品密度或相对密度的测定毛细管塞比重瓶和带刻度双毛细管比重瓶法
- GB/T 13275-1991一般用途离心通风机技术条件
- 2023年高考理科数学模拟试卷(全国卷)
- 无底薪业务员协议书范本
评论
0/150
提交评论