




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)基于rdf的web资源管理关键技术研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息t 程大学硕士学位论文 摘要 资源是授权管理和访问控制的对象,资源管理是授权管理和访问控制的基础。随 着w e b 的飞速发展和广泛应用,w e b 资源已成为一种最重要的网络资源。越来越多的 信息系统也采用w e b 技术进行开发,w e b 信息系统中同样需要资源管理。因此,开展 w e b 资源管理研究具有重要的实用价值。 本文主要研究以授权管理为目的的w e b 资源管理中几个关键技术,包括w e b 资源 统一描述技术、w e b 资源组织与结构分析技术、w e b 资源收集和抽取技术以及w e b 资 源更新技术。本文的主要工作为: 1 系统研究了w e b 资源管理的相关问题和技术现状。在研究w e b 体系结构和主要技 术基础之上,探讨了w e b 资源和w e b 资源管理的概念及其演进,分析了w e b 资源管理中的 若干关键技术。 2 提出了一种面向w e b 资源授权管理的资源描述方法。该方法采用r d f 规范实现, 满足了将半结构化数据转换成具备语义信息、结构化数据和适用于授权管理的需求。 3 深入研究了w e b 资源的组织和结构问题,给出了逻辑结构资源树的生成算法。 该算法能够较为准确地建立逻辑结构资源树,表达资源之间的内在联系,便于管理员 对具有内在关系的资源进行统一管理。 4 设计了资源自动收集算法,给出了抽取资源的过程。该算法和资源抽取方法 具有自动程度高、无须人工干预等特点,有效的提高了资源的管理效率。 5 设计并实现了基于r d f 的w e b 资源管理系统。该系统较好的满足了授权管理的需 求,具有资源统一描述、自动收集、资源树生成等功能。 关键词:w e b 资源:资源管理;资源描述框架( r d f ) :r o b o t ;信息抽取:超链接 第1 页 信息r 稗大学硕十学付论文 a b s t r a c t r e s o u r c e si st h eo b j e c to fp r i v i l e g em a n a g e m e n ta n da c c e s sc o n t r 0 1 r e s o u r c e s m a n a g e m e n ti st h eb a s i so fp r i v i l e g em a n a g e m e n ta n da c c e s sc o n t r 0 1 w i t l lt h er a p i d d e v e l o p m e n ta n dw i d ea p p l i c a t i o no ft h e 、e b w c br e s o u r c e sh a sb e c o m et h em o s t i m p o r t a n tn e t w o r kr e s o u r c e s m o r ea n dm o r ei n f o r m a t i o ns y s t e mu s ew e bt e c h n i q u e st o e x p l o i t a t i o n a tt h es a m et i m e w 曲i n f o r m a t i o ns y s t e mn e e dr e s o u r c e sm a n a g e m e n t a c c o r d i n g l y , w e br e s o u r c e sm a n a g e m e n ti so f g r e a tp r a c t i c a lv a l u e s a i m i n ga tt h ew 曲c h a r a c t e r i s t i e so f s e m i s t r u c t u r e d 、d y n a m i c 、d i v e r s i t ya n dd i s o r d e r , t h i sd i s s e r t a t i o ns t u d i e ss e v e r a l k e yt e c h n i q u e s ,i n c l u d i n gt h ew e br e s o u r c e sd e s c r i p t i o n , t h eo r g a n i z a t i o na n ds t r u c t u r ea n a l y s i so ft h e 彬e 6r e s o u r c e s 。讳的r o b o t ,t h er e s o u r c e s e x t r a c t i o na n du p d a t e t h em a i nw o r ko f t h i sd i s s e r t a t i o ni sa sf o l l o w s : 1 s y s t e m i cr e s e a r c h e do nr e l a t i v ep r o b l e m sa n dt e c h n i q u es t a t u sq u o o nt h eb a s i so f r e s e a r c h e do nw e ba r c h i t e e t u r ea n dm a i n t e c h n i q u e s d i s c u s s e dt h ew e b r e s o u r c e sc o n c e p t i o na n dw c br e s o u r c e sc o n c e p t i o nm a n a g e m e n t a n a l y z e ds e v e r a l k e yt e c h n i q u e so nt h e w e br e s o u r c e sm a n a g e m e n t 2 p u tf o r w a r dar e s o u r c ed e s c r i p t i o nm e t h o di nt h ef a c eo f p r i v i l e g em a n a g e m e n t t 1 1 i sm e t h o dw a si m p l e m e n t e d b yr d f a n dm e e tt h en e e d so f s i m e - s t r u c t u r er e p r e s e n t - i o n , r e s o u r c ea u t o m a t i cm a n a g ea n dp r i v i l e g em a n a g e m e n t 3 d e t a i l e d l yr e s e a r c h e do nt h eo r g a n i z a t i o na n ds t r u c t u r eo ft h ew 曲a n di n t r o d u c e d t h ec o n s t r u c t i o na r i t h m e t i co fl o g i cs t r u c t u r er e s o u r c e st r e e t h i sa r i t h m e t i cc a nc o n s t r u c t l o g i cs t r u c t u r er e s o u r c et r e e ,w h i c hc a ne x p r e s st h er e l a t i o nb e t w e e nr e s o u r c e s ,c o n v e n i e n c e f o rr e s o u r c e sm a n a g e m e n t 4 d e s i g n e da u t o m a t i c a lc o l l e c t i o na r i t h m e t i c sa n di n t r o d u c e dt h ee x t r a c t i o np r o c e s s t h e s ea r i t h m e t i c sa n de x t r a c t i o np r o c e s sh a st h em e r i t so f h i g ha u t o m a t i z a t i o na n dn o n e m a n u a lw o r k ,i m p r o v i n gt h em a n a g e m e n te f f i c i e n c y 5 i m p l e m e n t e daw 曲r e s o u r c e sm a n a g e m e n ts y s t e mb a s e do nr d e t h i ss y s t e mh a s s a t i s f i e dw i t hp r i v i l e g em a n a g e m e n td e m a n d ,p o s s e s s i n gt h ef u n c t i o no fw e br e s o n r c e s d e s c r i p t i o n ,a u t o m a t i c a lc o l l e c t i o na n dl e s o u r e e st r e eb u i l da n ds oo n k e y w o r d s :w e br e s o u r c e s :r e s o u r c e sm a n a g e m e n t :r e s o u r c ed e s c rip ti0 1 1f r a m e w o r k ( r d f ) :r o b o t ;in f o r m e tio ne x t r a c t io n ;h y p e r t e x t 第1 i 页 论文原创性声明和使用授权 本人声明所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了本文中特别加以标注和致 谢中所罗列的内容外,论文中不包含其它人已经发表或撰写过的 研究成果;也不包含为获得信息工程大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中做了明确的说明并表示了谢意。 本人完全了解信息工程大学电子技术学院有关保留和使用学 位论文的规定,即:学院有权保留论文的复印件,允许查阅和借 阅论文;可以公布论文的全部或部分内容;可以采用影印、缩印 或其它手段保存论文。涉密论文按保密规定执行。本论文取得的 研究成果归学院所有,学院对该研究成果享有处置权。 本人签名:王秋z 奎 日期:工伊占牟咯 导师签名:e 勃圪 日期:一6 啦谚 信息t 程大学硕十学位论文 第一章绪论 1 1 研究背景 ( 1 ) 资源管理是授权管理和访问控制的基础 在开放的网络环境中,资源的安全是人们关心的焦点问题。通过授权操作,限制 资源的使用,提供安全的访问控制环境,已成为网络安全领域研究的“热点”技术。 而资源是授权管理和访问控制的对象,资源管理问题的解决程度将直接影响到授权管 理技术和访问控制技术的实现和应用。 资源管理是指对资源的识别、描述、收集、分析、组织、集成、存储等并可以提 供人们所需要的应用服务。在授权应用领域,对资源进行管理的主要目的在于使管理 员方便的获取所需要的资源信息,较好的了解资源的属性、特性以及资源之间的关系, 正确建立资源、角色和用户之间的关系,为授权管理提供良好的资源服务。 ( 2 ) w e b 是一种最重要的网络资源 i n t e r n e t 在全球范围内的快速发展和广泛应用,改变了信息资源创建和交换的方 式,影响到人们工作、学习和生活的各个领域。其中以w e b 的发展尤为显著。与此同 时,越来越多的信息系统开发平台从传统的单机环境迈向支持w e b 的应用, b r o w s e r s e r v e r 模式已成为软件开发的主流方向。 ( 3 ) 研究w e b 资源管理关键技术具有重要的现实意义 w e b 资源是应用最广泛的网络资源,因此,研究w e b 资源管理具有重要的实用价 - 值,本文结合所承担的国家8 6 3 计划课题“军队p m i 系统”,面向授权管理,对w e b 资源管理及其关键技术展开了深入研究。 1 2 研究内容 在论文研究过程中,作者查阅大量关于w e b 方面的资料和相关知识。包括:p m i 技术、w e b 体系结构、动态网页开发技术、r d f 元数据规范和x m l 语言、w e b 的结构挖 掘和信息检索技术等。在对这些技术进行深入研究以后,研究w e b 资源管理中关键技 术的解决方案,提出适于授权的w e b 资源管理的组成结构,。 本文的主要研究内容如下: 1 研究w e b 技术和w e b 资源管理概念的内涵 w e b 资源管理的概念和技术是动态变化的,并将随着w e b 技术的发展而不断改变。 因此,做好w e b 资源管理工作的前提和基础是深入分析w e b 技术,研究资源的存储、 第1 页 信息1 | 稃大学硕七学l 奇论文 生成和变化情况。 本文研究w e b 的体系结构、工作原理和技术,准确界定w e b 资源的概念和w e b 资源管理的概念,比较w e b 资源管理和搜索引擎的区别,并分析w e b 资源管理的若干 关键技术现状。 2 给出w e b 资源描述问题的解决方法 w e b 资源描述是w e b 资源管理的基础,主要目的是将w e b 上半结构化的信息,表 示为具备语义信息、结构化的形式,便于资源的自动处理,且需要满足授权对资源描 述的需求。这一部分主要解决了两个问题,一是w e b 资源的分类和每一类资源属性的 定义。二是如何使用r d f 机制统一描述w e b 资源。 w e b 资源合理的分类方法和全面的属性定义,为资源的描述奠定了基础。 3 分析w e b 资源的组织与结构 w e b 资源的组织与结构是指w e b 资源之间存在的内容上的联系而形成的树型结构 关系。这种关系可以将有联系的资源聚集在一起,便于管理员对同类的资源进行相同 的管理和授权操作。 本文从资源的物理结构和逻辑结构两个角度表达资源之间的关系,这两种结构是 相辅相成的,从不同方面揭示资源之间存在的内在联系,更加清晰的展现出资源之间 的关系。 4 设计了资源收集和抽取的相关算法 为了实现资源的自动收集和抽取,设计r o b o t 算法和资源类型识别算法,并给出 了资源抽取的过程。根据资源的具有动态性的特征,给出了资源动态更新的流程和采 用r d f 描述资源更新的方法。 1 3 本文的结构安排 论文共分为七章,各章节的内容安排如下: 第一章为绪论,简要介绍课题的研究背景、研究内容和本文的结构安排。 第二章是w e b 资源管理技术综述,研究w e b 的体系结构、工作原理和主要技术, 给出w e b 资源的概念和w e b 资源管理概念的演进,分析w e b 资源管理若干关键技术的 研究现状。 第三章是采用r e s o u r c ed e s c r i p t i o nf r a m e w o r k ( r d f ) 对w e b 资源统一进行描 述的研究。 第四章是w e b 资源的组织与结构分析,研究大量w e b 资源之间关系的分析和组织 问题。 第五章研究并设计w e b 资源自动收集和自动抽取的相关过程,以及w e b 资源更新 第2 页 信息t 程大学硕士学位论文 的流程和表达资源内容更新的方法。 第六章介绍了基于r d f 的w e b 资源管理系统的设计与实现。 第七章是总结和展望,总结已做的工作,展望有待进一步解决的问题。 第3 页 信息t 稃大学硕十学付论文 第二章w e b 资源管理技术综述 2 1w e b 的起源与发展 w w w 是w o r l d w i d e w e b 的缩写,简称为w e b ,在中国翻译为万维网。w e b 最早是由t i m e b e r n e r s l e e 于1 9 8 9 年提出的。他当时的思想是通过联网的计算机实现信息世界的资源 互访和资源共享。 1 9 9 1 年第一台w e b 服务器和浏览器出现之后,w e b 便以惊人的速度发展。1 9 9 3 年初, w e b 服务器大约仅有5 0 台,同年年底,w e b 服务器的数量增涨了十倍,w e b 占有i n t e r n e t 通信总量的1 。到2 0 世界9 0 年代末,w e b 已占有i n t e r n e t 通信总量的7 5 ,w e b 用户的数 目也增至数亿。如今,w e b 己成为人们工作、学习和生活不可缺少的一部分。 2 2w e b 的体系结构和主要技术 2 2 1c 1 i e n t s e r v e r 结构及存在的不足 c s 软件体系结构,即c l i e n t s e r v e r ( 客户机朋艮务器) 结构,是基于资源不对等 且为实现共享而提出来的。该技术在2 0 世纪9 0 年代得到迅速发展并成熟起来。它是w e b 体系结构的基础。 传统的c s 结构模式为两层。在两层c s 结构中,数据的显示部分和事务处理逻辑部 分放在客户端,数据的处理和数据库放在服务器端。客户端主要完成与用户的交互和系 统的功能处理,服务器实现对数据的处理,如:数据的查询、修改、删除等。由于这种 c s 结构的主要功能放在客户端,因此形成了所谓的“胖客户端”“瘦服务器”局面。 为了减轻“胖客户端”的负担,出现了三层c s 结构。在三层c s 结构中,客户端和服务 器之间引入了中间件,将客户端的事务处理放在中间件中完成,客户端和数据库不直接 打交道,而是要通过中间件。客户端、中间件和服务器这三个部件共同完成用户的应用 需求。 基于c s 结构的软件具有开发周期短,适于中小型应用需求等优点。随着应用规模 的扩大、程序复杂性的增加以及用户对系统性能要求的提高,c s 结构逐渐暴露出以下 难以克服的缺点: ( 1 )开发成本较高:c s 结构的软件对客户端的硬件配置要求较高。由于软件要 不断的升级,因此对客户端的硬件配置要求也在不断提高,增加了系统的成本。 ( 2 )难以移植:不同c s 结构的软件,使用的开发工具不同,对系统的硬件及软 件要求不同。难以从一种系统平台移植到另一种系统品台上。 第4 页 信息i :稗大学硕士学位论文 ( 3 ) 不利于推广使用:由于软件的界面风格不一致,使用l i 还需要专门的学习和 培训,不利于广泛的推广使用。 ( 4 ) 维护复杂:需要对该软件进行维护,如重装系统软件时需专门安装该软件。 系统升级时,可能需要专业的维护人员进行软件的升级工作。 2 2 2b r o w s e r s e r v e r 结构及其优点 随着i n t e r n e t 的广泛应用,以w e b 技术为基础的新型系统平台模式b r o w s e r s e r v e r ( b s ) 。”应用而生,并得到了飞速的发展和应用。 b s 结构实质上是三层c s 结构的特殊应用。在b s 结构中,由浏览器完成与用户的 交互,w e b 服务器完成事务的逻辑处理,数据库服务器完成数据的处理,包括数据的存 储、更新等。b r o w s e r s e r v e r 结构如图2 1 所示: 图2 1b r o w s e r s e r v e r 结构 器 在b s 结构中,用户通过浏览器可以向多台w e b 服务器发出请求,接受请求的w e b 服 务器通过解析用户的请求,将用户所需要的信息资源返回给浏览器,如果请求的信息需 要从数据库服务器存取数据,则w e b 服务器返回信息前会向数据库服务器提出数据请求, 接受数据库服务器返回的数据信息后,经过w e b 服务器的处理,会将最终结果返回给请 求的浏览器。 b s 结构的优点: 在三层的b s 结构中,客户端的功能由统一界面的浏览器完成,浏览器只以图形 化的界面接受用户的输入信息,并将数据处理后的结果最终返回给用户。事务的逻辑 处理和数据的处理均由服务器来完成,大大降低了对客户端硬件、软件的配置以及操 作人员技术的要求,减轻了客户端的负担。这种结构具备以下优点: ( 1 ) 界面友好,操作方便:浏览器具有同统一的使用界面,操作简便,使用者不 用经过专业、复杂的培训就可以轻松掌握。另外,浏览器中的内容可以是多种类型的 媒体信息,界面形式丰富多彩,有利于吸引使用者的注意力。 ( 2 ) 系统维护、升级成本较低:对于c s 结构的软件,需要同时维护和升级客户 端和服务器,成本较高,而对于b s 结构的软件,浏览器是和操作系统邦定在一起的 ( 如:i e 浏览器) ,不需要专门安装、维护和升级,只需维护和升级服务器就可以了。 ( 3 ) 开放性好:浏览器和服务器之间的交互遵从标准的开放通信协议,因此浏览 器可以跨越不同的地域、不同的系统、不同的平台与不同的服务器交互,获取需要的 第5 页 国一 蛰答黼回麟 求答眦篇 信息t 稃大学硕十学位论文 信息。这也是w e b 飞速发展,拥有大量用户群的重要原因之一。 ( 4 ) 扩展性强:浏览器、w e b 服务器以及数据库服务器是三个功能独立、分工明确 的部件,如果需要扩展其中某一部件功能,其它两个部件不会受到影响。 ( 5 ) 鉴于b s 结构具有c s 结构所不能替代的优点,已逐渐成为一种流行的w e b 开发体系结构,一些企业已开始使用,并收到了一定的效果。随着w e b 技术的发展和 完善,b s 结构必将会成为应用的首选。 超文本标记语言是生成页面信息的表达工具;超文本传输协议。 2 2 3 统一资源标识符 访问w e b 资源时,需要有一种方法来标识它们。这个任务由统一资源标识符 ( u n i f o r mr e s o u r c ei d e n t i f i e r ,u r i ) 完成,统一资源标识符是一介通用命名机制, 用来标识w e b 上的资源。从形式上看,u r i 仅仅是一个格式化好的字符串,与资源当 前的位置或值无关。 u r i 最常用的形式是统一资源定位符( u n i f o r mr e s o u r c el o c a t i o n ,u r l ) 。u r l 定义了当单击链接后,信息是怎样从一个页面漫游到另一个页面或者如何从一台计算 机链接到另一台计算机的。这种过程是透明进行的,用户完全不用了解计算机是如何 运行,通过计算机之间的操作系统网络协议等硬件和软件的结合进行信息的传递和交 换。 一个u r l 一般包括三个部分:协议、主机名、含有信息的文件地址和文件名。具 体的格式如下: : 协议:协议表示获取资源的方法或通信手段。常用的协议如:h t t p 、n e w s 、 f t p 、g o p h e r 等。 主机名:主机名是要访问的服务器的域名或i p 地址,表示服务器在网络中 的位置。 文件路径:文件路径是指在服务器上保存的目标文件的地址。 浏览器在解释一个u r l 时,首先要查看协议代码以决定使什么方法来取得需要的 信息,然后再通过运算找到计算机的地址,最后再访问这站点,并根据文件路径信息 找到该文件,同时下载它的一个拷贝到本地机中进行浏览。 u r l 本身还可以携带更多的参数。( 1 ) 访问有些资源需要用户名和密码,可将用户 名和密码写入u r l 中。如:h t t p :d r e a m :1 2 3 姗w w h a 0 1 2 3 n e t h o t e l h t m l ,在这 个u r l 中d r e a m 和1 2 3 分别为登录服务器w 、w h a0 1 2 3 n e t 的用户名和密码,h t t p 为访问服务器的协议,h o t e l h t m l 为要访问的文件名。( 2 ) 访问动态服务器页面时, 如a s p 页面、j s p 页面等,u r l 的后面可跟随访问该文件需要的参数,如: 第6 页 信息一r 稃人学硕+ 学位论文 h t t p :w w w h e n a e d u c n i n d e x a s p ? i d = 4 5 ,在该u r l 中i d 为访问文件i n d e x a s p 的 参数,该参数的值为4 5 ,对于i n d e x a s p 文件,不同的参数值经过服务器的解释,返 回的页面内容是不同的。 尽管通过u r l 可以访问到资源,但u r l 本身存在以下缺陷: ( 1 ) u r l 所指向的资源是不固定,不具备唯一性:文件被移动、服务器修改i p 地 址,u r l 所指向的文件、目录被删除等,都可以导致u r l 所指向的资源出错,或指向 的资源被改变。造成错误的访问结果。 ( 2 ) u r l 本身较长,难以记忆。人们常常需要记录被访问的资源u r l ,而u r l 本身 较长,造成了记忆较为困难,例如:h t t p :w v n v d e m o c o m p u t e r c o m p a n y c o m c n p r o t o c a l h t m l 。因此出现了抢先申请域名的现象。 ( 3 ) u r l 表达的是资源的位置信息,而不是资源本身语义信息,不能被用户理解。 对于使用者来说,关心的是通过一个u r l 能干什么,而不是它能到定位到哪里。 2 2 4 超文本标记语言 超文本标记语言( h y p e r t e x tm a r k u pl a n g u a g e ,h t m l ) 是由w 3 c ( w o r l dw i d ew e b ) 组织推出的一种描述性语言。h t m l 通过标记( t a g ) 来表达页面的内容和格式,使用超 链接集成文字、音频、视频、图形、图像等多种媒体信息,形成丰富多彩的w e b 世界。 h t m l 是一种简单、强有力的页面表达语言,该语言得到广泛应用并迅速发展的原 因主要有: ( 1 ) 简单易用:h t m l 的使用不涉及复杂的机器指令、语法和语义逻辑,通过简单 的标记,就可以完成所需要的功能,易于推广使用。 ( 2 ) 可跨平台使用:从u n i x 到w i n d o w s 都支持h t m l 的应用。 ( 3 ) 可同时表达多种媒体信息。h t m l 可集成多种媒体信息,可以给用户同时带来 视觉和听觉上的享受。 ( 4 ) 通过超链接在不同的信息页面中自由切换。从用户的角度来看,通过页面之 间的超链接,能够访问到任何信息,而不受时间、空间的限制,非常方便。 ( 5 ) 编写环境不受限制。任何文字编辑器,只要将文件能编辑纯文本文件,都可 以成为h t m l 的编辑器。另外,还有一些软件,如:f r o n t p a g e 、d r e a m w e a v e r 等提供 所见即所得的环境,减轻了编写h t r l 的工作。 2 2 5h t t p 协议 超文本传输协议( h y p e r t e x tt r a n s f e rp r o t o c a l ,h 1 v r p ) 是w e b 重要的通信基础, 主要用于浏览器和服务器之间的通信。h t t p 协议的构思起源于1 9 9 0 年,从最初的 m t p o 9 规范到h t t p 1 0 版本经历了四年的时间,于1 9 9 3 年6 月形成了h t t p 1 0 第7 页 信息t 稃大学硕十学付论文 规范。经过几年的使用和发展,h t t p 协议得到不断得扩展与完善,到2 0 0 1 年,颁布 了h t t p 1 1 正式标准。从1 9 9 5 年起,开始通过h t t p 传送w e b 上的信息流量。 h t t p 是一个应用层的面向对象的、无状态协议。该协议采用请求应答的模式完 成客户机和服务器之问的信息交互。通过h t t p 协议,客户机与服务器的通信过程一 般可分为以下四部分: ( 1 ) 建立连接:w e b 浏览器和w e b 服务器建立连接。连接的建立是通过申请套接字 ( s o c k e t ) 实现的。w e b 浏览器打开一个套接字并把它绑定在一个端口上。如果建立成 功,则建立了s o c k e t 句柄,以后就可以在句柄上写数据并通过网络向外发送。w e b 服务器默认的监听端口为8 0 。 ( 2 ) 发送请求消息:w e b 浏览器向w e b 服务器发送请求消息。w e b 浏览器通过已成 功建立的套接字,根据所要传送的消息对象,选择相应的传送方法:g e t 、h e a d 或 p o s t ( 常用的方法为g e t 和p o s t 方法) 向w e b 服务器发送请求消息。 ( 3 ) 发送应答消息;w e b 服务器在处理完浏览器的请求后,按照h t t p 规定的应答 格式,向浏览器发送应答消息。 ( 4 ) 关闭连接:消息传送完毕后,双方都可以通过关闭套接字来结束通信,从而 保证浏览器与其它服务器、或其它浏览器与该服务器的通信得完成。 h t t p 协议的基本工作过程如下图所示; w e b 浏览器w e b 服务器 图2 2h t t p 协议的基本工作过程 向服务器发出请求消息的格式为: 请求消息= 请求行( 通用信息l 请求头l 实体头) c r l f 实体内容 请求行= 方法请求的u r lh t t p 版本号c r l f 方法 = g e th e a dp o s ti 扩展方法 u r l= 协议名称+ 主机名+ 目录与文件名 服务器在处理完客户的请求之后,向客户机发送的应答消息格式: 应答消息= 状态行( 通用信息l 应答头f 实体头) c r l f 实体内容 第8 页 信息丁= 程大学硕士学傍论文 状态行= h t t p 版本号状态码原因叙述 请求头、应答头和实体头均属头信息。头信息也称为源信息,即信息的信息, 利用头信息可以实现有条件的请求或应答。 ( 1 ) 请求头的内容主要包括以下信息域: a c c e p t :客户端可接受的数据类型 a c c e p t l a n g u a g e :客户端可理解的语言 a c c e p t e n c o d i n g :客户端可理解的编码机制 a c c e p t c h a r s e t :客户端可接受的字符集 u s e r a g e n t :客户名及版本号 ( 2 ) 应答头的内容主要包括以下信息域: s e r v e r :服务器软件名及版本号 h i m e v e r s i o n :所采用的m i m e 版本号 c o n t e n t t y p e :客户请求的资源的类型 l a s t m o d e i f i e d :客户请求的资源的最后修改时间 c o n t e n t l e n g t h :客户请求的资源的数据长度 状态码表示了服务器对客户端所请求的资源的响应状态,r o b o t 可依据 响应状态,决定下一步处理步骤。 常用的状态码的取值及相应的说明如表5 一l 所示。 表5 1常用的状态码取值 状态码说明 l x x 保留 2 x x表示请求成功地接受 3 x x为完成请求,客户需要进一步细化请求 4 x x 客户错误 5 x x 服务器错误 h t t p 协议具备以下特点: ( 1 ) 支持客户服务器模式:浏览器服务器就是客户服务器的典型应用。 ( 2 ) 简单、快速:客户端向服务器提出请求服务器时,只需提交请求的方法和路 径,h t t p 协议本身较为简单、服务器规模较小,因此通信较快。 ( 3 ) 灵活:h t t p 允许传输任意类型的数据对象。 ( 4 ) 支持无连接:每次连接只处理一个请求,服务器处理完客户端的请求并受到 客户的应答后,即可断开连接。采用这种传送方式可有效节省传输时间。 ( 5 ) 属于无状态协议:无状态是指协议对事物的处理没有记忆能力。没有记忆能 第9 页 信息t 稃大学硕十学付论文 力将会导致如果后面的信息需要前面的信息,需要重传前面的信息,导致重复的连接 和数据传送,增加服务器和通信线路的负担。 2 2 6w e b 页面生成技术 按照w e b 页面的生成方式来划分,可分为静态页面和动态页面。w e b 发展的最初 阶段,静态页面是应用的主流,随着应用需求的应用和发展,动态页面已成为最主要 的页面生成方式。 2 2 6 1 静态页面 静态页面是指:存放在服务器端的文件只是简单的h t m l 文件,浏览器请求该资 源文件时,w e b 服务器只需从指定的位置取得该文件,不需要任何其他的操作,将该 文件返回给浏览器即可。静态页面中的任何资源都是静态的,也就是固定的,不会有 变化。 静态页面的优点是: ( 1 )简单、可靠:静态页面的制作简单,不需复杂的编程设计。页面一经设计 好,就完全固定下来了。可重复使用。 ( 2 )响应速度快:服务器对静态页面的请求不需要做任何处理,只需找到该文 件,并将其返回给客户端即可。 静态页面的主要缺点是:当需要修改页面内容、或添件新内容时需要重复设计, 造成人力、物力、资源的浪费,开发效率低。这也是动态页面产生的最主要的因素。 静态页面技术适于页面资源、格式固定或相对变化较慢的应用领域。 2 2 6 2 动态页面 动态页面是指:通过从数据库中实时查询信息而生成w e b 页面。产生动态页面的 文件虽然存储在w e b 服务器中,但其中没有实际数据,而仅仅是h t m l 代码模板和查 询方式。客户提交访问动态w e b 页面所需要的查询后,服务器根据查询及参数解释、 执行动态页面中的脚本,查询数据库信息,然后动态地生成包含数据的h t m l 页,并 将该h t m l 页面返回给客户端的浏览器。由于动态页面的内容是动态变化的,所以可 以根据用户的需求,响应特定的信息。 动态页面最大的优点就是把人们从繁重、枯燥的页面更新工作中解脱出来。当设 计者需要修改或更新页面内容时,不需要重新设计页面,只需修改页面相应的数据库 内容即可,数据库的内容自动与页面中的信息相呼应。 动态页面的请求和生成一般过程: 第l o 页 信息r 程大学酾十学位论文 ( 1 ) 浏览器向w e b 服务器发出资源发送请求信息。 ( 2 ) w e b 服务器接收到请求信息后,首先判断该资源的类型,如果所请求的资源 文件的扩展名为h t m l 或h t m 。说明请求的资源文件为静态页面,只需从特定的服务器 目录中取出该文件即可。如果文件的扩展名为a s p 、j s p 或p h p ,服务器将调用该类型 文件对应的解释引荤对于a s p 调用a s p d l l ,对于j s p 调用j s p 引擎,执行文件中 的脚本程序。 ( 3 ) 如果执行脚本程序的过程需要查询数据库,将调用相应的数据库,获取需要 的数据信息。 ( 4 ) 引擎将最终的信息组织成h t m l 的形式返回给请求的浏览器。 动态页面的请求和生成过程如下图所示: 图互3 动态页面的 青求和应答过程 生成的w e b 页面中的信息资源可以来源于w e b 服务器上存放的文件,可以来源于 事先编译好的w e b 对象“”资源,如:c o m 、d c o m 组件还可以来源于数据库。 当前主流的w e b 服务器端动态页面技术有a s p 、j s p 和p h p 。下面简要的对这三种 技术进行比较分析。 2 2 6 3a s p 、j s p 和p 1 1 p 的比较 a s p ( a c t i v es e r v e rp a g e ) 是微软开发的w e b 服务器端页面技术。该技术能够组 合m 札、s c r i p t 和可重用的a c t i v e x 服务器组件来建立动态的、交互的、强大w e b 应用程序。a s p 易学易用,是一种发展较为成熟的技术,已得到了广泛的应用。 j s p ( j a v as e r v e rp a g e ) 是s u nm i e r o s y s t e m 公司开发的一种动态页面技术。该 技术在h t 札网页中加入了j a v a 程序片断和j s p 标记,构成j s p 页面。运行j s p 至少 需要具有j s p 引擎、w e b 服务器和j v m ( j a v av i r t u a lm a c m h e ,j a v a 虚拟机) 。j s p 的屉主特点是代码执行效率较高,代码在首次使用时被编译成s e r v l e t 并由j a v a 虚 拟机( 丁v 1 1 ) 执行。由于解释脚本比运行已编译的代码占用较多的c p i j 资源,因此被编 译成字节码的s e r v l e t 的执行效率比一般的脚本语言高。 第1 l 页 信息1 = 程大学硕十学付论文 p h p ( p e r s o n a lh o m ep a g e ) 技术是一种跨平台的服务器脚本技术。它大量借用了c 、 j a v a 、p e r l 语言和语法,并藕合了自己的特性,在h t m l 页面中嵌入p h p 脚本语言。 p h p 主要的优点是p h p 跨平台特性,可在大多数u n i x ,l i n u x 和微软w i n d o w s 平台上 运行,同时支持目前绝大部分数据库,并完全支持o d b c 对每个数据库都有一组函数 用于数据库的访问操作,使w e b 开发者动态生成页面变得很简单。 a s p 、p h p 和j s p 技术的应用性能比较 a s p j s p p h p 易学性很容易容易很容易 速度较快快较快 开销较大小较大 扩展性好很好不好 安全性不好好好 应用范围较广泛较广泛较广泛 x m l 不支持不支持不支持 2 3w e b 资源管理概念的演进 2 3 1w e b 资源的概念和特点 迄今为止,对“网络信息资源”嘲尚没有统一的定义。类似的说法,如:“电子 信息资源”( e l e c t r o n i ci n f o r m a t i o nr e s o u r c e s ) 、“因特网信息资源”( i n t e r n e t i n f o r m a t i o nr e s o u r c e s ) 、“联机信息”( o n 一1 i n ei n f o r m a t i o n ) 、w e b 信息资源( w 曲 i n f o r m a t i o nr e s o u r c e s ) 等。为不发生混淆,本论文定义网络信息资源和w e b 信息 资源如下。 网络信息资源是指:通过计算机网络可以使用的各种电子信息资源的总和。电子 资源的形式有文字、图像、声音、动画等多种形式,使用的协议可以是文件传输协议 ( f i l et r a n s p o r tp r o t o l c a l ,f r p ) 、超文本传输协议( h y p e r t e x tt r a n s p o r t p r o t o l c a l ,h t t p ) 和g o p h e r 协议等。 w e b 信息资源( 简称为w e b 资源) 是指:采用h t t p 协议的电子资源的总和。目前, 国际互联网上多数资源的形式是w e b 资源。用户使用浏览器,通过h t t p 协议向w e b 服务器发出信息请求,w e b 服务器以h t m l 的形式将应答信息返回给浏览器。 w e b 资源仅仅只是网络信息资源的一部分。 w e b 资源具备以下的特点: ( 1 ) 表现形式多样化:w e b 资源的形式可以是文本、图形、图像、动画、音频、 第1 2 页 信息t 程大学硕士学位论文 视频等多种媒体信息;内容涵盖了不同学科、不同领域、不同地域、不同语言的信息 资源类型。 ( 2 ) 信息数量巨大:w e b 是一个开放的信息传播平台,任何人、任何机构和组织 都可以将自己的信息发布在w e b 服务器上,供其它人共享使用。因此,w e b 上的信息 可以在较短的时间内迅速激增。它一方面给使用者提供了大量信息选择的空间,另一 方面,大量无价值的冗余信息,也阻碍了用户对信息的使用。 ( 3 ) 信息更新频繁:w e b 是一个动态系统,服务器处于不断的变化之中。包括w e b 页面内容的增加、删除;i p 地址的改变;新服务器的增加或删除等等。w e b 信息资源 实效性强,页面更新周期缩短,内容出处于动态变化之中。 ( 4 ) 信息构建技术复杂:w e b 服务器可以分布在不同的国家、不同的地区。不同 的服务器可以采用不同的操作系统、数据结构和数据库。对信息资源的管理没有统一 的标准,形成了百花齐放的局面。从整体上看,整个w e b 系统处于无序状态。 2 3 2w e b 资源管理的概念 随着计算机技术、网络技术、通信技术的发展,人们已经步入到以数字化、网络 化为主要特征的知识经济时代。与此同时,经历百年发展的信息管理技术也从传统管 理阶段、技术管理阶段、信息资源管理阶段逐步迈向网络信息资源管理阶段“。w e b 资源是最主要网络资源之一,因此w e b 资源管理属于网络信息资源管理的研究范畴。 二十世纪八十年代初,以美国为首的发达国家开始抓紧对信息的开发,强调发展 信息经济的时候,“信息资源管理”的概念应运而生。这一概念的提出源于两个背景; 技术背景原有的管理技术已不能很好的实现对信息的有效使用和控制,需要引 入新的管理技术;经济背景社会经济发展的需要,信息已成为一种重要资源、 资本和资产,具有经济价值,需要从经济的角度对信息资源进行管理。因此,“w e b 资源”是从经济、价值的角度来表述w e b 上的信息。 国内外对资源管理概念有不同的认识。文献 2 认为信息资源管理是一个涵盖所 有能够确保信息利用的管理活动的集合名词,其对象包括所有类型的数据、数字、文 本、视频、音频以及各种不同的信息和通信技术。信息资源不同于企业资源,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年神经内科临床表现分析试卷答案及解析
- 2025年急性中风护理与康复知识考核试卷答案及解析
- 2025年急诊医学危重病人的抢救处理模拟测试卷答案及解析
- 零售业双十一活动方案
- 2025年实验医学实验技术规范操作模拟考试卷答案及解析
- 2025年皮肤科病变识别与治疗考核答案及解析
- 2025年急诊医学创伤患者过敏反应紧急处理模拟考试卷答案及解析
- 2025年疼痛科治疗方案的评估与优化模拟测试答案及解析
- 2025年介入放射治疗导管操作技巧考核试卷答案及解析
- 2025年运动医学体能评估及干预模拟答案及解析
- 泌尿科膀胱灌注护理课件
- 脊柱区课件教学课件
- 人证考试题库及答案广州
- 2025医养结合笔试题及答案
- 烧结基础理论课件
- 《家庭教育学》全套教学课件
- 村集体经济培训课件
- 文明礼貌课件模板
- 直流输电技术试题及答案
- 医院清洁消毒灭菌与隔离无菌操作技术
- 泸州市巨力液压有限公司研发中心、车间 项目环评报告
评论
0/150
提交评论