




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)wap网关翻译系统关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京丁商大学硕士学位论文 摘要 本文根据北京市教育委员会科技发展计划面上项目“移动互联网智能翻译技术的 研究”课题展开研究,围绕国际互联网与无线数据业务结合的发展方向,提出了一个 w a p 网关翻译系统的设计思想,在智能移动计算设备和全球互联网络丰富的计算资源 内容之间,建立起更加开放互联的桥梁。 本项目构建的w a p 网关翻译系统,不仅能使无线移动终端用户使用专门的w a p 资 源网站服务,还能够通过本系统直接访问因特网上普通的w e b 页面,既拓宽了因特网 的互联领域,又丰富了w a p 的内容资源,很大程度上缓解了w a p 发展的内容服务匮乏 问题,为移动通信网和i n t e r n e t 互联网相互融合,提供了一种切实可行的新思路。 本文提出的w a p 网关翻译系统的解决方案主要包括以下几个方面的研究: 一、负载均衡:为了充分利用服务器的资源,为用户提供高效的服务,我们采用 了建立服务器集群的策略,使用一台专门的负载分流a g e n t ,由它负责对集群中的服 务器进行资源分配。 二、网页翻译:主要实现h t m l 和w m l 这两种不同的标记语言间的转换,我们对 比分析了h t m l 和w m l 的区别和对应关系,提出了一个基于信息提取和信息裁减的w e b 网页通用转换方法。 三、缓存技术:为了实现对用户经常访问的网页的快速响应,我们使用一台专用 的缓存a g e n t 服务器对缓存信息进行管理,采用在内存中建立一个哈希表的策略来提 供缓存信息的快速查找,并提出了一种通过比较网页更新周期来进行缓存替换的方 法。 关键词 w a p 网关,负载均衡,网页翻译,缓存 w a p 网关翻译系统关键技术的研究 a b s tr a c t a c c o r d i n gt ot h ed e v e l o p m e n tp l a no fs c i e n c ea n dt e c h n o l o g yi nb e i j i n ge d u c a t i o n c o m m i t t e e ,t h e r ei sas u r f a c ep r o j e c t ,w h i c hi sn a m e d “t h er e s e a r c ho fi n t e l l i g e n t t r a n s l a t i o nt e c h n o l o g yi nm o b i l ei n t e r n e t ”t h i sp a p e ri sb a s e do nt h er e s e a r c ha n d d e v e l o p m e n to ft h ep r o j e c t i tp u t sf o r w a r ds o m ed e s i g nt h o u g h t so ft h ew a pg a t e w a y t r a n s l a t i o ns y s t e m s u r r o u n d i n gt h ed e v e l o pd i r e c t i o no ft h ec o m b i n eo fi n t e r n e ta n d w i r e l e s sd a t as e r v i c e ,t h ep u r p o s eo ft h i sp r o j e c ti st ob u i l da no p e ni n t e r - b r i d g eb e t w e e n t h ei n t e l l i g e n tm o b i l ed e v i c e sa n dt h ea b u n d a n tr e s o u r c e so ft h eg l o b a li n t e r n e t v i at h i ss y s t e m ,w i r e l e s sm o b i l et e r m i n a lu s e r sc a nn o to n l ya c c e s st h es p e c i a lw a p s i t eb u ta l s ob r o w s et h eo r d i n a r yw e bp a g e si nt h ei n t e r n e t t h ei m p l e m e n to ft h i s t e c h n o l o g yb r o a d e n st h ea p p l i c a t i o na r e a so ft h ei n t e r a c t ,a n de n r i c ht h ew a pc o n t e n t r e s o u r c e sa sw e l l t og r e a te x t e n t ,i tr e l a x e st h ep r o b l e mo ft h el a c ko ft h ew a pc o n t e n t s e r v i c e s i tp r o v i d e san e wf e a s i b l e w a yt o a c c e l e r a t et h ei n t e g r a t i o no fm o b i l e c o m m u n i c a t i o n a ln e t w o r ka n dt h ei n t e r a c t t h i sp a p e rp r e s e n t saw a p g a t e w a yt r a n s l a t i o ns y s t e m t h em a j o rr e s e a r c hw o r k f o c u s e do nt h et h r e es u b j e c t sa sf o l l o w s :f i r s t ,l o a db a l a n c i n g t om a k ef u l lu s eo ft h e s e r v e r sr e s o u r c ea n da f f o r dm o r ee f f i c i e n ts e r v i c e s ,w ei n t r o d u c e dt h es t r a t e g yo fs e r v e r c l u s t e r w eu s e dal o a db a l a n c i n ga g e n ts e r v e rt oa s s i g nt h er e s o u r c eo ft h es e r v e rc l u s t e r s e c o n d l y ,w e bp a g et r a n s l a t i o n t h em a i np u r p o s ei st oa c h i e v et h et r a n s f o r m a t i o nb e t w e e n h t m la n dw m l b ya n a l y z i n gt h ed i f f e r e n c ea n dt h er e l a t i o n s h i pb e t w e e nh t m la n d w m lw e p r e s e n t e dau n i v e r s a lw e bp a g et r a n s f o r m a t i o nm e t h o db a s e do nt h ei n f o r m a t i o n a b s t r a c t i o na n dd i s c a r d i n g f i n a l l y , t h et e c h n o l o g yo fc a c h e t oa c h i e v et h er a p i dr e s p o n s e t ou s e r sr e q u e s t s ,w eu s e dac a c h ea g e n ts e r v e rt oc o n t r o lt h ec a c h ei n f o r m a t i o n w e i n t r o d u c e dt h es t r a t e g yo fb u i l d i n gah a s ht a b l ei nm e m o r yt os u p p l yt h er a p i dr e s e a r c h a p l a nt h a tr e p l a c et h ef i l e si nc a c h e ,b yc o m p a r i n gt h ew e b p a g e s r e f r e s ht i m e ,w a sg i v e na t i a s t k e y w o r d s w a pg a t e w a y l o a db aia n cin g ,w e bp a g et r a n sia tio n 。c a c h e t 1 一 北京工商大学学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导一f 进行的研究工作所 取得的研究成果。除了文中已经注明引用的内容外,论文中不包含其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律后果完全由本人承担。 学位论文作者签名:一麴! 建。日期:易卅年月 ( 日 北京工商大学学位论文授权使用声明 本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复 制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 学位论文电子版同意提交后可于口当年口一年口二年后在学校图 书馆网站上发布,供校内师生浏览。 学位论文作者签名: 璋邋导师签名:z 盘丑丝日期:扫彩年彳月目 北京工商大学硕士学位论文 1 1 问题的提出 第一章绪论 在当今快速发展的信息领域中有两支突飞猛进的支柱产业i n t e r n e t 和移动 通信,它们直接影响了亿万人的生活,大大地改变了人类的生活方式,一切最新的信 息、通信、电子、计算机方面的技术无不为其所吸收和采纳。随着w a p 技术的发展和 不断成熟,移动终端也可以像p c 一样访问互联网上的资源。艾瑞市场咨询有限公司 在 2 0 0 5 年中国w a p 市场研究报告中指出,中国w a p 用户数在2 0 0 3 年只有9 0 0 万,到2 0 0 4 年用户数增长了四倍多,达到4 6 0 0 万户,随着2 0 0 4 年运营商政策的调 整,2 0 0 5 年w a p 用户数的增幅将趋缓,用户规模达到7 2 0 0 万户,主要是免费w a p 应用的增多保证了用户增长的速度,预计到2 0 0 8 年中国w a p 用户规模将达到2 3 亿 户 1 1 。 这些数据充分说明手机上网已成为一种趋势,因为当人们在享受因特网便利的服 务和丰富的信息资源的时候,固定的上网工具就成了困扰人们浏览网络的首要因素, 特别是在人们急需从网络上获得某种信息的时候,而电脑还在办公室或家里,这就阻 碍了人们获得信息的及时性。相比之下,手机上n w a p 业务是深受人们喜爱的,人们 使用w a p 手机可以发送电子邮件、进入聊天室聊天以及浏览各种信息等等。 但是面对互联网给我们提供的大量信息,由于技术的局限性,只有使用如p c 机 一类的传统工具才能充分利用互联网资源;对于其他使用移动终端如手机、个人数字 助理p d a 等上网的用户来说可用资源要远远少于前者。这是因为w a p 网页使用的是 w m l ( w ir e e s sm a r k u pl a n g u a g e ) ,而普通p c 所浏览的网页是由h t m l ( i _ l y p e r t e x t m a r k u pl a n g u a g e ) 编写的,w a p 手机中内置的w a p 浏览器只能识别w m l ,不能访问 h i m l 网页( 目前新型的彩屏手机已经可以浏览x h t m l 网页) ,如果互联网中的信息提 供者没有为移动终端用户编写特殊的网页,那么这部分用户j 就无法获得这些信息。如 何找到一个解决方案,让移动互联网的用户也能象其他用户一样使用互联网上的庞大 资源,变成了一个急需解决的问题。 w a p 网关翻译系统关键技术的研究 1 2 研究目的及意义 本课题的目的就是依靠一种智能化的翻译技术,通过在因特网上建立专门的w a p 网关翻译系统,使普通的手机、p d a 等移动设备用户借助该系统可以流畅地浏览和使 用世界上任何一台w e b 服务器的内容。 该系统的开发和研究,既可以促进翻译技术、数据挖掘技术、代理技术和缓存技 术思想的发展和完善,也对其它相关领域具有指导和参考价值。在i s p ( i n t e r n e t s e r v i c ep r o v i d e r 互联网服务提供商) 、i c p ( i n t e r n e tc o m m u n i c a t i o np r o v i d e r 网络信息提供者) 等领域有着非常好的市场应用前景,它可以帮助i c p 将网站内容无 缝地提供给移动用户使用,从而真正实现“无论何时、无论何地”的信息访问,还可 以带动大量的移动增值服务,极大地推动移动互联网的发展,同时也给商家带来巨大 的经济效益。 1 3 关键技术与主要研究内容 本项目主要涉及的内容和技术有以下几个方面: 一、负载均衡技术。负载均衡技术建立在网络基础上,它提供一种扩展网络没备 和服务器带宽、增加吞吐量、加强网络数据处理能力、提高网络灵活性和可用性的方 法。 二、双向全双工翻译引擎。在接收元信息解析器的处理结果后,参考裁减策略, 利用智能翻译功能输出基于元信息表达的翻译结果。 三、w m l 语言生成器。它依据w m l 规范,生成最终信息表达,输出到通信网 关,供移动设备解析、浏览,即w a p 页面转换系统。 四、缓存技术。在实时的通信过程中,系统要不断地对新信息进行翻译,然后将 可以参照的翻译结果保存在缓存中以各下次使用,这是提高系统效率和吞吐力的有力 手段。 1 4 相关领域的前人研究成果 目前已有的h t m l 到w m l 的转换方法有以下几种: 北京:f 商大学硕士学位论文 一、完全自动的转换器 完全自动的转换器只是根据一组简单的规则将原始的源代码转换成w m l ,然后直 接发送到微浏览器。目前提供这项服务的有p h o n e c o m 网关,提供这种功能的软件有 h t m l 2 w m l 、m a r k u pl a n g u a g ec o n v e r t e r 等。 二、可配置的转换器 可配置的转换器允许用户将指令作为标记组放入h t m l 中,通常是在注释中,它 们告诉转换器如何处理代码的特定部分,这样就可以针对相关部分进行非常具体的处 理。可配置的转换器甚至可以将h t m l 转换为1 v m l 之外的其它格式,这使他们比完全 自动的转换器更有用,因为可以更新它们以便使用未来可能出现的任何格式。 以上各种方法或软件中,有的只能将静态的h t m l 网页翻译成对应的w m l 页面, 供构建w a p 网站使用,有的虽然可以动态地转换h t m l 网页并将其发送至手机,但也 只是机械地根据h t m l 至w m l 的对应规则进行标签转换,没有考虑到是否适合手机接 受和显示,更重要的是,没有将普通w e b 网页上大量的、一般用户很少或不愿关注的 信息运用适当的裁剪策略删除掉,因此并没有达到实用的效果。 1 5 本论文的章节安排 根据本项目的研究内容,本文的具体章节安排如f : 第二章系统相关技术,介绍w a p 网关翻译系统的技术背景,包括w a p 协议、w e b 语言( 包括h t m l 、x m l 和w m l 语言的特点及三者之间的关系) 和c g i 程序。 第三章f l a p 网关翻译系统的设计,首先分析了w w w 模型和传统w a p 模型的特点及 关系,接下来根据设计要求,详细介绍了本系统的设计思路、目标功能、体系结构、 实现策略以及实现流程。 第四章负载均衡,描述了负载均衡在本系统中的应用及实现。 第五章网页翻译,描述了网页翻泽方法的具体步骤、实现方法和部分程序代码。 第六章缓存技术,分析了w a p 缓存在本系统中的意义,介绍了缓存技术在本系统 中的实现方式,最后提出了几种刚页更新周期的计算方法。 第七章为结论和建议,对本项目目前的研究成果做一个总结,并根据进展情况对 下一步的工作提出了设想和建议。 3 w a p 网关翻译系统关键技术的研究 2 1w a p 协议 第二章系统的相关技术 无线应用协议w a p ( w i r e l e s sa p p l i c a t i o np r o t o c 0 1 ) ,是一个为实现新的 移动业务而定义的语言、通信协议及工具的集合,其目的是将i n t e r n e t 上的内容和 高级数据业务带给无线用户【2 1 。w a p 采用类似于w w w 的实现模型向用户提供这些业务, 把手机变成了一个简单的微浏览器。w a p 并不能使手机直接访问i n t e r n e t 上的内容, 目前i n t e r n e t 上的w w w 内容是h t m l 格式的,其通信协议是h t t p ,它们无法被直接 应用到无线环境中来。w a p 定义了无线标记语言1 v m l ( w i r e l e s sm a r k u pl a n g u a g e ) 以及w m l s c r i p t 用于组织w a p 应用的内容,还定义了适合于无线环境的通信协议栈 w s p w t p ( w i r e l e s ss e s s i o np r o t o c 0 1 w i r e l e s st r a n s a c t i o np r o t o c o 】) 。 2 1 1w a p 技术的发展 随着因特网和移动通信的快速发展,用户对移动中访问丰富多彩的因特网资源的 需求日益迫切,为了以统一的标准为移动用户提供无处不在的网络信息服务,1 9 9 7 年6 月,全球最大的三家手机制造商诺基亚、摩托罗拉、爱立信以及u n w i r e dp l a n e ( 现在的p h o n e c o m ) 联合开发了用于交互式无线应用m 议w a p 。1 9 9 8 年1 月,它们 成立了w a p 论坛以便管理和执行w a p 的规范。论坛的宗旨是:将互联网内容和先进的 数据服务带入数字蜂窝电蹯和其它无线终端;制定一个工作于不同无线网之间的便于 无线协议的规范,尽可能适用于不同的网络和设备类型,包容和扩展己存在的相关标 准和技术,开发一个公共的开放标准,使得移动用户能够通过现有的无线设备连向因 特网pj 。目前w a p 已推出2 0 版,在原有的功能基础上增加屏幕动画、滚动多媒体 和音乐文件下载功能,且w a p2 0 应用程序与w a p1 0 应用程序兼容【3 1 0 2 1 2w a p 网络结构 典型的w a p 网络结构包括三个部分:无线终端、网关服务器以及资源服务器鸭 如图2 1 所示。其中无线终端,如手机、p d a 等可以在无线环境中通过网关服务器访 北京工商大学硕士学位论文 问内容服务器上的资源。网关起着连接无线网络与计算机网络的作用,无线网络和计 算机网络之问使用的是不同的协议。 叠 喝 无线终端 p 2 1 3f l a p 协议栈模型 网关服务器 资源服务器 图2 1 :典型的w a p 网络结构 w a p 的协议栈模型事实上是参考w w 模型进行构建,相应于o s i 参考模型的分 层结构,w a p 定义了一个从网络层到应用层的协议栈瞪1 ( 如图2 2 所示) ,此种结构 为移动通信设备和应用开发提供了可伸缩、可扩展的环境。它的特点是:每层协议完 成一定的功能,底层协议通过标准接口向上层协议提供服务,这些标准的接口也保证 了各层协议之间的独立性。除应用于w a p 标准之外,可以直接使用w s p 、w t p 、w t l s 、 w d p 提供的服务,这样的设计使得各层之间功能明确,接口清晰,为移动设备的功能 扩展和开发提供了灵活的模型,很利于具体编程的实现【6 】。 w i r e l e s sa p p l i c a t l 0 np r o t o c o l l 墨竺塑塑堡竺坚! 竺! ! 图22w a p 协议层次图 在w a d p 的协议栈中包含有以下的协议: w a p 网关翻译系统关键技术的研究 2 1 3 1 无线应用环境w a e w a e ( w i r e l e s sa p p l i c a t i o ne n v i r o n m e n t ) 是基于移动技术与w w w 结合基础之上 的应用环境。其作用是为营运商、服务提供商的服务和应用程序建立一个交互操作环 境,使他们可以灵活地接入不同平台。w a e 对网络结构、内容格式、编程语言等方面 作了定义,但没有对接口进行标准化,接口的定义有赖于特定的实现。 w a e 包含一个微型浏览器,具有以下功能吼 w m l :即无线标记语言,是一种类似于h t m l 的轻型标记语言,专为手持终端做 了优化: w m l s c r i p t :轻型的脚本语言,类似于j a v k s c r i p t ; 无线电话应用:电话服务及其编程接口; 内容格式:精心设计的数据格式,包括图象、电话号码簿和日历信息 2 1 3 2 无线会话协议_ w s p 。 w s p ( w i r e l e s ss e s s i o np r o t o c 0 1 ) 为w a p 应用层在两类会话服务( 运行在w t p 上 的面向连接服务及运行在w d p 上的无连接服务) 间提供了一致的接口,并针对窄带和 长延时的无线通信网络进行了优化。 w s p 协议针对低功率、长等待时间的网络数据承载进行了优化,它现在由浏览应 用的服务组成( w s p b r o w s i n g ) ,w s p b 允许使用w a pp r o x y 连接w s p b 的客户端和 标准的h t t p 服务器,具有以下功能【8 : 无线编码中的h t t p 1 1 功能和语法 较氏时间的会话状态 会话随着会话者移动而暂停或继续 建立一个传送可靠或不可靠的数据的通用设备 协议的协商 2 1 3 3 无线处理协议w t p w t p ( w i r e e s st r a n s a c t i o np r o t o c o ) 运行于数据服务之上,为互动式浏览( 请 求应答) 应用提供服务,在使用数据报服务时,w t p 使高层从重发和确认机制中解 放出来,它类似于t c p ,在不可靠的数据服务之| 二为上层提供可靠的连接,提供了 一r 一 北京工商大学硕士学位论文 一个适用于“轻体”客户( 移动终端) 的面向传输的轻型协议。它具有以下功能【9 l : 1 三个等级的传输服务: 不可靠的单向请求 可靠的单向请求 可靠的双向请求一回答传输; 2 可选择的用户到用户的连接; 3 可选择的带外数据确认; 4 p d u 连接和延时确认,以减少传送的消息数量; 5 异步传输; 21 3 4 无线传输层安全w t l s w t l s ( w i r e l e s st r a n s p o r tl a y e rs e c u r i t y ) 是基于工业标准一t l s ( 以前称为 s s i ) 上的安全协议,同样针对移动通信使用的窄频信道进行了优化,它应与w a p 传 输协议同时使用。应用程序可视自己的安全要求和网络特点,选择启用或不启用w t l s 功能。 w t l s 的功能如下【1 0 】: 数据的完整性:w t l s 具有保证终端与服务器问传送的数据前后一致且不会损 毁; 传输的保密性:w 1 l s 保证端到端的数据保密性,并可为数据传输过程的中介方 读取; 认证:终端到服务器的校验; “拒绝服务”保护:检验和拒绝重复和未正确识别的数据,以保护上层协议; 此外,w t l s 也可用于终端和终端之问的安全通讯,如为交换电子交易卡提供认 证。 21 3 5 无线数据报协议w d p w d p ( w i r e e s sd a t a g r a mp r o t o c 0 1 ) 是w a p 体系的传输层协议,可运行于各种 网络的数据承载。作为一种通用的传输协议,它将传输端口根据底层数据承载进行改 造,从而为w a p 体系中的上层协议提供统一的接口,使会话层、应用层独立于底层的 w a p 网关翻译系统关键技术的研究 无线网络。如能保持传输层接口和基本功能的一致性,就可通过中介网关使广泛的交 互操作得以实现【“1 。 2 1 3 6 数据承载b e a r e r w a p 协议在设计时的目的就是要使它可以独立运作于各种不同的数据承载之上, 如s m s ( 短消息、c s d 、封包数据等) 。由于数据承载因承载量、容错率和延迟不同而 有不同的质量,w a p 协议就需要补偿或容忍这些特点。w d p 集中处理体系中其它层次 协议与数据承载的交流,除现在己以可以支持的数据类型外,随着新的数据服务在移 动市场出现,它也会不断发展以支持更多的数据类型。 2 1 3 7 其他服务和应用 通过一系列接口,w a p 协议还可以支持其他服务和应用程序使用w a p 提供的功能。 外围应用程序可直接切入会话层、交易层、安全层和传输层,虽然这类有价值的应用 未在w a p 标准中界定。w a p 协议可用来开发如电子邮件、日历、电话号码本、手写板、 电子商务和黄页、白页等各类服务等。 2 2w e b 语言 2 2 1h t m l h t m l 实质上是标准通用标记语言s g m l ( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ) 的一个应用子集【1 2 j 。如今,h t m i 已是众所周知,而s g m l 可能知之甚少。有趣的是, s g m l 虽然发展了近2 0 年,但其影响远不及崭新的h t m l ,现在我们正绕回到s g m i , 将h t m l 和8 g m l 结合,推出新一代的x m l 。 1 9 6 9 年,i b m 的一个研究定义文档表示格式的小组提出了创造性的“标记 ( m a r k u p ) ”的设想,并且基于此开发了一种不依赖于系统的语言,这就是s g m l 的f i 身。从1 9 7 8 到1 9 8 6 年,由8 g m l 的创始人之一g o l d f a r d 领导的技术小组坚持不懈地 完善着$ g m l ,使其最终成为定义和使用电子文件结构和内容的国际标准( i 8 0 8 8 7 9 ) 。 1 9 8 9 年,瑞士欧洲核子研究中心( c e r n ) 的研究员t i mb e r n e r s l e e 和其合作 者提出了格式化文档方法,这种格式化文档能够在几乎所有的网络计算机上方便地传 r 一 北京工商大学硕士学位论文 输、显示和打印,这就是最早的1 1 1 1 m l 语言。h t m 。标准是由w 3 c 组织管理的,该组织 积极地推动了h t m l 规范的发展,从1 9 9 6 年到1 9 9 9 年相继制定了h t m l 3 0 和h t m l 4 0 标准。 2 2 2h t m l 与x m l 简介 随着网络技术的发展,如何对多种形式的海量数据进行组织和管理是人们一直在 研究的内容。通过标记来管理文本内容的显示和格式,是w e b 环境下组织信息的重要 方式。现在常用的标记语言有三种:s g m l ( s t a n d a r dg e n e r a liz e dm a r k u pl a n g u a g e ) , 它是一种元语言,可以定义无数种标记;h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) ,它是 s g m l 的一个子集,适用于w e b 页而的显示;x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) , 它也是s g m l 的一个子集,用来定义数据结构,适用于电子商务中的大规模数据传输。 s g m l 是一种用标记来描述文档资料的通用语言,它包含了一系列的文档类型定 义( 简称d t d ) ,d t d 中定义了标记的含义,因此s g m l 的语法是可以扩展的。但s g m l 十分庞大,既不容易学又不容易使用,在计算机上实现也非常困难。而h t m l 只使用 了s g m l 中很小一部分的标记,例如h t m l3 2 定义了7 0 种标记。为了便于在计算机 上实现,h t m l 规定的标记是固定的,也就是说h t m l 语法是不可扩展的,它不需包含 d t d 。随着w e b 的应用越来越广泛和深入,h t m l 过于简单的语法严重地阻碍了用它来 表现复杂的形式。尽管h t m l 推出了一个又一个新版本,但始终满足不了不断增长的 需求。另一方面,近几年来计算机技术的迅速发展,已经可以实现比当初发明创造 h t m l 时复杂得多的w e b 浏览器,所以开发一种新的w e b 页面语言既是必要的,也是 可能的。 x m l 是一个精简的s g m 。,它将s g m l 的丰富功能与h t m 。的易用性结合到w e b 的应 用中。x m l 保留了s g m l 的可扩展功能,这使x m 。从根本上有别于h t m l 。x m l 要比h t m l 强火很多,它不再是固定的标记,而是允许定义不限数量的标记来描述文档中的资料、 允许嵌套的信息结构。l l t m l 只是w e b 显示数据的通用方法,而x m l 提供了一个直接 处理w e b 数据的通用方法。h t m l 着重描述w e b 页面的显示格式,而x m l 着重描述的 是w e b 页面的内容。 x m l 中包括可扩展格式语言x s l ( e x t e n s i b les t y l el a n g u a g e ) 和可扩展链接语 言x l l ( e x t e n s i b l el i n k i n gi a n g u a g e ) 1 3 】。 q w a p 网关翻译系统关键技术的研究 x s l 用于将x m l 数据翻译为h t m l 或其他格式的语言。x s l 提供了一种层叠式页面 c s s 的功能,使开发者可以构造出具有表达层结构的w e b 页面,以此与x m l 的数据结 构区别开来。x s l 可以解释数量不限的标记,使w e b 的版面更丰富多彩。此外,x s l 还处理多国文字、双字节的汉字显示、表格的各种各样的处理等。 x i l 是x m l 的链接语言,它与h t m l 的链接相似,但功能更强大。x l l 支持可扩展 的链接和多方向的链接。它打破了h t m l 只支持超级文本概念下最简单的链接限制, 能支持独立于地址的域名、双向链路、环路、多个源的集合链接等等。x l l 链接可不 受文档制约,完全按用户要求来指定和管理。 为了使x m l 易学易用,x m l 精简了很多s g m l 难得用一次的功能。s g m l 常用的部 分只占2 0 ,x m l 抛弃了s g m l 中不常用的部分,使它一下就精简了8 0 。这样一来, x m l 的语法说明书只有3 0 页,而s g m l 却有5 0 0 页。 总之,x m l 使用一个简单而有灵活的标准格式,为基于w e b 的应用提供了一个描 述数据和交换数据的有效手段。h t m l 描述了显示全球数据的通用方法,而x m l 提供 了直接处理全球数据的通用方法。 2 2 3h t m l 的特点 通过比较分析,可以发现h t m l 有如下优点: 1 标记数量少。h t m l 的所有标记加在一起也不超过1 0 0 个,而常用的标记也就 几十个。网页编程者只要记忆几十个单词,就可以运用自如的i n t e r n e t 上邀游,所 以i i t m l 一出现就在全球得到了很快的普及。 2 语法要求宽松。程序语句刈大小写彳;敏感,控制标记也不用必须配对使用, 这些特点对h t m l 的普及起到很大作用。 3 和h t m l 相关的应用软件很多。例如 i o t d o g 、f r o n t p a g e 、h t m la b c 、d r e a m w a v e r 等“所见即所得”的软件可以方便生成h t m l 代码。 但它的缺点也很明显: 1 标记的确定性。h t 1 1 ,语言的标记都是固定的,因此无论是做技术方面资料 还是做商贸方面资料,用的都是同一套标记,用户没有办法设计出适合自己领域的特 殊标记。 2 h t m l 的重- i 在于显示信息的样式。h t m l 本质上是一种格式显示语言,它没有 一i n 北京工商大学硕士学位论文 办法区分页面的数据和样式,这种局限性是导致x m l 标记语言出现的一个重要原因。 3 不同版本的h t m l 标记语言规范不统一。h t m l 标记语言和浏览器的关系非常 密切,由h t m l 编写的代码只有通过浏览器的翻译和解释才能看出效果。浏览器厂商 为了各自利益,都制造符合自身利益的标记,从而造成国际上h t m l 标记语言的混乱 局面,许多h t m i 。文本只能在一种浏览器中才能正常显示,而换一种浏览器就不能正 常显示或显示结果为乱码。 2 2 4x m l 的优点 x m l 与h t m l 相比,具有以下优点1 1 4 】: 1 可实现不同数据源之间的数据交换。x m l 具有跨平台特性,可以提供一种不 同数据源之间进行数据交换的公共标准,它是一种公共的交互平台,一种数据源只要 将它的数据表示成x m l 格式就能被另一种数据源有效地识别。 2 一种数据多种显示。h t m l 是显示w e b 数据的专用语言,而x m l 则是表示存储 并用来传输数据的标记语言。x m l 文档并不用决定数据的显示样式,显示部分由其他 语言( x s l 和c s s ) 来解决。x m l 将信息的数据部分和信息的样式显示部分进行了区 分,我们可以给同一份数据添加多种样式,从而得到多种显示效果。 3 实现数据的分布式处理。x m l 数据模型的一个优点就是将原来必须由服务器 端处理的很多负载都分配到了客户端j 二处理,以此来降低服务器的负担并优化服务器 的性能,而这在h t m l 标记语言体系结构中是根本不可实现的。 4 简单易学且功能强大。x m l 标记语言继承了h t m l 语言简单易学的特性,功能 十分强大。x m l 本身就是s g m l 的一个子集,是一种专门应用在i n i e r n e t 上的s g m l 文档,因而x m l 充分继承了s g m i ,的优点,也克服了s g m i 。的缺点。 2 2 5w m l 语言简介 w m l 是一种基于x m l 的标记语言,用来定义窄带设备中用到的内容和用户接口。 wm 1 包括四个主要的功能域【1 5 】: 1 文本显示和布局:w m l 支持文本和图像,包括各种格式和排版命令。例如 可以定义粗体字。 w a p 网关翻译系统关键技术的研究 2 页面卡片有组织的文档:所有w m l 的信息都被组织在一系列的卡片和页面 内,卡片指定一个或更多的用户交互单元( 例如,菜单选择、文本屏或文本输入域) 。 逻辑上,用户可以在一系列的w m l 卡片中导航,检查每项内容、输入要求的信息,w m l 页面类似于一个由u r i 标识的h t m l 页面,是内容的传输单位。 3 卡片间的导航和链接:w m l 不仅支持卡片和页面之间的导航管理,而且还支 持设备中的事件处理,这些处理可用于导航或程序脚本的执行,同时他还支持锚点的 链接,类似的情况在h t m l 4 0 中可以见到。 4 字符串参数化和状态管理:借助于状态模型,所有的w m l 页面都可以实现参 数化,这种参数化有助于提高网络资源的使用效率,变量可以在字符串的位置上使用 并且在运行时被替换。 作为x m l 的一个特定d t d 的应用语言,w m l 语法完全遵守x m l 规范。x m l 是一种 语法非常严格的语言,w m l 也继承了这种规范,任何不符合x m l 语法规范的页面都会 导致分析错误l i 6 1 。 2 3c g c g i 即通用网关接口( c o m m o ng a t e w a yi n t e r f a c e ) ,它是w w w 服务器在调用外部 进程或外部可执行程序( c g i 原本) 时的参数规范协议,它规定了一组标准的环境变 量和参数格式。一般来说,一个c g i 接口的功能就是在超文本文件和服务器主机应用 程序问传递信息f 1 7 j 。 2 31 c g l 程序 如果你希望全世界都可以通过w e b 系统查询你的数据库,那么就必须在服务器一 侧的机器上编写一个可执行程序,它可以建立服务器与数据库查询问的联系,传送信 息并将所得信息处理加工返回给服务器,进而提供客户机处理,这种可执行程序就是 c g i 程序。 在实际中还有许多复杂的事务需要建立c g i 程序,以便使客户、服务器与事务问 建好联系。过去,一些著名的w w w 服务器,为解决各种不同问题进行单独处理,这显 然不合理。后来逐步形成一种标准,这就是c g i 。遵循c g i 标准编写的可执行程序, 北京工商大学硕士学位论文 称为c g i 程序。 c g i 程序可以使用多种工具编写,如c 、c + + 、f o r t r a n 、p e r l 、p y t h o n 等。有 了c g i 程序,可以使客户机服务器问的关系更紧密、更生动,许多复杂问题以及h t t p 和h t m l 语言难于解决的问题解决了,拓宽了w w w 的应用范围。例如它可以较为简单、 方便地处理w w w 与大型数据库的连接;能够实现其它某些协议在h t t p 上运行。 2 3 2c g i 工作机制 c g i 原本和w w w 之间的数据通信主要包括以下四个方面【1 8 】: 1 环境变量 在调用c g i 程序前,服务器在特定的环境变量中放入信息,c g i 程序可以从这些 环境中读取所需的内容。主要的环境变量包括s e r v e r s q f t w a r e 、s e r v e r n a m e 、 g a t e w a y i n t e r f a c e 、s e r v e r p r 0 r r o c o i ,等等。 2 c g i 命令行参数 命令行仅仅用在1 s i n d e x 查询中,它不能用于h t m lf o r m 或其它未定义的查询类 型。服务器通过查找询问信息( 即环境变量) 中是否有非编码字符“= ”来决定是否 调用命令行,如果发现一个“= ”,则不调用命令行。 3 c g i 原本输入 c g i 有两种方法获取来自客户机的数据,一种是c e t ,一种是p o s t 。如果查询方 法为g e t ,则应从环境变量q u e r y s t r i n g 中读取数据。如果是p o s t 或p u t 方式,则 应从标准输入s t d i n 中读取,此时数据将不以e o f 为结束标志,而是从 c o n t e n t l e n g t i i 中取出数据长度。 4 c g i 原本输出 c g i 原本输出有两种方式: 1 数据返回到服务器。c g i 程序按照h t t p 协议要求,见c g i 头域和信息实 体从标准输出送给服务器,服务器除了计算信息实体的长度外,还要加入一般性头域, 然后形成给客户机的应答,连同c g i 输出的信息实体一起返回给客户机。 1 ) l 表示客户机与b t t p 服务器连接,并提出请求: 2 ) 2 表示h t t p 服务器设置环境变量后,运行c g i 原本; 3 ) 3 表示c g i 原本完成处理后,把结果返回到服务器; 4 ) 4 表示h t ,r p 服务器把结果发送给客户端的浏览器。 1 : w a p 网关翻译系统关键技术的研究 + 落户封l 方 鞭务器b 图2 - 3c o i 原本输出方式l 2 数据返回到客户机。文件名以n p h 为前缀的c g i 程序称为n p h 程序 ( n o n p a r s e th e a d e r ) 。它从标准输出中直接将数据送给客户机,而不需从中做任何 处理工作,是一种特殊的c g i 程序。对于普通的c g i 程序,服务器只有收到c g i 程序 的全部执行完毕后的所有输出,刁。能响应客户机。针对客户机的一次请求有且仅有一 次应答,而n p h 程序却可以控制对用户应答的次数,而且不必等到程序执行完毕之后, 这样就极大的增强了c g i 程序的功能,同时n p h 程序直接将数据返回给客户机,不需 要服务器做中介,提高了服务器和整个系统的效率。 3 阁2 4 原本输出方式2 1 ) 表示客户机与服务器连接后,提出请求; 2 ) 表示服务器为特定环境变量赋值后,运行n p h 程序,将全部输出的控制 权交给n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六一啤酒活动方案
- 六一嬉水活动方案
- 六一幼儿园欢庆活动方案
- 六一康复教育活动方案
- 六一歌会活动策划方案
- 六一活动卖衣服活动方案
- 六一活动小卖部活动方案
- 六一活动晒娃活动方案
- 六一活动节活动方案
- 六一策划创意活动方案
- 脑梗死再灌注治疗【优质PPT】
- 制冷与空调作业
- 如何阅读小儿胸片
- 《计算机组成原理与系统结构》第十章 流水线技术
- YS/T 118.16-2012重有色冶金炉窑热平衡测定与计算方法(铜闪速炉)
- GB/T 23936-2018工业氟硅酸钠
- GB/T 11213.2-2007化纤用氢氧化钠氯化钠含量的测定分光光度法
- 事故隐患通报制度(5篇)
- Unit3Reading课件-高中英语牛津译林版(2020)必修第三册
- 5-1贯入法砌筑砂浆砂浆抗压强度检测方案
- 锚杆加固施工方案(通用版)
评论
0/150
提交评论