




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南农业大学信息学院硕上学位论文 摘要 , ( w w w 是目前使用最为广泛的i n t e r n e t 信息服务系统,它为用户提供了一个搜索和 浏览信息的工具。但w w w 是一个信息的海洋,数亿万计的w e b 文档散布在世界各地的 成千上万个w e b 服务器上,并且每个服务器自主管理自己的资源,没有一个统一的管 理机制。总体状况是,整个网络上资源丰富,内容庞杂,很难实现数据的共享,亦不 能进行有效地查询。 x m l 的出现为解决上述问题提供了理想的解决方案。x m l 全称为e x t e n s i b l e m a r k u pl a n g u a g e ,即扩展标记语言,是s g m l ( s l a n d a r d g e n e r a l iz e d m a r k u p l a n g u a g e ) 的一个简化的而又严格的子集,它是特别为w e b 应用设计的,x m l 是一个 在互联网上进行数据交换的理想工具。 由于x m l 能够使不同来源的结构化的数据很容易地结合在一起,从而使搜索多样 的不兼容的数据成为可能,为解决w e b 查询问题带来了希望斗本文围绕着基于x m l 的 w e b 查询技术涉及到的几个主要问题展开研究与讨论: 7 】针对w e b 上的数据格式差异大、数据来源差别大及当前的数据模型不能很好 地描述w e b 上数据的缺点,研究和探讨了w e b 上的数据模型一x m l 数据模型。 2 解决异构数据的集成问题。由于异构数据的集成主要是异构关系数据库中数 据的集成。所以本文采用了基于“中间模式”的方法进行数据的集成,将关系数据库 中的数据转换为通用的x m l 格式的数据,从而更好地实现数据的共享。 3 利用x m l 数据模型在半结构化数据表示和查询方面的优势,通过基于x i l 的 查询语言x m l q l 实施w e b 查询。 ( 在x m l 出现以前,面向w e b 的数据查询是一项复杂的技术。通过本文研究的方法, 如果采用x m l 数据模型描述w e b 上的数据,把不同来源的结构化的数据转换成x m l 格 式的数据,就能够方便地实现数据的共享和进行精确、有效的信息查询,将极大地简 化复杂眭,提高工作效率。j 关键词:x m l ;w e b 查询i 半结构化数据;数据模型 牡十x h i i 的w e b 盘询扯术f _ 1 _ 赶 a b s t r a c t w w is em o s tw id e lyu s e d in f o r m a l jo ns t 、jv ie o s t e mo nt h e1n t e r n e t ito f f e f s ;lt ) o lt 0s e a f c ha n dh i 【) w s ein f o f r o & tior i u t v w wc o n t a jn st o om u c l l in f e r m a th ) n n db i l lio n so fp a g e sl o c ac e do nl h o u s a n ( 1 so 、s e r v e r sind ir f e f e n t n a l a c e sint - 、e w o f l d e v e r y s er 、,【,r m a n a g e s i tso w nf e s o u r c e s a n dd o e sr i o t fo lo wo n es :a n d a r dm a n a g in gm e c h a n ic s i ng e n e r a l 、t h e l ea r ew e a lt h yo f v a r i o u sr e s a tf c e so nt h em e t ,w h ic hc a nb e tb es h a r e da r i da u e f i e de f f e c t i v e l y t h ee m e lg e n c eo fx m lp r o v id e sar e s o l u t i o nt ot h ea b e v em e n t i o n e dp r o b le m f h ef u l ln a m eo fx m l ise x te n s ib 1e m a r k u pl a n g u a g e i :isas i m p j f i e da n d r e s t r ic t e d 吼b s e to fs g m l ,p a r t ic u l a r 】yd e v is e df o rw e ) a p p l i c a t i o n x m lis a ne x c e l l e n tt 0 0 1f o fd a t ae x c h a n g eo nt h e in t e r n el d u et oi ts c a p a b i l i t y t oc o m b in es t r u t t u r e dd a t aw i i hd i f f e r e n ts o u r c e s , x m lm a k e sh a s s ib 1et or e t f ie v ed a t af r o md i f f e r e n ta n din c o m p a t i b l ed a t a b a s e s e r v e r s ,a n db r i n g sh o p e s f o rw e bd a t aq u e r yt h isa lt i c lef o c u so nt h e s e f o l1 0 w in gp r o b l e m s : 1 c o n s ic e f i n gt h eb i gd i f f e r e n c eo fd a t af o r m a ta n dd a t as o u r c e so nt h e w e b w em a d er e s e a r c ha n dd is c u s so nt h ew e bd a t am o d e l x m ld a t am o d e l 2 t or e s l v et h ep r o b l e mo finl e g r a l l i o n o fd a t aw it rd if f e r e n ts t f u c t u r e b e c a u s et h eir i t e g r a t i o np r o b le mm a in l yf o c u so nt h ei n t e g r a t i o no fd i f f e r e n t s t f u c t u t - e dr d s m s t h isa r t jc l ea d o pc e dr e e d i a t e ds c h e m aa n dt r a n s f o r m e dt h e d a t ai nr d b 、| i si n t ox m ld a t as o u r c e 1 h e r e f o r e ,b e t t e rs h a r i n go fd a t ac a nb e t e a l iz e d 3 m a k in gf u l l u s eo ft h e a d 、7 a n t a g e s o f u s i n g x m ld a t am o d e li n s e m i s t r u c t u r e dd a t ar e p r e s e n t a ti o n a n d q u e r y , w ec a n c a r r y o u td a t a r e t r i e v i n gq u e r i e s f r o mx m ld a t ar e s o u r c e so nw e bb yu s in gx m l q l b e f o r et h ee m e r g e n c eo fx m 。,w e bo f i e n t e dd a t aq u e r yisac o m p l e xt e c h n i q u e t h r o u g h t h e ! e s e a r c hi nt h js a r ti c l e ,i fw er e p r e s e n tw e bd a t ab yx m ld a t a m o d e l a n dt f e n s f o r mt h es t r u cl u r e dd a t af r o md i f f e r e n td a t as o u r c ei n t ox m l d a t af o r m a ts o u r c e s ,w ew i l ir e a ii z ed a t as h a r in ga n dc a r r yo u te x a c ta n d e l f ic ie n td a :aq u e r y ,w h i c hw i l ls i m p i f y o u rw o r ka n de n h a n c e e f f i c i e n c y g r e a t ly k e y w o r d s :x 儿,w e bq u e r y ,s e m i s t r u c t u r e dd a t a ,d a t am o d e l 1 标记语言的发展 1 1 s g m l 的发展“ 第一部分文献综述 在计算机发展的早期,在电子文档中含有一些控制代码或宏来使文档按某种特定 的方式格式化,这被称为特殊编码。而6 0 年代末期出现的通用编码则使用描述性的 标签,如用h e a d i n g 表示标题等来描述文档的格式。1 9 6 9 年,i b m 的技术人员c h a r l e s g o l d f a r b 和e d w a r dm o s h e r 、r a y m o n dl o r i e 一起发明了通用标记语言g m l ( g e n e r a li z e dm a r k u pl a n g u a g e ) 。它在各文档之间共享一些相似的属性,诸如字体 大小和版面等,来允许文本编辑、格式化和信息检索等子系统共享文档。g m l 的大部 分内容被i b m 和其他公司实现在主机时代的出版系统中,获得了工业界的接受。而i b m 自己作为世界第二大出版商,现在仍在9 0 以上的文档中采用g m l 。1 9 7 8 年,a n s i 成 立了文本处理计算机语言委员会,它和g c a 的g e n c o d e 委员会一起于1 9 8 0 年在g m l 的基础上制定了s g m l ( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ) 的第一份工作草案。s g m l 是一种元标记语言,实际上它是易用通用的文档结构描述标记语言,主要用来定义文 档模型的逻辑结构和物理结构。在1 9 8 6 年,标准通用标记语言s g m l 成了国际标准 ( i s 0 8 8 7 9 ) 。 一个s g m l 文档由三部分组成: 1 语法定义语法定义规定了文档类型定义和文档实例所必须遵循的语法结 构。 2 文档类型定义( d 1 、d )文档类型定义规定了文档实例的结构和组成结构的元 素类型。 3 文档实例文档实例是s g m l 文档的主体部分,用来存放文档的具体内容。 s g t l 是一种元语言,在实际应用中可以派生出其他的语言。我们在e b 上常用的 、。诏言就是由s g m 。派生出来的标记语言。x , ) | l i 。”1 也是s g m l 的一个子集。 s c ;i i 。的语义标记有助于计算机进行分类和索引,并且可以扩展生成用来处理新数 j 枉格式的各种标记语言。s g m l 被设计为正式的,能允许验证文档的正确性;它足结构 化的,能够处理复杂的文档;它是可扩充的,能够支持大型信息存储的管理。 列s g l i ,一泛应用的一个重要原闪是,它的结构相当复杂,它的脱恪悦州就荫 5 0 0 多页。k f 门规l 嵛说明使人竹j x 难1 阅读神l i 甲解,也使计算 几难 一处迥羽j 操纠、。 1 7 :h 0 年代水州,s g 扎引起了包括c 肌n ( e u r n p e a nl f i _ 1 0 r a t o r yf o r h 1 t 1 【1 o l 、h 、。1 ( :、) nj 勺一蝗? f i 织n 勺1 :感。19 9 0j i :,w w w 的发明揣r i n 1b e r n e f s j n 、逸扦j ( ;i i l 位川的一组s ( 洲d | d 的标i 己标签。侄最f m w e b 浏览器牙编辑器n e x u s 巾,他使 i 了标签和样式表进行排版,并增加了最重要的功能一链接( 1 in k ) ,这是 i t m l 的前 身。从】9 9 2 年开始,l i t 1 演变成了一个s g m l 应用。 1 2h t m l 的发展。 h f | i l ( h y p e t t e x tm i 1 1 k u pl a n g u a g e ) 是一种用于建立超文本超媒体文档的标记 语苦,是s g m l 的一利,应片j ,它是s g m l 的一种实例标记语言,它的d t d 是固定的。h t m l 继承了s g 、| i l 的一些重要的优点。它具有通用的语义,适合于表示各种领域的信息。 它有如卜_ 优点: l 统一性。h t m l 语言的每一个版本力争与工业厂商获得最大限度的一致,以便 投资不致浪费并且不至于在某个阶段中文档无法阅读。 2 国际化。h t m l 在发计中得到了国际化领域专家的帮助,这通过 r f c 2 0 7 0 组合 实现,它分配了h t m l 的国际化。h t m l 提供了在一篇文档中使用不同的语言的功能, 这使得某些文档更有效率,如搜索引擎、高质量的排版、好的文字一一语音转换以及 l f 确的超链。 3 易于掌握。由于w e b 通讯的发展以及它们的使用者具有不同的能力和技术, 决定性的是要有一种下层的符合他们要求的技术。t t t l 由此需要被设计成通过某些内 在限制使e b 页更易于掌握。 尽管h t m l 有许多优点,但h t m l 却很难用于表示大规模的、复杂的超媒体数据。 随着w e b 文件越来越大,越来越复杂,h t m l 也暴露出越来越多的缺点,尤其是它在下 面三个重要方面存在严重不足: 1 扩展性方面h t m l 不允许用户设定自己文件的标签或者属性,因而其扩展性很 不好; 2 结构方面t t t m l 不支持描述数据库和面向对象层次的深层结构规范; 3 数据确认方面h t m l 不支持检查输入数据合法性的语言规范。 尽管h t m l 简单易用,但它过多地限制了w e b 文件的复杂性和灵活性。为了克服这 些不足之处,人们已经开发出了大量可扩展h t m l 语言功能的解决方案,包括浏览器 指定的插件、j a v a 应用程序等。但这些h t m l 扩展技术通常难于进行编程和维护,依 赖于不兼容的专利技术或格式,而且还有可能使性能降低。虽然可视化和用户界面标 准是一个必要的层次,但它们对于表示和管理数据还是不够的。现在,i n t e r n e t 还只 能访问文本和图片,对于智能查找、数据交换、适应性表示和个人化还没有标准。h t m l 做不到这一点,它虽然提供了关于显示的丰富的机制,但它没有提供基于标准的方式 来把信息作为数据管理。所以必须设立种信息理解标准:该标准能更好地检索、移 动、显示和操纵隐含在上下文之中的信息。这一标准就是x m l 和x m l 的扩展。 1 3 蹦l 的发展“”。 西南农业大学信息学院硕士学位论文 1 3 1 什么是x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) ,即扩展标记语言,是s g m l 的一个简化的 而又严格的子集,x m l 规范不到s g m l 规范的十分之一,这也说明了对s g m l 精简的程 度,它是特别为w e b 应用设计的,它是针对于h t m l 和i n t e r n e t 的标准的、可扩展的、 通用的数据格式。x m l 保留了s g m l 可扩展性、结构以及数据确认方面的主要优点,它 的灵活性允许表示各种各样的信息,而这些信息是自我描述的,所以x m l 表示的结构 化的数据可以被那些没有关于这些数据的知识的软件来处理。x m l 可以向i n t e r n e t 的数据增加各种内容、语义和概要的数据标准。它可以编码表示:普通的文档、结构 化的记录、带有数据和方法的对象、数据记录、关于一个w e b 站点的元内容、图形表 示、标准的实体和类型、w e b 上的信息和人之间的所有连接等。可以说x m l 成为不同 格式数据向标准化格式数据转换的“桥梁”。 x m l 文档的一个重要特点是,它只描述文档的内容、结构和含义,而不描述页面 上元素的显示格式。也就是说,文档本身仅描述文档内容的标记,而不定义文档的外 观,外观格式的定义可以存放在一个样式表文档中,x m l 文档可以引用样式表文档。 相对而言,h t m l 文档同时包含了结构、语义和显示格式标记。我们通过二者的对比来 认识x m l 文档。 1 h t m lw e b 页: ( h e a d 这是一本世界著名童话故事书 ( h e a d 安徒生章话故事选 作析:安徒生 定价:¥2 8 1 可以看到在t i t m l 中,文档的内容散落在表示显示格式的标签中。而在x m l 中, 同样的内容可以表示如下: 2n i 。文档: ( 、 摘要) 这是一本世界著名童话故事书 摘要) ( 书名) 安徒生童话故事选 书名) 作者) 安徒生 作者) l 定价) ¥2 8 ( 定价) ( 书 在上面的x m l 文档中,使用有含义的标记名称如 、 、 、 和( 定价 来代替了像 和 这样的h t m l 标记。采用这种方法,有很多优点, 至少使人们通过阅读源代码来理解作者的本意变得更加容易。 ) 【m l 标记也使计算机、自动化机器人定位文档中的具体内容更加容易。在h t m l 文档中,机器人只能确定 是一个元素,而无法确定它所表达的真正含义。搜 索引擎是我们常见的一种自动化机器人,由于从h t m l 的标签本身,它们几乎得不到 任何有用的信息,所以如果要在网上的h t m l 文档中去查找所有关于x m l 的书籍,则 无异于大海捞针,搜索引擎需要在混乱的内容中分辨哪些x m l 字段对应的书名,返回 的结果可能令你头晕眼花。但如果利用x m l 就会明显改善这种情况,x m l 文档的标签, 类似于数据库中的各个字段,都有着明确的含义,可以很好地表示w e b 上的语义4 3 。 搜索引擎只要查找特定的标签及内容即可,而不用像在h t m l 文档中那样,搜索整个 文档中的内容。在x m l 文档中,我们可以自由选择元素的名称,使它具有特定的含义, 例如,可以选用数据库的字段名称。在h t m l 中,对于各种用途有固定的标记,而在 x m l 中,对于各种用途没有固定的标t 己,对于各种具体的应用,可以灵活地选择标记, 这使得x m ,更灵活和更易被接受。 西南农业大学信息学院硕士学位论文 1 3 2x m l 的组成部分 x m l 有许多部分,包含其中的三个重要部分。分别是:文档类型定义d t d 。,也 就是x m l 的布局语言:可扩展的样式语言x s l ( e x t e n s i b l es t y t l el a n g u a g e ) 即 x m l 的样式表语言;可扩展链接语言x l l ( e x t e n s i b l el i n kl a n g u a g e ) 。 d t d 规定文档的逻辑结构。它可以定义文档的语法,而文档的语法反过来能够让 x m l 语法分析程序确认某张页面标记使用的合法性。d t d 定义页面的元素、元素的属 性以及元素和属性之间的关系。例如,d t d 能够规定某个表项只能在某个列表中使用。 d t d 不是强制性的,对于简单应用程序来说,开发商不需要建立他们自己的d t d ,他 们可以使用预先定义的公共d t d ,或者根本就不使用。即使某个文档已经有了d t d , 只要文档是组织良好的,语法分析程序也可以不对照d t d 来检验文档的合法性。服务 器可能已经执行了检查,所以检验的时间和带宽将得以节省。 x s l 是用于规定x m l 文档样式的语言。x s l 能使w e b 浏览器改变文档的表示法, 例如,数据的显示顺序改变,就不需要再与服务器进行交互通信。通过变换样式表, 同一个文档可以显示得更大,或者经过折叠只显示外面的一层,或者变为打印格式。 x s l 凭借其可扩展性能够控制无穷无尽的标记,而控制每个标记的方式也是无穷尽的。 这就给w e b 提供了高级的布局特性。 x l l 将支持目前w e b 上已有的简单链接,并且将进一步扩展链接。 1 3 3x 虬的主要特点 正是x m l 的特点决定了其卓越的性能表现。x m l 作为一种标记语言,有许多优点: 1 简单。x m l 经过精心设计,整个规范简单明了,它由若干规则组成,这些规则 可用于创建标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建的标 记语言。x m l 能创建一种任何人都能读出和写入的世界语,这种仓u 建世界语的功能叫 做统一性功能。如x m l 创建的标记总是成对出现,以及依靠称作统代码的新的编码 标准。 2 开放。x m l 是s g m l 的简化集,市场上有许多成熟的软件可用来帮助编写、管 理x m l ,开放式标准x m l 的基础是经过验证的标准技术。众多业界顶尖公司,与w 3 c 的工作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的开发人员、 作者和使用者使用x m l 。x m l 解释器可以使用编程的方法来载入一个x m l 的文档,当 这个文档被载入以后,用户就可以通过x m l 文件对象模型来获取和操纵整个文档的信 息,加快了网络运行速度。 3 高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标签,也 可与他人共享,可延伸性大,在x m 。中,可以定义无限量的一组标注。x m l 提供了一 个标示结构化资料的架构。随着世界范围内的许多机构逐渐采用x m l 标准,将会有更 5 基十x m l 叼w e b 台伯j 技木研,( 多的相关功能出现:一旦锁定资料,便可以使用任何方式透过电缆线传递并在浏览 器中¥现,或者转交到其他应用程睁做进一步的处理。x i v l l 提供了一个独立的运用程 序的方法来共享数据,使用d t d ,不同的组中的人就能够使用共同的d t d 来交换数据。 你的、i 用程序j ,以使用这个标准的d t d 来验证你接收到的数据是否有效,你也可以使 用个d t d 来验证你自己的数据。 4 国际化,标准国琢化,且支持世界上大多数文字,这源于依靠它的统一代码 的新的编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。在h t m l 中,就大多数字处理而言,一个文档一般是用一种特殊语言写成的,不管是英语,还 是f 语或阿拉伯语,如果用户的软件不能阅读特殊语言的字符,那么他就不能使用该 文档。旦是能阅读x m l 语言的软件就能顺利处理这些不同语言字符的任意组合。因此, x m i 。不仅能在不同的计算机系统之间交换信息,而且能跨国界和超越不同文化疆界交 换信息。 1 4 x m l 与s g m l 、h t m l 的关系 x i l 不是s g m l 的替代物。为了使x y i l 简单,s g m l 的很多功能被省略了。x m l 是为 那些还没有使用s g m l 的人设计的到s g i l 的一个方便的过渡? ” x m l 和h t m l 是相互补充的。h t m l 关于用户界面,x m l 关于数据。动态的h t m l 描 述了显示和用户交互,x l , f l 描述了信息。这样,x m l 可以向h t m l 文档增加信息,而h t m l 可以显示以x m l 格式表达的信息。x m l 突破了h t m l 固定标记集合的约束,从而开发商 可以定义无穷无尽的标记来描述文档中的数据元素。这些数据元素可以组成一个信息 体系,就像文件夹中的纸张一样。一个合法的x m l 文档也就是信息体系被适当定义和 组织的文档。 用x m l 重新编写文档的优越性是很显著的。因为把 t t e b 内容编码为x 、1 l ,使得信 息结构易于访问,它有助于访问,它有助于搜索引擎返回更有意义的结果。x m l 定义 文档的结构而不是定义浏览器应该如何显示文档,这将给w e b 开发商提供许多灵活性。 它改变了浏览器的显示、组织和搜索信息的方法。 1 5 x m l 的应用领域 促进x m l 应用的是自:些用标准的h t m l 无法完成的w e b 应用。这些应用从大的方 面讲可以被分成以下四类: 1 需要w e b 客户端在两个或更多异质数据库之间进行通信的应用: 2 试图将大部分处理负载从w e b 服务器转到w e b 客户端的应用; 3 需要w e b 客户端涛同样的数据以不同的浏览形式提供给不同的用户的应用; 4 需要智能w e b 代理根据个人用户的需要裁减信息内容的应用。 显而易见,这些应用和w e b 的数据查询技术有着重要的联系,基于w e b 的数据查 6 西南农业大学信息学院硕士学位论文 询必须依靠它们来实现。 x m l 给基于w e b 的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户 带来了许多好处,如w e b 数据可被x m l 唯一地标识,从而可以进行更有意义的搜索。 没有x m l ,搜索软件必须了解每个数据库是如何构建的,但这实际上是不可能的,因 为每个数据库描述数据的格式几乎都是不同的。由于不同来源数据的集成问题的存 在,现在搜索多样的不兼容的数据库实际上是不可能的。) ( j i l l 能够使不同来源的结构 化的数据很容易地结合在一起。软件代理商可以在中间层的服务器上对从后端数据库 和其它应用处来的数据进行集成。然后,数据就能被发送到客户或其他服务器做进一 步的集合、处理和分发。x m l 的扩展性和灵活性允许它描述不同种类应用软件中的数 据,从描述搜集的w e b 页到数据记录,从而通过多种应用得到数据。间时,由于基于 x m l 的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用x m l ,用 户可以方便地进行本地计算和处理,x m l 格式的数据发送给客户后,客户可以用应用 软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅 仅是显示它。x m l 文档对象模式( d o m ) 允许用脚本或其他编程语言处理数据,数据计算 不需要回到服务器就能进行。x m l 可以被利用来分离使用者观看数据的界面,使用简 单灵活开放的格式,可以给w e b 创建功能强大的应用软件,而原来这些软件只能建立 在高端数据库上。 x m l 还可以通过以简单开放扩展的方式描述结构化的数据,x m l 补充了h t m l ,被 广泛地用来描述使用者界面。h t m l 描述数据的外观,而x m l 描述数据本身。由于数据 显示与内容分开,x m l 定义的数据允许指定不同的显示方式,使数据更合理地表现出 来。本地的数据能够以客户配置、使用者选择或其他标准决定的方式动态地表现出来。 c s s 和x s l 为数据的显示提供了公布的机制。通过x m l ,数据可以粒状地更新。每当 一部分数据变化后,不需要重发整个结构化的数据。变化的元素必须从服务器发送给 客户,变化的数据不需要刷新整个使用者的界面就能够显示出来。但在目前,只要 条数据变化了,整个一页都必须重建。这严重限制了服务器的升级性能。x m l 也允许 加进其他数据,加入的信息能够进入存在的页面,不需要浏览器重新发一个新的页面。 x m l 应用于客户需要与不同的数据源进行交互时,数据可能来自不同的数据库,它们 都有各自不同的复杂格式。但客户与这些数据库间只通过一种标准语言进行交互,那 就是x m l 。由于x m l 的自定义性及可扩展性,它足以表达各种类型的数据。客户收到 数据后可以进行处理,也可以在不同数据库间进行传递。总之,在这类应用中,x m l 解决了数据的统接口问题。但是,与其他的数据传递标准不同的是,x m l 并没有定 义数据文件中数据出现的具体规范,而是在数据中附加标记( t a g ) 来表达数据的逻 辑结构和含义。这使x m l 成为一利,程序能自动理解的规范。 x m l 应用于将大量运算负荷分布在客户端,即客户可根据自己的需求选择和制作 不同的应用程序以处理数据,而服务器只须发出同一个x m l 文件。如按传统的 “c l i e n t s e r v e r ”工作方式,客户向服务器发出不同的请求,服务器分别予以响应, 基fx m l 的w e b 直1 铷 土术研冗 这不仅加重服务器本身的负荷,而且网络管理者还须事先调查各种不同的用户需求以 做啦相应个同的程序,但假如用户的需求繁杂而多变,则仍然将所有业务逻辑集中在 服务器端是不合适的,因为服务器端的编程人员可能来不及满足众多的应用需求,也 来不及跟上需求的变化,双方都很被动。应用x m i 。则将处理数据的主动权交给了客厂t , 服务器所作的只是尽可能完善、准确地将数据封装进x m l 文件中,正是各取所需、各 司其职。l 的自解释性使客户端在收到数据的同时也理解数据的逻辑结构与含义, 从而使广泛、通用的分布式计算成为可能。 x l 还被应用于网络代理,以便对所取得的信息进行编辑、增减以适应个人用户 的需要。有些客户取得数据并不是为了直接使用而是为了根据需要组织自己的数据 库。比方说,教育部门要建立一个庞大的题库,考试时将题库中的题目取出若干组成 试卷,再将试卷封装进x m l 文件,接下来在各个学校让其通过一个过滤器,滤掉所有 的答案,再发送到各个考生面前,未经过滤的内容则可直接送到老师手中,当然考试 过后还可以再传送一份答案汇编。此外,x m l 文件中还可以包含进诸如难度系数、往 年错误率等其他相关信息,这样只需几个小程序,同一个x 札文件便可变成多个文件 传送到不同的用户手中。 2w e b 搜索技术“ 2 1w e b 搜索技术现状 互联网的迅速发展和广泛普及导致网上信息爆炸性增长。据权威机构统计,网上 约有数十亿的网页,甚至有些专家宣称网页总数已达5 5 0 0 亿,这一数字仍然在不断 的快速增长。如何在庞大的互联网上获得有价值的信息己成为日益关注的问题。搜索 技术的出现为快速技到所需信息带来了福音。 搜索引擎是一种用于帮助因特网用户查询信息的搜索工具,它以一定的策略在互 联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服 务,从而起到信息导航的目的。1 9 9 3 年,i n t e r n e t 上出现了最早的w e b 浏览器m o s a i c , 次年j e t s c a p e 推出了n a v i g a t o r ,浏览器的发展促使w e b 得到迅速推广,同时也推动 着搜索引擎的发展。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的 类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他 们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始 的方式,只适用于因特网信息并不多的时候。 随着因特网信扈、按几何方式增长,出现了最早的真正意义上的搜索引擎一 l y c o s ,它创建于1 9 9 4 年的春天,当时m i c h a e lm a u l d i n 将j o h nl e a v i t t 的s p i d e r 程序接入到其索引程序中。随着y a h o o ! 的出现,搜索引擎的发展也进入了黄金时代, 相比以前其性能更加优越。 西南农业大学信息学院硕士学位论文 搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但是网民对 于现有的搜索技术是否满意呢? 2 0 0 1 年,r o p e rs t a r c h 的调查指出,3 6 的互联网用户一个星期花了超过2 个小 时时间在网上搜索:7 1 的用户在使用搜索引擎的时候遇到过麻烦:平均搜索1 2 分钟 以后发现搜索受挫;搜索受挫中4 6 都是因为链接错误;绝大部分( 8 6 ) 的互联网用户 感到应当出现更有效的、准确的信息搜索技术。 另一项由k e e n 所做的调查显示,人们平均每天有四个闯题需要从外界获取答案; 其中3 1 的人使用搜索引擎寻找答案:平均每周花费8 7 5 个小时找寻答案:5 3 3 时 间花在从旁人那里获得答案,2 9 的时间花在亲戚朋友身上,2 4 3 的是时间花在销售 商那里;网上查找答案的,半数以上都不成功;他们每周将花费1 4 5 美元以上,以 获取正确的信息。 从这些调查数据中不难看出,目前的搜索引擎仍然存在不少的局限性。传统的搜 索引擎技术有哪些局限性呢? 主要有信息丢失、返回过多无用信息及信息无关几方面 局限性。造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅 仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也就是说搜索引擎 无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性 化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。 这使得网民仍然在期盼更完美的搜索技术的出现。网民需要搜索服务提供者研制 更完美的搜索技术来满足更快、更准、更方便的查询需要。这也是搜索技术发展的最 终目标:跟上i n t e r n e t 的发展速度,为网民提供更准确的查询结果。 2 。2w e b 搜索技术的研究方向 搜索技术的研究主要从以下几个方面展开: 1 自然语言理解技术 随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然 语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别 是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模 型能够给出象人那样理解、分析并回答自然语言的结果。 现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而且在 可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实 用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言 信息处理功能,则认为计算机具备了自然语言理解的能力。 以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎由于它 将信恩捡索从目6 u 基于关键词层面提高到基于知识( 或概念) 层面,对知识有一定的 理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻 晕十x m l 的w e b 盘问拙术训宄 译技术等。因而这和搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自 然语言进行信。鬯、的柱索,为他们提供更方便、更确切的搜索服务。 与1 专统的目录虿询、关键词查询模式相比,f j 然语言查询的优势体现在:- 是使 网络交;荒更加人性亿;_ 二是使信启、查询变得更加方便、快速和准确。现在,已经有越 来越多的搜索引擎宣布支持自然语言搜索特性,但是要建立真i i = = 的基于自然语言理解 的智能答询系统,还存在很多的技术难点,如:如何理解自然语言及所代表的实际含 义;如河根据问题找出用户实际想要的答案;如何建立大规模知识库等。 目前智能搜索引擎的研发主要有两大方向,其一是基于机器翻译技术,比如 g o o g e :其二是基于语义理解技术,困内有尤里卡、问一问,国外的主要代表是a s k j e e v e s 。 机器翻译( m a c h i h et r a n s l a t i o h ) ,又称机译( m t ) ,是利用计算机把一种自然语 言转变成另一种自然语言的过程。智能搜索引擎在这一领域的研究将使得用户可以使 用母语搜索非母语的网页,并以母语浏览搜索结果。 语义理解通过将语言学的研究成果和搜索引擎技术结合在一起,实现了搜索引擎 对搜索词在语义层次上的理解,为用户提供最确切的搜索服务。 - 2 p 2 p 对等网络 引发p 2 p 革命的当推美国的n a p s t e r ,2 0 0 0 年7 月份的一场官司将n a p s t e r 的声 望推到顶点,用户数也在短短一年内激增至4 0 0 0 万,成为互联网史上一大奇迹。p 2 p 是p e e r t o p e e r 的缩写,意为对等网络。其在加强网络上人的交流、文件交换、分 布计算等方面大有前途。p 2 p 被认为是因特网实现下次飞跃的关键,但它将如何浮 出水面仍然是个谜。长久以来,人们习惯的互联网是以服务器为中心,人们向服务器 发送请求,然后浏览服务器回应的信息。 p 2 p 所包含的技术就是使联网电脑能够进行数据交换,但数据是存储在每台电脑 里,而不是存储在既昂贵又容易受到攻击的服务器里。网络成员可以在网络数据库里 自由搜索、更新、叵答和传送数据。所有人都共享了他们认为最有价值的东西,这将 使互联网上信息的价值得到极大的提升。 p 2 p 引导网络计算模式从集中式向分布式偏移,也就是说网络应用的核心从中央 服务器向网络边缘的终端设备扩散:服务器到服务器、服务器到p c 机、p c 机到p c 机,p c 机到w a p 手机。所有网络节点上的设备都可以建立p 2 p 对话。 p 2 p 的威力还主要体现在大范围的共享、搜索的优势上。p 2 p 技术的一个优势是 开发出强大的搜索工具。p 2 p 技术使用户能够深度搜索文档,而且这种搜索无需通过 w e b 服务器,也可以不受信息文档格式和宿主设备的限制,可达到传统目录式搜索引 擎( 只能搜索到2 0 一3 0 的网络资源) 无可比拟的深度( 理论上将包括网络上的所 有开放的信息资源) 。以p s p 技术发展先锋g n u t e l l a 进行的搜索为例:一台p c 上的 g n u t e l l a 软件可将用户的搜索请求同时发给网络上另外1 0 台p c ,如果搜索请求未得 1 0 西南农业大学信息擎院硕士学位论文 到满足,这l o 台p c 中的每一台都会把该搜索请求转发给另外1 0 台p c ,这样,搜索 范围将在几秒钟内以几何级数增长,几分钟内就可搜遍几百万台p c 上的信息资源。 基于p 2 p 对等搜索理念的搜索技术会为互联网的信息搜索提供全新的解决之道。 它使人们在i n t e r n e t 上的共享行为被提到了一个更高的层次,使人们以更主动深刻 的方式参与到网络中去。 3 x m l 可扩展标记语言 ) 【m l 将使w e b 的搜索非常方便。x m l 可扩展标记语言是w e b 数据使用的通用语言, 具有结构化、规范性、可扩展性及简洁的特点。x m l 能让开发人员将来自各种应用程 序的结构化数据传送给桌面以在本地计算和表示。) c m l 允许为特定应用程序创建独特 的数据格式,它还是结构化数据从服务器到服务器传输的理想格式。x m l 是在超级分 布式系统之间实现多数据集传输的一种手段。它同时可以使开发人员以更具价值的新 型方式聚集和组合各种来源的数据。) ( m l 将成为互联网的最重要的基础性语言。 x m l 通过d t d 定义了文档的词法、语法和部分语义,x s l 规定了文档的表现形式, 而x l i n k 和x p o i n t e r 定义了文档之间的关系,从而为基于w e b 的各种应用提供了一 个描述数据和交换数据的有效手段。如果说,h t m l 提供了显示全球数据的通用方法 那么x m l 进一步提供了处理全球数据的通用方法。它实现国际性的媒体无关的电子出 版,使工业界能够定义平台无关的数据交换协议,特别是电子商务中的数据交换协议。 资源标注、编目和描述是信息查找的基础,结构化的资源( x m l ) 和资源的描述框架 ( r d f ) 互相配合,将大大提高信息查找效率。x m l 简化元数据的提取工作,从而协助 人们寻找信息,并协助信息生产者和信息消费者的相互发现。 如果说在网络的支持下,h t m l 语言解决了在异构平台间传送数据和文档,那么, 基于x m l 的v r m l 和s m i l 解决了在异构平台间传送感受的可能性问题。使用x m l ,人 们可以利用设备的智能去访问不同的网站,并对信息进行集中。x m l 使我们迈向将控 制信息的权利交给那些需要信息的人们。由于所有文件都以x m l 格式存在,所有的用 户都可以方便地查找和使用其中的信息,任何规模的文化机构都可以使用相同的工具 与资源内容供应者、合作伙伴和信息内容消费者高效地沟通和共享信息,这样就创造 出一种全新的协同工作模式。 2 3 与w e b 搜索相关的技术 要提供更理想的搜索结果不仅仅需要新兴的技术支持,更涉及搜索技术的发展方 向问题。搜索引擎技术本身个最重要的发展方向是提供更精确的搜索。要想大幅度 地提高搜索引擎的效率和搜索结果准确度,应考虑如下几个方面的技术: 1 人机交互界面技术 人机界面技术的不同往往使得搜索引擎表现出不同的特色。当前搜索引擎涉及的 人机界面技术主要有四类:搜索请求提交技术、搜索结果表现技术、搜索向导技术、 基于x m l 的w c b 查询技术研艽 搜索行为分析技术。 搜索请
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-江西-江西工程测量工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西放射技术员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西土建施工人员四级(中级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东防疫员一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东汽车驾驶与维修员三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东地图绘制员一级(高级技师)历年参考题库典型考点含答案解析
- 2020-2025年二级建造师之二建建筑工程实务通关考试题库带答案解析
- 2025年银行金融类-金融考试-银行业专业人员中级(法规+银行管理)历年参考题库含答案解析(5套)
- 2025年职业技能鉴定-石雕工-石雕工(高级)历年参考题库含答案解析(5套)
- 2025年综合评标专家-甘肃-甘肃综合评标专家(工程造价类)历年参考题库含答案解析(5套)
- 京东集团员工手册-京东
- 2023年苏州市星海实验中学小升初分班考试数学模拟试卷及答案解析
- GB/T 37915-2019社区商业设施设置与功能要求
- GB/T 31298-2014TC4钛合金厚板
- GB/T 27746-2011低压电器用金属氧化物压敏电阻器(MOV)技术规范
- GB/T 22237-2008表面活性剂表面张力的测定
- GB/T 13667.3-2003手动密集书架技术条件
- 导轨及线槽项目投资方案报告模板
- 复旦大学<比较财政学>课程教学大纲
- 书法的章法布局(完整版)
- GB∕T 10429-2021 单级向心涡轮液力变矩器 型式和基本参数
评论
0/150
提交评论