(管理科学与工程专业论文)面向web的xml文档数据管理及分类检索技术研究.pdf_第1页
(管理科学与工程专业论文)面向web的xml文档数据管理及分类检索技术研究.pdf_第2页
(管理科学与工程专业论文)面向web的xml文档数据管理及分类检索技术研究.pdf_第3页
(管理科学与工程专业论文)面向web的xml文档数据管理及分类检索技术研究.pdf_第4页
(管理科学与工程专业论文)面向web的xml文档数据管理及分类检索技术研究.pdf_第5页
已阅读5页,还剩113页未读 继续免费阅读

(管理科学与工程专业论文)面向web的xml文档数据管理及分类检索技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着计算机和互联网技术的发展,网络已经成为资源数量最多、种类最全、 规模最大的综合信息库,这些信息大致可分为两类:结构化数据和非结构化数据, 据统计,非结构化数据占有整个信息量的8 0 以上,在信息传递过程中,8 0 的 时间是用来获取信息,因此,如何从w e b 网上科学高效地获取信息即是本文研究 的意义所在。 x m l 数据库技术和w e b 搜索引擎技术的发展为提高w e b 信息检索特别是非 结构化数据的检索效率带来了希望。因为x m l 数据库技术提供了信息存储和管 理的技术保障,而搜索引擎技术为w e b 信息检索构建了操作平台。基于此,本文 针对x m l 文档数据管理技术及面向w e b 的分类检索技术做了深入细致的研究。 本文主要研究内容和创新性工作如下: 首先,综述和分析了纯x m l 数据库和使能x m l 数据库的管理技术及索引机 制,在分析各种数据模型特点基础上,研究讨论了以关系数据库作为存储源、扩 展x q u e r y 作为数据模型的优势,通过对x q u e r y 数据模型的扩展,提出了基于 s c h e m a 模式约束的x m l 数据存储和索引结构s b x i ,从用户逻辑层面定义了 x m l 文档更新语言x u l ,并应用k w e e l t 查询系统和j a v a 技术实现了文档更新 的关键技术。 然后,解决了x m l 网页分类的关键技术一信息检索模型问题。由于传统的向 量空间模型不能适用于x m l 文档结构相似度比较,提出了基于t r e e m i n e r 算法的 频繁结构向量模型,构建了文档特征矩阵的表示方法和相似度函数;并对该模型 拓展,进一步提出频繁结构层次向量模型,不仅挖掘x m l 文档的结构信息,同时 抽取表征文档内容的关键词信息,提高了相似度量的准确率。通过对频繁结构挖 掘算法t r e e m i n e r 进行改进,使其更适合大文档集合的频繁结构挖掘,实验证明基 于频繁模式的检索模型具有很好的网页分类效果。 最后,提出了分类检索与全文检索结合的二次检索策略,从系统设计角度构 架了以频繁结构层次向量模型作为信息检索模型、s b x i 作为索引结构的基于主题 分类的w e b 文献全文检索搜索引擎的系统结构,并讨论了其主要构件的功能和工 作流程。 关键词:x m l 数据库;x q u e r y 数据模型;空间向量模型;频繁模式挖掘; x m l 网页分类;w e b 信息分类检索 a b s t r a c t w i mt h ed e v e l o p m e n to fc o m p u t e ra n di n t e m e tt e c h n o l o g y , t h en e t w o r kh a s b e c o m et h el a r g e s ti n t e g r a t e di n f o r m a t i o nb a s e ,w h o s er e s o u r c e sh a v et h el a r g e s t n u m b e ra n dm o s tt y p e s t 1 1 i si n f o r m a t i o nc a l lb ed i v i d e di n t ot w oc a t e g o r i e s : s t r u c t u r e dd a t aa n du n s t r u c t u r e dd a t a a c c o r d i n gt os t a t i s t i c s ,u n s t r u c t u r e dd a t ap o s s e s s m o r et h a n8 0 i nt h ee n t i r ea m o u n to fi n f o r m a t i o n , i nt h ep r o c e s so fi n f o r m a t i o n t r a n s m i s s i o n , 8 0 o ft h et i m ei su s e dt o o b t a i ni n f o r m a t i o n s o ,h o wt oo b t a i n i n f o r m a t i o nl e g i t i m a t e l ya n de f f i c i e n t l yf r o mt h e 助o n l i n ei st h es i g n i f i c a n c eo ft h i s p a p e r x m ld a t a b a s et e c h n o l o g ya n dw e bs e a r c he n g i n et e c h n o l o g ys c a n th o p ef o r i m p r o v i n ge f f i c i e n c yo fw 曲i n f o r m a t i o nr e t r i e v a le s p e c i a l l yt h eu n s t r u c t u r e dd a t a r e t r i e v a l b e c a u s et h a tx m ld a t a b a s ep r o v i d e st e c h n i c a ls u p p o r tf o ri n f o r m a t i o n s t o r a g ea n dm a n a g e m e n t ,a n dt h es e a r c he n g i n eb u i l d sap l a t f o r mf o rw e bi n f o r m a t i o n r e t r i e v a l f o rt h i sr e a s o n , t h i sa r t i c l ed o e sa ni n - d e p t ha n dm e t i c u l o u sr e s e a r c hf o r x m ld a t am a n a g e m e n tt e c h n i q u e sa n dc l a s s i f i c a t i o no fw e bs e a r c ht e c h n o l o g y t h e m a i nr e s e a r c ha n dn e wi d e a so ft h i sp a p e ra r ep r e s e n t e da sf o l l o w s : f i r s t l y , t h i s a r t i c l er e v i e w e da n da n a l y s i z e dn a t i v ex m ld a t a b a s ea n d x m l e n a b l e dd a t a b a s em a n a g e m e n ta n di n d e x i n gm e c h a n i s m o nt h eb a s e o f s u m m i n gu pt h ev a r i o u sc h a r a c t e r i s t i c so ft h ed a t am o d e l ,i ta n a l y s i z e dt h ea d v a n t a g e s o ft h ea d o p t i o no fr e l a t i o n a ld a t a b a s et os t o r ei n f o r m a t i o na sd a t as o u r c ea n de x t e n d e d x q u e r ya sd a t am o d e l ,a n dt h e np u tf o r w a r dx m ld a t as t o r a g ea n di n d e xs t r u c t u r e s b b a s e do ns c h e m ac o n s t r a i n tb ye x t e n d i n gx q u e r ym o d e l a tm e a n t i m e d e f i n e d x m ld o c u m e n tu p d a t el a n g u a g ex u lf r o mt h eu s e rl e v e l ,a n dr e a l i z e dt h ek e y t e c h n o l o g yo fx m ld o c u m e n tu p d a t i n gu s i n gk w e e l tq u e r ys y s t e ma n dj a v a p r o g r a m m i n g s e c o n d l y ,r e s o l v e dt h ek e yt e c h n o l o g yo fx m lp a g e sc l a s s i f i c a t i o n - i n f o r m a t i o n r e t r i e v a lm o d e lp r o b l e m s a st h et r a d i t i o n a lv e c t o rs p a c em o d e lc a nn o tb ea p p l i e dt o x m ld o c u m e n t ss i m i l a r i t yc o m p a r i s o n ,t h i sp a p e rb u i l tf r e q u e n ts t r u c t u r ev e c t o r m o d e lb a s e do na l g o r i t h mt r e e m i n e r , e x p r e s s i o no fd o c u m e n tc h a r a c t e r i s t i c sm a t r i x a n dd o c u m e n ts i m i l a r i t yf u n c t i o n t h e n , e x t e n d e dt h i sm o d e l ,p u tf o r w a r df r e q u e n t s t r u c t u r eh i e r a r c h yv e c t o rm o d e lf u r t h e r , a n di m p r o v e dt h es i m i l a r i t ym e a s u r e m e n t p r e c i s i o n , n o to n l ym i n e r s t r u c t u r ei n f o r m a t i o n , b u ta l s oe x t r a c tk e y w o r d si n f o r m a t i o n 2 i no r d e rt om a k ei tm o r es u i t a b l ef o rm i n i n gf r e q u e n ts t r u c t u r e sf r o ml a r g ec o l l e c t i o n o fd o c u m e n t s ,w ei m p r o v e dt h ea l g o r i t h mt r e e m i n e r , t h ee x p e r i m e n t sh a d p r o v e dt h a t t h er e t r i e v a lm o d e lb a s e do nf r e q u e n ts t r u c t u r ei sv e r yg o o df o rc l a s s i f i c a t i o nx 1 、 p a g e s a tl a s t ,p r o v i d e dt h et h i n k i n go fs e a r c ht w i c ew h i c hc o m b i n e dc l a s s i f i c a t i o n r e t r i e v a lt of u l l - t e x tr e t r i e v a l f r o mt h ep o i n to f s y s t e md e s i g n ,w eb u i l dt h ef r a m e w o r k o fw 曲d o c u m e n t sf u l l t e x ts e a r c hr e t r i e v a le n g i n eb a s e do nt h e m ec l a s s i f i c a t i o n w h i c ha d o p t sf s h v ma si n f o r m a t i o nr e t r i e v a lm o d e la n du s e ss b a si n d e xs 由r l l c t u r e a n dd i s c u s s e dt h em a i nc o m p o n e n t so ft h ef u n c t i o n sa n dw o r kp r o c e s s e s k e yw o r d s :x m ld a t a b a s e ;x q u e r yd a t am o d e l ;s p a c ev e c t o rm o d e l ;f r e q u e n t s t l l l c t i em i n e r ;x m lp a g e sc l a s s i f i c a t i o n ;w e bi n f o r m a t i o nc l a s s i f i c a t i o nr e t r i e v a l 3 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:闶刍灿签字日期:刎尹年月7 日 学位论文版权使用授权书 本学位论文作者完全了解盘鲞态堂有关保留、使用学位论文的规定。 特授权墨盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 间蛐 签字日期:加7 年月7 日 导师签名: 签字日期: 为。9 年月夕1 9 天津大学博士学位论文面向w e b 的x m l 文档数据管理及分类检索技术研究 第一章绪论 w e b 技术的出现使人类的生存空间得到极大扩展,并逐渐成为人们获取、传 播和交换信息的重要途径。随着w e b 信息量的飞速膨胀,各种媒体的数据在w e b 上的表示和交换显得力不从心。x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) n 1 作为w e b 信 息表示和交换的标准,从一诞生就被认为是解决上述问题的有效方法。 本章首先介绍了选题的研究背景和意义,然后对x m l 数据库技术相关的重要 概念及国内外研究现状做了简单介绍,在分析x m l 为w e b 信息检索注入了新生技术 之后,介绍了目前基于x m l 的文本分类检索方面的研究进展,最后指出了本论文 的主要工作和创新点。 1 1 选题的研究背景和意义 为了更好适应w e b 数据表示和交换的需要,国际标准化组织( i n t e r n a t i o n a l s t a n d a r d so r g a n i z a t i o n ,i s o ) 于1 9 8 6 年发布了标准通用标记语言( s t a n d a r d g e n e r a liz e dm a r k u pl a n g u a g e ,s g m l ) 倥1 。由于s g m l 过于繁琐,几乎没有应用能 够支持这个标准,从而促使了h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 的出现。h t m l 是为方便文档页面读者而设计的,其简单性极大促进了w e b 的发展,使w e b 成为互 联网上增长最快的领域。 随着互联网上信息量的进一步增长,各种媒体数据更广泛的应用,h t m l 的局 限性也逐渐体现出来。近年来,电子商务、数字图书馆、远程教育等全新领域迅 猛发展并逐渐成为互联网世界必不可少且愈发重要的组成部分,随之而来的是 w e b 文件的复杂化、多样化、高容量、高效率成为网络信息传输和处理技术发展 追求的主要目标。与此同时,还有另一种需求变得愈发广泛而迫切,那便是同样 的数据能否根据不同用户不同需求而以不同的效果、形式表达出来。虽然人们己 付诸很多努力,包括各式各样的修改扩充,如增加表格、框架、脚本语言等,但 均未能从根本上改变其局限性。w e b 提供商也发现普通的h t b i l 已经无法提供大规 模应用所需要的扩展性、结构性和数据检索功能。因此,他们每年都要对标准h t m l 定义的标签进行扩展以满足不断增长的w e b 需要,而不同w e b 厂商扩展的h t m l 经常 是互不兼容的,造成一定的混乱。 由于w e b 信息通过h t m l 进行数据的表示和交换,管理w e b 信息的应用程序需要 包含一个可以从h t m l 页面抽取信息结构与内容的“信息源包装程序- w r a p p e r 。 这些包装程序非常脆弱,即要考虑不同w e b 厂商扩展的h t m l 特性,又要考虑应用 天津大学博士学位论文第一章绪论 的特性( 如数据语义) ;并且其数据查询功能也十分脆弱。h t m l 文档缺乏结构信息, 通常的查询方法都是来自信息检索领域的,只能提供基于关键字的查询,并且查 询的结果通以整个文档为单位,从而造成网络带宽的浪费。 为解决h t m l 可扩展性差和s g m l 过于繁琐的缺陷,w 3 c ( w o r l dw i d ew e b c o n s o r t i u m ) 组织于1 9 9 8 年2 月发布了x m l 标准。x m l 不仅在使用中得到各方肯 定,而且在短短几年内迅速崛起,并得到m i c r o s o f t 、i b m 等各大公司的全力支 持,成为一股不可遏抑的席卷全球的浪潮。该语言被描述为n 1 :“x m l 是s g m l 的 子集,其目标是允许普通的s g m l 在w e b 上以目前h t m l ( h y p e r t e x tm a r k u p l a n g u a g e ) 的方式被服务、接受和处理。) 眦被设计成易于实现,且可在s g m l 和 h t m l 之间互操作 。x m l 是一种元标记语言,根据需求用户可以定义自己的标记, 相对于h t m l 而言。具有以下优点: ( 1 ) 自描述性 x m l 文档通常包含一个文档类型声明,因而x m l 文档是自描述的。不仅人能 读懂x m l 文档,计算机也能处理。x m l 表示数据的方式真正做到了独立于应用系 统,并且数据能够重用。x m l 文档被看作是文档的数据库化和数据的文档化。 ( 2 ) 先进特性 x m l 继承了s g m l 的许多特性,首先是可扩展性。x m l 允许使用者创建和使用 他们自己的标记而不是h t m l 的有限词汇表。这一点至关重要,企业可以用x m l 为电子商务和供应链集成等应用定义自己的标记语言,甚至特定行业一起来定义 该领域的特殊标记语言,作为该领域信息共享与数据交换的基础。x m l 是源文档 的最佳格式,便于信息交换。 ( 3 ) 灵活性 h t m l 很难进一步发展,就是因为它是格式、超文本和图形用户界面语义的混 合,要同时发展这些混合在一起的功能是很困难的。而x m l 提供了一种结构化的 数据表示方式,使得用户界面分离于结构化数据。所以,w e b 用户所追求的许多 先进功能在x m l 环境下更容易实现。 ( 4 ) 支持文档内容验证 通过文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 或x m l 模式( x m l s c h e m a ) 方便地验证文档的有效性。 ( 5 ) 支持高级搜索 在i n t e r n e t 上如果w e b 页是x m l 格式,则搜索可以附加数据的上下文信息, 增加搜索效率。 有人说,x m l 是下一代w e b 语言,更或说,x m l 是2 1 世纪的“世界语,可 见x m l 的巨大潜力和应用前景。 x m l 是s g m l 语言的子集,但不同于s g m l ,x m l 去除了s g m l 中不便使用的各种特 2 天津大学博士学位论文面向w e b 的x m l 文档数据管理及分类检索技术研究 性。x m l 文档中的标记不是标准定义的,而是用户根据w e b 数据表示和交换的需要 自行定义的。由于利用x m l 语言可以创建具体领域的标记语言,因此业界一致认 为x m l 是一种元语言。同时,x m l 实现了数据和显示的分离,使x m l 更适合w e b 数据 的表示和交换。表1 - 1 给出了x m l 与h t m l 的对比,从中可以发现x m l 解决了h t m l 扩 展性差的问题。x m l 是一种简单、灵活的半结构化语言,它的出现为w e b 应用的发 展勾画出美妙的前景。 表1 - 1x m l 和h t m l 的对比 特点 h t m l) 眦 扩展性不具扩展性 是一种元语言,可定义其它标记语言 侧重点信息的表现形式信息的结构 不要求标记的嵌套、配对等,严格要求嵌套、配对,并遵循一定的 语法要求 不要求标记之间有一定的顺序模式信息 可维护性难于阅读、维护结构清晰,便于阅读、维护 数据显示内容描述与显示方式合为一体内容描述与显示方式相分离 工具有大量工具支持工具尚不成熟 x m l 是一种全新的w e b 数据表示和交互标准,越来越多的w e b 数据通过x m l 格式 进行存储和交互。从9 8 年出现至今,x m l 技术受到了业界的广泛关注。m i c r o s o f t 、 i b m 、o r a c l e 等参加了x m l 标准的制定,x m l l 0 m 标准一出台,便开始了相应技术 和商品的研制。m i c r o s o f t 的o f f i c e 、w i n d o w s 都将完全采用x m l 格式进行数据表 示和交换;i e 4 o 和i e 5 o 更是早已实现了对x m l 的支持。i b m 、o r a c l e 等公司也在 各自的商品中提供了一些对x m l 应用的支持。 不同于传统的、结构化的关系数据,x m l 数据是一种全新的半结构化数据, 难以利用现有的关系数据库完成对x m l 数据的有效管理。因此,很多颇具影响的 机构和大学开始研究如何存储和管理w e b 上急剧膨胀的x m l 数据,致力于x m l 数据 访问性能的提高。从2 0 0 0 年至今,大量的研究工作致力于提高路径表达式的查询 处理效率,取得了大量的研究成果。 x m l 数据管理技术目前己经引起了国内学术界的重视。香港科技大学、哈尔 滨工业大学、复旦大学、中国人民大学、东北大学等高等院校已经开始了x m l 数 据管理技术的基础研究。本课题既在这种研究背景下提出的,主要对x m l 数据的 存储、索引及更新技术进行全面的探讨和研究,构建面向w e b 的x m l 信息检索模型, 将其应用于基于搜索引擎的w e b 信息分类检索和全文检索技术之中。 1 2x m l 数据库相关技术及国内外研究现状 w e b 信息检索技术是数据库技术、计算机信息检索技术和w e b 技术发展到一 天津大学博士学位论文第一章绪论 定程度的产物,特别数据库作为信息存储和处理的数据源,有着举足轻重的作用。 1 2 1 x m l 数据库管理系统 所谓数据库就是一组相互有关联的数据集合,而x m l 数据库是一个x m l 文档的 集合,这些文档是持久的并且是可操作的口3 。 一个更有用的问题就是在较为宽松的意义上,x m l 及其周边技术是否算作数 据库管理系统( d b m s ) 。回答是“在某种程度上是( s o r to f ) ”。从正面来说,x m l 提供了许多数据库所具备的东西:存储( x m l 文档) ,模式( d t d ,x m ls c h e m a ,r e l a x - n g 等等) ,查询语言( x q u e r y ,x p a t h ,x q l ,删l q l ,q u i l t 等等) ,编程接口( s a x , d o m ,j d o m ) 等等。从反面来说,它缺少一些作为实用的数据库所应具备的特性: 高效的存储、索引、安全、事务和数据一致性、多用户访问、触发器、查询多个 文件等等,所有这些都成为业内人士的研究热点。 1 2 2x m l 数据库分类及存储 目前x m l 数据库有下面三种类型h 1 : 纯x m l 数据库( n a t i v ex m ld a t a b a s e ,n x d ) 。其特点是以自然的方式处理x m l 数据,以x m l 文档作为基本的逻辑存储单位。针对x m l 数据存储和查询特点专门设 计适用的数据模型和方法。 使能l 数据库( x m le n a b l e dd a t a b a s e ,x e d b ) 。其特点是在原有的数据库 系统上扩充对x m l 数据的处理功能,使之能适应x m l 数据存储和查询的需要。一般 的做法是在数据库系统之上增力, x m l 映射层,这可以由数据库供应商提供,也可 以由第三方厂商提供。映射层管理x m l 数据的存储和检索,但原始的x m l 元数据和 结构可能会丢失,而且数据检索的结果不保证是原始的x m l 形式。x e d b 的基本存 储单位与具体的实现紧密相关。 混合x k l l 数据库( h y b r i d 舭d a t a b a s e ,h x d ) 。根据应用的需求,可以视其 为x e d b 或n x d 的数据库,比较典型的例子是o z o n e 障1 。 因为底层的存储表达对上层的查询处理和优化有着重要的性能影响,所以如 何存储x m l 文档才是最好的方式已经成为一个重要问题。根据已有的文献 6 - 1 0 , x m l 数据库的存储策略主要有以下四种:利用文件系统的平面文件、利用成熟的 r d b m s ( r e l a t i o n a ld a t a b a s em a n a g e m e n ts y s t e m ,关系数据库管理系统) 、利用对象 管理器或o o d b m s ( o b j e c t o r i e n t e dd a t a b a s em a n a g e m e n ts y s t e m ,面向对象数据库 管理系统) 、采用全新的n a t i v ex m l 数据库管理系统( 详见第二章) 。 1 2 3x m l 数据索引 4 天津大学博士学位论文面向w e b 的x m l 文档数据管理及分类检索技术研究 除了存储方案之外,索引技术也是决定一个数据库系统最重要的因素之一。 在关系世界中,关系数据库只有一种结构一关系表,查询直接针对表中的数据项, 所以索引的对象是元组的某个属性,是值索引。在x m l 数据库中,查询比较复杂, 有时是文档关键字搜索,更多时候是路径查询,即涉及结构,因此索引也比较复 杂( 详见第二章) 。 纯x m l 数据库对多个对象建立索引,主要有:值索引,即在属性值或结点内 容上面建立索引;结点名索引,即在结点标记上面建立索引;边或路径索引,即 在x m l 文档树的边上面建立索引。 关系数据库中,索引的组织形式主要是b + 树及其变体。用b + 树建立值索引是 可行的,但对于x m l 文档的路径信息就不适合了。另一种常用的索引结构是哈希 表和倒排列表( i n v e r t e dl i s t ) 也不适合x m l 数据。在x m l 数据库中引进了一些 新的索引技术,如路径字典( p a t hd i c t i o n a r y ) ,存储了对象之间相互关联的导 航路径,同时也使用了t r i e 、p a t r i c 等索引技术。如f a b r i c 乜们索引是一种全新的 索引结构,其基本思想是将半结构化数据之间的关系表示成路径,将路径编码成 字符串,然后在这些字符串上面建立一种索引结构( 详见2 1 2 节) 。相对区间 坐标( r e l a t i v er e g i o nc o o r d i n a t e ,r r c ) 乜1 鲥索引也可以说是一种存储技术, 考虑到了更新操作带来的索引维护( 详见2 1 2 节) 。 1 2 4x m l 数据模式 x m l 文档本质上是保存信息的结构化载体。为了得到有效的x 儿文件,需要一 种用来描述x v i l 文档中信息结构的数据模型。不仅要建立x v i l 文档中可以使用的 x m l 词汇表,而且定义x i v i l 文档中元素的顺序和元素的嵌套关系的内容模型,并建 立文档数据的数据类型。 在x 1 v i ls c h e m a 之前已经开发了四种模式语言:x d r ( x m ld a t ar e d u c e d ,x m l 数据简化) 、d c d ( d o c u m e n tc o n t e n td e s c r i p t i o n ,文档内容说明) 、s o x ( s i m p l e o u t l i n ex m l ,简单x m l 概要) 和d d m l ( d o c u m e n td e f i n i t i o nm a r k u pl a n g u a g e , 文档定义标记语言) 。w 3 c 于1 9 9 8 年开始制定x l | i ls c h e m a 的第一个版本,2 0 0 1 年5 月正式推荐,有望成为主流的模式语言。 1 2 5x o u e r y 查询语言及查询代数 x m l 数据不仅指x m l 文档,还指一切看起来象y 3 i l i l 的数据,包括关系数据库中 的数据。x q u e r y 对于x m l 数据,就像s q l 对于关系数据一样。 x q u e r y 是一个从x m l 格式的数据源中获取数据的查询语言,起源于x m l 数据查 询语言q u i l tn 1 1 ,并将x p a t h 2 0 作为其子集。x q u e r y l o 和x p a t h 2 0 有公共的数据 天津大学博士学位论文第一章绪论 模型、公共的正式语义、公共的函数和操作符以及公共的全文规范。 x s l t ( e x t e n s i b l es t y l e s h e e tl a n g u a g et r a n s f o r m a t i o n ) 最早设计用意 是帮助x m l 文档转换为其他文件,是一种转换x m l 文档结构的语言。x o u e r y 、x p a t h 和x s l t - - 者的关系:x q u e r y 和x p a t h 2 0 的来源相同,x p a t h 2 o 是x q u e r y 的一个严 格的句法子集;x s l t 2 o 是x p a t h 2 0 的另一个使用环境,x p a t h 2 0 是这个使用环 境的核心。 f l w o r ( f o r l e t w 腿r e 一0 d e r - r e t u r n ) 是x q u e r y 最有特色的语法类型之一, 形似s o l 的s e l e c t f r o m 一1 l h e r e 语句。 任何x m l 数据库都需要数据模型、查询语言和查询代数。w 3 c 于1 9 9 9 年9 月建 立了x m l 查询工作组,2 0 0 1 年1 月发布了查询需求文档n 羽,为x m l 查询数据模型、 查询语言和查询代数描述了目标、需求和使用情况等。许多研究者已经致力于这 些方面的研究工作,并取得了一些成绩。s t a n f o r d 大学数据库组研制了基于半结 构化数据或x m l 数据的l o r e 数据库管理系统n 3 1 ,并于1 9 9 9 年9 月发表了一篇描述该 系统的查询处理器的论文n 劓。 来自o r a c l e 、i b m 、m i c r o s o f t 公司的研究人员于1 9 9 9 年9 月提出了x m l 的一个 形式化数据模型和查询代数n 酗,提出的代数操作基于他们提出的图数据模型。 2 0 0 0 年5 月,另一个研究组的研究人员提出了一个查询代数h 朝,适合于任意半结构 化数据查询语言,还提出了两个新的互逆操作,f l p b i n d 和t r e e 操作,用来将x m l 结构的数据转换为一个称为t a b 的关系结构,以及反之生成一个新的x m l 结构。 来自a t t 和b e l l 实验室的研究人员于2 0 0 0 年至2 0 0 1 年提出了一个x m l 查询代 数n7 埔1 ,另一个研究组针对d t l - q l 和q u i l t 查询语言提出了一个查询代数n 引。 1 3w e b 信息检索技术 w e b 信息检索技术是计算机信息检索技术和w e b 技术发展到一定程度的产物, 它受w e b 技术和数据库技术、信息检索技术的共同驱动。在研究面向w e b 的x m l 信 息检索技术之前,有必要对影响w e b 信息检索技术发展的w e b 技术和信息检索技术 进行简单的回顾和分析,以便明确w e b 信息检索技术发展的内在和外在动力,发 现w e b 信息检索技术发展的规律和前景。 纵观计算机信息检索技术的发展,可以将其划分为四个阶段: 第一阶段1 9 7 1 年以前建立了许多信息检索系统,并取得了一定的进展。其 工作方式是传统的批处理检索方式。如1 9 5 4 年美国海军兵器中心( n o t s ) 图书馆在 i b m 7 0 1 型计算机上成功建立的世界上第一个计算机文献检索系统。这一阶段的数 据存取与数据通信能力都比较差。 第二阶段1 9 7 1 年以后,产生并发展了联机情报检索系统。其中,美国国家 6 天津大学博士学位论文 面向w e b 的x m l 文档数据管理及分类检索技术研究 医药图书馆中心建立的在线计算机图书馆中一心o c l c ( o n l i n ec o m p u t e rl i b r a r y c e n t e r ) 、s d c 公司建立的s y s t e md e v e l o p m e n tc o m p a n y 及l o c k h e e dc o r p o r a t i o n 的d i a l o g 系统都是在线商用数据库查询( 本文中,查询与检索意义相同) 系统。这 一阶段的特点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数 据通信能力较差。 第三阶段以i n t e r n e t 的出现为标志。系统大多采用分布式的网络化管理, 其信息资源的主要特点是:数字形式表达、多媒体和载体多样化、内容覆盖各个 社会领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求 高等。这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终 端主机方式到客户服务器结构方式,网络环境从局域网至u i n t e r n e t 等开放网, 应用接口从封闭界面到w w w 和z 3 9 5 0 ,信息结构从结构化到非结构化,系统功能 从单纯信息检索到综合信息管理和服务等等,其中较著名的系统有a l t a v i s t a 、 y a h o o 、w e b c r a w le r 等。 第四阶段在前三个阶段的基础上,随着语义w e b 和自然语言处理技术的不断 发展,预计计算机信息检索系统将会跨入一个新的阶段。 我国计算机全文检索起步于8 0 年代初期,并在计算机编制主题词表、汉语自 动分词和标引、数据库建造、情报检索和相关软件的研制、联机检索、机器翻译、 图书馆业务管理、全文检索理论等主要领域取得了很大进步。在微机工作平台上, 目前已建立了十几种中英文检索软件,其中比较著名的有易宝北信的t r s 、北大 方正的m i r s 、中国百科术语数据库和海文q u i c k 等。这些全文检索系统软件在建 库、检索方法、检索速度、检索准确性等方面各有千秋,多适于单机用户使用, 有的也采用了客户服务器方式。 由于汉语语言的独特性,十几年来,我国的计算机信息检索基本上仍以传统 的顺序检索或顺序检索与倒排文档相结合的检索方法为主,局限于以传统人工赋 词标引方法为主的目录或摘要二次文献,以及以词检索为主的全文检索系统,这 与国外的信息检索系统有一定的差距。 目前,信息检索技术正向两个方向发展。一是传统信息检索向全文文本、多 媒体等新型信息检索发展,在深度上应能对提问的内容进行分析和理解,提高查 准率,探索自动分词、自动索引、自动检索、自动文摘、自动分类、自动翻译等 解决方案,提高管理和组织信息的能力;二是信息资源的网络化和分布化,面对 i n t e r n e t 中浩瀚无垠的资源,提高查全率。基于概念的信息检索系统与超文本网 络信息检索系统对以上方面进行了一些研究,做出了新的贡献。 1 4x m l 为w e b 信息检索带来的希望和挑战 天津大学博士学位论文 第一章绪论 在当今信息时代,互联网的迅速发展改变了人们的生活和工作方式,在这其 中w e b 起到了关键性作用。w e b 采用超文本、超媒体的方式进行信息的存储与传递, 能把各种信息资源有机地结合起来,具有图文并茂的信息集成能力及超文本链接 能力的信息检索服务。 随着i n t e r n e t 的发展,w e b 上的资源在不断丰富,基于i n t e r n e t 的各类信息 检索服务应运而生并得到了迅速发展。目前常用的信息查询技术有基于超文本的 信息查询、基于目录的信息查询以及基于搜索引擎的信息查询。现在发展最迅速 的是基于搜索引擎的信息查询方式,在互联网上出现了许多著名的搜索引擎,如 y a h o o 、e x c i t e 、l o y c o s 、a l t a v i s t a 等。实践证明,w e b 搜索引擎是一种非常有 用的信息检索工具,但是对任一用户查询,搜索引擎都将返回成千上万个所谓的 “匹配”文档,其中可能只有一小部分与查询目标有关,而绝大部分毫无关系( 据 统计,7 5 的信息是与用户的信息需求无关的乜2 1 ) 。如何组织和消化如此大量的信 息,对最终用户来讲是件非常困难的事情,而且一个特定的搜索引擎主要包含某 一特定领域的信息。现在有些搜索引擎,如y a h o o 、i n f o s e e k 等,提供了这样的 功能,当用户没有找到合适的信息时,可以转向其它搜索引擎,它只是提供了一 种将用户导向到其它搜索引擎的方式而已。基于现有搜索引擎的元搜索引擎的研 究,国内外己经出现了如m e t a - s e a r c h 、i n q u i r u s 等元搜索引擎,这类搜索引擎 的优点是返回结果的信息量更大、更全,缺点是不能够充分利用所调用的搜索引 擎的功能,对返回的大量结果,用户需要做更多的筛选。 x m l 提出的目的之一就是为了提高信息检索的效率和准确率,方便w e b 上信息 的交换和获取。x 儿并不是唯一标记语言,但是x m l 以其建模简单、适用面广等特 点迅速被广泛采用。目前市场上,己经有一系列应用广泛的工具支持x m l 的显示、 格式检验及与数据库的相互转换等,如浏览器、样式表、解析器,与s g m l 相比, x m l 较容易实例化,已经在许多信息检索系统中得到使用。例如,基于移动客户 端的w e b 信息检索系统乜3 1 已经使用w m l ( w i r e l e s sm a r k u pl a n g u a g e ) ,一种由x m l 衍生的标记语言,来实现移动业务。与其它一些私有文档格式如m sw o r d 或a d o b e 相比,x m l 是一种开放的并支持多语言的文档格式。 具体来讲,x m l 将为信息检索带来如下影响: ( 1 ) x m l 标记明确表达了部分语义。搜索引擎就可以根据关键词和内容之间 的依存关系,进行准确定位,从而根据用户提交的关键词,返回正确的结果。 ( 2 ) 辨别模糊语义。由于自然语言的词汇常常具有多义性,采用x m l 技术, 就可以根据上下文关系确定查询关键词的确切含义,从而提高查询准确率。 ( 3 ) 利用结构信息提高相似性计算效果。可以利用x m l 提供的结构信息对检 索结果作相关性排序。 ( 4 ) 查询各种类型的数据。x m l 表示的文档很容易实现对如数值数据、地理 天津大学博士学位论文面向w e b 的x m l 文档数据管理及分类检索技术研究 位置、温度等非文本数据的检索,而通常这些很难作为关键词来使用。 ( 5 ) 信息集成的灵活性。) 跚。有助于异构信息源的集成,有助于灵活方便的 进行复杂和自动的信息组织和处理。 概括的讲,由于具有结构化、自描述以及带有元数据( 例如r d f ) 等特点,x m l 的出现使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论