(计算机应用技术专业论文)xml模糊结构查询中检索结果的自动选取.pdf_第1页
(计算机应用技术专业论文)xml模糊结构查询中检索结果的自动选取.pdf_第2页
(计算机应用技术专业论文)xml模糊结构查询中检索结果的自动选取.pdf_第3页
(计算机应用技术专业论文)xml模糊结构查询中检索结果的自动选取.pdf_第4页
(计算机应用技术专业论文)xml模糊结构查询中检索结果的自动选取.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)xml模糊结构查询中检索结果的自动选取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 x m l 具有自描述性和可扩展性等特性,目前它已经成为信息表达和数据交换 的格式和标准,被广泛应用到各个领域。因此,对x m l 文档进行准确的检索具有 很大的研究前景。x m l 文档检索与传统的纯文本检索最大的区别在于检索结果粒 度的不同。在纯文本检索中,检索结果的粒度是整篇文档。用户需要在返回的整 篇文档中进行再次查找,才能得到自己需要的信息,这样降低检索的准确率。而 x m l 文档检索是以x m l 文档片段作为返回结果的单位,并非是整篇文档。返回 结果的粒度由整篇文档精细为x m l 文档片断可以提高x m l 文档检索准确率。 x m l 文档查询的返回结果通常是一组包含关键词的x m l 文档子树,而结果子树 的根节点也就是答案节点的选取是关键。由于x m l 文档中存在多种粒度的元素, 因此需要考虑以什么粒度的元素节点作为答案节点。如何合理地选择答案节点已 成了x m l 文档检索中关键问题之一。 x m l 文档是包含内容和结构的半结构化数据,既可以进行关键词查询,也可 以进行内容与结构查询。在关键词查询中,用户只是简单给出若干个查询关键词, 没有明确指出返回什么元素;在内容与结构查询中,用户可能不指定答案节点, 或者即使指定了答案节点,但是往往是模糊的、不准确的。因此,无论是关键词 查询还是内容与结构查询,都需要研究如何根据用户给定的查询表达式推导出答 案节点。 x m l 文档中的元素节点可以分实体节点、连接节点、叶子节点和值节点。考 虑到答案节点的语义完整性,我们只把实体节点和连接节点作为候选答案节点。 关键词查询中,在节点分类的前提下,计算候选答案节点成为答案节点的置信度, 选取置信度计分排序在前n 、并把存在祖先后裔关系的祖先节点排除后的候选答 案节点作为答案节点。在计算置信度时需要考虑的因素有节点的深度和关键词匹 配度。候选答案节点把节点数量巨大的叶子节点和值节点排除在外,候选答案节 点的数量一般不太大,因此提高了答案节点的选取效率。 内容与结构查询中,如果原始返回节点属于候选答案节点,那么原始返回节 点就是答案节点;如果原始返回节点属于候选答案节点,则在沿着原始返回节点 的前缀路径向根节点回溯过程中,把遇到的第一个属于候选答案节点作为答案节 点。 最后,综合考虑关键词的词频、结果子树的大小、节点语义权重、答案节点 的置信度等因素,本文提出了一个实用性较强的关键词查询的计分排序公式。在 合理选取答案节点的基础上,内容与结构查询的计分公式综合考虑检索结果子树 的关键词计分和结构匹配度,同时还考虑了出现在侧枝的关键词对其计分的影响。 关键词:x m l 检索;内容与结构查询;节点分类;原始返回节点;答案节点 i a b s t r a c t a sas e l f - d e s c r i b i n ga n de x t e n s i b l el a n g u a g e ,x m lh a sb e c o m ef o r m a t sa n d s t a n d a r d sf o ri n f o r m a t i o nr e p r e s e n t a t i o na n dd a t ae x c h a n g e ,s ot h a ti th a sb e e nu s e d w i d e l ya p p l i e dt ov a r i o u sf i e l d s t h e r e f o r e ,t h e r eh a v eg r e a tp r o s p e c t sf o rs t u d y i n gt h e a c c u r a t er e t r i e v a lo fx m ld o c u m e n t s t h eg r a n u l a r i t yo ft h er e s u l t si st h eb i g g e s t d i f f e r e n c eb e t w e e nx m ld o c u m e n ta n dt r a d i t i o n a lt e x tr e t r i e v a l i nt h e 仃a d i t i o n a lt e x t r e t r i e v a l ,t h eg r a n u l a r i t yi st h ee n t i r ed o c u m e n tt h e nu s e r ss h o u l dn e e dt os e a r c ht h e w h o l ed o c u m e n ta g a i nt og e tt h ei n f o r m a t i o nt h e yr e a l l yn e e d t h e r e f o r et h er e t r i e v a l p r e c i s i o ni sa l w a y sl o w h o w e v e ri nx m l d o c u m e n tr e t r i e v a l ,t h eg r a n u l a r i t yo ft h e r e s u l t si sx m ld o c u m e n tf r a g m e n t ,i n s t e a do ft h ee n t i r ed o c u m e n t i nt h i sw a y , i tc a r l i m p r o v et h er e t r i e v a lp r e c i s i o n r e t r i e v a lr e s u l t si nx m lq u e r i e sa r eas e to fs u b t r e e s c o n t a i n i n gk e yw o r d sa n dt h ek e y i st oc h o o s et h er o o tn o d eo ft h er e s u l ts u b t r e ew h i c h i st h ea n s w e rn o d e b e c a u s et h ex m ld o c u m e n th a ss e v e r a le l e m e n t so fd i f f e r e n t g r a n u l a r i t i e ss ow es h o u l dt oc h o o s ew h i c hn o d e sa sa n s w e rn o d e s i tb e c o m e so n eo f t h ek e yi s s u e st oh o wt oc h o o s er e a s o n a b l ea n s w e rn o d e s u n l i k et r a d i t i o n a lt e x td o c u m e n t ,x m ld o c u m e n ti ss e m i s t a n a c t u r e dd a t aa n d s p e c i f i e st h ec o n t e n t sa sw e l la st h es t r u c t u r ei n f o r m a t i o n i tc a nb er e t r i e v e db ym e a n s o fn o to n l yc o n t e n to n l yq u e r i e sb u ta l s oc o n t e n ta n ds t r u c t u r eq u e r i e s c o n t e n to n l y q u e r i e sc o n t a i no n l ys e v e r a ls i m p l ek e y w o r d ss ot h e yd on o ti n d i c a t et h ea n s w e rn o d e s ; i nt h ec a s q u e r y , t h ea n s w e rn o d e sm a y b en o ts p e c i f i e d ,o ri fs p e c i f i e d ,t h e ya r eo f t e n v a g u e ,i n a c c u r a t e t h e n c e ,w en e e dt oi n f e rt h ea n s w e rn o d e sf r o mt h eu s e rq u e r y e x p r e s s i o n s t h ee l e m e n tn o d e si nt h ex m ld o c u m e n tc a nb ec a t e g o r i z e di n t of o u rg r o u p s : e n t i t yn o d e s ,c o n n e c t i o nn o d e s ,l e a fn o d e sa n dv a l u en o d e s t a k i n gt h es e m a n t i c i n t e g r i t yo ft h ea n s w e rn o d e si n t oa c c o u n t ,t h ec a n d i d a t ea n s w e rn o d e so n l yc o n t a i n s e n t i t yn o d e sa n dc o n n e c t i o nn o d e s b a s e do nt h en o d e s c l a s s i f i c a t i o n ,w ec a l c u l a t et h e c o n f i d e n c eo fe a c hc a n d i d a t ea n s w e rn o d et ob et h ea n s w e rn o d ew i t hr e s p e c tt ot h e g i v e nk e y w o r dq u e r y t h e nt h eo n e sw i t ht h et o pnc o n f i d e n c ea r ec h o s e na st h ea n s w e r n o d e s b u tn o d e ss h o u l db er e m o v e dw h i c hi st h ea n c e s t o ro fo t h e rn o d e t h ed e p t ho f n o d e sa n dk e y w o r d sm a t c h i n gs h o u l dt ob ec o n s i d e r e di nt h ec a l c u l a t i o no fc o n f i d e n c e b e c a u s eo fe x c l u d i n gl a r g en u m b e r so fl e a fn o d e sa n dv a l u en o d e s ,t h en u m b e ro ft h e c a n d i d a t en o d e s g e n e r a l l yi sn o tt o ol a r g e s ot h ee f f i c i e n c yo fa n s w e rn o d e s s e l e c t i o n c a nb ee n h a n c e d i nc o n t e n ta n ds t r u c t u r eq u e r i e s ,t h ea n s w e rn o d ei st h eo r i g i n a lr e t u r nn o d ew h i c h b e l o n g st oc a n d i d a t ea n s w e rn o d e s ,o t h e r w i s et h ea n s w e rn o d ei s t h ef i r s tc a n d i d a t e a n s w e rn o d ei nt h ep r o c e s sf r o mt h eo r i g i n a lr e t u r nn o d e sp r e f i xp a t hb a c kt ot h er o o t a tl a s t ,ap r a c t i c a lr a n k i n gm o d e lf o rc o n t e n to n l yq u e r i e si sp r o p o s e dw h i c ht a k e s k e yw o r d s ,t h es i z eo ft h er e s u l tt r e e ,n o d es e m a n t i cw e i g h t ,t h ec o n f i d e n c eo fa n s w e r n o d ea n do t h e rf a c t o r si n t oc o n s i d e r a t i o n a f t e rt h ea n s w e rn o d e s p r o p e r l ys e l e c t i o n , c o n t e n ta n ds t r u c t u r eq u e r i e s s c o r i n gc o n t a i n sk e y w o r d sm a t c h i n ga n ds t r u c t u r e ,a n d a l s oc o n s i d e r st h ei n f l u e n c eo fk e y w o r d sa p p e a r si nt h ec o l l a t e r a lo ft h eq u e r y k e y w o r d s :x m lr e t r i c v a l ;c o n t e n ta n ds t r u c t u r eq u e r y ;c a t e g o r yo fn o d e s ; o r i g i n a lr e t u r nn o d e ;a n s w e rn o d e s 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写的研究成果, 也不包含为获得江西财经大学或其他教育机构的学位或证书所 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 椎日期:j 谴龇 关于论文使用授权的说明 本人完全了解江西财经大学有关保留、使用学位论文的规 定,即:学校有权保留送交论文的复印件,允许论文被查阅和借 阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印 或其他复制手段保存论文。 ( 保密的论文在解密后遵守此规定) 虢舡新虢兰整隰业 1 绪论 1 绪论 1 1 研究背景及意义 随着计算机技术和网络技术的飞速发展,因特网( i n t e m e t ) 已经渗透到了人 们的只常生活、学习和工作之中,因此i n t e m e t 逐渐成为了人们获取信息的重要途 径之一。人们可以在i n t e m e t 上轻易地发布和获取信息,i n t e r n e t 已经变成了信息制 造、发布、加工和处理的主要平台。h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本 标记语言) 简单易学又通用,句法简明紧凑,加上其扩充的表格、帧、脚本等功 能,使得它在网络上广为使用,因此,h t m l 语言目前是i n t e m e t 信息表示的主要 方式。然而随着网络的发展,电子商务、科学数据库、电子图书等一些全新领域 的新起,要求w e b 文件结构更复杂、样式多样化、处理手段灵活、更智能,面对 这些要求,h t m l 是无法胜任的。另外,由于h t m l 页面缺乏结构信息,利用信息 检索( i n f o r m a t i o nr e t r i e v a l ,简记为瓜) 技术,如关键字搜索,来检索h t m l 页面, 往往会返回大量不相关的信息。 可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ,简记为x m l ) 具有的自描述 性和可扩展性等特点,现在己经被广泛应用到i n t e m e t 智能信息检索、电子商务、 w e bs e r v i c e 、数字图书馆等各个领域中,它已成为最受欢迎的信息表达和数据交 换的格式和标准。同时,x m l 数据f 以指数级的速度增长。因此,如何对海量的 x m l 数据进行高效准确的查询成为了亟待解决的问题。 x m l 文档检索与传统的纯文本检索最大的区别之一在于两者检索结果的粒度 是不同的。在纯文本检索中,检索结果的粒度是整篇文档,用户需要在返回的整 篇文档中进行再次查找,才能得到自己真正需要的信息,浪费用户浏览结果信息 的时间。但x m l 文档检索不会出现这种问题,因为它的结果粒度是x m l 文档片 断,即只返回与用户提交的查询相关的x m l 文档片断。在x m l 文档检索中,返 回结果的粒度由整篇文档精细为x m l 文档片断,这个过程称为检索结果粒度精细 化【l 】。检索结果粒度精细化是提高x m l 文档检索准确率的一个有效途径。不过, 检索结果粒度精细化同时也带来了新的问题检索结果片段大小的选择。如果 结果片段的粒度选择过小的话,比如为一个叶子节点,这样可能造成返回结果信 息量不足,语义不完整;同样,如果选择整棵x m l 文档树的话,结果片断粒度偏 大,这与返回整篇x m l 文档无区别,不能体现x m l 检索的优势,同时也导致检 索结果准确率的降低。因此,如何合理地确定检索结果的大小,也就是如何合理 地选择返回结果子树的根节点( 称为答案节点,a n s w e rn o d e ) ,成了x m l 文档检 x m l 模糊结构查询中检索结果的自动选取 索中的一个关键问题。 1 2x m l 相关知识介绍 x m l 是由w 3 c ( w b r l dw i d ew e bc o n s o r t i u m ,万维网联盟) 的x m l 工作组 定义的。该工作组是这样描述x m l 语言的【2 1 :“x m l 是s g m l ( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ,标准通用标记语言) 的子集,其目标是允许普通的s g m l 在 w e b 上以目前h t m l 的方式被服务、接收和处理。x m l 被设计成易于实现,且可 在s g m l 和h t m l 之间互相操作。 x m l 与s m g l 和h t m l 一样,也是一种标记语言,它通过在文档中加入附 加结构信息的方式来描述结构化数据,相对于h t m l 而言,x m l 具有以下一些特 占【3 】 、 ( 1 ) 可扩展性:x m l 是一种元标记语言,它可以根据实际情况的需要来创建 新的标记语言。它从元语言层次上统一了对数据的描述,增强了表达能力,从而 使数据检索更加准确和高效。虽然x m l 和h t m l 都来自于s g m l ,但x m l 保留 了s g m l 的可扩展功能,即x m l 允许自定义数量不限的标记,允许嵌套的信息 结构,而h t m l 的标记是固定的,不可扩展的,只使用s g m l 中很小一部分标记。 x m l 的最大能量来源于它不仅允许你定义自己的一套标记,而且这些标记不必局 限于对于显示格式的描述x m l 允许各个不同的行业根据自己独特的需要制定自 己的一套标记,同时,它并不要求所有的应用系统软件都能处理所有的标记,也 不要求x m l 能够适合所有行业和领域的应用,这种具体问题具体分析的方法更有 利于x m l 推广和发展。 另外,x m l 允许丌发各种不同专业的特定领域的标记语言。例如,m a t h m l 是一种用于数学领域的标记语言,可以用它来描述数学公式。有了这些语言,这 个领域的实践者们可以相互自由地交换数据和信息,而不必担心对方是否利用特 殊的、专用的软件来创建数据。 ( 2 ) 自描述性:描述文档结构的信息和文档本身的内容作为一个整体包含在同 一个文档中。 ( 3 ) 结构化:因为可以包含文档的结构信息,所以x m l 文档可以被设计为高 度结构化的文本文档,可以实现基于内容的检索,提高检索的精确度。 ( 4 ) 开放性:x m l 是基于w 3 c 定制的开放标准,从而使得基于x m l 的应用 具有广泛性。x m l 文档是纯文本文档,因此可以用任何支持纯文本处理的应用软 件来创建和编辑。在实际应用中,由于历史和现实的一系列原因,往往并存着许 多不兼容的平台和系统,要进行资源共享和系统整合存在着很大困难,如果使用 2 1 绪论 x m l 作为各种不系统之间的交流媒介,则是一种非常理想和简单的解决方案。这 也是x m l 流行广泛的一个重要原因。 ( 5 ) 有效性:x m l 文档的结构和内容是由其语法定义的。文档类型定义 ( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 就是这类语法的一种,正在形成的还有x m l 模式。有了模式,就可以方便的验证文档的有效性。例如,x m l 文档要求标记配 对,而且还要求具有d t d 格式文档严格遵守d t d 的规定。这样,就增加了网页 文档的可读性和可维护性,有利于数据格式的统一和规范。 ( 6 ) 通用性:由于x m l 支持u n i c o d e ,所以x m l 可以能在不同语言环境下 存储和交换信息。 ( 7 ) 数据显示多样性:x m l 实现了内容、结构和表现三者的分离,即x m l 只 描述数据本身,并不负责如何表示数据,x m l 中信息的显示方式已经从信息本身 中独立出来了,要通过样式表来确定数据的显示形式。这样,对于相同的数据, 结合不同的样式表,就可以灵活多样的方式显示数据,在实践中具有很强的使用 价值。 ( 8 ) 保值性:x m l 的保值性继承于它的祖先s g m l ,使用x m l 保存的文档可 以保持较长的使用寿命而不会被丢弃掉。现在许多为了存显示格式而以专有编辑 软件格式保存的文件可能没有多少人能再想起了,而x m l 是纯文本文件,并且具 有自描述性和显示多样性等特点,可以为文档提供更长的寿命。也正是基于这些 优点,国际标准化组织力维网联盟w 3 c 推荐x m l 作为第二代网页发布语言。 ( 9 ) 支持高级搜索。在知晓x m l 文档内容的结构和含义的基础上,可以很容 易对x m l 文档进行信息检索。在i n t e m e t 上如果w e b 页是x m l 格式的,则检索 效率会更高,而且不仅可以检索数据,还可以在检索中加入与数据相关的上下文 信息,这样就形成了更精确的检索机制。 1 2 1x m l 语法 x _ m l 文档一般由四个部分组成【3 j :x m l 声明,处理指令,x m l 元素和注释。 其中x m l 声明和x m l 元素是必须的,而处理指令和注释是可选内容。 1 ) l 声明 x m l 声明必须在文档的第一行,而且其中的字母是区分大小写的。首先声明 使用的x m l 版本号,然后是文字编码声明,其形式为e n c o d i n g = ”u t f 8 ”( u n i c o d e t r a n s f o r m a t i o nf o r m a t 8 ) 。文字编码声明指出文档是使用何种字符集建立的,默认 值是u n i c o d e 编码( u t f 一8 或u t f 1 6 ) 。独立文件声明位于文字编码声明之后,如 s t a n d a l o n e = ”y e s ”,独立文件声明使用的属性值可以为y e s 或n o 。属性值y e s 表示 x m l 模糊结构查询中检索结果的自动选取 所有与文件相关的信息都已经包含在文件中,即文件中没有指定外部的实体,也 没有使用外部的模式:属性值n o 表示应用程序需要取得文件以外的信息才能完成 文件解析。 完整的x m l 声明如下所示: 2 ) 元素 通常,元素典型地组成了x m l 文档中的大部分内容。元素有名字( 即标记名) , 也可能有后裔,后裔可能是元素、处理指令、注释、字符数据( c d a t a ) 段或者字符。 一个良构的( w e l l f o r m e d ,也称为格式正确的) x m l 文档必须至少包含一个元素, 即文档中必须有根元素。元素由一对标记( 即起始标记和终止标记) 串行化而成, 起始标记的形式是 ,终止标记的形式是刮标记名 ,元素的后裔则位于起 始标记和终止标记之间。如果元素没有后裔,则称为空元素。空元素也可以用一 种速记法来表示,即 。 x m l 中的元素名称是区分大小写的。它必须丌始于字母或下划线( ) ,后面 可跟任意长度的字母、数字、句点( ) 、连接符( ) 、下划线或冒号。 元素可以用属性来注释。属性通常用来给元素提供所显示内容的额外信息。 元素的属性在元素的起始标记中给出,形式为:属性名= 属性值。属性名与元素名 有相同的构造规则,属性值必须出现在单引号或双引号中。一个元素可以有任意 数目的属性,但是它们的名称必须不同。 3 ) 处理指令 处理指令通常用来为处理x m l 文档的应用程序提供信息,这些信息包括如何 处理文档,如何显示文档等。处理指令可以作为元素的后裔出现,也可以作为文 档的顶层结构出现在根元素的前面或后面。处理指令由两部分组成:处理指令的 目标或名称、数据或信息,其格式为 ,目标的构造规则与元素名的 构造规则一样。例如,处理指令: 4 ) 注释 x m l 支持注释,注释可以作为元素的后裔出现,也可以作为文档的项层结构 出现在根元素的前面或后面。注释分别使用字符序列“ 作为开始和 结束,注释的文本内容在这两个字符序列之间。 一个良构( w e l l f o r m e d ) 的x m l 文档通常指没有语法错误的x m l 文档。如果 一个x m l 文档满足以下要求,则称其为一个良构的x m l 文档【3 】: 4 1 绪论 ( 1 ) 文档的丌始必须是x m l 声明; ( 2 ) 含有数据的元素必须有起始标记和结束标记; ( 3 ) 元素只能嵌套不能重叠; ( 4 ) 不含数据的空元素仅有一个标记的元素并且必须以 结束; ( 5 ) 文档只能包含唯一的根元素; ( 6 ) 属性的值必须加引号; ( 7 ) 字符 和& 只能用于起始标记和实体引用; ( 8 ) 出现的实体引用只有& a m p 、& i t 、& a p o sj f l l & q u o t 。 图1 1 给出了一个良构的x m l 文档的例子,是截取s i g m o d r e c o r d 数据集的 一个片段。 图1 1 一个x m l 文档实例 它是一个描述s i g m o d 会议所收录文章信息的x m l 文档,它有一个 s i g m o d r e c o r d 根元素,该元素中包含若干个( 即零个或多个) i s s u e 子元素;每个 i s s u e 元素中有一个v o l u m e 元素、一个n u m b e r 元素及若干个a r t i c l e s 子元素:每个 a r t i c l e s 元素由若干个a r t i c l e 元素组成:每个a r t i c l e 元素中有一个t i t l e 子元素、一 个i n i t p a g e 元素、一个e n d p a g e 元素和一个a u t h o r s 子元素;每个a u t h o r s 元素有一 s x m l 模糊结构查询中检索结果的自动选取 个c d a t a 类型( 指的是纯文本,即由字符、符号& 、小于号( 图1 2 以文档为中心的x m l 文档片段 x m l 文档的语义不但存在于文本之中,也存在于文档的结构之中,结构在一 定程度上消除了自然语言表达的二义性。如果能在传统信息检索技术的基础上, 加入结构信息,就能获得比单纯使用信息检索技术更好、更准确的检索结果。 x m l 文本文档检索通常可以采用两利,不同的查询方式【l l 】: 7 x m t 模糊结构查询中检索结果的自动选取 ( 1 ) 纯关键词的查询方式,简称c o ( c o n t e n to n l y ,纯内容) 查询【i 引。在这种 查询方式中,用户提交的查询表达式仅仅由若干个关键词构成,这种查询形式非 常类似于传统信息检索。例如,要查找“t o m 在2 0 0 9 年写的有关x m ld a t a b a s e 方面所有文章”,对应的查询表达式为:t o m 、2 0 0 9 、x m l 、d a t a b a s e 。关键词查 询是一个简便的检索方法,用户不需要学习和掌握复杂的查询语言。但其缺点是 没有充分利用x m l 文档的半结构化信息,没有充分利用x m l 数据本身的特点和 优势,仅仅靠几个简单的关键词,用户难以或无法准确表达自己的搜索意图,这 样导致检索结果的准确率降低。 ( 2 ) 结构匹配与关键词相结合的查询方式,简称c a s ( c o n t e n ta n ds t r u c t u r e , 内容与结构) 查询 13 1 。在这种查询模型中,用户提交的查询主要由两部分信息组 成,一部分是结构约束条件,另一部分是查询关键词。在c a s 查询中,根掘查询 结果是否必须严格满足结构路径约束又可以分为严格结构匹配加关键词的查询 s c a s ( s t r i c tc o n t e n ta n ds t r u c t u r e ) 和非严格结构匹配加关键词的查询v c a s ( v a g u e c o n t e n ta n ds t r u c t u r e ) 查询【1 4 】。在s c a s 查询中,例如:查找在文章主体部分中有 关x m l 关键词查询的章节,对应的查询表达式为:a r t i c l e b o d y s e c t i o n = x m l , k e y w o r d s 】,其中关键词约束有“x m l ”和“k e y w o r d s ”,路径约束条件: a r t i c l e b o d y s e c t i o n 。优点是用户可以准确地构造查询表达式来表达自己的查询需 求,从而准确快速地得到查询结果。不过,前提是要求用户必须事先学习、掌握 复杂的查询语言( ! l i x p a t h 、x q u e r y ) ,这对普通用户来说具有很大的难度。另外, 在查询x m l 数据之前用户还必须知道x m l 文档所具有的准确的模式信息。v c a s 查询模型与s c a s 查询模型不同之处在于它在确定查询结果时并不要求结果树与 查询树在结构上完全相同,而是允许存在一定的偏差。v c a s 查询介于s c a s 查询 和关键词查询之间,使得用户可以在一定程度上较准确地定位到自己所需要的信 息,同时又不对用户提交的查询表达式提出严格要求,用户可以根据自己所掌握 的信息和查询需求,比较自由地表达自己的查询条件。 1 2 3x m l 文档的d t d 文档类型定义d t d 是d o c u m e n tt y p ed e f i n i t i o n ( 文档类型定义) 的缩写,是用 来定义文档所具有的逻辑结构的,是x m l 文档的数据模。d t d 列出了可用在文 档中的元素、属性、实体和符号表示法,以及这些内容之间可能的相互关系。d t d 指定了文档结构的系列规则。下面图1 3 是一个x m l 文档的d t d 实例。 d t d 的基本用途 ( 1 ) 对标记编制文档; ( 2 ) 加强标记参数内部的一致性: g 1 绪论 ( 3 ) 使x m l 语法分析器能够确认文档; ( 4 ) 确保不同的人员和程序能够互相读懂文件。 图1 3 图1 1 中x m l 文档对应的d t d 1 2 4x m l 查询语言 近年来,为了查询x m l 数据,人们提出了许多种面向x m l 数据的查询语言, 如l o r e ld 5 ,x m l q l e l 6 】,x m l g l 17 1 ,x s l t i s 】,x q l t 19 1 ,q u i l t 2 0 】,x - p a t h 2 、 x q u e r y 【2 2 】等。x p a t h 是一种专门用来在x m l 文档中查找信息的路径描述语言。 x q u e r y 是由w 3 c 组织提出的一种最新x m l 查询语言标准,它的前身即是q u i l t , 并吸收了多种已有的x m l 查询语言的优点,已成为现在公认的x m l 查询语言标 准。 1 2 4 1x p a t h 路径语言 x p a t h1 o 【2 l 】的主要目的是对一个x m l 文档进行寻址。为了支持这个主要目 的,它也为操纵字符串、数值和布尔值提供了一些基本的功能。x p a t h 使用一种紧 凑的、非x m l 的语法以方便u r i 和x m l 属性值中使用x p a t h 。x p a t h 在x m l 文档的一个抽象、逻辑结构上进行操作,而不是在它的表面上的语法上。x p a t h 因 为使用类似于u r l 的路径表示法来在一个x m l 文档的层次结构中进行导航而得 名。除了用来寻址外,x p a t h 也包含了一个能够用于匹配( 测试一个节点是否与一 个样式匹配) 的自然子集,x p a t h 的这种用法定义在x s l t 的规范中。 x _ p a t h 的主要构件是表达式,其中,最重要的表达式是定位路径( l o c a t i o np a t h ) 表达式,这也是它为什么命名为x p a t h 的原因。定位路径表达式是这种类型的表 达式: s i g m o d r e c o r d i s s u e a r t i c l e s a r t i c l e t i t l e 9 x m l 模糊结构查询中检索结果的自动选取 定位路径有两种,分别是相对的定位路径和绝对的定位路径。每种定位路径 都是由一个或多个定位步组成,每个定位步之间用正斜杠( ) 分开。绝对路径以正 斜杠( ) 开始,而相对路径则没有,比如:a r t i c l e s a r t i c l e t i t l e 。 一个定位路径由若干个定位步组成,而一个定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论