（信号与信息处理专业论文）基于xml文档的语义检索.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：49 大小：1.84MB 积分：12 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要摘要本文在总结了xml 相关理论及技术的基础上，提出了一个基于翔l 文档的语义检索系统，这一系统的主要工作有: . 利用d 服解析器对 x m l 文档进行解析，同时利用深度优先遍历算法对d om树按节点访问，获得需要的数据，根据节点的分类将数据处理后，将节点信息存入数据库的倒排表。使用s q l 语言对数据库中的索引表进行查询。 . 改进了一个 xml文档节点标号法，这一算法能快速找到每一个节点的祖先节点。 . 设计了一种新的基于 xml文档的语义查询算法，包括判断两个节点的相关性算法以及对于多个节点的相关性判断算法，语义相关性判断是一种语义的体现，使检索结果更准确，符合用户需要。关键词:x m l ，文档树，节点，语义 abs t ract t hi s p ape r s u m n 1 a n z et h e o ri e s andte c hni q u e s 0 f x ml ， andt h e np utfo rwar da s e m a n t i c s e arch i ngsys te mb as e o n x ml d o c ume ni s .the m ai n w o rko f t hesystemi s : .p ar s e x mldoc u m e n t s w i t hd o m，朋dv i sit th ed o m t r 吧 e inthe form o f nod e s w l t h th e a ri t h m et icofdep thse arch， get d a t a s w hi ch we need声 b e ndsai袱tht b e d a t as witht h e c l ass e s o f nod e s ， a n d s t o rge t h e i n fo rmatio n o f n o d e s i n t 0 t h e ta b 1 e o f dat a b ase ， and s e 魄h i n t h e i n d e x ta b l e s i ns q l. . p ut扔妇胃盯 d a b l u e p d ntw h i c h c anm ark e v e 叮n o d e s 玩d o c tnne nttr e c i3 1， m 欧. use o f th i s b l u e p ri nt， we c anfi n d o utanc e s t o r n o d e s for e v e rynod e s qul c k 】 y . .p utforwa r da 加ws e archi n g me t b o dbas e d o nx mld o c 叨e n 招，itc o n ta i nst h e 鱿吐 h m et ico f c o m p aring t h ei n t e r c o nne ction o f e verytw0nodes a n da newm e t h o dof c o m p 幼n gth ei nt e rc onn e cti0 noft h r e eorm o renod e s . c o m p a n n gi n te r c o n n e otio nof n o d e s i s am e th o dtore p res e nts e m 助t i c ， i t m ake s c o m p ut e r u n d er s t andu s er s ， r e que st b e t t e r ， 5 0 ， s e a r c h 邝s u l t c an b e 伽 ree x act . ti anye( e 】 “ t r o c an d ln fo n n at i o n e n g i n e e ring) d i rected byp rof. yuanj i n s h a ke ywor d s : x ml ， d o c u 恤e n t t ree ，uo d e 声 e 口a n t i c 士 j 二 .n口尸明本人郑重声明 : 此处所提交的硕士学位论文基于x m l 文档的语义检索，是本人在华北电力大学攻读硕士学位期间，在导师指导下进行的研究工作和取得的研究成果。据本人所知，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名 : (习叶日期 : 2 0 冰2 夕关于学位论文使用授权的说明本人完全了解华北电力大学有关保留、使用学位论文的规定，即: 学校有权保管、并向有关部门送交学位论文的原件与复印件: 学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅; 学校可以学术交流为目的，复制赠送和交换学位论文: 同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。港密的学位论文在解密后遵守此规定) 作者签名 :闺。子日期: 7 口日 1 分导师签名 : 为牵季日期 : .迎取吵华北电力大学硕士学位论文第一章引言 1 . 1 课题的提出由于网络和 it 技术应用的不断发展，人们发现在朴b应用和传统桌面应用之间存在着连接的鸿沟，统一 it 平台成为了市场的呼声。如何去解决平台差异、语言差异、数据差异和协议差异，实现大范围的跨企业实体的商务应用系统对接，这是摆在开发人员面前的一大问题。作为在目前应用环境中最为合理的解决方案之一的xml ( e x t e n s i b l em a r k u pl a n g u a g e ) 技术顺应t 市场的这一需求。翔l技术具有跨平台的特性，不同数据库或者系统平台之间的数据共享可以依靠x m l 技术来解决。 x m l技术不仅仅是互联网和数据库之间的中间媒介，它可以做更多事情。xml的最大优点是它强大的数据表达能力，不仅可以表达关系模型和对象模型的数据，而且还可以表达不规则的、易变的数据。使计算机更好的理解用户的查询需求，有效地提高查全率和查准率，是当前搜索引擎发展的热点，合理的基于x m l 文档的语义搜索引擎的设计便是很好的一种解决方案，本文正是在目前己有的基于xml 文档的语义检索的技术基础上，对它进行改进，提出新的x m l 文档的语义检索系统。如何利用双l 相关技术，以及新的语义查询算法的提出是本文要研究的主要问题。 1 ， 2国内外研究动向 1994年y ahoo推出的网络信息资源主题分类类目体系拉开了网络信息资源检索的序幕，使得搜索引擎的研究和开发成为网络信息检索研究的重要课题，近 10 年里搜索引擎的研究和发展一直是网络信息检索研究的热点。当前普遍应用的信息管理技术主要为数据库(d b)技术和信息检索仃 r)技术。因此，以纵l 文档为对象的信息检索的研究及技术方法也主要来自于这两个领域。 ( 1)面向数据库的方法。将 x ml 文档分解后保存在关系数据库或面向对象数据库中，通过标准的数据库查询语言来实现x ml文档的检索。查询的输出可以通过使用 xsl 样式表转换为枷l文档。这种方法的优点是: 数据关系、约束以及完整性可以被建模和检查，可以使用标准的数据库引擎，以及类似于s ql 的查询语言，并且能充分利用数据库的成熟技术，如并发性、同步等等。缺点是: 将 xml数据导入数据库比较困难，而且难于处理模式的变化。 (2 ) 面向ir的方法。将每个粗l 文档看作是一个具有附加标记的文本文档，可华北电力大学硕士学位论文以直接使用传统的ir技术来处理和检索翔l 文档。标签的处理可以根据具体应用，优点是可以实现基于关键词的全文检索，并进行相关性排序，但缺乏数据库管理的基本特性。翔l 文档既有文本内容，又包含结构化信息，因此，比较理想的方式是上述两种方法的结合，以充分利用数据库技术和信息检索技术的各自优势。关于db 与ir 的结合也一直是数据库领域和文档领域的研究重点，并取得了一些成果， ora de 和 mircosoft 均推出了支持全文检索的数据库管理系统。但由于底层数据模型的差异，要想在标准s ql 中实现对全文检索的无缝支持，还有相当多的工作要做。料w的迅速发展和广泛应用为搜索引擎的发展提供了广阔的空间，搜索引擎迅速发展为 i nternet的一个新兴产业，对于xml的查询已成为当今学术界研究的一个热点问题。当处理 q : / c h a p t e r / * / f i g u r e c a p t i o n 二“ t r e ef r o g s ”1 这样的查询语句，传统的、最直接的方法就是采用自顶向下或自底向上的方式遍历整个x m l 文档树，例如采用自顶向下的方式处理查询语句，从chapt er结点开始向下遍历所有的孩子节点，然后检查这些结点是否具有属性c a p t i o n =“ t r e e f r o g s ” 的f i g u r e 孩子节点. 这就意味着要检查从chapt er到叶子结点的所有的可能路径，因为并不知道f i gure 元素在哪一条路径上。当chapt er是根结点时就要遍历整个文档树，这就造成查询效率低下。为了解决这个问题，利用索引技术来优化x m l 的查询，这几年得到了一定的发展，一些索引技术相继被提出，例如: d a t a g u i d e s ， 1 一 i n d e x e s ， 2 一 i n d e x e s ，和 t 一 i n d e x e s ，r e v e r s e dd a t a g u i d e s ，l o r e 索引，i n d e xf a b r i c，t o x i n ，x i s s 。同时对于xml 的查询研究中出现了多种查询语言，其中比较著名的有lore网，粗l 一 ql训，众l 一 glt0等，这些语言各有优点切: xml 一 ql和xml 文档的集成性比较好， l o r e l的功能比较强，而 xml 一 g l在图形化界面方面做得比较好， q uilt 综合先前各种语言的优点川，它的路径表达式参考了x path，变量绑定借鉴了xml 一 ql， fl粉表达式类似于 sql ，而且它还支持用户自定义函数。伽ilt不仅可以查询翔l数据，也可以方便地查询关系数据，因此它的表达能力是很强的。正因为如此，邢c在它的基础上提出了x q u e r y 语言. 针对英文信息的搜索引擎发展很快，技术也较为成熟。我国在信息获取领域起步较晚，加上中文信息相对英文信息处理较难，从国内搜索引擎的应用效果和对搜索引擎技术的掌握上与发达国家比较，存在较大的差距。特别是在智能搜索引擎的开发、建设和应用水平方面差距更大。这种差距表现在两个方面: 第一是搜索引擎的性能和搜索结果的质量与国外的搜索引擎相比存在很大的差距。第二是对搜索引擎与信息获取技术的掌握和应用上华北电力大学硕士学位论文有待于加强和提高。因此实现中文搜索引擎的智能化和自然语言检索，开发功能强大的中文搜索引擎仍需深入研究。 1 .3本文所做的主要工作本文的研究内容主要集中在以下几个方面: ( 1)对x m l 的结构特点深入分析，xml 文档的解析方法，xml 文档的索引算法，查询算法，分词算法，文档节点标号法，与数据库连接等几个方面。 (2 ) 在分析 xml相关技术基础上，对一个文档节点标号法改进，得到新的节点标号法，同时提出一个新的能体现节点语义的文档查询算法。具体本文的结构如下: 第一章是引言部分，针对翔l 的特点及发展动向，调研了基于翔l 文档的语义信息检索技术需求，分析了国内外在这一领域的研究现状，说明了本文的主要研究内容; 第二章分析xml 语言的特点以及htm l 的不足，对xml 规范作了说明，描述了规范的xml 文档，分析了j aya 与xml 的结合技术; 第三章对x m l 解析技术进行分析，重点分析了dom 解析方法; 描述了已有的xml 文档索引算法及查询技术和分词技术; 第四章在深入分析了xml 相关内容及节点的相关性定义基础上，充分利用x m l 文档层次的体系结构，采用dom 解析器将文档解析成文档树的形式，根据关键词建立倒排索引表，检索用户需要的信息，提出了一种改进的对文档树的节点进行编号的方法，同时对查询到的节点进行语义相关性判断，得到一个新的语义查询算法，是查询结果准确度得到提高，由此形成了一个基于川l 文档的语义检索的体系。通过实验验证了本文语义查询算法的正确。本文的重点是文档树节点标号法和语义查询算法的提出。第五章对本文所做的主要工作进行描述和总结，说明了本系统不完善需要改进的地方。华北电力大学硕士学位论文第二章 x m l 分析及与ja va的结合 2 ， i x ml 简介物rld币de 贬b是最近几年 i nternet 上最具生命力的一种应用，由于它操作简单而又功能强大，不仅能够传输文本数据，而且可以进行声音、图像、多媒体等数据的传输，因此它受到越来越多的用户的喜爱。随着取b 文件变得越来越大越来越复杂， w eb 内容的提供商已经开始感受到普通的盯m l ( 超文本标记语言) 己经无法提供用于大规模的商业出版所需要的扩展性、结构和数据检查功能，而且当前h t ml 在传输文件数据方面的不足也非常明显。为了满足商业w eb出版的需要和解决web 技术在新的分布式文件处理领域的应用需求， w 3 c 汉o r l d贾 i d ew e bc o n s o r t i u m ，万维网联盟) 开发了一种可扩展的标记语言，这就是xml ( e x t e n s i b l e m a r k u p l a n g u a g e ) ，以用于那些目前肛m l 无法满足要求的应用( 粗l 技术是 i nternet 新技术之一，以其结构化、可扩展性、灵活性的特点。引起了业界的普遍关注) 。甜l 的最大用途之一是作为网上数据存储系统的交流中介。目前 i n t e r ne七中有许多在不同操作系统平台上且以不同方式存储的数据，这些数据在很多情况下需要交流，xml提供了通用的数据表示格式，进而提供了一条不同介质上数据进行交流的捷径. 2 . 1 . i h t ml的不足对于近十年 1 吐e r 淤t的迅猛发展，ht协 l功不可没，用它设计出来的网页为 i n t e r n e t 增色不少，也吸引着越来越多的人到网上冲浪，最终使i n t e r n e t由专业人员和网络爱好者的天下，发展成为全世界共享的信息平台。但是，随着网络应用的不断深入发展， html 已经暴露出越来越多的弊端，不能再胜任网络未来发展的需要了。具体来说，html 在日新月异的网络应用中表现出以下三个方面的缺点。 ( 1)扩展困难 html 只采用了一部分 sgml 思想，即文档表示应该标准化，所以它只适用了一个固定的元素类型集。这就使得hth l 仅仅是符合邪从 l 语法的一种固定格式的超文本标记语言。浏览器开发商发现，通过对 ht毗非兼容性的扩展，用户不能在其中增加有意义的并且能提供他们使用的标记;通过对 h t m l非兼容性的扩充可以获取更大的市场份额，于是大量非标准的 htm l扩展出现了，在这方面，两大浏览器生产商n et。 c a p e 和 m i c r oso ft 就是典型的代表。他们发明了许多只能被自己的浏览器所识别的标记，但非标准的扩展破坏了砰 eb 的交互操作性。华北电力大学硕士学位论文 (2) 语义性差 htm l只是一种表达的技术，它并不能对由各种标记所定义的数据含义进行说明，很难找到一种方法来从文档中搜索需要的数据，更不用说对 htm l文档中包含的数据进行更深入的处理。在数据交换越来越频繁、越来越重要的今天，缺乏语义性可能是h t m l 最为致命的弱点。 ( 3)缺乏对双字节或多国文字的支持 htm l 缺乏对双字节或多国文字的支持. 例如在设计htm l 网页时，经常发现中文信息在不同平台下出现格式不齐的问题。同时，在 h t ml 中，除了使用其固有的或各个浏览器开发商通过非标准扩展得到的标记之外，不能再用别的标记，更不用说非英语国家的用户使用本国语言定义的标记，比如中文标记。班m l 的这种局限性也在一定程度上成为了网络发展的障碍。 2 . 1 . z x ml的特点及优势翔l 是从sgm l 所衍生出来的简化格式，与html一样，其目的是让互联网上的数据描述有一个简单可行的标准. 只不过它们的服务目标和手法不尽相同， h 翎l 是单一的固定格式，而翔l 却是可以扩充的灵活格式: htm l 是用来描述展示页面的方法，而x ml 却是用来描述页面的内容。 xml ( e x t e n s h i b l em a r k u pl a n g u a g e ) 是一个体系，它主要有三个要素:s c h e ula( 模式) 、xsl ( 可扩展样式语言) 和xll(可扩展链接语言) 。 s che ma 定义了 x m l文件的逻辑机构、粗l文件中的元素、元素的属性以及元素与元素属性、元素与元素之间的关系，它可以帮助分析程序校验翔l 文件标记的合法性。x sl 是用于规定xml 文档样式的语言，它能在客户端使份 eb浏览器改变文档的表示法，从而不需要再与服务器交互通信; x ll将进一步扩展w eb上已有的简单链接。翔l具有良好的数据存储格式、可扩展、高度结构化、易于网络传输等特征。这些特征决定其卓越的性能表现。作为标记语言它还有如下特点: ( 1)开放性能在不同的用户和程序之间交换数据，不论其平台如何。 ( 2)自描述它的自描述特性使其对于bzb 和企业内部网解决方案来说是一个有效的选择。 ( 3)可扩充使用者可以创建和使用自己的标签，也可使用他人已定义好的标签，可扩展性大。使用 dtd ，不同组中的人就能够使用共同的d td 来交换数据，应用程序也可以使用这个标准dtd 来验证收到的数据是否有效，也可以使用一个dtd 来验证自己的数据。 ( 4 ) 国际化 5 华北电力大学硕士学位论文它支持世界上大多数文字。凡能阅读xml 语言的软件就能够顺利处理不同语言字符的任意组合。因此，枷l不仅能在不同计算机系统之间交换信息，而且能跨国界和超越不同的文化疆界交换信息。 2 . 1 . 3 x ml规范翔l 规范是w 3c创建的一种设计文档标记语言的标准。根据应用的需要和依据 xml规范可以设计各种各样的标记来描述文档的内容和结构。xml规范由一系列标准和协议组成，郑ll. 0 规范是x m l 的最核心的规范，是x ml语言的语法。此外，还有 d 服、x s l 、x l i n k 、x p a t h 、x p o i n t e r 、x m ls c h e 咖、x q u e r y等数十种相关的规范和草案。这套规范以x m l io为核心，目的就是为文档数据( 特别是 w eb 数据) 提供表示的方法。翔l系列规范自身也处于不断的发展和完善中，因此其中许多规范或草案目前还没有应用支持而仅停留在书面阶段，但也有部分规范已开始付诸实现，如川ll. 0 和d 伽。总体上来看，这些规范可以分为数据描述和数据操纵两类。其中数据描述规范主要是xmli. 0;而数据操纵规范包含如x sl，x l ink ， xpath 和x poi nte r 等。图2 一 1 给出了xml 的主要规范组成示意图。 dt d 阮h e ma 文档格式标准文档解析标准孰氰一豁嘿图 2 一 lxml的主要规范组成示意图 2. 2 x ml文档粗l 文档一般由四个部分组成: x m l 声明，处理指令，翔l 元素和注释。其中翔l 声明和x 砒元素是必须的，而处理指令和注释则是可选内容。翔l 声明用于声明该 6 华北电力大学硕士学位论文文档是一个粗l 文档; 处理指令则是包含在x m l 文档中的一些命令性语句，目的是告诉川l 处理一些信息或执行一定的动作; 川l 元素是灿几文件内容的基本单元，一个元素包含一个起始标记、一个结束标记以及标记之间的数据内容，元素里还可以再嵌套元素，实现循环嵌套，最外层的元素称为根元素，一个xml 文档只能有一个根元素: 注释是x m l 文件中一些用作解释的字符数据，粗l 处理器不对它们进行任何处理. xml 可以从存在的数据中产生出来，使用xml 结构化的数据可以从商业规范和表现形式中分离出来刹。参见图2 一 2 中数据的集成、发送、处理和显示。桌面显示x ml文档的多种表现形式 x ml发送到其它地方做进一步处理中间层 x ml通过h t t p 交换数据，通过d o m 仪档对象模式) 处理数据 x ml数据集成图2 一 z x 州几构架图 xml文档由能够自描述信息元素组成，这些元素使用了层次化的结构，这些特性提供了基于树结构的新型数据访问能力.它就是指由xml 标记语言所定义的标记标注的符合x 毗规范的文本文档。从这个意义上，x m l 实际上仅仅是一种标准化了的可以在w e b 上表示结构化信息的文档格式. x m l 文档由标记和文本数据组成，其中文本数据就是原始的文本tzs 。从规l 文档的结构角度来看，文档是由若干“ 对象” 组成的，每个对象包含一个或多个成员. 每个成员又都含有 “ 属性”来描述该成员是如何运行的。这些对象在xml 中被称为 “ 元素( e l elnent)” ，元素的类型在d td 中予以声明。元素之间的包含结构是一种 “ 树”形结构，而包含所有其他元素的元素称为 “ 根元素” ，包含在根元素之内的元素称为根元素的 “ 子元素”( 相应地根元素称为此子元华北电力大学硕士学位论文素的父元素) .如果该子元素还包含子元素，则称其为 “ 树枝” ，不包含其他子元素的元素称为 “ 树叶” .其中，元素、子元素以及属性是一些标记，而树叶则是原始的文本。 xml i . 0 规范对翔l 文档进行了两方面的规定。一方面是满足格式良好的要求。另一方面是文档有效性的要求。格式良好是指x m l 文档必须包含一个或多个元素，且必须存在唯一的根元素，每个元素有起始标记和结束标记界定，元素逐层嵌套，不能交叉。格式良好是xmli. 0 对xml 文档语法上的限制，必须满足。文档有效性是指如果一个x m l 文档类型和结构与其文档类型定义(d td或 s c h e ln a)相符合，那么该文档就是有效的。下例 1 是一个 xml 文档。石油大学图书馆山东东营济南新华书店济南历下区 2 5 0 0 0 7 毛主席在延安王延 a u t h o r ) 张因，生于1 9 5 4 年7 月，祖籍甘肃天水，笔名一针见血他的爱好有爬山划船 3 5 元华北电力大学硕士学位论文例 1以x m l 格式描述的一张发票为了使其成为有效的xml 文档，文中每一个添加的标记必须记入一个独立的d td ( 文档类型定义) 文件中。一个文档可以在它的文档类型声明中宣布它符合某个特定的d t d ，这就如定义了一类文档的数据操作和存储的结构国。d td 文件使 xml 页面包含更多的内容，表现更复杂的形式。当客户浏览地区文档时，相关的dtd 文件是随着文档一起下载到客户端，客户浏览器就可以根据需要来处理它们。另外将u rl地址定义在d td文件中，当份 eb主页地址发生变化时，只需改动dtd 文件中的定义即可，而不必在每个 h t m l 文档中改变u rl地址，从而使w eb 的维护更方便，用户也不会遇到u rl地址找不到的信息。并不是所有的dtd 文件都要下载到客户端，已经制订成为标准的协议，例如化学标记语言 c m l 、数学标记语言姗l 等是不需要d td文件的。除td t n 外，x m l 包含可扩展格式语言x s l ( e x t e n s i b l es t y l el a n g u a g e ) 和可扩展链接语言x l l ( e x t e n s i b l e l i n k i n g l a n g u a g e ) 。x s l 可以解释数量不限的标记，它使w eb 的版面更丰富多彩，例如动态的文本、跑马式的文字。此外，x sl 还处理多国文字、双字节的汉字显示、网格的各种各样的处理等。应用x sl样式表可将内容和样式分离，简化结构，并可添加个性化的可视化风格，结合a sp又可职能化地从文档中抽取适当的信息显示。 xll 是xml 的链接语言，它与htm l 的链接相似，但功能更强大。 x ll支持可扩展的链接和多方向的链接。它打破了htm l 只支持超级文本概念下最简单的链接限制，能支持独立于地址的域名、环路、多个源的集合链接等。 x l l 链接可完全按用户要求来指定和管理闭. 2.3 x 初l的应用 xml有利于信息的表达和结构化，从而使数据的搜索更有效。xml使用一个简单而灵活的标准格式，为w eb的应用提供了一个描述和交换数据的有效手段，提供了一个直接处理全球数据的通用方法。随着梅b 应用的日渐广泛和复杂，功能强大的x m l 得到了越来越多的应用。 ( 1)异构数据库间的数据交换允许异构系统之间交换数据的一种办法是为所有的输入输出系统分别制定统一的交换格式。这实际上就是5 服l 最初的设计目标，粗l 继承了这个理念。其中最关键的就是xml 能够针对特定的应用定义自己的标签，也可以说这是xml 最重要的功能。xml 的目标是提供一个与系统、厂商无关的统一解决方案。电于商务属于此类应用，尤其是以电于数据交换( e d i)为基础的电子商务。 e d i ( e l e c t r o n i cd a t al n t e r c h a n g e ) 是用电子技术代替基于纸张的操作手段，用于华北电力大学硕士学位论文公司之间的单据交换。x ml 的丰富的格式语言可用来描述不同类型的单据，例如信用卡、贷款申请表、保险单以及各种发票等。同时结构化的x m l 文档中的数据可以被加密，并且很容易附加上数字签名。x m l 的安全保密措施可在e di 的应用中充分显示它的魅力，xml 有希望推动包括e di 的电子商务领域的大规模发展。 ( 2)结合j a v a 的分布式处理粗l 与java的结合将是未来和b 技术发展的趋势。由于洲l 具有能够自定义标签和允许异构数据库通信的特性，它与 j a va 的跨平台性结合将广泛应用于多种数据传输系统。 (3 ) 用户浏览方式选择由于x m l 数据内容与显示相分离的特性使得用户可以选择不同的浏览方式显示数据。数据本身并不需要再次从贾 eb服务器上下载。翔l允许创建和定义新的标记和结构数据的能力扩展了数据在客户端的显示控制方式。 ( 4 ) w e b 智能代理随着智能w eb代理在结构化数据中应用的增加，未来x ml将出现一些新的应用领域。电视传媒机构就是最典型的例子。如果某个具有5 00个有线电视频道的大型电视公司可以提供个性化的电视收视指南，那么该个性化的电视收视指南不仅要根据用户的爱好和其它的特性( 文化程度、兴趣、职业、年龄等) 以一种标准的方式提供给终端用户，而还应该允许用户使用w eb 智能代理自动选择自己感兴趣的节目。这类应用通过htm l是无法完成的，因为在 x m l中，可以方便地标识出节目的各类属性，如节目类别、主要演员、制作日期及语言等。总之，姗儿语言是一种砰 eb 开发的新技术，x m l的广泛使用和发展，必将推动下 e b 的不断前讲，开创贾 eb应用的新时代。 2 .4 j a v a与x h il的结合 j ava 具有简单、面向对象、不依赖于机器的结构、具有可移植性、健壮性、安全性、并且提供了开发的机制、具有很高的性能等特点。最大限度地利用了网络， java的小应用程序a p p l e t 可在网络上传输而不受c pu和环境的限制.j ava 提供的丰富的类库，使程序设计者可以很方便地建立自己的系统。因此， j ava 语言成为了结合郑l 的最佳选择。翔l提供了可以交换的信息模式，它可以让数据在不同的来源中，可以依据共通的原则来处理川。而j ava 则提供了一个跨平台的方案，再加上ja怡出于互联网络，可支持分布式处理环境.所以j ava+洲l = p ort able，因为xml 是一种数据的表华北电力大学硕士学位论文示法，而j ava 是一种程序设计方法，二者缺一不可【划。下图2 一 1 是j ava 多层应用程序结构。应用层客户端、即p l ets、应用程序以及任何的图形用户界面表示层 j ava s p a g e 、s e rvel ets和所有的用户界面元素核心层 e n t 帅对 sej a v a b ean 和所有的核心元素资源层数据库、外部的操作系统或是任意的数据类型链路层 j ava ma n a g e r s e rv l c e 、据连接图工i j ava 多层次应用程序结构 ( 1)应用层应用程序的开发人员运行x m l 的技术来将界面的参数替换成xml 的形式，这样一来，用户可以依照自己的需求来编写自己的界面，或者开发人员可以轻易的提供多样化的用户界面供用户选择【阁 . (2 ) 表示层 j a v a 在这层提供ts e r v l e t 和j a v a s e r v e rp a g e 。s e r v l e t 是处理网络应用程序的一个服务器端体系结构，它提供了一个完整的网络交互环境。当一个事件产生时，就会在服务器端产生一个相应的s e rvl e t 来处理，由于 j ava里没有指针的问题，就不会有超出范围的内存访问，整个系统的稳定度也因此大大提高了。 j ava s e r v erp a ges(jsp)技术则是为了要提供一个以表现为主的方法，让开发人员能以呈现的结果为依据，来设计页面， j s p 提供了快速开发的功能。总括来说， l 1 华北电力大学硕士学位论文 s e r v l e t提供了较多的功能，大多是属于低级和固定的，j sp 则比较倾向制作较高级，且较常更新的部分。 xml 可以成为servlt或是j sp的输出入语言。因为它不但提供了具有意义的数据，也提供了验证的方式，让表示层的程序能轻易从核心层获得内容，同时依照应用层的需要改变其表达的方式. ( 3 ) 核心层整个的核心层是由 e nterp rise java b ean(ejb)所组成的，对表示层提供了可以使用得数据，并可依据不同的情况来处理这些数据21。对链路层而言，它将数据的处理和存储分离，让维护的工作更加明确。xml 在 ejb上的应用主要是对于数据的沟通和 e jb 的参数设置。e jb 可以将自己包含的数据依照表示层的要求，以xml 的形式返回。 ( 4)链路层 j a v a 在链路层上有各种分布式的处理。包括j d b c ( j a v a d a t a b a s e c o n n e c t i o n ， j a v a 数据库连接) 、翔l 一 r p c ( 翔lb a s e dr e o o t ep r o c e d u r ec a l l ，xml 为基础的远程函数调用) 及 s oap ( 5 主。 p l eo b j e c ta c c e s sp r o t o c o l ，简单对象访问协议) 等。 j d b c 为所有的j ava 程序提供了一个统一的数据库访问方式。xml 可以替j dbc 返回的数据作一个定义，把数据赋予正确的意义。粗l 一 r pc和soa p 都是将原本是以二进制形式传递的消息，用xml 来表达，整个分布式的环境更加开放。 ( 5)资源层在资源层中，xml 文件可以成为数据源之一。华北电力大学硕士学位论文第三章面向x m l文档的信息检索技术 3 . 1信息检索基本原理信息检索“ n f o r m ati o nr etrieval) 是指将信息按照一定的方式组织和存储起来，并根据用户的需要找出有关信息的过程。它包括两个部分: ( 1)存储: 将大量分散无序的信息集中起来，经过加工整理，使之有序化、系统化，成为可以查询使用的信息集合。( 2)检索: 借助于查询语言，将所需要的信息从信息集合中查找出来。这是广义的信息检索，狭义的信息检索则仅指该过程的后半部分，即从信息集合中找出所需信息的过程侧，卜 - - - .一一一一- . 一外部知识 . 一1 入.里、刀口价1刁一”jl硬1 _ _ _ _ 一_ 一 _ 一 _ _ _ _ _ _ _ . _ 4 . 匹配与选择图3 一 1 信息检索基本原理示意图如图 3 一 1 ，要实现匹配与选择，首先要对信息集合进行特征化表示，即通过人工或计算机的方法对信息集合进行加工处理，将原来隐含的、不易识别的特征显性化。这种加工处理工作被称为内容分析与标引，其中，用来表示文档特征的词条被称为标引词。另一方面，在检索时，也要对用户所提出的信息需求进行分析，提取概念或属性，并利用与标引过程相同的标识系统( 检索语言) 来表达需求中所包含的概念和属性。然后再通过匹配和选择机制，对需求集合与信息集合进行相似性比较，最后根据一定的标准选出符合需要的信息。 3 .z x m l文档解析技术翔l 文档本身只不过是一个文本文件。它需要一个能识别x m l 文档信息的语法解析器( p ars er) 来解释 x m l 文档，并提取其中的内容。郑l 文档解析器实际上是一些代码，用来读取文档并分析文档的结构。解析x ml文档是处理xml 文档的第一步。一般来说，，要对xml 文档中的数据进行处理、创建姗l 文档、对文档进行添加、删除、修改等操作都要通过xml 的解析器。解析器取得xml 文档并检查文档是结构良华北电力大学硕士学位论文好的或是有效的。在多数情况下，会生成一个解析树，该树含有xml 文档中的所有对象。翔l 解析器根据是否验证合法性，可以分为验证型和非验证型解析器; 而根据解析的不同方式，又可以分为dom 解析器和sax 解析器等。由于任何xml 应用程序都是构建在粗l文档解析的基础之上的，因此有必要掌握两种最重要的解析方式: d om 和 s a x. 3 .2 . i s a x的介绍 s a x (s i m p l ea pl f o r州l ，xml 简单a pi) ，是一种可以对翔l 文档进行操作的方法。是一种基于事件( event)的模型，可用于避免构造文档完整的树状结构。s ax 事件由解析器在进入或离开文档、元素、属性、子树时产生。该模型可在不关注文档完整结构的情况下测定其特征或相关数据。它是一个低代价的、事件驱动的 api 标准。 c ont enthandler是s ax中的一个重要的接口。它列出了解析翔l 文档时川l r ead er 发出的事件。具体的content h a n d l er的实现算法如下: 输入: 川l 文档输出:添加属性后的文档对象 pub 1 i cf i n a 1c 1 a s ss a x o f xml d u c u in e n ti 帅l e men t sc o n t e n t h and l e r ，e rro r 池n d l e r ( 1 ) 由 v o i ds t art e l e men t ，v o i de n d e l e men t 函数遍历x m l 文档 if( 到达x m l 的最里层元素) ar rar y 一 f l e l dn姗 e l e 配n t no 二 l o c a l n 叨e ; 刀获取标签名 arr ary 一 a t t s e l 吵 n t n o j j = ( a t t s . ，t val ue( j ) ) .t o s t r i n g () ;于刀获取各标签的属性信息 arr ary ji e l d v a l u e e l e 口 e n t no 二 f i e l d val u e . t o s t r i n g ( ) ; 刀获取标签内容 e l s e a d dfi e l d s t o d o c ( c u r r e n t d o c ) ; ( 2 ) a d d f i e l d s t odo c ( doc 叨e n t c u rre n t d o c u !nen t ) 函数给文档添加普通属性和索引标记其中: eloent no表示在该规l 中文档的id号 3 . 2 2 d 0 m的介绍 d om( d o c u m e n to b j e c tm o d e l ，文档对象模型) ，是w 3 c 提出的一种供 htm l 和翔l 文档使用的应用程序编程接口，与平台和语言无关，定义了允许程序对x m l 文档的格式、结构和内容进行访问和更新。用一种树状结构来存储xml 文档，是w 3c 华北电力大学硕士学位论文推荐的一种 a pi 标准。它把整个树状结构以d ocument 对象为根，其余所属元素及属性构成根的子树。d 服是通过提供一系列接口( 属性和方法) 来表达文档对象的，利用dom 中的对象，开发人员可以对枷l 文档进行读取、搜索、修改和删除等操作。 0 眼为文档导航以及对 x m l 文档内容和结果的操纵提供了标准的函数。例翔l 文件内容如下: ! 一d e 助n s t r a t i o n-一 d 服会将文档表示成如下图3 一 2 形式。注释属性 na me文本 5 而比属性人 d d r e s s文本1 42e v er gr 彻元素 cus t o州er 属性文本 b eer 元素 le 冈e i te m 属性 u盯t s 文本 5 00 元素属性甘阳t s 文本 1 图3 一 z d o m 在内存中的结构图当使用d 服树对x m l 文档文件进行操作的时候，它首先要解析文件，将文件分解为独立的元素、属性和注释等，然后，以节点树的形式在内存中创建xml 文件的表示。每一个节点代表一个可以和它互交的对象。此后，开发人员可以通过节点树访问文档的内容，并根据需要修改文档。 ddm将文档中的每一个项目都看作节点的元素、属性、注释、处理指令、以及 l 5 华北电力大学硕士学位论文构成属性的文本.因此， d om树的结点n ode 有12种类型，分别是: d ocu m ent ( 文档结点) 、a t t r i b u t e ( 属性结点) 、e l e ， e n t ( 元素结点) 、e n t i t y ( 实体结点) 、 e n t i t y r e f e r e n c e ( 实体引用结点)、n o t a t i o n ( 标记结点)、p r o c e s s i n g i n s t r u c t i o n ( 处理指令结点) 、c 呵 e n t ( 注释结点) 、c datas e c t i o n ( c data 结点) 和 t e xt( 文本结点) 。d oma pi提供了多种方法来访问和修改这12种结点，开发人员正是通过这些方法实现了x ml文档的操纵。 3 . 2 . 3 s a x和 d o m的比较 d o m 和s ax是两种x ml 的解析模型，它们各有各的特点，适用于不同的情况。 d o m 是基于树状结构的w 3c推荐的a pi标准，它一般适用于: 需要结构化编辑( 添加、删除、移动等) x m l文档:需要对 xml文档的结构清楚的了解;其他应用共享翔l 文档的时候。在这些情况下，使用d 服可以完成上述的操作。但由于 d om在解析粗l 文档时，要把整个xml 文档以树状在内存中存储，然后对节点进行操作，因此，采用d o m比较慢，而且要求占用内存比较大。 sax 是基于事件的有广泛支持的a pi标准，它一般适用于以下几种情况: 只需要从翔l 文档中抽取部分元素，与文档结构无关的任务:文档比较大，而且没有足够的内存来进行处理的情况;不和其它应用共享x m l 文档的情况下。在这些情况

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）基于xml文档的语义检索.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）基于xml文档的语义检索.pdf

文档简介

温馨提示

最新文档

评论

相关文档