




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文摘要 摘要 本文在总结了xml 相关理论及技术的基础上, 提出了一个基于翔l 文档的语义 检索系统,这一系统的主要工作有: . 利用d 服解析器对 x m l 文档进行解析,同时利用深度优先遍历算法对d om树 按节点访问,获得需要的数据,根据节点的分类将数据处理后,将节点信息存入数 据库的倒排表。使用s q l 语言对数据库中的索引表进行查询。 . 改进了一个 xml文档节点标号法,这一算法能快速找到每一个节点的祖先节 点。 . 设计了一种新的基于 xml文档的语义查询算法,包括判断两个节点的相关性 算法以 及对于多个节点的相关性判断算法,语义相关性判断是一种语义的体现,使 检索结果更准确,符合用户需要。 关键词:x m l , 文档树, 节点, 语义 abs t ract t hi s p ape r s u m n 1 a n z et h e o ri e s andte c hni q u e s 0 f x ml , andt h e np utfo rwar da s e m a n t i c s e arch i ngsys te mb as e o n x ml d o c ume ni s .the m ai n w o rko f t hesystemi s : .p ar s e x mldoc u m e n t s w i t hd o m, 朋dv i sit th ed o m t r 吧 e inthe form o f nod e s w l t h th e a ri t h m et icofdep thse arch, get d a t a s w hi ch we need声 b e ndsai袱tht b e d a t as witht h e c l ass e s o f nod e s , a n d s t o rge t h e i n fo rmatio n o f n o d e s i n t 0 t h e ta b 1 e o f dat a b ase , and s e 魄h i n t h e i n d e x ta b l e s i ns q l. . p ut扔 妇 胃 盯 d a b l u e p d ntw h i c h c anm ark e v e 叮n o d e s 玩d o c tnne nttr e c i3 1, m 欧. use o f th i s b l u e p ri nt, we c anfi n d o utanc e s t o r n o d e s for e v e rynod e s qul c k 】 y . .p utforwa r da 加ws e archi n g me t b o dbas e d o nx mld o c 叨e n 招 ,itc o n ta i nst h e 鱿 吐 h m et ico f c o m p aring t h ei n t e r c o nne ction o f e verytw0nodes a n da newm e t h o dof c o m p 幼n gth ei nt e rc onn e cti0 noft h r e eorm o renod e s . c o m p a n n gi n te r c o n n e otio nof n o d e s i s am e th o dtore p res e nts e m 助t i c , i t m ake s c o m p ut e r u n d er s t andu s er s , r e que st b e t t e r , 5 0 , s e a r c h 邝s u l t c an b e 伽 ree x act . ti anye( e 】 “ t r o c an d ln fo n n at i o n e n g i n e e ring) d i rected byp rof. yuanj i n s h a ke ywor d s : x ml , d o c u 恤e n t t ree ,uo d e 声 e 口a n t i c 士 j 二 .n口 尸明 本 人郑重声明 : 此处 所提交的 硕士 学 位论文 基于x m l 文档的 语义检索 , 是本人 在华北电 力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的 研究成果。 据本人所知, 除了文中 特别加以标注和致谢之处外, 论文中不包含其他人已 经发表或撰 写过的研究成果, 也不包含为获得华北电 力 大学或其他教育机构的学位或证书而使用过 的 材料。 与我一同工作的同志对本研究所做的 任何贡献均已 在论文中 作了明 确的说明并 表示了谢意。 学 位 论 文 作 者 签 名 : (习叶日 期 : 2 0 冰2 夕 关于学位论文使用授权的说明 本人完全了 解华北电力大学有关保留、 使用学位论文的规定, 即: 学校有权保管、 并向有关部门 送交学位论文的原件与复印件: 学校可以 采用影印、 缩印或其它复制手 段复制并保存学位论文; 学校可允许学位论文被查阅或借阅; 学校可以学术交流为 目 的, 复制赠送和交换学位论文: 同 意学校可以 用不同 方式在不同 媒体上发表、 传播学 位论文的全部或部分内容。 港密的学位论文在解密后遵守 此规定) 作 者 签 名 :闺。 子 日期: 7 口 日 1 分 导 师 签 名 : 为牵 季 日 期 : .迎取吵 华北电力大学硕士学位论文 第一章 引言 1 . 1 课题的提出 由于网络和 it 技术应用的不断发展, 人们发现在朴b应用和传统桌面应用之 间存在着连接的鸿沟,统一 it 平台成为了市场的呼声。如何去解决平台差异、语 言差异、数据差异和协议差异,实现大范围的跨企业实体的商务应用系统对接,这 是摆在开发人员面前的一大问题。作为在目 前应用环境中最为合理的解决方案之一 的xml ( e x t e n s i b l em a r k u pl a n g u a g e ) 技术 顺应t 市场的 这一需求。 翔l技术具有 跨平台的特性, 不同数据库或者系统平台之间的数据共享可以依靠x m l 技术来解决。 x m l技术不仅仅是互联网和数据库之间的中间媒介,它可以做更多事情。xml的最 大优点是它强大的数据表达能力,不仅可以表达关系模型和对象模型的数据,而且 还可以表达不规则的、易变的数据。 使计算机更好的理解用户的查询需求,有效地提高查全率和查准率, 是当前搜 索引擎发展的热点,合理的基于x m l 文档的语义搜索引擎的设计便是很好的一种解 决方案,本文正是在目 前己有的基于xml 文档的语义检索的技术基础上,对它进行 改进,提出新的x m l 文档的语义检索系统。 如何利用双l 相关技术,以及新的语义查询算法的提出是本文要研究的主要问 题。 1 , 2国内外研究动向 1994年y ahoo推出的网络信息资源主题分类类目 体系拉开了网络信息资源检索 的序幕, 使得搜索引擎的研究和开发成为网络信息检索研究的重要课题, 近 10 年里 搜索引擎的研究和发展一直是网络信息检索研究的热点。 当前普遍应用的信息管理技术主要为数据库(d b)技术和信息检索仃 r)技术。 因 此,以纵l 文档为对象的信息检索的研究及技术方法也主要来自于这两个领域。 ( 1)面向数据库的方法。将 x ml 文档分解后保存在关系数据库或面向对象数据 库中,通过标准的数据库查询语言来实现x ml文档的检索。查询的输出可以通过使 用 xsl 样式表转换为 枷l文档。这种方法的优点是: 数据关系、约束以及完整性可 以被建模和检查,可以使用标准的数据库引擎,以及类似于s ql 的查询语言,并且 能充分利用数据库的成熟技术,如并发性、同步等等。缺点是: 将 xml数据导入数 据库比较困难,而且难于处理模式的变化。 (2 ) 面向ir的方法。 将每个粗l 文档看作是一个具有附加标记的文本文档, 可 华北电力大学硕士学位论文 以 直接使用传统的ir技术来处理和检索翔l 文档。标签的处理可以 根据具体应用, 优点是可以实现基于关键词的全文检索,并进行相关性排序,但缺乏数据库管理的 基本特性。 翔l 文档既有文本内容,又包含结构化信息,因此,比较理想的方式是上述两 种方法的结合,以充分利用数据库技术和信息检索技术的各自 优势。关于db 与ir 的结合也一直是数据库领域和文档领域的 研究重点, 并取得了一些成果, ora de 和 mircosoft 均推出了支持全文检索的数据库管理系统。 但由 于底层数据模型的差异, 要想在标准s ql 中实现对全文检索的无缝支持,还有相当多的工作要做。 料w的迅速发展和广泛应用为搜索引擎的发展提供了广阔的空间,搜索引擎迅 速发展为 i nternet的一个新兴产业,对于xml的查询已成为当今学术界研究的一 个热点问题。 当处理 q : / c h a p t e r / * / f i g u r e c a p t i o n 二“ t r e ef r o g s ”1 这样的查询语句,传 统的、最直接的方法就是采用自 顶向下或自 底向 上的方式遍历整个x m l 文档树,例 如采用自 顶向下的方式处理查询语句,从chapt er结点开始向下遍历所有的孩子节 点 , 然 后 检查 这些结 点 是否 具 有属性c a p t i o n =“ t r e e f r o g s ” 的f i g u r e 孩子 节点. 这就意味着要检查从chapt er到叶子结点的所有的可能路径, 因为并不知道f i gure 元素在哪一条路径上。当chapt er是根结点时就要遍历整个文档树,这就造成查询 效率低下。 为了解决这个问题,利用索引技术来优化x m l 的查询,这几年得到了一定的发 展, 一些索引 技术相继被提出 , 例如: d a t a g u i d e s , 1 一 i n d e x e s , 2 一 i n d e x e s , 和 t 一 i n d e x e s ,r e v e r s e dd a t a g u i d e s ,l o r e 索引,i n d e xf a b r i c,t o x i n ,x i s s 。 同时对于xml 的查询研究中出现了多种查询语言,其中比较著名的有lore网, 粗l 一 ql训, 众l 一 glt0等, 这些语言各有优点切: xml 一 ql和xml 文档的集成性比 较好, l o r e l的功能比较强,而 xml 一 g l在图形化界面方面做得比较好, q uilt 综合先前各 种语言的优点川 , 它的路径表达式参考了x path, 变量绑定借鉴了xml 一 ql, fl粉表 达式类似于 sql ,而且它还支持用户自 定义函数。伽ilt不仅可以查询 翔l数据, 也可以方便地查询关系数据,因此它的表达能力是很强的。正因为如此,邢c在它 的基础上提出了x q u e r y 语言. 针对英文信息的搜索引擎发展很快,技术也较为成熟。我国在信息获取领域起 步较晚,加上中文信息相对英文信息处理较难,从国内搜索引擎的应用效果和对搜 索引擎技术的掌握上与发达国家比较,存在较大的差距。特别是在智能搜索引擎的 开发、建设和应用水平方面差距更大。 这种差距表现在两个方面: 第一是搜索引擎的性能和搜索结果的质量与国外的 搜索引擎相比存在很大的差距。第二是对搜索引擎与信息获取技术的掌握和应用上 华北电力大学硕士学位论文 有待于加强和提高。 因此实现中文搜索引擎的智能化和自 然语言检索, 开发功能强大的中文搜索引 擎仍需深入研究。 1 .3本文所做的主要工作 本文的研究内容主要集中在以下几个方面: ( 1)对x m l 的结构特点深入分析,xml 文档的解析方法,xml 文档的索引算法, 查询算法, 分词算法,文档节点标号法,与数据库连接等几个方面。 (2 ) 在分析 xml相关技术基础上,对一个文档节点标号法改进,得到新的节点 标号法,同时提出一个新的能体现节点语义的文档查询算法。 具体本文的结构如下: 第一章是引言部分,针对翔l 的特点及发展动向,调研了基于翔l 文档的语义 信息检索技术需求,分析了国内外在这一领域的研究现状,说明了本文的主要研究 内容; 第二章分析xml 语言的特点以 及htm l 的不足,对xml 规范作了说明,描述了 规范的xml 文档,分析了j aya 与xml 的结合技术; 第三章对x m l 解析技术进行分析, 重点分析了dom 解析方法; 描述了已有的xml 文档索引算法及查询技术和分词技术; 第四章在深入分析了xml 相关内容及节点的相关性定义基础上,充分利用x m l 文档层次的体系结构,采用dom 解析器将文档解析成文档树的形式,根据关键词建 立倒排索引表,检索用户需要的信息,提出了一种改进的对文档树的节点进行编号 的方法,同时对查询到的节点进行语义相关性判断,得到一个新的语义查询算法, 是查询结果准确度得到提高,由此形成了一个基于川l 文档的语义检索的体系。通 过实验验证了本文语义查询算法的正确。本文的重点是文档树节点标号法和语义查 询算法的提出。 第五章对本文所做的主要工作进行描述和总结, 说明了本系统不完善需要改进 的地方。 华北电 力大学硕士学位论文 第二章 x m l 分析及与ja va的结合 2 , i x ml 简介 物rld币de 贬b是最近几年 i nternet 上最具生命力的一种应用,由于它操作 简单而又功能强大,不仅能够传输文本数据,而且可以进行声音、图像、多媒体等 数据的传输,因此它受到越来越多的用户的喜爱。随着取b 文件变得越来越大越来 越复杂, w eb 内容的提供商已经开始感受到普通的盯m l ( 超文本标记语言) 己 经无法 提供用于大规模的商业出版所需要的扩展性、 结构和数据检查功能, 而且当前h t ml 在传输文件数据方面的不足也非常明显。 为了满足商业w eb出版的需要和解决web 技术在新的分布式文件处理领域的应 用需求, w 3 c 汉o r l d贾 i d ew e bc o n s o r t i u m ,万维网联盟) 开发了一种可扩展的标记 语言,这就是xml ( e x t e n s i b l e m a r k u p l a n g u a g e ) ,以 用于那些目 前肛m l 无法满足 要求的应用( 粗l 技术是 i nternet 新技术之一,以其结构化、可扩展性、灵活性的 特点。 引起了业界的普遍关注) 。 甜l 的最大用途之一是作为网上数据存储系统的交 流中介。 目 前 i n t e r ne七中有许多在不同 操作系统平台上且以不同方式存储的数据,这 些数据在很多情况下需要交流,xml提供了通用的数据表示格式,进而提供了一条 不同介质上数据进行交流的捷径. 2 . 1 . i h t ml的不足 对于近十年 1 吐e r 淤t的迅猛发展,ht协 l功不可没,用它设计出来的网页为 i n t e r n e t 增色不少,也吸引着越来越多的人到网上冲浪,最终使i n t e r n e t由专业 人员和网络爱好者的天下,发展成为全世界共享的信息平台。但是,随着网络应用 的不断深入发展, html 已经暴露出越来越多的弊端, 不能再胜任网络未来发展的需 要了。具体来说,html 在日新月异的网络应用中表现出以下三个方面的缺点。 ( 1)扩展困难 html 只采用了一部分 sgml 思想,即文档表示应该标准化,所以它只适用了一 个固定的元素类型集。这就使得hth l 仅仅是符合邪从 l 语法的一种固定格式的超文 本标记语言。浏览器开发商发现,通过对 ht毗 非兼容性的扩展,用户不能在其中 增加有意义的并且能提供他们使用的标记;通过对 h t m l非兼容性的扩充可以获取 更大的市场份额,于是大量非标准的 htm l扩展出现了,在这方面,两大浏览器生 产商n et。 c a p e 和 m i c r oso ft 就是典型的代表。 他们发明了许多只能被自己的浏览 器所识别的标记,但非标准的扩展破坏了砰 eb 的交互操作性。 华北电 力大学硕士学位论文 (2) 语义性差 htm l只是一种表达的技术,它并不能对由各种标记所定义的数据含义进行说 明,很难找到一种方法来从文档中搜索需要的数据,更不用说对 htm l文档中包含 的数据进行更深入的处理。在数据交换越来越频繁、越来越重要的今天,缺乏语义 性可能是h t m l 最为致命的弱点。 ( 3)缺乏对双字节或多国文字的支持 htm l 缺乏对双字节或多国文字的支持. 例如在设计htm l 网页时, 经常发现中文 信息在不同平台下出现格式不齐的问题。同时,在 h t ml 中,除了使用其固有的或 各个浏览器开发商通过非标准扩展得到的标记之外,不能再用别的标记,更不用说 非英语国家的用户使用本国语言定义的标记,比如中文标记。 班m l 的这种局限性也 在一定程度上成为了网络发展的障碍。 2 . 1 . z x ml的特点及优势 翔l 是从sgm l 所衍生出来的简化格式,与html一样,其目的是让互联网上的 数据描述有一个简单可行的标准. 只不过它们的服务目 标和手法不尽相同, h 翎l 是 单一的固定格式, 而翔l 却是可以扩充的灵活格式: htm l 是用来描述展示页面的方 法,而x ml 却是用来描述页面的内容。 xml ( e x t e n s h i b l em a r k u pl a n g u a g e ) 是一个体系 ,它主要有三个 要 素:s c h e ula( 模式) 、xsl ( 可扩展样式语言) 和xll(可扩展链接语言) 。 s che ma 定义了 x m l文件的逻辑机构、粗l文件中的元素、元素的属性以及元素与元素属性、元素 与元素之间的关系,它可以帮助分析程序校验 翔l 文件标记的合法性。x sl 是用于 规定xml 文档样式的语言,它能在客户端使份 eb浏览器改变文档的表示法,从而不 需要再与服务器交互通信; x ll将进一步扩展w eb上已有的简单链接。 翔l具有良 好的数据存储格式、可扩展、高度结构化、易于网络传输等特征。 这些特征决定其卓越的性能表现。作为标记语言它还有如下特点: ( 1)开放性 能在不同的用户和程序之间交换数据,不论其平台如何。 ( 2)自描述 它的自描述特性使其对于bzb 和企业内部网解决方案来说是一个有效的选择。 ( 3)可扩充 使用者可以创建和使用自己的标签,也可使用他人已 定义好的标签, 可扩展性 大。使用 dtd ,不同组中的人就能够使用共同的d td 来交换数据,应用程序也可以 使用这个标准dtd 来验证收到的数据是否有效,也可以使用一个dtd 来验证自己的 数据。 ( 4 ) 国际化 5 华北电 力大学硕士学位论文 它支持世界上大多数文字。 凡能阅读xml 语言的软件就能够顺利处理不同语言 字符的任意组合。因此,枷l不仅能在不同计算机系统之间交换信息,而且能跨国 界和超越不同的文化疆界交换信息。 2 . 1 . 3 x ml规范 翔l 规范是w 3c创建的一种设计文档标记语言的标准。根据应用的需要和依据 xml规范可以设计各种各样的标记来描述文档的内容和结构。xml规范由一系列标 准和协议组成,郑ll. 0 规范是x m l 的最核心的规范, 是x ml语言的语法。此外, 还 有 d 服、x s l 、x l i n k 、x p a t h 、x p o i n t e r 、x m ls c h e 咖、x q u e r y等数十种相关的规 范和草案。 这套规范以x m l io为核心,目的就是为文档数据( 特别是 w eb 数据) 提供表示 的方法。 翔l系列规范自身也处于不断的发展和完善中,因此其中许多规范或草案 目 前还没有应用支持而仅停留在书面阶段,但也有部分规范已开始付诸实现,如 川ll. 0 和d 伽。总体上来看,这些规范可以 分为数据描述和数据操纵两类。其中数 据描述规范主要是xmli. 0;而数据操纵规范包含如x sl,x l ink , xpath 和x poi nte r 等。图2 一 1 给出了xml 的主要规范组成示意图。 dt d 阮h e ma 文档格式标准 文档解析标准 孰氰一豁嘿 图 2 一 lxml的主要规范组成示意图 2. 2 x ml文档 粗l 文档一般由四个部分组成: x m l 声明, 处理指令, 翔l 元素和注释。 其中翔l 声明和x 砒元素是必须的,而处理指令和注释则是可选内容。翔l 声明用于声明该 6 华北电力大学硕士学位论文 文档是一个粗l 文档; 处理指令则是包含在x m l 文档中的一些命令性语句,目 的是 告诉川l 处理一些信息或执行一定的动作; 川l 元素是灿 几文件内容的基本单元, 一 个元素包含一个起始标记、一个结束标记以及标记之间的数据内 容, 元素里还可以 再嵌套元素,实现循环嵌套,最外层的元素称为根元素,一个xml 文档只能有一个 根元素: 注释是x m l 文件中一些用作解释的字符数据, 粗l 处理器不对它们进行任何 处理. xml 可以从存在的数据中产生出来,使用xml 结构化的数据可以从商业规范和 表现形式中分离出来刹。参见图2 一 2 中数据的集成、发送、处理和显示。 桌面显示x ml文档的多种表现形式 x ml发送到其它地方做进一步处理 中间层 x ml通过h t t p 交换数据, 通过d o m 仪档对象模式) 处理数据 x ml数据集成 图2 一 z x 州 几构架图 xml文档由能够自 描述信息元素组成,这些元素使用了层次化的结构,这些特 性提供了基于树结构的新型数据访问能力.它就是指由xml 标记语言所定义的标记 标注的符合x 毗规范的文本文档。从这个意义上,x m l 实际上仅仅是一种标准化了 的可以在w e b 上表示结构化信息的文档格式. x m l 文档由 标记和文本数据组成,其中文本数据就是原始的文本tzs 。从规l 文 档的结构角度来看, 文档是由若干“ 对象” 组成的, 每个对象包含一个或多个成员. 每个成员又都含有 “ 属性”来描述该成员是如何运行的。 这些对象在xml 中被称为 “ 元素( e l elnent)” ,元素的类型在d td 中予以声明。 元素之间的包含结构是一种 “ 树”形结构,而包含所有其他元素的元素称为 “ 根元 素” ,包含在根元素之内的元素称为根元素的 “ 子元素”( 相应地根元素称为此子元 华北电力大学硕士学位论文 素的父元素) .如果该子元素还包含子元素,则称其为 “ 树枝” ,不包含其他子元素 的元素称为 “ 树叶” .其中,元素、子元素以 及属性是一些标记,而树叶则是原始 的文本。 xml i . 0 规范对翔l 文档进行了两方面的规定。一方面是满足格式良 好的要求。 另一方面是文档有效性的要求。 格式良 好是指x m l 文档必须包含一个或多个元素,且必须存在唯一的根元素, 每个元素有起始标记和结束标记界定, 元素逐层嵌套, 不能交叉。 格式良 好是xmli. 0 对xml 文档语法上的限制,必须满足。 文档有效性是指如果一个x m l 文档类型和结构与其文档类型定义(d td或 s c h e ln a)相符合,那么该文档就是有效的。 下例 1 是一个 xml 文档。 石油大学图书馆 山东东营 济南新华书店 济南历下区 2 5 0 0 0 7 毛主席在延安 王延 a u t h o r ) 张因,生于1 9 5 4 年7 月,祖籍甘肃天水,笔名 一针见血 他的爱好有 爬山 划船 3 5 元 华北电力大学硕士学位论文 例 1以x m l 格式描述的一张发票 为了使其成为有效的xml 文档, 文中每一个添加的标记必须记入一个独立的d td ( 文档类型定义) 文件中。一个文档可以在它的文档类型声明中宣布它符合某个特定 的d t d ,这就如定义了一类文档的数据操作和存储的结构国。d td 文件使 xml 页面 包含更多的内容,表现更复杂的形式。当客户浏览地区文档时,相关的dtd 文件是 随着文档一起下载到客户端,客户浏览器就可以根据需要来处理它们。 另外将u rl地址定义在d td文件中, 当份 eb主页地址发生变化时, 只需改动dtd 文件中的定义即可,而不必在每个 h t m l 文档中改变u rl地址,从而使w eb 的维护 更方便,用户也不会遇到u rl地址找不到的信息。并不是所有的dtd 文件都要下载 到客户端,已经制订成为标准的协议,例如化学标记语言 c m l 、数学标记语言 姗l 等是不需要d td文件的。 除td t n 外,x m l 包含可扩展格式语言x s l ( e x t e n s i b l es t y l el a n g u a g e ) 和可 扩展链接语言x l l ( e x t e n s i b l e l i n k i n g l a n g u a g e ) 。x s l 可以解释数量不限的标记, 它使w eb 的版面更丰富多彩,例如动态的文本、跑马式的文字。此外,x sl 还处理 多国文字、双字节的汉字显示、网格的各种各样的处理等。应用x sl样式表可将内 容和样式分离,简化结构,并可添加个性化的可视化风格,结合a sp又可职能化地 从文档中抽取适当的信息显示。 xll 是xml 的链接语言, 它与htm l 的链接相似, 但 功能更强大。 x ll支持可扩展的链接和多方向的链接。 它打破了htm l 只支持超级文 本概念下最简单的链接限制,能支持独立于地址的域名、环路、多个源的集合链接 等。 x l l 链接可完全按用户要求来指定和管理闭. 2.3 x 初l的应用 xml有利于信息的表达和结构化,从而使数据的搜索更有效。xml使用一个简 单而灵活的标准格式,为w eb的应用提供了一个描述和交换数据的有效手段,提供 了一个直接处理全球数据的通用方法。随着梅b 应用的日渐广泛和复杂,功能强大 的x m l 得到了越来越多的应用。 ( 1)异构数据库间的数据交换 允许异构系统之间交换数据的一种办法是为所有的输入输出系统分别制定统 一的交换格式。 这实际上就是5 服l 最初的设计目 标, 粗l 继承了这个理念。 其中最 关键的就是xml 能够针对特定的应用定义自己的标签,也可以说这是xml 最重要的 功能。xml 的目 标是提供一个与系统、厂商无关的统一解决方案。 电于商务属于此类应用,尤其是以电于数据交换( e d i)为基础的电子商务。 e d i ( e l e c t r o n i cd a t al n t e r c h a n g e ) 是用电 子技术代替基于纸张的操作手段,用于 华北电力大学硕士学位论文 公司之间的单据交换。x ml 的丰富的格式语言可用来描述不同类型的单据, 例如信 用卡、贷款申请表、保险单以及各种发票等。同时结构化的x m l 文档中的数据可以 被加密,并且很容易附加上数字签名。x m l 的安全保密措施可在e di 的应用中充分 显示它的魅力,xml 有希望推动包括e di 的电子商务领域的大规模发展。 ( 2)结合j a v a 的分布式处理 粗l 与java的结合将是未来和b 技术发展的趋势。 由于洲l 具有能够自 定义标 签和允许异构数据库通信的特性, 它与 j a va 的跨平台性结合将广泛应用于多种数 据传输系统。 (3 ) 用户浏览方式选择 由于x m l 数据内容与显示相分离的特性使得用户可以选择不同的浏览方式显示 数据。数据本身并不需要再次从贾 eb服务器上下载。 翔l允许创建和定义新的标记和结构数据的能力扩展了数据在客户端的显示控 制方式。 ( 4 ) w e b 智能代理 随着智能w eb代理在结构化数据中应用的增加,未来x ml将出现一些新的应用 领域。 电视传媒机构就是最典型的例子。 如果某个具有5 00个有线电视频道的大型电 视公司可以提供个性化的电视收视指南,那么该个性化的电视收视指南不仅要根据 用户的爱好和其它的特性( 文化程度、兴趣、职业、年龄等) 以一种标准的方式提供 给终端用户,而还应该允许用户使用w eb 智能代理自动选择自己感兴趣的节目。这 类应用通过htm l是无法完成的,因为在 x m l中,可以 方便地标识出节目 的各类属 性,如节目 类别、主要演员、制作日期及语言等。 总之,姗 儿语言是一种 砰 eb 开发的新技术,x m l的广泛使用和发展,必将推动 下 e b 的不断前讲,开创贾 eb应用的新时代。 2 .4 j a v a与x h il的结合 j ava 具有简单、面向对象、不依赖于机器的结构、具有可移植性、健壮性、安 全性、并且提供了开发的机制、具有很高的性能等特点。最大限度地利用了网络, java的小应用程序a p p l e t 可在网络上传输而不受c pu和环境的限制.j ava 提供的 丰富的类库, 使程序设计者可以很方便地建立自己的系统。因此, j ava 语言成为了 结合郑l 的最佳选择。 翔l提供了可以交换的信息模式,它可以让数据在不同的来源中,可以依据共 通的原则来处理 川 。 而j ava 则提供了一个跨平台的方案,再加上ja怡出 于互联网 络,可支持分布式处理环境.所以j ava+洲l = p ort able,因为xml 是一种数据的表 华北电 力大学硕士学位论文 示 法, 而j ava 是一种程序设计方 法, 二者缺一不可【划 。 下图2 一 1 是j ava 多 层应用 程序结构。 应用层 客户端、 即p l ets、应用程序以 及任何的图形用户界面 表示层 j ava s p a g e 、s e rvel ets和所有的 用户界面元素 核心层 e n t 帅对 sej a v a b ean 和所有的核心元素 资源层 数据库、 外部的 操作系统或是任意的 数据类型 链路层 j ava ma n a g e r s e rv l c e 、 据连接 图工i j ava 多层次应用程序结构 ( 1)应用层 应用程序的开发人员运行x m l 的技术来将界面的参数替换成xml 的形式, 这样 一来,用户可以依照自己的需求来编写自己的界面,或者开发人员可以轻易的提供 多样化的用户界面供用户选择【 阁 . (2 ) 表示层 j a v a 在这层提供ts e r v l e t 和j a v a s e r v e rp a g e 。s e r v l e t 是处理网络应用程 序的一个服务器端体系结构,它提供了一个完整的网络交互环境。当一个事件产生 时,就会在服务器端产生一个相应的s e rvl e t 来处理,由于 j ava里没有指针的问 题,就不会有超出范围的内存访问,整个系统的稳定度也因此大大提高了。 j ava s e r v erp a ges(jsp)技术则是为了 要 提供一个以 表现为 主的 方法, 让开发 人员能以呈现的结果为依据, 来设计页面, j s p 提供了快速开发的功能。 总括来说, l 1 华北电力大学硕士学位论文 s e r v l e t提供了较多的功能, 大多是属于低级和固定的,j sp 则比 较倾向 制作较高 级,且较常更新的部分。 xml 可以 成为servlt或是j sp的输出入语言。 因为它不但提供了具有意义的数 据,也提供了验证的方式,让表示层的程序能轻易从核心层获得内容,同时依照应 用层的需要改变其表达的方式. ( 3 ) 核心层 整个的核心层是由 e nterp rise java b ean(ejb)所组成的,对表示层提供了可 以使用得数据,并可依据不同的情况来处理这些数据21。 对链路层而言,它将数据的处理和存储分离,让维护的工作更加明确。xml 在 ejb上的应用主要是对于数据的沟通和 e jb 的参数设置。e jb 可以将自己包含的数 据依照表示层的要求,以xml 的形式返回。 ( 4)链路层 j a v a 在链路层上有各种分布式的处理。 包括j d b c ( j a v a d a t a b a s e c o n n e c t i o n , j a v a 数据库连接) 、翔l 一 r p c ( 翔lb a s e dr e o o t ep r o c e d u r ec a l l ,xml 为基础的远 程函数调用) 及 s oap ( 5 主 。 p l eo b j e c ta c c e s sp r o t o c o l , 简单对象访问协议) 等。 j d b c 为所有的j ava 程序提供了一个统一的数据库访问方式。xml 可以替j dbc 返回的数据作一个定义, 把数据赋予正确的意义。 粗l 一 r pc和soa p 都是将原本是以 二进制形式传递的消息, 用xml 来表达,整个分布式的环境更加开放。 ( 5)资源层 在资源层中,xml 文件可以成为数据源之一。 华北电 力大学硕士学位论文 第三章 面向x m l文档的信息检索技术 3 . 1信息检索基本原理 信息检索“ n f o r m ati o nr etrieval) 是指将信息按照一定的方式组织和存储起 来,并根据用户的需要找出有关信息的过程。它包括两个部分: ( 1)存储: 将大量分 散无序的信息集中起来,经过加工整理,使之有序化、系统化,成为可以查询使用 的信息集合。( 2)检索: 借助于查询语言,将所需要的信息从信息集合中查找出来。 这是广义的信息检索,狭义的信息检索则仅指该过程的后半部分,即从信息集合中 找出所需信息的过程侧, 卜 - - - .一 一 一 一- . 一 外部知识 . 一1 入.里、刀口价1刁一”jl硬1 _ _ _ _ 一_ 一 _ 一 _ _ _ _ _ _ _ . _ 4 . 匹配与选择 图3 一 1 信息检索基本原理示意图 如图 3 一 1 ,要实现匹配与选择,首先要对信息集合进行特征化表示,即通过人 工或计算机的方法对信息集合进行加工处理,将原来隐含的、不易识别的特征显性 化。这种加工处理工作被称为内容分析与标引,其中,用来表示文档特征的词条被 称为标引词。另一方面,在检索时,也要对用户所提出的信息需求进行分析,提取 概念或属性,并利用与标引过程相同的标识系统( 检索语言) 来表达需求中所包含的 概念和属性。 然后再通过匹配和选择机制, 对需求集合与信息集合进行相似性比较, 最后根据一定的标准选出符合需要的信息。 3 .z x m l文档解析技术 翔l 文档本身只不过是一个文本文件。 它需要一个能识别x m l 文档信息的语法 解析器( p ars er) 来解释 x m l 文档,并提取其中的内容。郑l 文档解析器实际上是一 些代码, 用来读取文档并分析文档的结构。 解析x ml文档是处理xml 文档的第一步。 一般来说, , 要对xml 文档中的数据进行处理、创建姗l 文档、对文档进行添加、删 除、修改等操作都要通过xml 的解析器。解析器取得xml 文档并检查文档是结构良 华北电力大学硕士学位论文 好的或是有效的。在多数情况下,会生成一个解析树,该树含有xml 文档中的所有 对象。 翔l 解析器根据是否验证合法性, 可以分为验证型和非验证型解析器; 而根据 解析的不同方式,又可以分为dom 解析器和sax 解析器等。由于任何xml 应用程序 都是构建在 粗l文档解析的基础之上的,因此有必要掌握两种最重要的解析方 式: d om 和 s a x. 3 .2 . i s a x的介绍 s a x (s i m p l ea pl f o r州l ,xml 简单a pi) ,是一种可以 对翔l 文档进行操作的 方法。是一种基于事件( event)的模型,可用于避免构造文档完整的树状结构。s ax 事件由解析器在进入或离开文档、元素、属性、子树时产生。该模型可在不关注文 档完整结构的情况下测定其特征或相关数据。它是一个低代价的、事件驱动的 api 标准。 c ont enthandler是s ax中的一个重要的 接口 。 它列出了 解析翔l 文档时川l r ead er 发出的事件。具体的content h a n d l er的实现算法如下: 输入: 川l 文档 输出:添加属性后的文档对象 pub 1 i cf i n a 1c 1 a s ss a x o f xml d u c u in e n ti 帅l e men t sc o n t e n t h and l e r ,e rro r 池n d l e r ( 1 ) 由 v o i ds t art e l e men t ,v o i de n d e l e men t 函数遍历x m l 文档 if( 到达x m l 的最里层元素) ar rar y 一 f l e l dn姗 e l e 配n t no 二 l o c a l n 叨e ; 刀获取标签名 arr ary 一 a t t s e l 吵 n t n o j j = ( a t t s . ,t val ue( j ) ) .t o s t r i n g () ;于 刀获取各标签的属性信息 arr ary ji e l d v a l u e e l e 口 e n t no 二 f i e l d val u e . t o s t r i n g ( ) ; 刀获取标签内容 e l s e a d dfi e l d s t o d o c ( c u r r e n t d o c ) ; ( 2 ) a d d f i e l d s t odo c ( doc 叨e n t c u rre n t d o c u !nen t ) 函 数给文档添加 普通属 性和索引 标记 其中: eloent no表示在该规l 中文档的id号 3 . 2 2 d 0 m的介绍 d om( d o c u m e n to b j e c tm o d e l ,文档对象模型) ,是w 3 c 提出的一种供 htm l 和 翔l 文档使用的应用程序编程接口,与平台和语言无关,定义了允许程序对x m l 文 档的格式、结构和内容进行访问和更新。用一种树状结构来存储xml 文档,是w 3c 华北电力大学硕士学位论文 推荐的一种 a pi 标准。它把整个树状结构以d ocument 对象为根,其余所属元素及 属性构成根的子树。d 服 是通过提供一系列接口( 属性和方法) 来表达文档对象的, 利用dom 中的对象, 开发人员可以对枷l 文档进行读取、 搜索、 修改和删除等操作。 0 眼 为文档导航以及对 x m l 文档内容和结果的操纵提供了标准的函数。例翔l 文件 内容如下: ! 一d e 助n s t r a t i o n-一 d 服 会将文档表示成如下图3 一 2 形式。 注释 属性 na me文本 5 而比 属性 人 d d r e s s文本1 42e v er gr 彻 元素 cus t o州er 属性文本 b eer 元素 le 冈e i te m 属性 u盯t s 文本 5 00 元素 属性 甘阳t s 文本 1 图3 一 z d o m 在内存中的结构图 当使用d 服树对x m l 文档文件进行操作的时候, 它首先要解析文件, 将文件分 解为独立的元素、属性和注释等,然后,以节点树的形式在内存中创建xml 文件的 表示。每一个节点代表一个可以和它互交的对象。此后,开发人员可以通过节点树 访问文档的内容,并根据需要修改文档。 ddm将文档中的每一个项目都看作节点的元素、属性、注释、处理指令、以及 l 5 华北电 力大学硕士学位论文 构成属性的文本.因此, d om树的结点n ode 有12种类型, 分别是: d ocu m ent ( 文档 结点) 、a t t r i b u t e ( 属性结点) 、e l e , e n t ( 元素结点) 、e n t i t y ( 实体结点) 、 e n t i t y r e f e r e n c e ( 实 体 引用 结 点)、n o t a t i o n ( 标 记结 点)、p r o c e s s i n g i n s t r u c t i o n ( 处理指令结点) 、c 呵 e n t ( 注释结点) 、c datas e c t i o n ( c data 结点) 和 t e xt( 文本结点) 。d oma pi提供了多种方法来访问和修改这12种结点,开发人员正 是通过这些方法实现了x ml文档的操纵。 3 . 2 . 3 s a x和 d o m的比较 d o m 和s ax是两种x ml 的解析模型,它们各有各的特点,适用于不同的情况。 d o m 是基于树状结构的w 3c推荐的a pi标准, 它一般适用于: 需要结构化编辑( 添 加、删除、移动等) x m l文档:需要对 xml文档的结构清楚的了解;其他应用共享 翔l 文档的时候。在这些情况下,使用d 服 可以完成上述的操作。但由于 d om在解 析粗l 文档时,要把整个xml 文档以树状在内 存中存储,然后对节点进行操作,因 此,采用d o m比较慢,而且要求占 用内存比较大。 sax 是基于事件的有广泛支持的a pi标准, 它一般适用于以下几种情况: 只需要 从翔l 文档中抽取部分元素,与文档结构无关的任务:文档比 较大,而且没有足够 的内存来进行处理的情况;不和其它应用共享x m l 文档的情况下。在这些情况
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国广电银川市2025秋招网申填写模板含开放题范文
- 雅安市中石化2025秋招面试半结构化模拟题及答案油品分析质检岗
- 鸡西市中石化2025秋招面试半结构化模拟题及答案安全环保与HSE岗
- 邢台市中石油2025秋招面试半结构化模拟题及答案安全环保与HSE岗
- 音乐老师招考试题及答案
- 中国移动通辽市2025秋招笔试行测题库及答案通信技术类
- 常州市中储粮2025秋招面试专业追问题库基建工程岗
- 永州市中储粮2025秋招面试典型题目及答案
- 2025年经典理论考试题及答案
- 中国移动郴州市2025秋招笔试行测题库及答案综合管理类
- 2025-2030中国豆奶行业营销动态及消费状况分析报告
- QGDW11703-2017电力视频监控设备技术规范
- 军工涉密项目管理制度
- 16949体系培训计划
- T/CAZG 003-2019亚洲象饲养管理技术规范
- 《智慧仓储管理》课程标准
- 火锅店股东协议合同协议
- 电梯曳引钢丝绳维护保养制度
- 沪教版(五四学制)(2024)六年级下册单词表+默写单
- 茶叶加工工(中级)模拟试题与答案
- 高考语文复习【高效课堂精研】打造议论文分论点+课件
评论
0/150
提交评论