




已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着i n t e r n e t 的迅猛发展,各种基于w e b 的应用系统不断涌现,同时,对信 息资源的共享与交换要求也越来越高。在现有的各种基于w e b 的应用系统中存 在大量的,复杂的不同格式的数据。如何进行w e b 上各系统之间的数据交换成 为一个十分重要的问题。其中的核心是w e b 上的各种数据格式之间的相互转换, 其中一些转换涉及到语义的问题。但是,现有的格式转换技术一般仪能完成语法 的转换,没能很好的解决语义转换的问题。 本文在分析现有的各种数据格式转换技术的基础上,提出了基于语义的数据 格式转换方法。该方法以w o r d 文档为例,对w o r d 文档的转换采用基于模板和 基丁学习的两种策略,自动地将w o r d 文档转换为x m l 。同时,为了进行高效 的查询,又将转换结果转换为关系型数据作为副本。w o r d 文档只有编辑和显示 信息,无语义信息:将之转换为x m l 后,生成具有语义信息的文档数据,从而 完成了基于语义的数据格式转换。该方法支持所见即所得,应用环境没有特殊性, 方便了用户使用。另外,该方法采用了领域知识库与文档库相结合的办法,通过 图形用户接口,用户可以按领域,根据自己感兴趣的信息,对文档库数据进行查 询;也可以对大量w o r d 文档进行精确的基于语义的查询和管理,大大提高工作 效率。 关键词格式转换:w o r d ;x m l ;语义 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,m o r ea n dm o r ew e ba p p l i c a t i o n sh a v e b e e nd e v e l o p e d a tt h es a m et i m e ,t h ed e m a n d so fi n f o r m a t i o ns h a r ea n de x c h a n g e h a v ei n c r e a s es h a r p l y ,a m o n gt h ec u r r e n tw e ba p p l i c a t i o n st h e r ea r el o t so fa n d d i f f e r e n tf o r m a t so fc o m p l e xd a t a ,s oh o wt oe x c h a n g ed a t aa r n o n gd i f f e r e n tw e b a p p l i c a t i o n sh a sb e c o m ea ni m p o r t a n ti s s u e ,t h eg o r eo f w h i c hi sd a t at r a n s f o r m a t i o n , a n ds o m eo ft h e mr e l a t et ot h ep r o b l e mo fs e m a n t i c s b u tt h ec u r r e n tt e c h n i q u ec a n o n l ya c c o m p l i s ht h et r a n s f o r m a t i o nb a s e do ns y n t a x ,n o ts e m a n t i c s ,t h u st h e yd on o t s o l v et h ep r o b l e mo fs e m a n t i c s a f t e ra n a l y z i n gt h ec u r r e n td a t at r a n s f o r m a t i o nt e c h n i q u e ,u s i n gi n f o r m a t i o n e x t r a c t i o nt e c h n i q u e ,t h em e t h o do f d a t at r a n s f o r m a t i o nb a s e do ns e m a n t i c si s p r o v i d e d t a k i n ge x a m p l ef o r t h ew o r dd o c u m e n t ,w ea d o p tt h et w os t r a t e g i e so f t e m p l a t ea n dl e a r n i n gt oa c c o m p l i s ht h ep r o c e s so ft r a n s f o r m a t i o n t h ep r o c e s s e d w o r dd o c m - n e n t sa r ea u t o m a t i c a l l yc o n v e r t e di n t ox m ld o c u m e n t sa n dr e l a t i o n a ld a t a a tt h es a m et i m ef o rt h es a k eo fe f f i c i e n tq u e r y w o r dd o c u m e n th a so n l ye d i ta n d d i s p l a yi n f o r m a i o n ,n os e m a n t i c si n f o r m a t i o n t h ep r o d u c e dx m lh a sa c c u r a t e s e m a n t i c si n f o r m a t i o n ,t h u st r a n s f o r m a t i o nb a s e do ns e m a n t i c si sa c h i e v e d t h e m e t h o ds u p p o r t sw y s i w y g ( w h a ty o us e ei sw h a ty o ug e t ) a n dc a ne a s i l yb eu s e d b yu s e r s f u r t h e r m o r e ,d o m a i nk n o w l e d g ed a t a b a s ea n dd o c u m e n td a t a b a s e a r e i n t r o d u c e di no i l rm e t h o d t h r o u g ht h ef r i e n d l yg u ia n dc l a s s i f i e dd o m a i n ,u s e r sc a n c a r r yo u ta c c u r a t eq u e r i e sb a s e do ns e m a n t i c si nt h ed o c u m e n td a t a b a s e ,q u e r ya n d m a n a g el o t so fd o c u m e n t ss e m a n t i c a l l y , t h u sw o r ke f f i c i e n c ya r ei m p r o v e dl a r g e l y k e y w o r d sd a t at r a n s f o r m a t i o n ,w o r d ,x m l ,s e m a n t i c s i t 第1 章绪论 第1 章绪论 随着i n t e r n e t 的迅猛发展,各种基于w e b 的应用系统不断涌现。同时,对信 息资源的共享与交换要求也越来越高。在现有的各种基于w e b 的应用系统中存 在大量的、复杂的不同格式的数据。为了集成各种w e b 应用系统,便于多种系 统之间进行交互,必须解决各系统之间的数据交换问题。其中,数据格式转换技 术成为数据交换中的核心技术。 1 1 研究背景 随着i n t e r n e t 的迅猛发展,w e b 成了最大的环球信息资源库。但是w e b 上 的数据格式复杂多样,没有统一的数据模型和查询语言且信息容量巨大,因此, 应用软件丌发人员面临的一个棘手的问题是如何在w e b 上进行系统之间的数据 交换t “。随着办公自动化以及i n t e r n e t 和i n t r a n e t 的普及,企业内部电子文档的共 享、企业问电子文档的交换需求急速增长。在现有的各种基于w e b 的应用系统 如电子政务、远程教育等系统中,存在大量的复杂数据格式,如h t m l 3 1 、x m l 4 、 p d f t “、关系数据库以及w o r d 、e x c e l 等。面对多种系统交互,必须首先解决数 据交换问题,其中的核心问题是不同数据格式之间的相互转换,其中一些转换涉 及到语义的问题。例如,在一篇w o r d 格式的电子公文文档中,存在很多有用的 数据,如发文单位,密级,主题词等。但在w o r d 文档中,这些数据只有编辑和 显示信息,无语义信息。为了将它们转换为有语义的数据,必须添加语义信息。 如何有效的组织、管理与正确的转换数据,满足用户不断增长的信息需要, 使用户方便的、准确的获取信息,成为一项重要而迫切的研究课题。 目前,w e b 上的数据主要有如下几种格式: h 1 1 m l :h t m l 文档中的信息是面向显示的。h t m l 通过在文档中添加预 定义的t a g 来组织文档浏览器完成划h t m l 文档的解释。h t m l 的主要功能 是通过浏览器完成对信息的显示格式加以控制。目前w e b 上的数据大多以h t m l 文档形式存在。 x m l :x m l 是面向数据的,它支持用户自定义标记,通过嵌套的、满足 北人学工学碗上学位论文 一定逻辑关系的元素来组织数据。x m l 文档的标记只描述文档的内容,不描述 如何显示、输出等格式化信息。应用程序可以识别x m l 文档中的标记,并根据 标记的语义来处理数据。x m l 是w 3 c 推荐的数据交换的标准。 w o r d :w o r d 是微软开发的o f f i c e 套件之一,它是面向编辑的,目的是为 了可视化的编辑修改文档。w o r d 文件格式不公开,它有自定义的命名空间,有 自定义的样式来描述文宁、图片、表格等显示信息。w o r d 是办公自动化和日常 编辑事实上的标准,随着i n t e m e t 的迅猛发展,w o r d 在各种基于w e b 的系统巾 ( 如电子政务、远程教育等) 应用日益广泛,它常用作电子文书的标准格式。 p d f :p d f 是面向显示的。p d f 是电子书格式,适用于发布出版文档,它 能保持文档的原始样式,描述原始文档的打印特征。p d f 文件格式的目的是为了 支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的 支持。它成为在i n t e r n e t 上进行电子文档发行和数字化信息传播的理想文档格式。 h t m l 以其简单,灵活通用的特性,使发布、检索、交流信息都变得简单, 所以得到了广泛的应用。但h t m l 的主要应用是在浏览器中显示信息,重在描 述信息的外观;而x m l 重在描述信息的内容本身,主要应用是作为数据交换的 中介;w o r d 的目的在于编辑各种样式的文档,它主要是提供给用户一个可视化 的编辑环境,生成自己所需样式的办公自动化文档。w o r d 文档仅能在w o r d 编 辑环境r p 显示,且只描述信息的外观;而p d f 重在描述文档的显示和打印格式, 不可编辑,具有跨平台性,更适用于山版、发行电了文档,但足它的传播速度较 慢,灵活性比h t m l 、x m l 及w o r d 差。x m l 数据需要转换为h t m l 来表现, 转换为p d f 格式来出版:而以h t m l ,w j r d ,p d f 格式发布的数据适合用户浏 览,不适合精确的基于语义的查询,也不适合应用程序的自动处理。为了高效的 管理这些文档数据,实现刑文档数据的精确的基于语义的检索与查询,需要对 h t m l ,w o r d 和p d f 文档中的数据添加语义信息,转化为语义清晰的文档数据, 便于进一步处理。 随着电子商务,电子出版,远程教育等基于w e b 的应用日渐兴起,h t m l 、 w o r d 、x m l 及p d f 等数据格式将广泛应用,使得这些不同格式的数据进行数据 集成和数据格式转换的需求越来越广泛和迫切。x m l 的诞生就是为了数据交换。 它具有自描述的性质,将内容和显示分离,便于应用程序从x m l 中高效的检索 第l 章绪论 和查询数据。另外,x m l 的跨平台性使得它有利于不同系统之涮的数据交换, 有望成为数据和文档交换的标准。因此,可以将不同的数据格式如h t m l 、w o r d 和p d f 等都转换为x m l 格式,并以之为中介进行数据交换。 1 2 研究现状 针对常用的数据格式,目前典型的几种数据格式转换技术如下 1 2 1 从x m l 至0h t m l l ) s u d s o o 是数据源对象( d a t as o u r c eo b j e c t ) 的缩写,它是微软为了在h t m l 页面中绑定使用x m l 数据所采用的技术,i e 5 0 中可以使用 元素来创建一 个数据岛( d a t ai s l a n d ) ,d s o 在w e b 页中以数据岛的形式实现,即采用一个新的 ”x m l ”标记,”x m l ”标记中包含一个i d 属性用于标识对x m ld s o 的引用。在 h t m l 文档中嵌入数据岛之后,就可以将x m l 数据岛与h t m l 元素绑定在一 起。每一个d s o 条目( 即数据岛) 都有唯一的t d 号,将h t m l 元素中的d a t a s r c 属性设置为相应的i d ,就把h t m l 元素和数据岛联系在一起了。然后再通过设 置d a t a f l d 属性值,米确定所提取的x m l 元素。客户端的l e 浏览器可以识 别x m l d s o ,并直接在客户端以h t m l 的形式显示d s o 数据源。 d s o 技术成功的将x m l 格式的数据嵌入到h t m l 中,能保持源x m l 数据, 并能充分利用h t m l 丰富的显示技巧结合了h t m l 和x m l 的两种技术的优 点,是一种较为理想的x m l 显示解决方案。但是,利用d s o 技术把x m l 中的 数据转换为h t m l 数据显示时,原来x m l 中的数据的逻辑结构和语义信息丢失 了,这样我们就不能利用d s o 技术从h t m l 页面中抽取数据存为x m l 格式。 d s o 技术没有解决从x m l 数据到h t m l 数据保留语义的问题,这使得应用程 序对h t m i 。中的数据进行如查询、修改等操作有很大难度。 x s i j x s l fj ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 是可扩展样式单语言。x s l t 是x s l 的一部分,它是专门用来转换x m l 文档的语言,可以将x m l 文档转换为另一 河北大学r 学硕士学位论文 种内容或格式的x m l 文档,最常用的转换是将x m l 文档转换为结构完整的 h t m l 文档。转换的重要思想就是要把x m l 文档视为树结构,转换的过程就是 从源树生成结果树的过程。x s l t 的样式单定义了源树和结果树中对应部分的转 换模板,每个模板中包含了一种模式和一种规则。模式规定了需要进行转换的元 素或属性对象,而规则定义了转换的结果。 当利用x s l t 进行转换时,x s l t 处理器将源x m l 文档解析成d o m 树存放 在内存中,x s l t 处理器遍历源树,每一个d o m 树中的节点都会与一个模板相 比较,当j 者匹配时,就会按照模板中定义的规则进行转换,否则继续往下匹配。 如此循环,直至整个文档处理完毕,生成结果树。 x s l t 本身是一种x m l 应用,它提供了一种比c s s 更强大、灵活的方法, 可以对x m l 文档随意的显示或输出。将x m l 文档转换为h t m l 后,我们就可 以在普通的浏览器里显示x m l 中的数据。 利用x s l t 把x m l 转换成h t m i ,完成了从x m l - f 0h t m l 之间的语法转 换,但同样丢失了x m l 的语义信息,没有完成语义转换。这样,当利用应用程 序处理转换后的h t m l 页面时,如果想得到具有特定语义的数据,是非常困难 的。, 12 2 从h t m l 至0x m l 现阶段,w e b 信息的显示与发布主要采用了h t m l ,而以h t m l 发布的w e b 信息缺乏统一结构【趴,没有明显的模式信息和语义信息,不适合被应用程序解析 使用。而x m l 模式白含,有丰富的语义信息,易于被应用程序使用,有利于数 据交换。从h t m l 到x m l 的转换技术是当今的一个研究热点一j 。 大量h t m l 页面中的半结构化数据虽然没有事先固定的语义模式,但可以 从中归纳出反映当前数据的语义模式,信息抽取技术实现从h t m l 页面中抽取 出有用的数据,附加语义信息,并以x m i 。或数据库的形式进行组织。 在各种信息抽取技术中:基于自然语言理解方式的信息拙取在一定程度上通 过自然语言语法、语义获得抽取出数据的语义,但效果不令人满意;全自动的信 息抽取根据页面中h t m l 标记问的关系抽取出数据,并以嵌套的形式加以组织。 第l 章绪论 但是,用这种方式获得语义信息是相当困难的;人工方式的信息抽取采用人工编 写算法的方式,实现信息抽取。典型的系统是t s i m m i s 1 0 1 和a r a n e u s 1 ”。由 于w e b 上的h t m l 页面更新速度非常快,且h t m l 页面的格式经常变动,所以 这种方式的信息抽取灵活性较差,不太实用:半自动的人机交互方式信息抽取采 用人机交互的方式,通过记录用户对网页中信息块的标记或者在系统提示下用户 构造部分抽取规则的方式,实现信息抽取。这种方式大大增强了信息抽取的实用 性。典型的系统有w 4 f 1 12 1 ,x w r a p 1 3 和l i x t o 1 4 等。 我们自主开发的原型系统p q a g e n t 【1 5 采用了半自动的人机交互方式。它引入 了独特的规则优化方法,能产生健壮的抽取规则,描述特征丰富,样本学习次数 较少,准确率较高,尤其便于在应用程序中调用。本文提出的基于语义的格式转 换方法就使用p q a g e n t 作为信息抽取引擎。 12 3 从w o r d 到x m l 包含在w o r d 文档中大量的有用的数据仅能在w o r d 环境中编辑与显示,没 有语义信息,不适合数据存储、查询及数据交换,因此,从w o r d 到x m l 的转 换有着重要的意义6 1 。目前常用的从w o r d 到x m l 的转换工具大致分四种类型: w o r d 2 0 0 0 w o r d 2 0 0 0 部分提供了将w o r d 文档转换为x m l 文档的功能。利用w o r d 2 0 0 0 ,i j - 以将w o r d 文档保存为h t m l 。这种转换仅仅是利用x m l 技术,从语 法上将源w o r d 文档转换为x m l 形式,其t a g 仍是h t m l 的t a g ,而且含有许多 白定义的样式和命名宁间,并不包含语义信息,并不是真正意义上的x m l 格式。 孤立型 这种类型的转换器把从w o r d 到x m l 的转换过程从用户编辑w o r d 文档的过 程中分离出来,它的输入是一个或多个w o r d 文档,输出是相应的x m l 文档。 典型的系统是u p c a s t ”1 ,它需要首先将w o 础文档保存为r t f 格式。 u p c a s t 的转换过程如下: 首先读取要转换的r 1 、f 文档,利用r 1 1 f c o r r e c t i o n 模块分析文档的文本内容、 布局阱及格式信息( 如标题,表格等) 根据r t f 规范纠正其中可能含有的错误 河北大学j 一学砸十学位论文 码。然后这些经过预处理的数据送到u p c a s t 自身含有的启发式模块,其中的启 发式规则基于大量样本实例文档的学习过程,可以识别文档的语法和逻辑结构。 该模块利用特定的启发式规则生成结构化的x m l 输出文档。 这种孤立型转换器的优点是对大量遗留的文档数据,可以批量的快速完成转 换,具有较高的效率。但是,这种全自动的转换技术,准确性和适应性较低,实 用性较差。另外,更为重要的是u p c a s t 转换后的x m l 文档由 , , 等元素构成,这仅仅反映了源文档的标题,段落,表格等 布局和逻辑结构,不含语义信息。u p c a s t 没有完成基于语义的转换。这使得我 们不能进行精确的基于语义的查询。 集成型 这种类型的转换器被集成到m s w o r d 中。典型的集成型转换器是y a w c 1 8 】, 它利用了w o r d 自身的样式集合。w o r d 中有很多预定义的样式来设定标题、段 落及文本的格式,用户也可以自定义样式。 y a w c 的转换过程如下: 第一步:定义x m l 元素名。y a w c 首先给出在w o r d 环境中存在的样式列 表,让用户从中选择样式。然后用户根据选定的样式,定义其相应的x m l 元素 名,同时,用户还需根据样式定义x m l 的层次结构。这样在样式与x m l 元素 之间建立了对应关系,形成转换规则。 第一二步:编辑w o r d 文档。用户在w o r d 环境中编辑所要的文档。对于文档 中的每一个数据块( 例如文档标题,文档作者等) ,用户需为其设定一种样式, 所设定的样式必须已经在第一步中建立好对应关系,必须有与其对应的x m l 元 素。 第三步:转换w o r d 文档。y a w c 遍历源w o r d 文档,根据已建立的映射关 系,查找符合给定样式的w o r d 文本,将定义的样式转换为x m l 元素的起始标 记,并将符合样式的w o r d 文本内容转换为x m l 元素的内容。转换完成后,生 成x m l 文档。 这种技术在一定程度上解决了语义转换问题。它作为w o r d 新添加的功能模 块,以插件的形式集成到w o r d 环境中,能够较容易地进行配置,方便了用户的 转换过程。但是,这种技术的缺点也是明显的。 第【章绪论 首先,它很大程度上采用手工的方式,自动化程度较低。用户在每次转换之 前都必须手工地生成样式同x m l 元素之间的对应关系,对于结构复杂、数据量 大的x m l 文档,创建与选择合适的w o r d 样式与x m l 元素对应较为网难。而 且用户还必须清楚w o r d 的样式格式与x m l 的结构,这对用户来说要求较高。 其次,用户在每次编辑w o r d 文档时,为了能够完成转换,都要设定各数据 块的显示样式,用户不仅要考虑数据本身,还要考虑其显示样式,当文档的数量 较多时,工作量是非常可观的。 最后,这种转换技术过于依赖y a w c 环境本身。用户必须在安装y a w c 的 环境中编辑待转换的w o r d 文档,并按y a w c 的要求设定样式。对于现存的已经 编辑好的w o r d 文档,用,、不能立即完成转换,必须再次放到y a w c 环境中重新 编辑和设定,这给用户造成了很大的不便。 分离型 在这利,类型的转换器中,文档数据的编辑和显示环境是分离的。系统内部已 经建好各个语义项与其显示样式的对应关系。用户首先在带有语义提示信息的编 辑环境中编辑数据,编辑完成后,将具有语义结构的数据存为x m l 格式或存入 到关系数据库中。若要显示编辑后的数据,则根据各个语义项对应的规定显示样 式,由专用应用程序组装成具有一定显示特征的文档。 这种转换技术的最大缺点是用户的编辑环境和显示环境是分离的,不具有统 一性,不支持所见即所得。而且,一般只支持h t m l 格式,编辑和转换均采用 d o m 接【_ j 编程完成,不支持w o r d 格式。如果要转换为w o r d 格式,必须用w o r d 环境打开h t m l 文档完成转换。而且,再将w o r d 转换为x m l ,仍需根据规定 的显示样式与语义数据之间的对应关系,由专用程序完成转换。这给用户的使用 带来了很大的不便。 12 4 从p d f 到x m l 典型的系统是x b a s e l l 9 】。它的部分功能是创建p d f 文档的特征向量,用特 征向量表示p d f 文档的内容。它利用p d f 的函数库,将p d f 文档中的显示, 控制信息完全除掉,经过切词( 或分词) 、词语选择等步骤,提取出部分词语, ? l 】北人学工学硕士学位沦文 这些词语构成了p d f 文档的特征向量。特征向量作为原来p d f 文档的元数据, 利用x m l 定义与存储。 x b a s e 转换的x m l 文档仍然缺乏语义信息,且仅仅是部分提取p d f 文档 中的数据。它采用了切词( 或分词) 技术,仅对于特定领域、特定背景的p d f 文档具有较高的效率,通用性较差。它无法解决数据的语义转换问题,也就无法 利用转换后的数据进行精确的基于语义的查询。 1 - 2 5 小结 通过对以上几种常用的数据格式转换技术分析可知,d s o 及x s l t 技术完 成从数据内容到数据显示格式的转换( 从x m l 到h t m l ) ,它仅仅在源x m l 文 档的基础卜添加了显示格式信息,并没有保存原有的语义信息:f f 从数据显示到 数据内容的转换技术中:x b a s e 和孤立型的转换器( 如u p c a s t ) 转换后的数据 仅仅从语法结构上符合x m l ,缺乏语义信息:集成型的转换器( 如y a w c ) 能 在一定程度上转换成含有语义信息的x m l 文档,但这种转换技术对用户要求很 高,很大程度上采用手工的方式,且对y a w c 环境本身依赖很强,可加的语义 信息有限,不太实用:w o r d 2 0 0 0 可以将w o r d 文档保存为h t m l 格式,反过来, 也可以读取转换后的h t m l 文档在w o r d 环境中编辑,但这种转换后的h t m l 文档包含大量的w o r d 自定义命名空间及样式,仅仅从语法上符合x m l ,它不 包含语义信息,并不是真正意义上的x m l 。 1 3 研究目标 基于上述讨论,本文提出了基于语义的数据格式转换方法,并以w o r d 文档 为例,阐述转换原理。研究目标如下: 1 、将w o r d 文档转换成x m l 文档,完成基丁语义的转换。转换后的数据应 含有语义信息。以实现精确的,基于语义的数据查询。并咀x m l 为中介,解决 不同系统之间的数据传输与交换问题。 2 、w o r d 文档的转换过程自动完成。用户编辑完w o r d 文档后,由系统自动 对w o r d 文档完成转换。 第1 章绪论 3 、方便易用,支持所见即所得。w o r d 文档的显示和修改界面应保持一致, 都在统一的w o r d 环境中进行。w o r d 文档转换完成后,系统仍可以重现原来w o r d 文档的显示样式,用户仍可以对w o r d 文档进行修改,并由系统自动重新完成转 换过程。用户编辑文档不应该被转换技术本身所约束。 基于上述目标,本文提出采用模板及学习两种策略来完成w o r d 文档的语义 转换。在完成转换之前,用户首先创建模板或对样本w o r d 文档进行学习,生成 转换规则。以后转换同样类型及领域的w o r d 文档时,采用已经生成的转换规则, 即可完成自动转换。最终的转换结果采用x m l 数据格式来存储,易于进行数据 交换,支持以计算为中心的应用,便于被应用程序使用;同时,对转换后的x m l 数据保存一份关系型数据作为副本,以实现高效的,精确的语义查询。 1 4 论文结构 本文共分五章,第一章为绪论,第二章概括介绍了x m l 及其相关技术,w o r d 及其相关技术和p q a g e n t 原型系统等。第三章详细描述了如何完成数据格式转 换过程,包括模板的方法和基于学习的方法。第四章构建了实验环境,对格式转 换方法进行了性能测试。第五章对本文的工作进行了总结,并对下一步的工作进 行展望。 河北人学工学硕j :学位论文 第2 章相关技术介绍 木章首先介绍x m l 及d o m 技术,介绍它们的基本特点。其次,介绍w o r d 相关技术。w o r d2 0 0 0 是微软公司o f f i c e2 0 0 0 产品套件的一个重要组成部分。 它直足办公自动化的主流产品。所以我们针对w o r d 的丌发与处理也就具有十 分重要的意义。为了更好的介绍如何利用本文提出的方法转换w o r d 文档,我们 首先介绍w o r d 文档模型,其次介绍v b a ,模板及域等在处理w o r d 文档中的重 要技术。最后介绍我们自主开发的系统p q a g e n t 及其基本工作原理。 2 1x m l 及其相关技术 2 1 1x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是可扩展标记语言的缩写,是s g m l ( s t a n d a r d g e n e r a l m a r k u p l a n g u a g e ) 的。个子集。x m l 是一科r 元标记语言,支 持用户自定义标记。用户叫以定义自己所需的标记,避免了由于标记的缺乏而无 法将元素详细描述的情况,使文档的内容更丰富,结构更复杂:而h t m l ( h y p e d e x t m a r k u pl a n g u a g e ) 定义了固定的词汇集,用户只能用固定的,预先 定义好的标记柬描述元素。另外,它们二者的功能不同,h t m l 标记用于描述数 据的显示信息而x m l 标记用于描述数据内容,表达数据本身的语义信息。 元素是x m l 文档内容的基本单元,是x m l 的基本组成部分。所有的x m l 数据( 除了注释,处理指令和空白) 都必须包含在元素中。它的语法格式为: c 标签,文本内容 。元素是由起始标签,元素内容和结束标签组成。用户 把要描述的数据对象放在起始标签和结束标签之间,例如: 小王 。 x m l 元素中还可以再嵌套别的元素,这样使相关信息构成层次结构,例如在 的元素中可包括所有职员的信息,每位职员都吐t 元素来 描述,而 元素中又可以嵌套 年l :1 元素。 属性用来将某些信息附加在元素卜,而这些信息不同于元素本身所包含的信 第2 章相关技术介绍 息内容。属性通过一个名称值组合,实现对元素的附加信息蜕明,例如: a n d y ,利用属性s e x 说明p e r s o na m y 的性别是男性。 字符数据就是元素中任何不是标记的文本,是元素或属性值的文本内容。 x m l 的可扩展性允许各种不同领域的人员开发与自己领域有关的标记语 言,这就使得该领域中的人们可以交换数据和信息,而不用担心接收端的人是否 有特定的软件来创建数据。 2 1 2d o m d o m 2 0 l ( d o c u m e n to b j e c tm o d e l ) 是一种提供h t m l 和x m l 文档使用的应 用程序编程接i s l ( a p i ) 。d o m 的核心是将面向对象( o b j e c t o r i e n t e d ) 的概念引 入到h t m l x m l 的文件处理中来。 d o m 接口提供了一种通过分层对象模型来访问x m l 文档信息的方式,这 些分层剥象模型依据x m l 的文档结构( 元素间有序的嵌套结构) 形成了一棵节 点树。无论x m l 文档中所描述的是什么类型的信息,利用d o m 所生成的模型 都是节点树的形式。也就是说,d o m 强制使用树模型来访问x m l 文档中的信 息。对于x m l 应用开发来说,d o m 就是一个对象化的x m l 数据接口,一个与 语言无关、与平台无关的标准接口规范。它定义了h t m l 文档和x m l 文档的逻 辑结构,给出了一种访问和处理h t m l 文档和x m l 文档的方法。一个x m l 分 析器,在对x m l 文档进行分析之后,不管这个文档有多简单或者多复杂,其中 的信息都会被转化成一棵对象节点树。在这棵节点树中,有一个根节点 一d o c u m e n t 节点,所有其他的节点都是根节点的子孙节点。节点树生成之后,就 可以通过d o m 接口访问、修改、添加、删除、创建树中的节点和内容。 2 2w o r d 及其相关技术 2 2 1w o r d 对象模型 对象是m i c r o s o f tw o r d 的基本构成单元,用户在w o r d 中操作和改变的每一 个东两都是一个对象,这些对象的相互关系组成了w o r d 巾的对象模型。在 河北大学工学硕上学位论文 w o r d 中,文档、对话框、文本框、图形、图表甚至w o r d 本身都是对象,同时, 这些对象都有自己的属性和方法,用户可通过编程来访问这些已有对象,改变它 们的属性,以完成某些较高级的功能。在对象模型中,还有一个重要的概念是集 合。所谓集合,就是由一组相近对象的组合,它们隶属于另一个大对象,许多子 对象又有它们自己的子对象。在w o r d 中,最高级别的对象通常是a p p l i c a t i o n 对 象,它就是应用程序本身,a p p l i c a t i o n 对象中则包含了d o c u m e n t 划象。d o c u m e n t 对象被称之为a p p l i c a t i o n 对象的子对象,反过来,a p p l i c a t i o n 对象被称为 d o c u m e n t 刺象的父对象。w o r d 对象模型提供了丰富的c o m l 2 2 1 接口,方便了应 用程序使用。 2 2 2 v b a v b a ( v i s u a lb a s i ca p p l i c a t i o n l 是专用于微软o f f i c e 系列的新一代标准宏语 高,它具有跨越多种o f f i c e 应用软件并且控制o f f i c e 对象的能力。v b a 足面向 对象的,他能直接对o f f i c e ( 包括w o r d ) 的对象模型进行操作。v b a 的工作过 程就是剥o f f i c e 的各种对象进行操作的过程。v b a 不能单独执行,只能被o f f i c e 调用执行。 2 2 3 模板 任何m i c r o s o f tw o r d 文档都是以模板为基础的。模板决定文档的基本结构 和文档设置,例如自动图文集词条、宁体、快捷键指定方案、宏、菜单、页面布 局、特殊格式和样式。模板的两种基本类型为共用模板和文档模板。共用模板包 括n o r m a l 模板,所含设置适用于所有文档。文档模板所含设置仅适用于以该模 板为基础的文档。例立u ,如果用备忘录模板创建备忘录,备忘录能同时使用备忘 录模板和任何共用模板的设置。w o r d 环境本身提供了许多文档模板。用户也可 以利用w o r d 环境编辑创建自己的文档模板。 2 24 域 域是w o r d 文档对象模型中的对象。它是w o r d 最具有实用价值的功能之。 第2 章相关技术介绍 表示文档中可能发生变化的数据的占位符。用户可以插入域,编辑与设计域的名 称,代码以及域显示样式。用户可以预先建立好w o r d 文档模板,利用w o r d 所 提供的插入域功能在文档模板中插入域。然后用该域对应的值取代域,就实现了 向w o r d 文档中插入数据的过程。域值可以不断地变化。域有两种表现形式:域 代码和域结果。通常在文档中看到的是域结果。域代码类似于关系表中的字段名, 而域值则类似于字段值。这样,我们可以把语义项对应于域代码,把语义项内容 对应于域结果。 2 3p q a g e n t 及其工作原理 2 3 1p q a g e n t 我们自主开发了信息抽取原型系统p q a g e n t ,它具有较好的适应性和较高的 性能。通过p q a g e n t ,用户以结构化和一致的方式对w e b 信息进行采集和集成, 将面向显示的h t m l 信息以结构化利语义清晰的方式重新发布,改善了w e b 信 息可用性, 本文利用p q a g e n t 作为信息抽取引擎,实现了基于语义的数据格式转换。 下而部分介绍p q a g e n t 系统的基本工作过程。但由于信息抽取不是本文研究的 重点,在此仅做简单的介绍,详细内容请参见文献【5 】。 2 32 工作原理 我们的p q a g e n t 系统将信息抽取的过程分为四个阶段:附加语义,样本学 习,规则优化和信息抽取。 附加语义:由于用h t m l 标记语言发布的w e b 信息是面向显示的,没 有明显的模式信息和语义信息,因此附加语义在信息抽取过程中是不可缺少的。 我们的p q a g e n t 系统采用先模式的方式附加语义信息,用户可以根据需要定义 自己想要数据的语义模式,能准确的表达w e b 数据潜在的语义。我们采用受限 的x m l 作为语义模型,d t d 2 3 1 是x m l 的模式定义语言。该阶段由用户在系统 的引导下,以可视化的方式定义受限d t d ( 满足语义模型) 。这样,用户根据自 河北大学工学硕二匕学位论文 己对网页内容的理解,通过创建语义模式,将反映网页内容的语义信息记录下来, 作为样本学习阶段的输入。 样本学习:用户按照语义模式的层次结构,以自顶至底的顺序,依次标 记出网页中的数据内容,并选择相应的语义模式,在语义模式的语义项与h t m l 网页中的信息块之间建立对应关系。样本学习阶段在实质上是计算机在用户的帮 助下理解网页内容所反映的语义信息,在语义模式和网页中的信息块之间建立起 对应关系。我们将这种刘应关系称为“抽取规则”。 规则优化:分为内部优化和外部优化。在样本学习阶段完成后,就可以 得到一个语义模式中各对象初始规则构成的初始规则列表。初始规则是由规则段 构成的,通过规则段的不同的组合方式可以获得不同健壮性的抽取规则。规则内 部优化是指系统为语义对象生成最优的规则段的组合方式。规则的外部优化是对 山于用户学习次数的增加而增加的规则条目进行分析筛选,淘汰部分规则。规则 优化的目的是为了提高信息抽取的查准率和查全率,提高效率。最优规则列表中 的抽取规则被装配成完整的x q u e r y ”】查询语句,构成复杂对象的抽取规则,存 放于和语义模式对应的规则库中。 信息抽取:采用的方法是首先将w e b 页面的数据转换为x m l 格式。然 后,根据该网页对应的语义模式,系统自动从规则库中取出相应的x q u e r y 查询 语句,输入到x q u e r y 查询引擎2 ”,列待抽取的网页进行查询,然后将查询结果 合并到一个x m l 文档作为抽取结果,放八和该语义模式对应的x m l 文档库中。 更详细的过程可参见相关文献。 第3 章格式转换原理和方法 第3 章格式转换原理和方法 本章依据w o r d 文档的对象模型以及信息抽取技术的基本原理,提出对w o r d 文档进行格式转换的方法。并依据实际w o r d 文档的应用背景,对w o r d 文档的 转换采用两种方法:基于模板的转换方法,这种方法适用于转换利用模板自动 生成的w o r d 文档,要求事先建立特定格式的、满足需求的模板。基于学习的 转换方法。采用这种方法时,无需事先建立模板,适用于手动生成的w o r d 文档, 因此更具有通用性及一般性。转换w o r d 文档完成后,可以生成具有语义的文档 数据。从而可以对大批量的w o r d 文档进行基于语义的管理,进行基于语义的查 询操作。以下首先介绍本文提出的基于语义的格式转换技术的体系结构,然后介 绍转换文档数据时采用的语义模型;接着对基于模板的转换原理及基于学习的转 换原理分别进行详细阐述,最后对使用模板和学习的转换方法加以总结。 3 1 体系结构 我们的格式转换方法基于b s 结构,即b r o w s e r s e r v e r ( i r i 览器朋艮务器) 结构。 浏览器 俐j 体系结构 1 5 服务器 ;ll膏嗣i l 商 河北大学工学硕上学位论史 其主要部分如图1 所示。其中浏览器端和服务器端的组成分别介绍如下: 1 、浏览器端组成 包括转换规则生成模块,文档提交接口和基于语义的查询接口。 转换规则生成模块 主要包括基于模板利基于学习的转换规则的生成模块。另外,还包括预处理 模块供利用p q a g e n t 学习引擎学习时使用。这两种转换规则的生成都是直接在 w o r d 环境中进行的,所以,虽然我们的系统采用的是b s 结构,但仍需将w o r d 嵌入到浏览器中。由于w o r d 文档是复合型的a c t i v e x 文档0 2 “,只要本地的客户 端安装了m i c r o s o f tw o r d ,它就可以从浏览器中打开,并日w o r d 软件界面和浏 览器界面结合在一起,在浏览器的窗口中町以如在w o r d 环境中一样使用和编辑 w o r d 文档。我们的转换规则生成模块就是作为w o r d 插件,嵌入到w o r d 环境中。 用户在浏览器中打丌w o r d 时,转换规则生成模块便成为w o r d 的一部分。用户 在w o r d 环境中创建模板,或埘样本w o r d 文档进行学习,规则生成模块记录用 户的操作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家电网新质生产力的实践探索
- 2025年全国信息等级考试试题及答案
- 求铁盒容积题目及答案
- 扩大基础桥梁深基坑施工专项方案
- 2025年园艺工培训考试题及答案
- 高考阅读词汇题库及答案
- slump试验课件教学课件
- 广东省深圳市龙岗区2024-2025学年七年级上学期语文10月份学情诊断试卷(含答案)
- sccag鳞状细胞癌抗原课件
- 六年级上册数学期末考试卷及答案
- CRH380B型动车组制动系统
- 植入式静脉给药装置(输液港)-中华护理学会团体标准2023
- SH石油化工金属管道布置设计规范
- 统一帕金森病评定量表-UPDRS
- 外国文学史第二版马工程课件 第四章 17世纪文学
- 皮肤的结构与生理功能
- 院感培训试题及
- 开发区财政管理改革研究
- 三维数字城市建模及数据获取课件
- 电气照明系统课件
- 收纳整理PPT成品课件
评论
0/150
提交评论