(计算机软件与理论专业论文)word表格向xml文档的转换.pdf_第1页
(计算机软件与理论专业论文)word表格向xml文档的转换.pdf_第2页
(计算机软件与理论专业论文)word表格向xml文档的转换.pdf_第3页
(计算机软件与理论专业论文)word表格向xml文档的转换.pdf_第4页
(计算机软件与理论专业论文)word表格向xml文档的转换.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机软件与理论专业论文)word表格向xml文档的转换.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

w o r d 表格向x m l 文档的转换 计算机软件与理论 宋阳秋 叶小平副教授 摘要 】( m l 文档具有的与平台无关、可移植性强等特点使其已成为跨系统交换 数据的标准格式,便于进行信息检索、集成、挖掘,有着重要的实际应用 意义,而w o r d 字处理软件具有强大的文档编辑功能,且简单易学,广泛应 用于文字处理,并大量采用表格来表示信息,但对w o r d 表格的自动理解非 常困难。本文提出了一种将w o r d 表格转换为) ( m l 文档的方法,该方法具体 做法是先构建一棵h t 札表格的d o m 树,抽取w o r d 表格的结构信息和单元 格属性映射到 i t m l 表格d 伽树的相应结点,根据h t m l 的d o m 树即可逆向 生成h t m l 表格,然后利用h t m l 表格属性,在表格中插入冗余单元,使h t m l 表格规范化,再存储于关系数据库s q ls e r v e r2 0 0 0 中,最后利用s q ls e r v e r 2 0 0 0 关系数据库系统对x m l 文档的支持将数据库文件转换为) ( m l 文档。 关键词:w o r d 表格;h t m l 表格;关系数据库;x m l :转换 c o n v e r s i o no fw o r dt a b l e st ox m ld o c u m e n t s c o m p u t e rs o f t w a r ea n dt h e o r y s o n gy a n g o i u a s s o c i a t ep r o f y ex i a o p i n g a b s t r a c t x m lh a sb e c o m et h es t a n d a r df o r m a to fd a t at r a n s f e ri nc r o s ss y s t e m b e c a u s eo fi t sf e a t u r e so fb e i n gi n d e p e n d e n to fp l a t f o r m sa n db e i n ge a s i l y t r a n s p l a n t e d i ti sc o n v e n i e n tt os e a r c hi n f o r m a t i o n , d a t ai n t e g r a t i o na n dd a t a m i n i n g t h ew i d e l yu s e dm sw o r d , w h i c hi se a s yt ol e a r n ,i sap o w e r f u lw o r d p r o c e s s i n gs o f t w a r e l o t so ft a b l e sa r eu s e dt os h o wi n f o r m a t i o n b u tm sw o r d i sd i f f i c u ri ni d e n t i f y i n gt a b l e sa u t o m a t i c a l l y t h i sp a p e rp u t sf o r w a r dam e t h o d t ot r a n s l a t ew o r dt a b l e si n t ox m l d o c u m e n t f i r s t l y , i tc o n s t r u c t sad o m t r e eo f h t m lt a b l e s 。d r a w so u tt h es t r u c t u r ei n f o r m a t i o no fw o r dt a b l ea n dt h en o d e s o fd o mt r e ew h i c hi sm a p p e df r o mt h ec e l l sp r o p e r t yt oh t m lt a b l e ,b u i l d s h t m lt a b l ec o n v e r s e l ya c c o r d i n gt ot h ed o mt r e eo f h t m l s e c o n d l y , i tu s e s t h ep r o p e r t yo fh t m lt oi n s e r tt h er e d u n d a n c yu n i t si n t ot h et a b l et om a k et h e h t m lt a b l es t a n d a r d t h i r d l y , i ts a v e st h et a b l ed a t ai nt h er e l a t i o n - d a t a b a s e s q l s e r v e r2 0 0 0 f i n a l l y , i tu s e st h es q ls e r v e r2 0 0 0t ot r a n s l a t ed a t a b a s ef i l e s i n t ox m lf i l e s k e yw o r d s :w o r dt a b l e ;h t m lt a b l e ;r d b ;x m l ;c o n v e r s i o n i l 原创性说明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重 要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 学位论文作者签名:宋p j 2 i 气 日期:卿年月砂日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质 版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书 馆、院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索, 可以采用复印、缩印或其他方法保存学位论文。保密的学位论文在解密后 使用本规定。 学位论文作者签名:宋声积 导师签名: f l 期:少社1 1 月2 z h 计u ,丑 同期:孵月同 j 第1 章绪论 1 1w o r d 表格转换为x m l 文档研究的意义 w o r d 字处理软件是m i c r o s o f t 公司推出的o f f i c e 办公软件中的重要组 件,由于其强大的文档编辑功能,且又简单易学,因此成为人们进行文字 处理的普遍使用软件。在w o r d 文档中,人们往往大量地采用表格来表示信 息,由于w o r d 只描述表中数据如何显示,却不描述数据的内容,再加上w o r d 表格的复杂性,因此,对w o r d 表格的理解非常困难,而对这些w o r d 文档 的自动理解,尤其是在网上对w o r d 文档自动理解,对信息检索、集成、挖 掘、综合概要并向移动设备的发送等都有着一定的实际应用意义。 x m l 是“e x t e n s i b l em a r k u pl a n g u a g e ”即“可扩展标记语言”的英 文缩写,是w 3 c 组织于1 9 9 8 年2 月发布的以数据的建立和管理为目标, 定义的一种基于i n t e r n e t 交换数据的标准。x m l 文档的内容和样式是分离 的,相同的内容可根据需要以不同的样式显示。x m l 以纯文本的形式描述数 据,易于读写,适合在不同的应用程序间交换数据,实现数据共享,并且 速度快、效率高,具有开放标准、与平台无关特性。因此,将w o r d 表格转 换为x m l 文档有利于对报表数据的分析研究,转换后的x m l 文档更适用于 网络上的信息交换。 1 2w o r d 表格转换为) 叫文档研究进展概述 近年来,国内外许多学者对w o r d 文档向x m l 文档转换进行了卓有成 效的研究,取得了许多优秀成果,特别是在相关或相近的文档数据格式转 换方面,如w o r d 文档转换为h t m l 文档、h t m l 文档转换为x m l 文档等, 更是取得了令人瞩目的成果。 1 2 1w o r d 文档转换为x 札文档的研究现状 在这方面,许多学者经过认真研究,发表了一系列的文章,取得了一 些研究成果。转换的方法大致有两类,一是上海市第二轻工学校提出的基 于v b a 的w o r d 文件向x m l 转换方法 1 】;二是河北大学数学与计算机学 院提出的基于语义的数据格式转换方法 2 】,并在此基础上自主开发出了信 息抽取原型系统p q a g e n t 。 1 基于v b a 的w o r d 文件向x m l 转换方法 这种转换方法的基本原理是w o r d 文档利用其内置的v b a 集成开发环 境i d e ,将要转换的文档作为一个项目打开。通过特定m o d u l e s 文件夹的 n c w m a c r o s 对象调用w o r d x m l 的a c t i v e sd l l 。w o r d a p p l i c a t i o n 中包含一 个a c t i v e d o c u m e n t 对象,是默认的用于检索脚本事件的文档,它使o f f i c e 文档可以更好地进行交互,被视为具有与其关联的自义操作,在此操作中 通过对x m l 进行具体规定及标记创建,最终实现w o r d 文件向x m l 文档 的转换。如图1 1 所示。 图1 - 1 基于v b a 的w o r d 文件向x m l 的转换原理 2 基于语义的数据格式转换方法 这种转换方法基于b s 结构,其体系结构如图1 2 所示。 ( 1 ) 浏览器端组成。包括转换规则生成模块,文档提交接口和基于语义 的查询接口。 2 转换规则生成模块作为w o r d 插件,嵌入到w o r d 环境中。用户在浏览 器中打开w o r d 时,转换规则生成模块便成为w o r d 的一部分。用户在w o r d 环境中对样本w o r d 文档进行学习,规则生成模块记录用户的操作,自动生 成转换规则,并提交到服务器端的转换规则库中。 文档提交接口让用户选择待转换的w o r d 文档集合并提交给服务器;基 于语义的查询接口供用户输入查询条件,并将查询结果以h t m l 或w o r d 文档格式在浏览器中呈现给用户。 浏览嚣w e b 服务器 图1 2 基于语义的数据格式转换体系结构 ( 2 ) 服务器端组成。包括w o r d 文档抽取与转换模块,语义查询模块; 此外,在服务器端构造了五个库,即领域知识库、w o r d 文档库、x m l 文 档库、关系数据库和转换规则库。 抽取与转换模块负责对用户提交到服务器端的w o r d 文档完成基于语 义的转换。文档转换模块将w o r d 文档转换为x m l 格式,并存于x m l 文 档库中;同时,另外生成一份关系数据作为副本,存放到关系数据库中, 原来的w o r d 文档存放于w o r d 文档库中 领域知识库将文档信息划分成不同领域,便于对不同领域、不同语义 的w o r d 文档进行管理,便于用户进行数据查询。还可利用领域知识库对 w o r d 文档库、x m l 文档库、转换规则库进行组织与管理。 w o r d 文档库存放的是用户提交的原始的w o r d 文档;x m l 文档库存 放的是用户提交的w o r d 文档转换后的x l v i l 结果;关系数据库存放的是 x m l 文档库的副本;转换规则库用于存放利用样本学习产生的转换规则, 用于转换w o r d 文档。这些库中的数据都根据领域知识库中的嵌套关系, 按领域分类,组织成树状结构按层次加以管理。 信息抽取的过程分为附加语义、样本学习、规则优化和信息抽取四个 阶段: ( 1 ) 附加语义。用户根据自己对网页内容的理解,通过创建语义模式, 将反映网页内容的语义信息记录下来,作为样本学习阶段的输入。 ( 2 ) 样本学习。用户按照语义模式的层次结构,以自顶至底的顺序,依 次标记出网页中的数据内容,并选择相应的语义模式,在语义模式的语义 项与h t m l 网页中的信息块之间建立对应关系,形成“抽取规则“。 ( 3 ) 规则优化。在样本学习阶段完成后,系统对生成的规则进行优化。 最终的抽取规则被装配成完整的x q u e r y 查询语句,构成复杂对象的抽取规 则,存放于和语义模式对应的规则库中。 ( 4 ) 信息抽取。采用的方法是首先将w e b 页面的数据转换为x m l 格式。 然后,根据该网页对应的语义模式,系统自动从规则库中取出相应的x q u e r y 查询语句,输入到x q u e r y 查询引擎,对待抽取的网页进行查询,然后将查 询结果合并到一个x m l 文档作为抽取结果,放入和该语义模式对应的x m l 文档库中。 1 2 2 相关或相近的文档数据格式转换研究现状 1 h t b l l 文档向) n 几的转换技术 4 当前的w e b 信息大多数都是h t m l 格式的,由于h t m l 结构具有的简单 性和灵活性,它极大地促进了信息产业的发展,但是,也正是由于h t m l 结 构太灵活和自由,造成了一个致命的缺陷:难以检索或者提取隐藏其中的 数据。针对h t m l 的这种缺陷,x m l 语言应运而生,它提供了描述结构化数 据格式,具有内容与形式相分离的特性,以及良好的可扩展性、跨平台移 植性和自描述性等特征正因为如此,将h t m l 文档转换成x m l 的研究得到 了许多学者和研究机构的关注,发表了大量的研究文献。主要有基于多叉 树 3 、内容 4 5 和对称性 6 的转换方法,以及利用智能代理 7 进行转 换。 ( 1 ) 基于多叉树的转换方法 从语法上看,h t m l 和x m l 并没有本质的差别。只不过h t m l 采用的标签 是预先定义的,以及h t m l 对标签的匹配并没有任何限制,如果不考虑这些 差别,x m l 只会比h t 札多出第一行的 ,而其他的内 容都是一样的,再者,无论对h t m l ,还是x m l ,都可以用一棵多叉树来表 示。设有以下h t m l 文本及其相应的x m l 文本: h t m l 文本: h t m l 示例 中国科大 合h e 相应的x m l 文本: 5 h t m l 示例 ( h e a d 中国科大( h i 合肥 这两个文本都可以用如图卜3 所示我多叉树表示。 图1 - 3h n l 和x m l 的多叉树表示 标签 数据 如果我们能够构造出这样一棵完整的h t m l 多叉树( 下简称h t m l 树) , 并且在构造h t m l 树的同时,采用一些策略,将h t m l 中不严格的语法消除, 最后再由h t m l 树来产生相应的x m l 文件,我们就可以得到格式良好的x m l 文件了。 ( 2 ) 基于内容的转换方法 h t m l 是由内容以及这些内容的呈现格式数据组成,内容是有特定逻辑 语义的数据,是到n l 结构化文档的转换数据。而格式数据主要描述内容 如何表达,通过一些有特定含义的标记及其属性值束格式化内容数据。比 如表格,其语法形式是( t a b l e t a b l e ) , 用于定义表行, 用于 定义表头, 用于定义表元。表头中的原子数据信息都在 和 之 6 问,表格的具体数据都在 和 之间,根据这些规则可以界定表格中 的内容数据。要实现h t m l 内容到x m l 数据的转换,关键就是要给出h t m l 的这些内容数据及其关系的一种组织方式,以及这种方式在x m l 模式中的 相应表达规则。 ( 3 ) 基于对称性的转换方法 由于x m l 严格的语法,所有的x m l 标记都必须有一个匹配的结束标记, 有一个包含所有其他元素的父( 或根) 元素,那么可以运用数据结构中的二 叉树来检验h t m l 文件的良好性,通过生成含有左右子树的对称二叉子树来 达到检验的目的,对称的左右子树表示匹配的标记,根节点表示包含所有 其他元素的父( 或根) 元素。在该方法中定义带头节点的线性链表l 作为存 储结构,如图卜4 所示,每读入一个起始标记就将它的标记内容作为l 的 一个元素。当读入一个结束标记时,把它的内容写入变量p 中并与l 当前尾 节点元素( 如图i - 4 中的a ) 比较,如果两者相同,则以b 为根的二叉树的左 右子树对称,表示这是一对匹配标记,符合x m l 的严格语法,只需删除l 中的此元素即可,不需做其他处理。如果两者不相同,则要依次把它与a 的祖先节点比较。假设如图1 - 4 找到b ,此时以c 为根的二叉树的左右子树 不对称,则需要增加相应的结束标记和a 构成一匹配对,然后可以去掉a 。 这样以c 为根的二叉树的左右子树对称,接着可以去掉c 。如此递推,直到 l 中只剩下含头节点元素,即表示转换成功。 图1 - 4 线性链表l 7 输出格式良好的h t m l 文档是整个方法的核心,最后输出转换后的x m l 文档。整个转换过程分为以下两个步骤: ( a ) 使用二叉树的左右子树的对称性来消除h t m l 文本中不严格的语法, 输出格式良好的h t m l 文件。 ( b ) 按照生成的格式良好的h t m l 文件,输出相应的x m l 文件。 ( 4 ) 智能代理转换 智能代理通常是指模拟人类行为,能够根据所感知的环境自主运行和 提供相应服务的程序。在网络范畴内可以定义为在网络环境下代理用户或 其他程序,以主动的方式完成有关操作的软件实体。智能代理能创建与实 现目的有关的计划,定时和交互地执行,对网络环境变化做出反应。智能 代理具有的代理性、自主性、智能性、交互性、机动性、适应性等特点, 能够在用户不需要干预的情况下白行获取、分析和处理数据;这些技术特 性在网络信息组织管理中得至充分应用。网络智能代理能够识别网页特征, 可以自动检索有关内容,然后转换成相应的x m l 格式。 2 关系数据库与x m l 文档相互映射模型 目前,关于数据库中的信息与x m l 文档转换,科研人员已作出了大 量工作,如s i l k r o u t e 等提出的使用固定的关系模式存储x m l 文档; s h a n m u g a s u n d a r a mj 等提出的将x m l 文档的d t d 映射为关系模式的结构映 射方法,等等,所有这些研讨的方法可归结为两种:基于结构的转换和基 于模式的转换 8 2 ,无论是哪种方法,都忽略了数据间语义约束的保持。 为了在数据库和x m l 文档之间传递数据,必须在文档结构和数据库结 构之间建立映射,这样的映射通常分为两大类:模板驱动和模型驱动 9 。 在以模型驱动的映射中,利用x m l 文档结构对应的数据模型显式或隐 式地将其映射成数据库的结构,反之亦然。尽管它的灵活性不如模板驱动 方式,由于它是基于具体的数据模型来进行映射的,从而具有简单易用的 特点。现在流行的数据转换中间件x r d b m ( x m l - r e l a t i o n a ld a t a b a s e m i d d l e w a r e ) 都是以数据模型为映射方法:通过d t d 定义x m l 文档结构, 生成映射模型和初始化关系数据库,从而以d t d 为中介,保证了x m l 文档、 映射模型和数据库关系视图的一致性。同时利用映射模型将符合指定于d t d 的x m l 文档映射到数据库的关系结构中。 从d t d 文档映射到关系数据库视图可分为两个步骤:将d t d 映射到对 象视图;将对象视图映射到数据库关系视图。 ( 1 ) d t d 到对象视图的映射 x m l 文档包含简单元素类型和复杂元素类型。元素内容模型中仅包含 p c d a t a 内容的元素类型称为简单元素类型,可将它映射成标量类型( s c a l a r t y p e ) 。由于d t d 文档无法准确定义元素的数据类型,如: 。“成绩”的数据类型可为s t r i n g ,也可为i n t ,所以元素到 底为哪种数据类型,应根据具体情况而定。这里,如果“成绩”要用来计 算,应定义成i n t ,否则也可定义为s t r i n g 。 元素内容模型中包含子元素、混合内容或属性声明的元素称为复杂元 素类型,可将它映射成类,其内容模型中的每一元素类型映射为该类的属 性,最后将元素的属性映射为类的属性。 ( 2 ) 对象视图到数据库关系视图的映射 映射的具体方法是:首先将类映射成表,具有标量类型的属性映射到 表中的列:类名一表名,标量属性名一列名;然后对每个类所对应的表添 加主键列,列名为表名p k ,对具有参考关系的两个类所对应的表添加主键 外键关系( 若已存在主键列则不必另外生成) ,如果两个类为一对一的关 系,则主键列可以在两个类对应的任何一个表之中,否则主键列须添加在 “一”所对应类的表中,另一个表添加外键列,主键列的列名为:表名一p k ; 外键列的列名为( 主键列所在的) :表名- f k 。 1 2 3 现有研究存在的不足 9 通过对上述技术文献的阅读分析,结合作者的研究实践发现,w o r d 表 格向x m l 文档的转换技术目前仍处于研究阶段,主要存在以下不足: 问题一:手工编写代码的方法虽然表达能力强,但需要用户编写复杂 的代码,工作效率低,且表格的变化将导致维护困难。 问题二:基于语义学习的策略便于用户对大量w o r d 表格进行精确基于 语义的信息抽取,但需要为w o r d 文档数据定义合适的语义模型,而w o r d 表格的复杂性决定了这种方法应用范围的局限性。 问题三:网上表格数据到x m l 的转换,忽视了r d b m s 强大的数据存储 管理功能,没有利用r d b m s 来实现对x m l 数据的存储和管理 1 3 本文研究的内容 本文研究的主要内容是w o r d 表格向x m l 文档的转换,转换的方法采用 如下图卜5 所示的流程: 图l - 5 w o r d 表格向x m l 文档转换流 1 3 1w o r d 表格向h t m l 表格的转换 之所以先将w o r d 表格转换为h t m l 表格,主要基于以下几点原因: ( 1 ) w o r d 文档不是纯文本文件,它的读取要依赖于w o r d 字处理软件, 而h t m l 文档是纯文本文件,易于读写,速度快、效率高; ( 2 ) h t 帆是一种最简单的w e b 页面标记语言,w e b 上的绝大部分文件 是以h t m l 形式存储和传输的,h t m l 表格与w o r d 表格对数据存储表示相类 似; ( 3 ) 众多学者对h t 札表格的理解作了深入研究,可以借鉴已有的研 究成果作进一步的研究。 1 0 w o r d 表格和h t m l 表格一样,都是由若干行组成,每一行又由许多单元 格组成,同样结构的表格,它们的结构描述相类似。为了将w o r d 表格转换 成t l t m l 表格,可以构建一棵h t m l 表格的d o m 树,抽取w o r d 表格的结构信 息和单元格属性映射到h t m l 表格d o m 树的相应结点,根据i f t m l 的d o m 树 即可逆向生成h t m l 表格。 1 3 2h t m l 表格转存于s q ls e r v e r 数据库系统 将h t m l 表格数据转存于s q ls e r v e r 关系数据库系统中的实质是要将 x m l 半结构化数据转换为结构化数据后以二维表形式存入关系数据库中,然 后利用r d b m s 强大的数据存储管理功能来实现对x m l 数据的存储和管理 1 0 。 在关系数据库的关系模型中,无论是实体还是实体之间的联系均由单 一的结构类型即关系( 表) 来表示,一个关系就是一张二维表,而h t m l 表 格单元可能跨越多个行或列,表头也可能包含行头和列头,因此,h t m l 表 格结构比关系数据库的表结构复杂得多。要将h t m l 表格数据转存于关系数 据库系统中,将h t m l 表格规范化,并准确识别表头是关键 1 1 。 由于h t m l 表格只描述数据如何显示,不描述数据的内容,因此,理解 h t m l 表格较为困难,但在h t m l 表格中却包含了重要的结构信息,如单元格 占用多行多列属性,可通过向表格中插入冗余的单元格,使表格规范。由 w o r d 表格转换来的h t m l 表格没有标志表头,但在设计表格时,为了让用户 容易识别,一般会采用一些格式化的信息,如字号、加秆l 等来表示表头, 因此,可以采用格式化的信息量化值来识别h t m l 表格的表头。 1 3 3s q ls e r v e r 关系数据库到x m l 文档的转换 将s q ls e r v e r 关系数据库的查询结果显示成x m l 文档是通过s e l e c t 语句中加上f o rx m l 子匀来完成的。在s q ls e r v e r 中通过使用s e l e c t 语 句可以把查询结果存储为x m l 文档而不是通常意义上的结果集,这样通过 比原来少得多的编码就可以使w e b 应用或其他应用直接使用x m l 文档,从 而方便企业与供应商之间的业务交流。 在使用f o rx m l 子句的同时可以指定l m l 的m o d e ( r a w 、a u t o 、e x p l i c i t ) 以及x m l d a t a 的模式( s c h e m a ) ,通过指定3 种x m l 样式r a w 、a u t o 、e x p l i c i t 之一,就可以返回具有一定样式信息的数据。 1 4 本文论述方法的特点 基于v b a 的w o r d 文件向x m l 转换方法通过脚本化w o r d 文件,可以准 确有效地将大多数w o r d 文档转换为x m l ,但在转换过程中,用户需要为w o r d a p p l i c a t i o n 对象创建索引,并处理它,这是代码工作过程,对普通用户是 困难的;基于语义的数据格式转换方法采用基于学习的策略,能自动地将 w o r d 文档转换为具有语义的x m l ,同时又将转换结果转换为关系数据作为 副本,便于商效查询。该方法转换的准确性关键在于创建语义模型,它采 用了“平面关系数据模型”,适宜转换具有较规范文档格式与显示风格的 w o r d 文档。 本文主要针对w o r d 文档中的表格提出了一种转换成x m l 文档的方法。 该方法吸取了上述两种方法的长处,从w o r d 表格各单元格内容属性分析着 手,自动提取表格数据,然后将数据存放于关系数据库中,再进一步转化 为x m l 文档,较好地避免了普通用户从事代码工作过程,提高了转换效率; 根据表格内容属性自动识别,使这种方法更能适应复杂多变的各种表格。 本文提出的方法的不足之处主要有转换过程较繁琐,不能转换单元格 内容没有显著特征变化的表格,对隐性嵌套表格不能自动识别。 1 5 本文的结构 本文是对w o r d 表格向x m l 文档转换方法的研究,主要完成以下主要工 作: 第一、归纳目前同类或相关研究现状,描述几种转换方法的基本原理、 优缺点; 第二、在前面分析的基础上,提出w o r d 表格向删l 文档转换的新方法, 并实现w o r d 表格到) ( m l 文档的转换: 第三、提出该方法中需要完善的地方及下一步研究工作的重点。 为阐述以上几项工作,本文主要结构如下: 第1 章绪论,指出本文研究的意义,阐述了w o r d 表格转换为x m l 文 档的研究现状,描述几种转换方法的基本原理、优缺点。 第2 章w o r d 表格向x m l 文档转换的技术基础,主要介绍本文涉及到 h t m l 技术、l 技术及s q ls e r v e r2 0 0 0 对x 札的支持。 第3 章w o r d 表格向x m l 文档转换技术,主要介绍w o r d 表格向h t m l 表 格转换技术、准确理解h t m l 表格技术,以及s q ls e r v e r2 0 0 0 天系数据库 到x m l 文档的转换技术。 第4 章绪论与展望,介绍本文所完成的主要工作、积极意义,以及本 文存在的不足。 1 6 小结 在本章中,阐述了w o r d 表格向x m l 文档转换的研究现状,分析了几种 转换技术,以及相关转换技术的优缺点,指出了进行转换研究的意义,提 出了转换的新方法。这一章节内容为后述垫定了理论依据。 第2 章w o r d 表格向x m l 文档转换的技术基础 2 1h t m l 技术 2 1 1h t m l 语言概述 h t m l 是h y p e rt e x tm a r k u pl a n g u a g e ( 超文本标记语言) 的缩写,用来 表示网上信息的符号标记语言。在w w w 上,发布信息通常使用h t m l ,它是w e b 页面的基础,任何一个w e b 页面都离不开h t m l ,而且h t m l 也是w e b 应用开发的 基础。对于基于w e b 的应用程序而言,w e b 页面就相当于“包装”。h t m l 语言是 大多数计算机都能识别的语言,使用h t m l 语法规则建立的文本可以运行在不 一 同的操作系统平台上,而且能被大多数用户接受。 h t m l 最早源于s g m l 语言( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ,标准通 用标记语言) ,是由w e b 页面的发明者t i mb e r n e r s - l e e 和同事d a n i e l w c o n n o l l y 于1 9 9 0 年创立的一种新颖的标记式语言,它是s g m l 的应用。到2 0 世纪9 0 年代后期,由于网络的飞速发展,使得h t m l 也达到了空前的繁荣,在 w w w 革命中扮演了核心技术角色。 2 1 2h t m l 文档结构 h t m l 语言的基本结构包括h e a d 、t i t l e 、b o d y 三部分,形式如下图2 - 1 所 示。 h t m l 文件的开头和结尾分别由 和 标记。所有h t m l 文件都可 以分为两个部分:头部和正文,每一部分用特定的标记标出。在h t m l 语言中 规定 和 标记头部,用来说明文件名和与文件本身相关的信息, 用 和 标记正文部分,也就是整个文件的主体部分 1 4 标题部分 b o d y 识文部分 图2 一lh t m l 语言的基本结构 2 1 3h t m l 标记 h t m l 是一种标记语言,它定义了一系列的特殊标记,以便区分页面的不 同部分。用这些标记编写的文件( 文档) 的扩展名是h t m l 或h i m ,这两种文 件格式是可供浏览器解释和浏览的格式。h t m l 语言使用“标记对”的方法编 写文件,通常使用 来表示标记的开始和结束,如 和 ,因此在h t m l 文档中这样的标记对都必须成对出现。 标记是由尖括号及其中独立的元素构成的,如 。按照格式特征可 以把标记分为两类:包括标记和空标记。包容标记是由一个开始标记和一个 结束标记构成: 数据 ;空标记只有一个开始标记,如 或 。包容标记和空标记均可以含有属性,但包容标记 的属性应放在开始标记中。 1 h t m l 文档标记 格式: 功能:标志文件开始和结尾的标记。 处于文件的最前面,说明该文档是一个h t m l 文档。当浏览器下载 解析时,从 开始,到 结束,并按照h t m l 的语法规则来解析这个 页面,从而使文档以h t m l 页面的形式显示出来。 2 h t m l 文件头标记 格式: 功能:用于包含文件的基本信息。 这部分为可选内容,主要包括一些说明性的内容和定义,例如:标题名、 文本文件地址、创作信息等网页说明信息, 和 标题标记对就 应用在这一部分,用来表示w e b 文件的标题,它概括了网页的内容,使得浏览 者能够迅速了解网页的大意。另外还有 ( 建立文档问的链接) 、 ( 通常用来指定被搜索引擎用来提高搜索质量的关键字) 、 ( 提供文档 基础u r l ) 等标记。 3 h t 肌文件主体标记 格式: 功能:文件主体标记。 位于头部标记之后,定义了网页上显示的主要内容和显示格式,是整个 网页的编辑主体和核心部分,制作网页的主要工作将在这里完成。 需要注意的是, 与 为独立的两个部分,不能互相嵌套。 2 1 4 字符的格式化 字符的格式化,包括字体大小、类型、粗细、颜色等的设置。 1 字体设置标记 格式: 功能:设置字体格式标记。 标记提供了几种属性,使用它们可以很容易地设置字体的大小、 颜色、字型等,如下表2 一l 所示。 表2 - 1 属性值 标记属性功能 s 1 z e = s l z e 设置文字的大小 f a c e = f o n t s t y l e设置字体 c o l o r = c o l o r v a l u e 设置文字的颜色 s i z e 表示字体的大小,数字的范围为0 7 。f a c e 用来设置字体,如宋体、 黑体、隶书等。c o l o r v a l u e 设置字符的颜色。 2 其它标记 还有一些标记可以用来改变字体的效果,标记形式如表2 2 所示。 表2 - 2 字体其它标记 其它标记格式功能 给字符加下划线 给字符上加横线,表示删除 给字符加粗 将字符设置成斜体 标记使得其中的文字产生闪烁的效果 2 1 5 建立表格 1 7 创建表格是规划页面最常用的方法。 格式: 创建表格进行页面设计。 在浏览器中显示时,表格的整体外观由 标记的属性决定,主要属 性如表2 - 3 所示。 表2 3 属性值 标记属性功能 b o r d e r = s i z e设置表格边框大小 w i d t h = s i z e设置表格的宽度 h e i g h t = s i z e设置表格的高度 c e l l s p a c i n g = s i z e设置单元格间距 c e l l p a d d i n g = s i z e设置单元格的填充距 b a c k g r o u n d = u r l设置表格背景图片 b g c o l o r = c o l o r v a l u e设置表格背景色 a l i g n = a l i g n s t y l e设置对齐方式 c o l s = s i z e 设置表格的列数 2 1 6 定制表格 使用 只是定义空表格,还需要定义行和单元格。 1 行定义 格式: 功能:定义表格的一行。 对于每一行,可以定义行属性,主要属性如表2 4 所示。 1 8 表2 4 中 行的属性 标记属性功能 b g c o l o r = c o o r v a l u e设置行背景颜色 a l i g n = a l i g n s t y l e设置行对齐方式 v a l i g n = v a l i g n s t y l e设置单元格垂直对齐方式 2 单元格定义 格式: 功能:定义表格的一个标题单元格。 对于每一个单元格,主要属性如表2 - 5 所示。 表2 - 5 中 单元格的属性 标记属性 功能 b g c o l o r = c o l o r v a l u e设置单元格背景颜色 r o w s p a n = n u m 设置单元格所占的行数 c o l s p a n = n u m设置单元格所占的列数 s l i g n = a l i g n s t y l e设置对齐方式 v a l i g n = v a l i g n s t y l e设置单元格垂直对齐方式 w i d t h = s i z e设置单元格宽度 h e i g h t = s i z e设置单元格高度 对于一个表格,可以用它的标题来说明表格的基本信息。通过下列标记 来实现。 格式: 功能:定义表格说明,通过属性a l i g n 设置标题的对齐方式。 2 2x m l 技术 1 9 2 2 1x m l 技术简介 h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本链接标记语言) 作为i n t e r n e t 上传统的描述语言,取得的巨大成功有目共睹。但随着网络应用的深入其局 限性逐渐显现,如难以扩展、缺乏交互性、缺乏语义性定义等等。人们需要 一种能够结构化地表示信息并支持网络跨平台应用和数据交换的标准网络语 言,来满足各种应用和通信的需要。可扩展标记语言( e x t e n s i b l em a r k u p l a n g u a g e ,简称) ( m l ) 正是在这样的背景下诞生的。 1 9 9 8 年2 月,w 3 c 协会正式推出了x m l ,这是一种可以用来创建标记语言的 元语言,是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个精简子集, 它保留了s g m l 的一些特点,并克服了h t m l 的局限性。相对于h t m l ,x m l 主要有 如下特点: x m l 具有可扩展性。h t m l 是一个具有固定标记集的面向数据显示样式的特 定标记语言,而x m l 的最大特点是允许用户根据需要创建自己的标记。创建标 记的范围涉及数据的结构、数据的语义约束条件、数据的内容、数据显示样 式、甚至数据的操作等方面,这个特点使得x m l 突破了h t m l 仅能描述数据显示 样式的局限,具有良好的结构和约束。 x m l 提供了一种灵活的数据描述方式。x m l 支持数据模式、数据内容、数 据显示方式三者的分离,符合内容与形式分离这一规律。从而使得依赖于数 据显示方法的用户界面、数据的使用、数据的定义相分离,使得同一数据内 容在不同终端设备上个性化表现成为可能,在数据描述方式上更加灵活。 x m l 具有自描述性。x m l 文档通常由文档模式描述文件和实例文件组成, 前者用于描述x m l 实例文件所能使用的标记、标记的结构、标记的含义等,而 x m l 实例文件则使用这些预定义的标记描述数据,所以x m l 具有自描述性。 x m l 简单易于处理。从数据处理的角度看,x m l 足够简单易于阅读,又易 于被应用程序处理。 综上所述,x m l 的优点在于采用简单、柔性的标准化格式表达数据和在应 用程序间交换数据;x m l 的强大之处在于将用户界面和结构化数据相分离,允 许不同来源的数据无缝集成以及对同一数据的多种处理。上述优点和特点, 使得x m l 可以为结构化数据、半结构化数据、关系数据库、对象数据库等多种 数据源的数据内容加入标记,适于作为一种统一的数据描述工具,扮演异构 应用间的数据交换载体或多源异构数据集成的全局模式角色。事实上,诸如 w e bs e r v i c e s ( w e b 服务) 、s e m a n t i cw e b ( 语义网络) 等多种新的i n t e r n e t 协 议都是基于x m l 建立的,x m l 己经成为i n t e r n e t 环境下数据表示的事实标准。 2 2 2 ) a 几语法 x m l 文档的基本结构由序言部分和一个根元素组成。序言包括了x m l 声明和d t d ( 或者是x m l s c h e m a ) ,d t d ( d o c u m e n tt y p ed e f i n e ,文档定义 类型) 和x 札s c h e m a 都是用来描述) 【m l 文档结构的,也就是描述元素和属 性是如何联一起的。 一个x m l 文档中有且仅有一个根元素,其他所有的元素都是它的子元 素。一个x m l 文档首先应当是“格式良好的( w e l l f o r m e d ) ”,“格式良好 的”x m l 文档除了要满足根唯一的特性之外,还包括: ( 1 ) 起始标签和结束标签应当匹配:结束标签是必不可少的; ( 2 ) 大小写应一致:x m l 对字母的大小写是敏感的,如 和 e m p l o y e e ) 是完全不同的两个标签,所以结束标签在匹配时一定要注意大 小写一致: ( 3 ) 元素应当正确嵌套:子元素应当完全包括在父辈元素中,下面的 例子就是嵌套错误: 正确的嵌套方式如下: ( 吣 ( 4 ) 属性必须包括在引号中; ( 5 ) 元素中的属性是不允许重复的。x m l 文档的“有效性”是指一个x m l 文档应当遵守d t d 文件或s c h e m a 的规定,“有效的”x m l 文档肯定是“格 式良好的”。 2 l 2 2 3 几d t d ) ( m l 文档是一种结构化的标记文档。创建x m l 文档之前,首先要确立其 元素和结构,再根据结构的定义,填入实际的内容,形成一个x m l 文档。 当x m l 文档在表示某个事物时,由于作者的不同,所采用的标记名称就可 能不同,甚至连文档结构也不同,这就给计算机处理带来了问题。为此, x m l 提供了一种机制一一文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ,d r r d ) , 并将其作为规范来对x m l 文档的编写加以限制。 d t d 是一套关于标记的语法规则,说明了在x m l 文档中可以使用哪些标 记,哪些标记具有属性,以及所使用的标记出现的顺序是什么。 1 d t d 元素 在有效的x m l 文档中,元素是核心。因此,必须在d t d 中显式地声明 文档中使用的每一种元素类型。元素类型声明指出元素类型的名称以及该 元素所允许拥有的内容。元素类型的声明格式如下:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论