




已阅读5页,还剩86页未读, 继续免费阅读
(计算机应用技术专业论文)基于xml的演示文稿文档格式转换技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文主要探讨基于x m l 的演示文稿文档格式转换技术。演示文稿在日常工作 交流等方面发挥着重要作用,通常与文字处理、电子表格一起作为办公软件的重 要组成部分。但办公文档格式多样化、文档格式间不兼容的现状给用户交换和共 享文档数据带来了很大的不便。“标文通 u o f ( u n i f o r mo f f i c ef o r m a t ) 是中国 标准文档格式,o d f ( o p e nd o c u m e n tf o r m a t ) 与o o x m i ( o f f i c eo p e nx m l ) 是办公 文档格式国际标准。o o x m l 文档格式由m i c r o s o f to f f i c e2 0 0 7 采用,拥有很大的 用户群。实现u o f 演示文稿文档格式与o o x m l 演示文稿文档格式的相互转换有极 大的用户需求。 该课题研究了基于x m l 的结构化文档格式转换方法,考虑演示文稿文档u o f 格式与o o x m l 格式的特点,最终确定采用以x s l t 转换为主、辅以d o m 解析的转换 方法。首先整体分析研究u o f 文档格式与o o x m l 文档格式的异同点,提出并建立 了演示文稿文档模型。通过该文档模型,统一了文档内基本元素的描述,进一步 分析了二者功能及结构上的差异,建立了u o f 格式与o o x m l 格式演示文稿的结构 映射关系。在此基础上,提出了u o f 与o o x m l 格式演示文稿文档的转换的基本思 路和框架。结合x s l t 自身的特点,通过预处理、主转换、后继处理等操作最终实 现了二者的相互转换,内容涉及母版、版式、幻灯片中的段落、图形、图像等静 态数据,以及幻灯片切换、对象动画等动态数据。 该课题对文档信息的共享和“标文通 国家标准的推广实施有重要意义。 关键词标文通;o o x m l :演示文稿;办公文档格式;x m l :x s l t a b s t r a c t a b s t r a c t t h ep a p e rd i s c u s s e st h et r a n s f o r m a t i o no fx m l b a s e dp r e s e n t a t i o nd o c u m e n t f o r m a t s a sw i d e l yu s e di nc o m m u n i c a t i o n ,p r e s e n t a t i o nt o g e t h e rw i t hw o r d p r o c e s s i n g a n ds p r e a d s h e e t p r o c e s s i n g ,h a v eb e c o m ei m p o r t a n tp a r t so fa no f f i c es o f t w a r e h o w e v e r , i n f o r m a t i o ne x c h a n g ea n ds h a r i n gi no f f i c ed o c u m e n t sa r eb yn om e a n se a s yd u et o i n c o m p a t i b i l i t yo fd i f f e r e n tf o r m a t s a m o n gt h em o s tp o p u l a rf o r m a t s ,u n i f o r mo f f i c e f o r m a t ( u o f ) i st h ec h i n e s en a t i o n a ls t a n d a r df o ro f f i c eu s e dd o c u m e n tf o r m a t ,o p e n d o c u m e n tf o r m a t ( o d f ) i st h ei n t e r n a t i o n a ls t a n d a r d ,w h e r e a st h ei n t e r n a t i o n a ls t a n d a r d o f f i c eo p e nx m lf o r m a t ( o o x m l ) i ss t r o n g l ys u p p o r t e db ym i c r o s o f to f f i c e2 0 0 7 a n dh a sl a r g en u m b e ro fu s e r s 。m a k i n gt h ed o c u m e n t st r a n s f o r m a b l eb e t w e e nu o fa n d o o x m lf o r m a t s ,p a r t i c u l a r l yt h ep r e s e n t a t i o n d o c u m e n t s ,i st h u sad e m a n d i n g r e q u i r e m e n t t h i s r e s e a r c hm a d eas t u d yo ft h ex m lr e l a t e dt r a n s f o r m a t i o n t e c h n o l o g y a c c o r d i n gt ot h es p e c i a l f e a t u r e si nt h eu o fa n do o x m l p r e s e n t a t i o nd o c u m e n t f o r m a t s ,x s l ti sc h o s e na st h em a j o rt e c h n i q u et op e r f o r mt h em a j o rt r a n s f o r m a t i o n s u p p l e m e n t e db yx m ld o mp r o g r a m m i n g f i r s t ,t h es i m i l a r i t i e sa n dd i f f e r e n c e s b e t w e e nu o fa n do o x m lp r e s e n t a t i o nd o c u m e n tf o r m a t sw e r ea n a l y s e d ,am o d e lw a s p r o p o s e dt or e p r e s e n tp r e s e n t a t i o nd o c u m e n ts t r u c t u r e ,w h i c h p r o v i d e st h ec o m m o n k n o w l e d g et oe x p r e s st h ef o u n d a m e n t a le l e m e n t si nt h et w of o r m a t sa n dt oi n v e s t i g a t e t h ec o r r e l a t i o n sb e t w e e nt h e me i t h e ri nt h e i rs t r u c t u r eo ri nt h e i rf u n c t i o n s a t r a n s f o r m a t i o nf r a m e w o r kw a st h e nb u i l tu p ,i tt a k e st h r e es t e p s ,i e ,p r e p r o c e s s i n g , m a i nt r a n s f o r m a t i o na n d p o s t p r o c e s s i n g f i n a l l y a nu o f o o x m lt r a n s l a t o rf o r p r e s e n t a t i o nd o c u m e n t sw a sd e v e l o p e dw h i c hi sc a p a b l et od ot h eb i - d i r e c t i o n a l t r a n s f o r m a t i o no fb o t hs t a t i ca n dd y n a m i cc o n t e n t s ,e g ,p a r a g r a g h sa n dg r a p h i c s ,s l i d e s w i c h i n ga n da n i m a t i o n ,e t c t h er e s e a r c hr e s u l tc o u l db ev e r yh e l pf u lt ot h ee x c h a n g ea n ds h a r i n go fi n f o r m a t i o n a n dt ot h ew i d e l ya d o p t i o no fu o fs t a n d a r d 1 正yw o r d su o f ,o f f i c eo p e nx m l ,p r e s e n t a t i o n ,o f f i c ed o c u m e n tf o r m a t ,x m l , x s l t i i 学位论文版权使用授权书 本人完全了解北京信息科技大学关于收集、保存、使用学位论文的 规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子 版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本 学位论文全文或者部分的阅览服务;学校有权按有关规定向中国科学技 术信息研究所等国家有关部门或者机构送交论文的复印件和电子版;在 不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用 于学术活动。 学位论文作者签名:右眷a 然 0 7 年o ,月,6 日 经指导教师同意,本学位论文属于保密,在年解密后适用本授 权书。( 注:论文属公开论文的,作者及导师本处不签字) 指导教师签名:学位论文作者签名: 年月 日年 月 日 硕士学位论文原创性声明 本人郑重声明:所呈交的论文题目为基于x m l 的演示文稿文档格 式转换技术研究学位论文,是本人在导师指导下,进行研究工作所取 得的成果。尽我所知,除文中已经注明引用的内容外,本学位论文的研 究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的 内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在 文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。 作者签字:精舞a 嬖、 0 0 7 年o1 月“日 第一章引言 第一章引言 1 1 演示文稿的发展历史 人们在进行工作汇报、教学或者同常交流的过程中,向听众简述报告内容、 传达信息或观点时,可借助多种图形辅助技术,如手册、讲义、黑板、活动挂 图、海报、字幕片、幻灯片等,其中以幻灯片方式最为常见。此外,许多多媒体 处理程序也包含演示功能,以幻灯片放映的形式展示多媒体元素。 作为一种介绍程序,演示文稿应用软件可以创建由文字组合、图片、电影以 及其它事物组成的幻灯片。幻灯片演讲者控制放映过程,可以在计算机屏幕上直 接显示,或使用放映机或投影仪投射到屏幕上。 最早的演示文稿图形软件运行在计算机工作站上,如g e n i g r a p h i c s 、 a u t o g r a p h i x 、d i c o m e d 2 】等。相对于传统的打印张贴方式,演示文稿图形软件的出 现使得展示内容可以即时改变,但需要专业化的操作员,耗资巨大,仅工作站运 转就需花费$ 5 0 ,0 0 0 到$ 2 0 0 ,0 0 0 ( 19 7 9 年) 【。 1 9 7 9 年,h e w l e t tp a c k a r d 生产了第一个所见即所得的( w y s i w y g ) 的演示 文稿处理软件b r u n o ( 即后来的h p d r a w ) 。2 0 世纪8 0 年中期个人电脑的发展 改变了演示文稿的创建方式,个人电脑用户可以通过专门的应用程序创建专业化 视图的演示文稿图形3 5 m m 的幻灯片页面,并通过幻灯片投影仪展示给观众。 1 9 8 2 年,出现了第一个显示在个人电脑屏幕上的演示文稿软件v c n e x e c u v i s i o n 3 , 4 】,借助该软件,用户可以根据根据展示的文字信息从图片库中选取 相匹配的元素。随着演示文稿应用程序的普及,8 0 年代后期,部分厂家丌始支持 硬盘存储器上幻灯片的显示、创建及打印。9 0 年代,视频投影仪丌始大范围应 用。 演示文稿处理早期作为独立工具出现,例如a l d u s 公司的p e r s u a s i o n 引、c a 公 司的c a c r i c k e tp r e s e n t s 6 7 1 、a p p l e 公司的k e y n o t e s 引,之后逐步成为办公软件的 重要组成部分。例如,m i c r o s o f to f f i c ep o w e r p o i n t 、o p e n o f f i c ei m p r e s s 等等。演 示文稿的内容从静态文字和图形,逐步发展到高度交互的多媒体形式。今天,演 示文稿的展现已经与多媒体的表现融为一体。例如,m i c r o s o f to f f i c ep o w e rp o i n t e r 可以与流媒体同步集成,o p e n o f f i c ei m p r e s s 可以将演示文稿输 n 成s w f 和p d f 等形式。 演示文稿处理通过图文并茂的方式为观众讲解或展示主题内容,在科技、文 教和商j j k 等领域得到广泛应用1 。伴随社会的发展,演示文稿处理软件在多样化、 第一章引言 集成化、平台化的同时呈现出网络化的念势。w e b 2 0 技术h 益广泛的应用使得用 户对在线办公的需求越来越强烈,加之面临越来越多办公软件升级及盗版l u j 题, o f f i c e 2 0 ,即近来兴起的o f f i c eo n l i n e 开始渐渐发挥其优势,如在线的演示文稿 应用程序有t h i n k f r e ev i e w e r 、s 5 、s p r e s e n t 掣9 1 。在线办公软件较多采用 x h t m l 、c s s 、j a v a s c r i p t 等技术展现文档。通过网络服务,用户可以实现对文档 的合作与共享,而不受其操作系统类型的限制。 由于在线办公软件刚刚兴起,尚面临着诸如网络安全问题、细节化操作等问 题,因此主要用户仍是面向个人的,真正得到政府部门认可估计仍需很长时间。 目前应用最为广泛的仍是本地化的办公软件。 1 2 办公文档格式 目前,演示文稿通常与文字处理、电子表格处理一起作为办公软件的重要组 成部分。办公软件文档格式是办公软件所处理文档的格式记录形式,一般体现着 办公软件的功能,不同格式之问差异巨大。 1 2 1 二进制文档格式 早期大部分办公文档采用二进制格式,文档的表示形式与其创建程序结合紧 密,一般不对外公开,例如m i c r o s o f to f f i c e 自9 7 版至2 0 0 3 版未公布其格式细 节。 这在以纸质文档为信息载体的早期办公系统中是可以接受的,但随着互联网 技术的发展、办公软件复杂度的提高以及其它人为因素,不同的办公软件之问文 档交换呈现的问题日渐突出,办公软件采用私有格式带来了很多问题,诸如:格 式信息不完整、文档依赖软件厂商的产品、扩展性差、互操作性差、文件尺寸庞 大等。另外,若干年后读取这些办公软件厂商所特有的格式文件时,很难保证不 会有明显的损失,文档的安全性无法保证。 1 2 2x m l 文档格式 技术的发展以及市场的多样化等冈素对文档结构提出了新的要求。办公文档 要想长期保留,应该尽量做到与平台环境无关、与应用软件无关。即使将来文档 生成系统完全被淘汰,仍能从纸而文件或电子文本中精确理解文档的内容,这要 求1 ) 文档最好是纯文本格式记录的;2 ) 文档巾的标汜是易于理解的。 2 第一章引言 x m l ( e x t e n s i b l e m a r k u pl a n g u a g e ) 是一种业界广为认同的臀标语言标准【l 0 1 。 x m l 文档以纯文本格式记录,文档中的标记可扩展、易于理解,符合办公文档长 期存储的要求。 目前,标准化的信息技术已经成为社会的基础设施,而开放的x m l 文档格式 j 下在被越来越多的个人用户及政府机关接受。顺应市场的需求,办公软件文档格 式丌始遵循丌放标准。通过制定统一的、x m l 描述的文档格式标准,文档格式不 再由个别软件开发商私有,各种软件系统可以采用一致的语言对文档进行描述, 以实现不同版本、不同厂商、不同平台之间文档格式的互通,确保文档在不同系 统间更加有效、自由地实现互操作,改善系统的开放性【l 。 1 3 办公文档格式标准现状 目f j 采用x m l 语言描述的开放文档格式有:国际标准化组织( i s o ) 和国际 电工委员会( i e c ) 于2 0 0 6 年批准的办公文档格式国际标准o d f ( o p e nd o c u m e n t f o r m a tf o ro f f i c ea p p l i c a t i o n s ,o p e n o f f i c e o r g 采用) 【圮l 、2 0 0 8 年4 月正式批准的办 公文档格式国际标准o o x m l ( o f f i c eo p e nx m l ) 文档格式【门】、中国的统一办公 文档格式u o f l l 6 】( u n i f o r mo 伍c e d o c u m e n tf o r m a t ,金山w p s 1 4 】、永中集成 o f f i c e2 0 0 7 1 1 5 1 等支持) 等。这些文档格式均包括文字处理、电子表格处理和演示文 稿处理等主要部分的描述。 1 3 1o d f 文档格式 办公应用程序开放文档格式o d f 于2 0 0 6 年5 月成为国际标准( 即i s o i e c 2 6 3 0 0 2 0 0 6 ) ,是基于x m l 的文档格式,主要用来存储和转换可编辑的办公文 档,支持文字处理、电子表格、演示文稿、制表制图和图形编辑等办公软件应 用。o d f 目前由结构化信息标准促进组织( 即o a s i s ) 负责维护。 o d f 逐渐得到了越来越多软件厂商的支持,如c o r e l 、i b m 、o p e r a 、o r a c l e 、 r e dh a t 公司等,现有的基于o d f 开发的应用软件有o p e n o f f i c e o r g2 0 t 1 7 】、s u n s t a r t o f f i c e8 f 18 1 、i b mw o r k p l a c em a n a g e dc l i e n tp r o d u c t i v i t yt o o l s 、k o f f i c e l l 9 j 以及 国内红旗中文贰仟的r e d o f f i c e 3 0 等。 o d f 中定义了一个x m l 结构,为文档编辑提供了高层信息,并适合用x s l t 等工具进行格式转换。 除具有一般基于x m l 的文档格式的特点外,o d f 还具有如下特点: 1 ) o d f 公布时w 3 cs c h e m a 还未制定,采用i s o 认可的r e l a xn g ( 实际较 3 第一章引言 少使用) 。 2 ) 支持两种存储格式:单文档和多文档。 3 ) 所有应用都使用同样的文档和子文档定义方式,文档类型在压缩包中 m i m e t y p e 子文档中定义。 1 3 2o o x m l 文档格式 2 0 0 5 年1 2 月1 5 日,微软公司将o o x m l 提交给欧洲计算机制造商协会 ( e c m a ) ,2 0 0 6 年1 2 月7 日o o x m l 被批准成为e c m a 标准( 即e c m a 3 7 6 ) 。2 0 0 7 年1 月5 日,e c m a 将o o x m l 提交给i s o i e cj t c l ,经由快速通 道,最终于2 0 0 8 年4 月1 同成为i s o i e c 国际标准。 o o x m l 文档格式规范基于x m l 语言和z i p 开放打包结构,最初由微软公司 定义。该格式继承并扩展了以往文件格式的功能,通过采用压缩技术减小了文件 尺寸,增强了文档数据管理能力、文档数据恢复能力以及与其它应用程序的互操 作能力。不同于以往微软的专有格式,o o x m l 格式是开放、免授权的【2 0 1 ,任何 支持z i p 和x m l 的应用程序都可以查看和处理采用o o x m l 格式的文档数据。微 软办公软件产品o 陌c e2 0 0 7 将其作为的默认文档格式。o o x m l 文档格式在i s o 标准化过程中有所改动,o f f i c e2 0 0 7 在某些方面已不再符合当日矿版本的i s o i e c 2 9 5 0 0 标准。尽管如此,o o x m l 基本覆盖了o f f i c e 2 0 0 7 的主要办公应用,如字处 理软件( 即w o r d ) 的w o r d p r o c e s s i n g m l 、电子表格处理软件( 即e x c e l ) 的 s p r e a d s h e e t m l 、演示文稿软件( 即p o w e r p o i n t ) 的p r e s e n t a t i o n m l 等,分别通过 x m l 对其描述并加以扩展,增加了矢量图形( v m l 和d r a w i n g m l ) 等、文件属 性、参考资料、数学元素、自定义x m l 数据属性等的支持包。 o o x m l 规范包括正式的内容( n o r m a t i v em a t e r i a l ) 和非正式的内容 ( i n f o r m a t i v em a t e r i a l ) 。前者主要包括对o o x m l 的定义,后者主要包括说明性 的内容。 o o x m l 定义过程中,文档对应文档容器,每一个文档容器由多个部件组成, 每个部件描述了文档的不同部分【2 1 1 ,除了少数代表图形的二进制文件或内嵌o l e 对象,大多数部件采用x m l 文件形式,这些部件相互之问通过关系部件协同工 作。 除了具有一般基于x m l 的文档格式的特点外,o o x m l 文档格式还有如下特 点: 1 ) 良好的向后兼容性和向日仃兼容性。 2 ) 从z i p 压缩包中u 【i 丁以只读取需要的内容,无需打丌整个文档,操作便捷。 4 第一章引言 3 ) 采用w 3 cs c h e m a 或r e l a xn g 进行数据定义。 4 ) 将包含宏代码的文档与普通文档通过不同的扩展名加以区分,方便用户识 别,加大了文档的安全性。 5 ) 文档内容在压缩包中进行分类、单独存储,增强了数据恢复能力。 6 ) 提供了在文档格式中支持用户自定义数据的能力。 1 3 3u o f 文档格式 “标文通”是我国推荐性国家标准( g b t 2 0 9 1 6 2 0 0 7 ) ,全称中文办公软件 文档格式规范,英文简称u o f ( u n i f o r mo f f i c e d o c u m e n tf o r m a t ) 1 1 6 】。它是以 中文办公软件需求为出发点,在分析、借鉴国际相关标准的基础上,结合我幽困 情,从实际应用出发,制定出的针对文字处理文档、电子表格和演示文稿三种主 要文档格式的描述体系。 u o f 包括三个组成部分:以x m l 文档类型定义语言定义的文档格式标准、文 档物理存储的打包格式和支持文档格式标准定义的规范性附录6 。其中,u o f 文 档格式标准采用了w 3 cx m ls c h e m a 作为描述语言,定义了基于x m l 置标语言 的中文办公文档格式规范,目前主要描述了办公文档的文字处理、电子表格和演 示文稿三个部分【2 2 1 。该规范作为中文办公软件文档格式和存储格式的定义,支持 不同的中文办公软件之间的兼容和文档互换。u o f 符合中国用户的应用习惯,文 档的使用不再受制于办公软件,因而有利于打破少数厂商对办公软件市场的垄断 】,对于保障各类政府电子公文和办公文档的长期有效性、促进电子政务各项应 用与中文办公软件的集成具有重要意义,奠定了办公软件文档信息交换的基础 2 3 1 o 除了具有一般基于x m l 的文档格式的特点外,u o f 还有如下特点: 1 ) 基于中文办公软件功能需求,充分反映中文办公软件的特点【2 4 1 。 2 ) 采用w 3 cs c h e m a 进行数据定义。 3 ) 采用正式的国家标准、圈际标准或行业规范或采用成熟的丌放标准。如将 s v g 作为统一图形描述规范,m a t h m l 作为数学公式描述规范,等等。 4 ) 采用中文置标,支持多语言置标版本【2 5 1 。 5 ) 具有独立、完整、开放和呵扩展的文档描述体系架构,便于用户扩展。 6 ) 可以嵌入用户数据。通过u o f 元素与用户x m l 实例元素的对应,可以方 便地从u o f 文档中提取用户数据,或将用户数据导入到u o f 文档中。 7 ) 文档标准体系架构支持模块的可重用件,减少文档描述的冗余,保证文档 简洁易用。 气 第一章引言 1 4 课题背景与意义 制定文档格式标准的目标在于统一文档格式,然而办公文档格式形成了多个 标准共存、标准间互不兼容的现状。为了改善此状况,试图以单一的格式标准解 决文档之问互通问题是不现实的,因为应不用市场的需求,三个文档格式标准制 定之初有不同的侧重点,短时问内不可能实现三种标准的融合;在三者共存的现 状下,通过文档格式转换实现三者之间的互通可以促进文档格式的全面兼容。 为实现u o f 与o o x m l 文档格式的互通,2 0 0 7 年由微软出资并提供一定的技 术支持,启动了开源项目u o ft r a n s l a t o r ,旨在通过开发u o f o o x m l 转换器, 将其作为m i c r o s o f to f f i c e 软件的u o f 插件,或独立存在的转换器软件,实现 u o f 与o o x m l 格式的相互转换。本文主要针对演示文稿文档部分进行处理。 目前,u o f 与o d f 、o d f 与o o x m l 之间演示文稿部分已经借助转换器实现 了互通。另外,微软的办公软件m i c r o s o f to f f i c ep o w e r p o i n t 可以实现早期二进制 格式木p p t 文档( m i c r o s o f to f f i c ep o w e r p o i n t2 0 0 0 2 0 0 3 x p 的默认存储形式) 与基 于o o x m l 格式的木p p t x 文档( m i c r o s o f to f f i c ep o w e r p o i n t2 0 0 7 的默认存储形 式) 之间的兼容;国内支持u o f 的主要办公软件通过将文档存储为宰u o f 类型,基 本实现了自身文档存储格式与u o f 之问的兼容,如永中集成o f f i c e 的木e i o 类型的 文件等可以实现与宰u o f 文件之间的相互转存。实现u o f 与o o x m l 演示文稿部分 的相互转换,将有助于进一步推动办公文档格式的互通瓦融。目前,演示文稿处 理部分各文档格式互通状况如图1 1 : 图1 1 部分演示文稿文档格式间互通图示 本项研究的意义在于,通过u o f 与o o x m l 演示文稿文档格式的转换,促进 u o f 与o o x m l 文档格式的互联瓦通。用户不但可以使过去保存的微软二进制文 档或o o x m l 文档以符合国家标准的文档形式保留下来,不必担心由于办公软件 的更替而带来的文件信息丢失或无法打开等问题;同时,国内办公文档格式町以 通过u o f 格式与o o x m l 格式实现文档格式互换,这也解决了困内办公软件文档 格式与o o x m l 格式之间的转换问题。 6 第:章国内外研究现状及发展动态 第二章国内外研究现状及发展动态 2 1 办公文档格式标准之间的已有转换成果 目前,u o f 、o d f 与o o x m l 三个办公文档格式间已实现的相互转换有: u o f o d f :u o f o d f 文档格式转换器足第一个开放办公文档格式之间的转换 器,由i b m 与北京大学合作开发的开源项目,1 o 版本于2 0 0 6 年1 1 月发布,用于 实现u o f 与o d f 标准文档格式字处理部分的双向转换【26 1 。 o d f o o x m l - o d f o o x m l 转换器项目是由微软与n o v e l l 等合作丌发的开 源项目,包括2 0 0 7 年2 月发布的o d f a d d i n f o r w o r d 、2 0 0 7 年5 月发布的o d f a d d i nf o rp o w e r p o i n t 和o d fa d d i nf o re x c e l ,成果形式为m i c r o s o f to f f i c e 插件, 支持o d f 和o o x m l 之间的转换【2 7 】;n o v e l l 开发了o p e n o f f i c e o r g 上支持 o o x m l 的插件。 u o f o o x m l :u o ft r a n s l a t o rf o rw o r d 是微软与北京航空航天大学、北京信 息工程学院、清华大学、联想立泰等合作开发的丌源项目,为m i c r o s o f tw o r d 提 供可以与u o f 字处理相互转换的插件【2 8 】。 以下几节分别介绍这些转换器的实现思路及相关技术。 2 1 1u o f - o d f 文档格式转换 u o f o d f 转换器的目标是实现国家标准u o f 和困际标准o d f 文档格式之间 的双向转换。此转换器主要采用i a v a 语言中对x m l 文档按s a x 方式进行处理, 通过多轮s a x 解析实现文档格式的转换f 2 9 , 3 0 】。 以o d f - - ) u o f 方向的转换为例,解析过程中将格式元素分为可直接转换、可 问接转换、不可转换三类,针对不同类型元素做不同处理;第一类元素卣接转 换,第二类元素通过几轮解析获得必要信息进行转换,第三类元素写入扩展区。 o d f - - ) u o f 转换时,c o n v e r t e r 类 j 【 次调用转换h a n d l e r 进行文档格式解析。 第一步,c o n v e r t e r 类调用f i r s tc o n v h a n d l e r 对s o u r c ef i l e 文件解析,提取第二步 解析所需的信息,存储到s t o r e dd a t a ;第二步,c o n v e r t e r 类调用 s e c o n dc o n v h a n d l e r 对s o u r c ef i l e 文件解析,对可直接转换的第一类元素进行直 接转换,同时结合s t o r e dd a t a 中的信息对可间接转换的第二类元素进行转换,结 果写入t e m p x m l ;第三步,c o n v e r t e r 类调用t h i r dc o n v h a n d l e r 对s o u r c ef i l e 文 件解析,将不可转换的第三类元素写入t e m p x m l 扩展区;第四步,c o n v e r t e r 类调 7 第:章国内外研现状及发展动态 用t h i r dc o n v h a n d l e r ,为t m n px m l 文件补充其他必要元索或属性。见图2l 。 震翟雹蜀 ,暖莲嚣图盈一, 7 。叠囝 墨墨墨墨曩 墨墨墨墨 墨雹墨墨卜一墨 图210 d f u o f 转换结构凹示 2i2o d f - o o x u l 文档格式转换 2 0 0 6 年1 0 月, r 源项目o d f a d d i n f o r - w o r d 2 0 0 7 1 2 。i 推出了测试版,其主要 功能是帮助微软o f f i c e 2 0 0 7 用户打丌o d f 格式文档,或将w o r d 文档另存为 o d f 格式。并推出后继转换o d f a d d i n f o v e x c d 2 0 0 7 、o d f a d d i n f o r - p o w e r p o i n t 2 0 0 7 。该转换器实现了o d f 与o o x m l 文档之间的格式转换。 以o d f a d d i n f o v w o r d 2 0 0 7 为例进行介绍,其整体结构如图22 所示。 厂 1 j 墨_ 薹匿 坶l b , m h - l 目22o d fa d d i nf o rw o r d2 0 0 7 秘体结构图不 o d f 转换器的是个四层体系结构。z l i b 部件提供了z i p 包基本的读写功 能。o d fz i pu t i l s 部件提供了更高层次的处理z i p 包文件的a p i ,并月提供了打 包x m l 片段和外部二进制数据的方法。o d fc o n v e r t e rl i b r a r y 部什是转换器的核 ,t l , 部件,实现ro d f 的x m l 立件流剑o o x m l 的x m l 空件流的转换,这种转 换需要在x s l 转换前后分别做预处理和后继处理。馥部件山一系列x s l t 转换式 样- 单构成,实现了符俞o d f 或o o x m l 格式的文档之问元素及属性的映射转换。 8 翌 第:章国内外研究现状及发展动态 o d fw o r d 2 0 0 7a d d i n 组件为o d f 转换器提供了用户接u ,在微软o f f i c e 菜单中 添加转换相关的菜单和对话框。o d fc o n v e r t e rt e s t 组件提供了转换o d f 文件和验 证结果x m l 文件有效性的命令行。o d fw o r d2 0 0 7s e t u p 组件实现了o d fa d d i n f o rw o r d2 0 0 7 插件的安装。 2 1 3u o f - o o x m l 文档格式转换 u o ft r a n s l a t o rf o rw o r d 是微软与北京航空航天大学、北京信息工程学院等合 作开发的开源项目,用于u o f 与o o x m l 字处理文档格式的转换,于2 0 0 8 年1 月正式发布。该项目为m i c r o s o f tw o r d 提供可以与u o f 相互转换的捅件【2 8 1 格式转 换器。其体系结构如下图2 3 所示。 二王 - 呐e x t 刚e r n 瞄a l c o m m o n l i b r a r i e s 图2 3u o ft r a n s l a t o rf o rw o r d 体系结构图示 外部类库层 外部类库由n e tf r a m e w o r k 2 0 和z l i b 组成。n e tf r a m e w o r k 2 0 提供基本的 软件开发框架类库,实现转换所需的x m l 文档读写和转换等操作。 z l i b 提供一系列丌源、跨平台的数据压缩和解压缩的函数,通过这些函数读写 z i p 压缩文档。 通用类库层 u o f z i pu t i l s 提供基于z l i b 库的一套a p i ,用来读写以z i p 格式存储的 o o x m l 文档。 u o fc o n v e r t e rl i b r a r y 提供执彳j :整个双向转换的转换类库,包括双向核心转 换,以及一些必要的预处理和后处理。 u o fa d d l nl i b r a r y 提供转换器插件形式的用户接口,包括转换进度对话框、 q 祧哪 叫哪 第二章困内外研究现状及发展动态 消息管理和转换的启动。 终端用户程序层 u o fw o r d x x xa d d i n 组件以插件形式为w o r d 2 0 0 7 或w o r d 2 0 0 3 添加转 换菜单,包括表示双向转换的“o p e nu o f 和“s a v ea su o f ”;并为通用层提供 向上的接口。此组件提供文件选择对话框允许用户选择一个或多个文件进行转 换, u o fc o m m a n dl i n et o o l s 组件提供转换器的命令行形式,通过输入一系列参 数控制转换的过程。 u o fs t a n d a l o n et r a n s l a t o r 组件提供一个独立的转换器不依赖于w o r d 直接对 u o f 或0 0 x m l 格式的文档进行转换;同时,组件还支持右键菜单形式的转换方 式。 启动程序层 u o fw o r d 2 0 0 7 2 0 0 3s e t u p 提供w o r d 2 0 0 7 2 0 0 3 插件转换器的安装程序。 2 2 其它相关转换成果 除2 1 节所列的几种文档格式转换器之外,相关的主要文档格式转换还有: 1 ) u o f x s l f 0 转换器1 川1 。 u o f 格式是描述了面向逻辑内容的文档格式信息,而x s l f o ( e x t e n s b i l e s t y l e s h e e tl a n g u a g ef o r m a t t i n go b j e c t s ) 1 3 2 1 定义了打印所需要页面信息。从u o f 向 x s l f o 转换是文档从逻辑内容描述转向页面显现描述的过程,转换的结果可以通 过f o p 文档排版软件转换成p d f 格式,形成最终用于排版或打印的文档。 如图2 4 所示,u o f 到x s l f o 的转换采用x s l t 式样单转换的方式实现。 图2 4u o f 专x s i 。一f 0 转换结构图示 首先分析比对面向逻辑内容的u o f 格式以及面向页而显现的x s l f o 格式, 找出u o f 格式信息在x s l f o 中对应的表述形式,建立两种格式的相互对应关 系。根据这种对应关系,通过一系列处理不同功能的式样巾对u o f 文档进行转 1 0 第:章国内外研究现状及发展动态 换,得到对应的x s l f o 文档。这些x s l f o 文档叮以通过f o p 处理器中转换为 p d f 格式,以验证转换的正确性。 2 ) h t m l 到w o r d 的转换1 3 3 】。通过d o m 解析h t m l 文档,生成w o r d m l 文 档,再转换为w o r d 文档,最终实现h t m l 到w o r d 的转换。 3 ) 微软公司的w o r d2 0 0 3x m lv i e w e r l 3 4 l 应用程序实现了w o r d m l 到h t m l 的转换。在w i n d o w s 平台上,该程序作为插件安装在i e 上之后,可通过启动 w o r d 2 h t m l x s l 式样单实现转换,用户可以直接在正浏览器上查看w o r d m l 文档。 4 ) z v e n o 公司设计使用x s l t 式样单完成了d o e b o o k ( 例如h t m l 和p d f ) 文档到w o r d m l 的转换【3 5 1 ,并开发了将d o c b o o k 幻灯片格式转换为k e y n o t e 演示 文稿格式的式样单【3 6 1 。 5 ) c a m b r i d g e d o c s 公司的w o r d m ld r i v e r 实现了w o r d 文档到x s l f o 格式 的转换。 6 ) 方正公司的方正思文文档采集工具中,p d f 2 x m l 可将p d f 文档拆版转换 为含有多篇文章、图像及关联属性的x m l 文档。 7 ) 方正公司在电子公文文档格式转换的研究及相应软件的丌发中,可将c e b 格式文件转换成x m l 文件。 8 ) u o f 分别与h t m l 、s m i l 之问的转换前不久也已有研究成果。 此外,w 3 的官方网站也列出了一些通过x s l t 实现转换的软件【3 7 】,参考这些 软件有助于本文的研究实现。 2 3 本章小结 本章主要研究了已有的文档转换成果,这些转换对文档格式的互融互通起到 了重大的推动作用,并为本文的研究提供了重要参考。分析u o f 、o d f 与 o o x m l 三种文档格式之间已有转换的现状可见,u o f 与o o x m l 演示文稿文档 的转换具有很大的必要性及现实意义。 下一章将对u o f 与o o x m l 演示文稿文档格式进行详细分析。 第二章u o f 与0 0 x m i ,演示文稿文档模犁 第三章u o f 与0 0 x m l 演示文稿文档模型 3 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手工地毯图案工岗位操作技能考核试卷及答案
- 汽车发动机再制造装调工三级安全教育(班组级)考核试卷及答案
- 虚拟会议演讲助手创新创业项目商业计划书
- 不同气候地区饲料定制创新创业项目商业计划书
- 智能家居控制中枢APP创新创业项目商业计划书
- 精准地理位置广告推送平台创新创业项目商业计划书
- 传染科医疗安全(不良)事件报告及管理制度培训考试试题(附答案)
- 医务人员手卫生规范消毒隔离技术规范试题及答案1
- 标本采集理论试题及答案
- 辽宁省点石联考2025-2026学年高二上学期9月月考历史试题
- 医院优先使用集采药品培训
- 低压电工复审课件
- 2025年山东高考思想政治试卷讲评及备考策略指导(课件)
- 井下巷道维修管理制度
- 台球厅消防安全管理制度
- 婴儿游泳馆卫生管理制度
- GA 68-2024警用防刺服
- FDA检查员指导手册
- 规划违建考试试题及答案
- TSG Q7015-2016起重机械定期检验规则
- 餐厅包场合同协议书范本
评论
0/150
提交评论