(机械电子工程专业论文)基于ppml的可变数字印刷文件解析及加网技术.pdf_第1页
(机械电子工程专业论文)基于ppml的可变数字印刷文件解析及加网技术.pdf_第2页
(机械电子工程专业论文)基于ppml的可变数字印刷文件解析及加网技术.pdf_第3页
(机械电子工程专业论文)基于ppml的可变数字印刷文件解析及加网技术.pdf_第4页
(机械电子工程专业论文)基于ppml的可变数字印刷文件解析及加网技术.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(机械电子工程专业论文)基于ppml的可变数字印刷文件解析及加网技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工业人学硕十学位论文 基于p p m l 的可变数字印刷文件解析及加网技术 摘要 可变数字印刷是一种个性化的按需印刷技术,它在账单印刷、发票印刷、商业印刷、 卡片印刷等很多领域发挥着重要作用。因此,积极参与该领域的研究工作,有助于形成 具有自主知识产权的数字印刷技术及设备,对我国印刷行业发展具有很好的推动作用。 目前国内外基于p p m l 可变数字印刷软硬件成本昂贵、扩展能力不足、兼容性不好, 不同灰度级的图像经过r i p 处理后容易丢失图像细节,产生图像畸变,针对这些问题, 本文通过对基于p p m l 可变数字印刷文件结构原理进行分析,提出了相应的文件解析算 法和数字半色调算法,设计开发了基于p p m l 可变数字印刷文件解析加网系统,实现了 可变数字印刷文件的解析,并能取得较好的半色调结果。本文的主要工作和成果如下: 1 研究了可变数字印刷技术原理,针对国内外基于p p m l 可变数字印刷技术存在 的不足,提出了改进的思路和研究的方法; 2 针对p p m l 文件及其源数据构成文件( 如p d f 、j p e g 、t i f f ) 提出了相应的文 件解析算法,实现了对可变数字印刷文件数据的解析。 3 在研究分析数字半色调技术的实现原理的基础上,对数字半色调的扫描路径和 量化阈值进行了分析和优化,提出了基于z 形自动阈值误差分散方法。 4 对提出的文件解析算法和数字加网算法编写相应的程序,完成了基于p p m l 可 变数字印刷文件解析加网系统的设计开发;通过相应的实验给出了p p m l 文件解析结果 和不同数字加网算法的半色调效果,并从客观上评价了各种半色调算法在图像再现质量 上的优劣。 5 最后,对全文进行总结,并对迸一步的研究提出一些展望。 关键词:可变数字印刷,p p m l ,光栅图像处理,数字半色调,误差扩散 浙江1 :业大学硕七学位论文 v r a r i a b l ed a t ap r i n t i n gf i l ea n a l y z i n g a n ds c r e e n i n gt e c h n o l o g yb a s eo np p m l a b s t r a c t v a r i a b l ed a t ap r i m i n gi sap e r s o n a l i z e do n d e m a n dp r i n t i n gt e c h n o l o g y ,i tp l a y sa n i m p o r t a n tr o l ei nb i l lp r i n t i n g ,i n v o i c ep r i n t i n g ,c o m m e r c i a lp r i m i n g ,c a r dp r i n t i n g ,e t c t h u s , a c t i v e l yr e s e a r c h i n gi t c a l lh e l pm a k i n gi n d e p e n d e n ti n t e l l e c t u a lp r o p e r t yr i g h t so fd i g i t a l p r i n t i n gt e c h n o l o g ya n dd e v e l o p i n gc h i n a sp r i n t i n gi n d u s t r y n o wd o m e s t i ca n di n t e r n a t i o n md e v i c e o fv a r i a b l ed a t ap r i n t i n gb a s eo np p m li s e x p e n s i v e ,l a c ko fs c a l a b i t i t ya n dn o tg o o di nc o m p a t i b i l i t y t h ed e t a i lo fd i f f e r e n tg r a yi m a g e i se a s i l yl o s ta f t e rr i p t h u s ,t h i sp a p e rp r o p o s e sc o r r e s p o n d i n gf i l ea n a l y z i n ga n dd i g i t a l h a l f t o na l g o r i t h mb ya n a l y z i n gt h et h e o r yo fv a r i a b l ed a t ap r i n t i n gb a s eo np p m l ,t h e nd e s i g n s af i l ea n a l y z i n ga n ds c r e e n i n gs y s t e mw h i c hc a na n a l y z ev a r i a b l ed a t ap i n t i n gf i l e sa n dg e ta g o o dh a l f t o nr e s u l t t h em a i nr e s u l ta n dw o r ko f t h i sp a p e ra r ea sf o l l o w s : 1 r e s e a r c h e dt h ep r i n c i p l eo fv a r i a b l ed a t ap r i n t i n gb a s e do np p m l ,p r o p o s e dt h e m o d i f i e di d e aa n dr e s e a r c hm e t h o d s ; 2 a n a l y z e dt h es t r u c t u r ep r i n c i p l eo fp p m lf i l ea n di t ss o u r c ed a t af i l e s ( p d f 、j p e g 、 t i f f ) i nt h e o r y , o nt h i sb a s e ,p r o p o s e dc o r r e s p o n d i n gd i g i t a lp r i n t i n g f i l e a n a l y z i n g a l g o r i t h m ; 3 r e s e a r c h e dt h ed i 【g i t a lh a l f t o n i n gt e c h n o l o g y , t h e np r o p o s e da na u t o m a t i ct h r e s h h o d e r r o rd i f f u s i o nm e t h o db a s e do nz p a t hb yo p t i m i z i n gt h eh a l f t o n es c a n n i n gp a t ha n d q u a n t i t a t i v et h r e s h o l d ; 4 w r o t ec o r r e s p o n d i n gp r o g r a mf o r t h ef i l ea n a l y z i n ga n ds c r e e n i n ga l g o r i t h m ,d e s i g n e d a n dd e v e l o p e dt h ef i l ea n a l y z i n ga n ds c r e e n i n gs y s t e m ;t h er e s u l to fp p m lf i l ea n a l y s i sa n d d i f f e r e n td i g i t a lh a l f t o n ea l g o r i t h ma r eg i v e nb ye x p e r i m e n t ,a n de v a l u a t e dt h ea d v a n t a g ea n d d i s a d v a n t a g eo fv a r i o u sh a l f t o n ea l g o r i t h mi nr e c o v e r i n gi m a g eq u l i t yo b j e c t i v e l y ; 5 f i n a l l y , s u m m a r i z e dt h ef u l lt e x ta n dp r o p o s e ds o m ep r o s p e c t sf o rf u r t h e rr e s e a r c h k e yw o r d s :v a r i a b l ed a t ap r i n t i n g ,p p i i l l ,r a s t e ri m a g ep r o c e s s ,d i g i t a lh a l f t o n i n g , e r r o rd i f f u s i o n i i i a b s t r a c t i v 浙江t 业大学硕士学位论文 1 1 引言 第1 章绪论 所谓可变数据印刷是指采用计算机直接制印技术,通过数字定义的印刷活件来控制 印刷机连续地印制动态变化的印品信息。印刷版面中有些内容可以每一张都各不相同, 但只需要设计一张完整的版面,而对变量进行定义并通过数据库文件与之建立一种连 接,印刷时自动改变每张需要变化的内容。变化的内容可以是文本,也可以是图形和图 像瞳1 。每个页面共同拥有的静态信息通常可以利用常见排版软件生成模板,然后将其与 包含在数据库中的每个页面的变量经可变数据印刷软件或者页面描述语言口1 ( p a g e d e s c r i p t i o nl a n g u a g e ) 合成后产生相应的可变数据印刷页面,最终以合并数据文件的形 式传递给数字印刷机进行打印输出。存储可变数据印刷页面的文件格式主要有p p m l 格 式、v d x 格式、v i p p 格式、e p s 格式等h 3 ,在这些常用的可变数据印刷文件格式中, p p m l 格式更适合可变数据部分较多的文件印刷。p p m l 格式文件使用各种标记描述了 印刷品的结构及每个可变数据页面的构成元素的信息畸1 。由于其具有与设备无关的特性, 采用该格式保存的可变数据印刷页面可以在支持p p m l 语言的各种数字印刷机上输出, 基于p p m l 文件格式的可变数据印刷工作流程如图1 1 所示。 文庠 字删i 喇嚣 图黟嬲嗍 像盔警互滋 页面i 一“。镱。= 积右糍:= # 描箜| l 萝 :岖圃懂一恒 数字印刷机 l 。一。,。一j o o l 0 11 0 0 0 1 0 0 1 0 i o i :件解析io l1 0 0 11 1i 0 1 0 1 0 1 0 1 与r i p | 0 1 0 1i1 0 0 1 0 1 0 1 0 1 0 l 0 0 1 0 1 0 l o l o o l l o l 0 0 1 0 l l l l 0 0 0 l l l l 0 0 0 0 1 0 0 0 0 0 0 0 0 l l l l l l l l p p m l 文件 点阵数据 习l 盛臣 图1 1基于p p m l 的可变数据印刷工作流程 印刷品 第1 章绪 论 此外,采用p p m l 格式存储可变数据印刷页面的最大好处在于:在可变数据印刷中, 一个实际的印刷作业本身常包含大量固定不变的文本、图像和图形信息。为了提高可变 数据印刷的速度,应尽可能地避免对页面中固定不变的信息重复作r i p ( 光栅图像处理) , 如果可变数据印刷页面中包含很大的图像时,对图像文件的一次次r i p 会明显降低印刷 输出的速度。p p m l 采用对象的可重复使用机制,把固定不变的静态模板信息当做可重 复使用的对象3 ,当在支持p p m l 语言的数字印刷机中进行光栅化处理和打印页面内容 时,每页中都含有的固定信息只需要进行一次光栅化处理,然后将光栅化后的数据存储 在缓冲区内。当后续页面、文档或文档集合中也出现这些可重复对象时,就可直接将存 放在缓冲区中的信息进行使用而不用重新进行r i p ,从而大大地提高了r i p 的速度与效 率,优化了整个数字印刷系统,使得数字印刷机能以最快的速度进行可变数据印刷。 因此,p p m l ,虽然作为行业的标准印刷格式,可它总需要与其它文档格式相结合 进行数据交换,它是如何应用在可变数据印刷流程中? p p m l 文档中的可变信息和固定 信息是如何提取并分别进行光栅化处理? 本文就是介绍这样一个能够实现上述功能的 系统。 1 2 光栅图像处理器简介 光栅图像处理器( r a s t e ri m a g ep r o c e s s o r ) 简称r i p ,它的主要作用是将印刷版面中 的各种图像、图形和文字信息解释成能够打印的点阵信息,然后控制数字印刷机将图像 点阵信息记录在输出介质上n 1 。加网技术( 即数字半色调技术) 是印刷r i p 性能的重要 因素,加网算法的优劣直接影响到印刷品的质量和效率。如图1 - 2 所示为印刷页面经过 加网处理后的输出过程。 2 页面互jp p m l i 醅 二j栅格图像 二j 输出图像 -_ _ i 碰 页面描述 ,、“ 、。产 j 栅格图像处理器 图1 - 2 页面输出过程示意图 输出设各 浙江工业人学硕士学位论文 r i p 的功能是将图文版面信息进行光栅化处理,生成点阵信息,其计算量非常的大。 例如:对于一个普通的a 4 纸大小的版面,尺寸为2 1 0 m m x 2 9 7 m m ,将其换算换成英寸 英寸就是8 3 1 1 7 。当输出设备的分辨率为5 0 0 d p i 时,r i p 需要处理的数据量为 4 1 5 0 x 5 8 5 0 ( 单位为像素) 。如果采用更高的输出分辨率或处理更大的版面信息( 如采用 a 0 纸尺寸) 时,可以想象其数据量之大。而这么大的数据量要在尽可能短的时间内进 行处理,并要求与输出设备的输出进度相一致,因而对r i p 的性能要求很高。 r i p 通常分为硬件r i p 和软件r i p 两种隅1 。硬件r i p 是利用硬件来进行图像光栅化 处理,由于页面解释和加网的计算量非常大,因此过去常常采用硬件r i p 的方式来提高 运算速度。但是硬件r i p 的制作成本比较高,版本修改和升级的代价大,支持多种设备 较困难,因此,硬件r i p 的市场占有率逐渐减少。软件r i p 是通过软件的方式来进行页 面的计算,将解释好的点阵信息通过特定的通道传送给输出设备,因此软件r i p 要安装 在一台计算机上。目前计算机的计算速度已经有了明显的提高,r i p 的解释算法和加网 算法也不断改进,所以软件r i p 的处理速度已经不再落后于硬件r i p ,其综合性能甚至 超过了硬件r i p 。与硬件r i p 相比,软件r i p 版本修改和升级更方便,能支持多种不同 的外设,处理速度可以随安装的工作站性能的提高而提升,成本也比较低。 1 3 国内外研究现状 2 0 世纪9 0 年代前,印刷技术基本上是传统的凸版、平版、凹版、孔板印刷,所有 印版都在印刷机外单独制作并且一次性使用,印版的图文都是恒定不变的。1 9 9 5 年数字 印刷才开始进入印刷业。目前国际上有关印刷技术前沿的研究热点主要集中在数字印刷 领域中的可变数据印刷技术,它不需要经过制版,开辟了个性化、按需印刷的新时代。 2 0 0 0 年初有数字印刷市场上著名的设备制造商赞助发起的按需印刷行业小组出版了第 一部个性化印刷标识语言说明范本,它初步实现了可变数据印刷页面组版定义语言标准 化。2 0 0 0 年8 月,美国印刷工业协会数字印刷委员会的c g a t s ( 印刷技术标准) 附属 委员会6 任务组2 ( s c 6 t f 2 ) 着手制定标准数据交换格式,任务组最终采用p p m l v d x 形成了a n s i 标准c g a t s 2 0 2 0 0 2 和i s ot c l 3 0 标准格式用于可变数据交换。 p p m l 是由p o d i ( p r i n to nd e m a n di n i t i a t i v e ) 开发出来的,p o d i 是一个非赢利的 行业组织,它的主要目的是通过市场引导和鼓励标准化发展数字印刷阳3 。它的成员包括 很多大公司:a d o b es y s t e m si n c o r p o r a t e d 、b a r c o 、c a n o n 、c r e o s c i t e x 、e l e c t r o n i c sf o r 3 第1 章绪论 i m a g i n g ( e f i ) ,e p s o n 、h e w l e t t p a c k a r d ,i b m ,i n d i g o ,l e x m a r k ,n e x p r e s s ,n i m b l e f i s h , n o o s h ,o c e ,p a g e f l e x ,s c i t e x ,x e i k o n ,x e r o x a 自从p p m l 标准提出以来,经过v e r s i o n l 0 ( 1 0 版本) 、v e r s i o n l 5 ( 1 5 版本) 、p o d i 于2 0 0 2 年发布了p p m l v e r s i o n 2 0 ( 2 0 版本) 和p p m l v e r s i o n 2 1 ( 2 1 版本) ,2 0 0 4 年 的p p m l3 0 版本,最新的版本为p p m l g a3 0 ,其功能也越加强大。 目前,p p m l 文件得到了众多国外软件和硬件的支持n0 i ,如a t l a ss o f t w a r e 公司的 p r i n t s h o pm a i l ,t e c h n od e s i g n 公司的p e r s o n a l i z e r - x ,d a t a l o g i c s 公司的d l - f o r m a t t e rd l 1 0 0 和d l1 0 0 0 ,p a g e f l e x 公司的p e r s o n a 等可变数据印刷软件均可输出p p m l 文件; i b m 公司的i n f o p r i n tm a n a g e r ,e s k og r a p h i c s 公司的f a s t r i pd i g i t a lf r o n te n d ,c r e o 公 司的s p i r es e r v e r s ,e f i 公司的f i e r y5 0 0 0 ,e d m o n d r & d 公司的p p m l 2 p s 软件以及 x e r k o n 公司的p p m l v i e w e r 等软件都能够接受p p m l 文件作为其输入阳1 0 1 。这些软件 都采用基于p p m l 的可变数据印刷技术,既可以用于可变数据印刷文件p p m l 内容的显 示与格式转换,也可以用于p p m l 文件页面内容的解析与光栅化处理。除此之外,结合 了功能强大的r i p 模块的富士施乐公司的d o c u c o l o r6 0 6 0 彩色数字印刷机,奥西公司的 c p s 7 0 0 数字彩色印刷系统和h pi n d i g o 数字印刷机等,也可以直接接受p p m l 格式文件 输出相应的可变数据印刷页面。图1 3 列出了四种在国内使用相对较多的进口设备。 4 m m i n f o p r i n t 数字印刷机 柯达万印v l 2 0 0 0 数字印刷机 i - i pi n d i g o7 0 0 0 数字印刷机 图1 3四种国内常用可变数据印刷设备 越峨謦| 浙江丁业大学硕士学位论文 而国内对p p m l 文件的研究比较少,主要集中在高校和大型企业中,如北大方正, 上海理工大学等,文献【5 】对p p m l 的基本原理和数据组织方式进行了阐述,文献【1 1 】 对p p m l 的内核和基本工作方式进行了简单介绍,这些研究在一定的程度上对p p m l 文件的解析与应用具有指导意义,但是目前国内对p p m l 文件的系统与应用方面的研究 还比较少。国内学者在可变数据印刷领域的研究多集中在栅格化图像处理这一块,包括 色彩管理系统、数字加网算法等。数字加网技术是印刷r i p 性能的重要因素n 引,抖动法 n 3 3 和误差扩散方法1 是数字加网中经典的两种算法,也是国内外学者研究数字加网技术 的重点。对于各种不同的应用领域,研究学者提出了很多不同的半色调算法,如经典的 有序抖动法和误差分散法,点分散法n 引、蓝噪声模板法n5 | 、最小均方误差法n6 。、基于 d b s 半色调法n7 1 、点扩散方法n 础等,这些算法大多是调频算法。 在这些调频算法中,对灰度图像半色调来说,误差分散法是一种比较流行且效果较 好的方法。因此很多基于误差扩散的改进算法相继被提出,这些改进的算法主要集中在 影响误差分散法的三个因素上:第一,扫描路径的改进,如基于s 形路径扫描方式n 9 | 、 基于h i l b e r t 曲线扫描方式瞳们和随机空间填充曲线瞳妇等;第二,误差滤波器的改进,使 用不同的误差滤波器系数和不同的分布方式,如s t u c k i 滤波器、j a r v i s 滤波器、b u r k e s 滤波器和s i e r r a 滤波器等乜2 l ;第三,量化阈值选择乜3 3 的改进,通过对量化阈值的优化改 善图像的半色调效果,常见的有中间阈值选择、平均阈值选择、迭代式阔值选择等。这 些现有的各种数字半色调算法的基本原理是一致的,即如何使二值图像最为精确再现原 图像信息。对于灰度图像而言,现有的算法依然存在一些不足,如抖动法在一些情况下 存在明显的人工纹理,s 形误差扩散容易产生图像滞后现象,h i l b e r t 曲线扫描处理的图 像边缘不连续等,并且大多数算法没有考虑到打印机实际输出模型,从而使得输出图像 半色调效果不好。 1 4 论文研究目的、意义及主要内容 由上可知,目前国际上基于p p m l 的可变数据印刷技术和加网算法同趋成熟,其相 应的可变数据印刷软件与硬件设备也越来越多样化。但同样存在一些不足,例如这些国 内外的可变数据印刷软件与硬件设备成本昂贵、扩展能力不足、不同公司的软件格式不 兼容等,此外,对于不同灰度级的图像,经过r i p 处理后容易丢失图像细节,产生图像 畸变。针对这些不足,本文通过对基于p p m l 的可变数据印刷流程进行分析,并对数字 半色调技术进行研究,自主研发相应的可变数据印刷软件,提出了一种基于z 形自动阈 第1 章绪论 值误差分散算法,对标准p p m l 文件内容进行解析和加网,可以充分降低成本并能获得 较好的半色调结果,实现数据的可变印刷。 本系统文件解析模块采用以c + + 类的形式提供的m f c 来实现,它能支持多种应用 程序界面,并配合使用微软提供的g d i ( g r a p h i cd e v i c ei n t e r f a c e ) 图形接口,实现了编 码灵活和效率高的特点。图像半色调处理采用基于d s p 5 5 0 9 的嵌入式平台进行实现, 满足r i p 速度快效率高的特点。 本文内容组织结构如下: 第一章为绪论,介绍课题背景、相关知识以及论文研究的意义和主要内容。 第二章为p p m l 和p d f 原理分析,分别对p p m l 和p d f 相关机制和语法结构进行 研究,并通过实例来说明其文档语法所代表的含义。 第三章介绍了图像的相关概念,主要分析了常作为p p m l 可变图像数据的j p e g 和 t i f f 的文件结构,并详细给出了其文件解析算法和程序流程图。 第四章为数字半色调技术的研究和实现,简要介绍了数字半色调技术及几种常用的 半色调算法,详细分析了影响误差扩散半色调结果的三个重要因素,并在基础上提出了 改进算法。 第五章为文件解析加网系统的具体实现,给出了系统的总体架构图以及上位机解析 软件相关的类结构图,详细说明了各个模块的作用,通过在d s p 5 5 0 9 平台上完成各种 半色调算法的实现,最后给出了解析加网的结果。 第六章为总结和展望,对本文内容作出总结,并对以后的工作提出建议。 6 浙江l t 业大学硕士学位论文 第2 章p p m l 和p d f 文件格式研究 p p m l 文件中既包含可变数据信息,也包含固定不变的静态信息,而这两种不同 的信息在文件中的描述方式不同,需要对其分别提取。p d f 文件作为一种标准印刷格式, 常作为静态模板存在于p p m l 文件中,本章将分别对p p m l 和p d f 文件结构进行分析, 为文件解析设计作基础。 2 1 p p m l 文件格式结构分析和解析 2 1 1p p m l 文件分析 p p m l 是p e r s o n a l i z e dp r i n tm a r k u pl a n g u a g e 的缩写,即个性化印刷标示语言。p p m l 标准是2 0 0 0 年5 月由p o d i 组织开发的用来促进大规模的可变数据印刷市场增长的一种 新的标准化印刷语言乜引。其关键概念包括平衡现有的各种印刷标准和确保硬件与软件供 应商之间的互操作性。在印刷工作流程中,p p m l 通过对象级别的寻址能力和页面内容 的可重用性促进了高效印刷数据流的发展,它支持可重复对象的使用,这有利于优化具 有较高图形内容的印刷作业文件大小。p p m l 的工作原理是利用现有的作业传票格式如 由c i p 4 发起的作业定义格式( j d f ) 进行引导,通过x m l 语法将不同的文件内容( 如p d f 、 p o s t s c r i p t 、j p e g 、t i f f 等) 进行描述形成可变数据印刷页面。 作为一个开放的行业标准,p p m l 使用x m l 语法来定义怎样将数字资源转化为对象, 页面,文档和文档集。它允多个内容格式的数字资源包含在p p m l 文件中或者在处理过 程中通过本地或远程存储重新取回,然后将这些数字资源简化,转换并组合成对象,这 些对象被分成一系列的页面,文档和文档集合,以便于高性能处理瞳钉瞄1 。同时,它也允许 对象、页面、文档和文档集合被分类,使每一个类可以在作业传票中被指定不同的属性。 基于分类选择的特性也允许更小的作业传票和资源作为一个整体而重复使用。p p m l 将 放置在多个页面的对象定义一次,标记为可复用,并能多次使用,从而对数字印刷工作流 程进行优化。 p p m l 标准定义了一个x m l 语法用来指定单色和全彩色图形页面内容的可变数据 作业。p p m l 格式描述了如何利用转换的页面,文档,和文档集来组合现有的数字资源, 7 第2 章p p i 惦l 和p i ) f 文件格式研究 它通过有效的成像模型定义了p p m l 数据集的语法和语义,该规格还定义了p p m l 生产 者和消费者一致性要求。 p p m l 是基于x m l 的可变数据印屙u ( v d p ) 开放标准,为服务提供商提供在当前v d p 解决方案上的巨大优势。在可变数据印刷中,其主要优点在于数量级性能更好,融合了 最新的技术的开放标准,与作业传票标准如j d f 相兼容,并显著降低文件大小。 2 1 2p p m l 文档结构研究 p p m l 是一种本身不描述页面内容的元语言,它不像v i p p 和v p s 等语言那样具有 在页面上画线和颜色填充等绘图功能乜5 1 ,而是通过利用各个“单元来描述印刷品的结 构、文件、页面和内容等信息。因此,它不是被用于浏览的,不像p d f 浏览软件a d o b e a c r o b a t 浏览p d f 文件那样。p p m l 版式文件在某种形式的结构是,为文本和图像等数 据文件充当容器。p p m l 实例可由多个p d f 文件和其他版面文件组成,其组织形式如图 2 1 所示。在该图中,p p m l 文件结构涉及到了p d f 、j p e g 、t i f f 和j d f 文件。 图2 1p p m l 的组织形式 p p m l 采用分层的结构化方式描述印刷品中的信息,主要分为文档集合、文档和页 面三个层次等级n “2 4 捌。其中文档集合可以包含一个或多个文档,文档则又可以包含一 个或多个页面,在这三种层次结构中,每层结构均包含各自所需的资源定义及下级子结 构。从实际情况来说,文档集合可能是由一系列实例文档组成的一个印刷作业本身,而 典型的实例文档代表的是可变数据印刷页面,即由固定不变的静态模板和数据库中的一 条动态信息所组成的页面。页面则指的是每个实例文档中所包含的各个独立页面的内 8 浙江工业大学硕士学位论文 容。 p p m l 把页面上所有内容当作对象来处理,并通过 单元把所有的对象定位 到各个页面的指定位置上,每个 单元内的对象都将独立地进行r i p 处理。 单元内含有 和 两个子结构单元。页面上所有 的资源信息可通过 或 这两个单元来指定。对 于可重复使用的对象,p p m l 通过使用 中的s o u r c e 单元来 指定其内容,然后通过 单元加以调用,并指定其变换属性。p p m l 文件 具体结构如图2 2 所示,表2 1 列出了常见p p m l 文档语法元素。 常见p p m l 文档语法元素 语法名称描述说明 “ 王0 童工 王二 i 0_ ( o c c u r r e n c e l 薹 王s 图2 4 可重复数据结构 文件中的可变数据位于 单元的 子单元内部,并以 单元为最小单位进行组织。学生校园卡可变数据部分主要分为两个部分:作为学生照片 的可变图像和包含学生信息( 学生姓名、所在学院、学号和对应的条形码) 的可变文本 数据。其具体结构如图2 5 所示。 p p m l 文档中的主要信息存储于 与 之间,从图2 5 中可以看出,第一个m a r k 单元中的 子单元指明固定信息的链 接名称w a n gl2 5 4 3 9 2 ,通过该链接名可以在 中读出其详细的 信息;第二个m a r k 单元内的 则指明学生的图片信息, 包括图片的存储路径和所在页面位置;第三个m a r k 单元内的 指明包含学生信息的数据库文件信息。 1 2 浙江_ t 业大学硕士学位论文 壁ji ;ti 1 j 1 ) i ij jj 互要 。l 王。l il 。3 l 璺l k k 上l l l i 。4 i 曼i il1 1 。5 1 1 ) ji ll li 。6 是l 土d o c u 嚣e k tl a b e 工= ”1 ” , k 3 4 s 6 8 雪 v i e v ) - 王0 1 l 工2 土3 王1 喜 土5 土6 量7 1 8 土9 2 l 二i 王 0 2 2 妻 2 4 s v i e v ) - 2 蓐 2 7 8 o b j e c b 9 图2 5 可变数据结构 2 2 p d f 文件格式分析和解析 2 2 1p d f 文档研究 p d f 是a d o b e 可移植文档格式( p o t a b l ed o c u m e n tf on :n a t ) 的简称,它是一种与操作 系统平台无关的电子文件格式啪1 ,也就是说在p d f 中排好版的文件在任何一台设备上 打印出来,其版式都不会变。目前它已成为全球电子文档分发的开放式标准,凭借着它 的种种优势,p d f 文档常作为固定的静态模板存在于p p m l 版面中。 p d f 文档语法可以从以下4 个方面来解释2 9 1 : 1 对象,p d f 文档是由一些基本数据类型的集合构成的数据结构,这些构成p d f 数据结构的基本数据类型即为对象; 2 文件结构,定义对象是如何在文件中存储以及如何获得和更新对象,这种文件 结构是独立于对象的。 1 3 第2 章p p m l 和p d f 文件格式研究 3 文档结构,定义了基本对象是如何表示p d f 文档的要素的,如何表示页面、字 体和批注等。 4 内容流,包含描述页面或其它图形实体的外观和文件内容的一系列指令。 p d f 支持8 种基本的对象类型:布尔型、整型和浮点型、字符串、名字、数组、词 典、流以及空对象。 数值对象( n u m b e r s ) :整型和浮点型是p d f 提供的两种数值对象,整型对象代表 一定区间的整数,这个区问称为对称区间,浮点型对象也是一定范围内的估计值,这个 精度范围是由p d f 应用程序所在计算机内部表示所决定的。 字符串对象( s t r i n g ) :一个字符串对象由一系列的0 到2 5 5 的整形数值组成,一般 有两种形式的字符串对象,即文字字符串和十六进制字符串。 表2 - 2 转义字符 转义字符代表含义 换行( l f ) 回车( c r ) t a b ( h t ) 回退( b s ) f o r mf e e d ( f f ) 左括号 右括号 反斜线 以八进制表示的字符d d d 文字字符串:圆括号( ) 内含有文字字符;在文字字符串中,反斜线符号用作转义 符号,如换行符、不成对的括号、不可见的a s c i i 字符等,如表2 2 所示。如果紧跟的 字符不是表中所列出的,反斜线符号将被忽略。 十六进制字符串:尖括号 内含有的十六进制数据,它用来包含p d f 中任意的二 进制数据。一个十六进制的字符串是用一串十六进制数字( 叽9 ,a f 或a f ) 表示的。 流对象( s t r e a m ) :一个流对象和字符串对象相类似,由一系列字节组成。但是,流 对象可以被p d f 应用程序增量读入,字符串则是一次性读取全部内容。此外,在对 象的长度限制方面,字符串有长度限制,而流对象是不限制长度的。像图像( i m a g e ) 、 页面( p a g e ) 这样包含大量数据的对象通常都用流对象表示,以关键字s t r e a m 开始,以 关键字e n d s t r e a m 结束。 过滤器是流对象的一个可选的属性,它决定了流中的数据是否经过了压缩编码,应 1 4 d u ku u 甜i 、 浙江工业人学硕士学位论文 用程序在读取p d f 文件时需要调用相应的过滤器来将这些数据进行解码。每个流对象 都有一个表示流数据长度的入口,如果流中有过滤器,该入口表示转换前的长度。 2 2 2p d f 文件结构分析 p d f 文件主要由四个部分组成乜7 骝2 9 i :文件头( h e a d e r ) 、文件体( b o d y ) 、交叉引 用表( c r o s s r e f e r r e n c et a b l e ) 和文件尾( t r a i l e r ) ,如图2 - 6 所示。 h e a d e r b o d y x r e ft a b l e t r a i l e r 图2 - 6p d f 文件结构 l 、文件头 出现在p d f 文件的第一行,它指明了该文件所遵从的p d f 规范的版本号。如文件 头第一行p d f 。1 7 就表示此p d f 文件是p d f l 7 版本的。 2 、文件体 p d f 文件的主体部分,由一系列对象组成。对象作为p d f 的基本数据单元,代表 了字体,页面和采样图。文件体的内部结构也称为文档结构。作为一种结构化的文件格 式,p d f 文档是由包含在p d f 文件体中的有层次的一系列对象组成,并且每个对象都 具有自己的数字标号以区分其它的对象号。这些对象在p d f 文档中出现的顺序可以是 任意的。 p d f 的文档结构是一种页面树结构,这种页面树结构使得p d f 应用程序能用有限 的内存快速地打开p d f 文档并定位某一个节点。页面树结构包含两种类型的节点啪1 : 一种是中间节点,称为树节点;一种是叶节点,称为页对象,最简单的文档结构是只包 含一个页面的树节点。 目录对象( c a t a l o g ) 是文档中的对象层次结构里的根对象,以文件尾中根实体的形 式存在。它包含了p d f 文档的大纲( o u t l i n e ) 和页面组对象( p a g e s ) 引用。其中大纲 1 5 第2 章p p m l 和p d f 文件格式研究 对象指的是p d f 文件的书签树,而页面组对象包含了该文件的页面数和各个页面对象 ( p a g e ) 的对象号。p d f 文档结构如图2 7 所示。 圜 i 觚醐镇一一舅盈 静馘c j i 睾i 墨 y圈 黑_ 。一一 ,_ 篷黎哆萎暑 图2 7p d f 文档结构 3 、交叉引用表 为了能对间接对象进行随机存取而设立的一个间接对象的地址索引表。在交叉引用 表中,每个间接对象对应于表中的一行,记录了该对象在文件中的位置信息。交叉引用 表由一个或多个交叉引用部件组成,每个交叉引用部件以关键字x r e f 开头,接下来紧跟 着是一个或多个子部件,它的顺序可能是任意的。p d f 文件交叉引用部件对象号都是从 0 开始,未修改过的p d f 文件只包含一个子部件,每增加一个部件就相应增加一个对象 号,对象号是一个连续的实体。子部件第一行都是以两个分开的数字组成,分别表示对 象号码和对象实体的个数。如:1 85 ,表示子部件中包含了对象号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论