(计算机应用技术专业论文)基于屏幕印刷多格式解析引擎设计与实现.pdf_第1页
(计算机应用技术专业论文)基于屏幕印刷多格式解析引擎设计与实现.pdf_第2页
(计算机应用技术专业论文)基于屏幕印刷多格式解析引擎设计与实现.pdf_第3页
(计算机应用技术专业论文)基于屏幕印刷多格式解析引擎设计与实现.pdf_第4页
(计算机应用技术专业论文)基于屏幕印刷多格式解析引擎设计与实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)基于屏幕印刷多格式解析引擎设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、 数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位 论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门 或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下, 学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:张磊 2 00g 年箩月2 6 日 经指导教师同意,本学位论文属于保密,丐j 一年解毒后适用本 各密级的最长保密年限及书写格式规定如下: | 内部5 年( 最长5 年,可少于5 年) l 秘密1 0 年( 最长l o 年,可少于1 0 年) l 机密 k 2 0 年( 最长2 0 年,可少于2 0 年) | l 。+ 。j 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体, 均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本 人承担。 学位论文作者签名:张磊 2 o o g 年f 月2 6 日 摘要 摘要 随着i n t e r n e t 和嵌入式技术的迅速发展,市场上出现了越来越多以阅读为主 要或辅助目的的嵌入式手持移动阅读设备,它们兼备了计算机屏幕阅读和纸上 阅读的优点:资源丰富,价格低廉,获取便利,方便携带,类书阅读,符合人 们传统的阅读习惯等,前景广阔。 但是,支持文档格式种类单一,内容表现力差以及操作性能低下等问题成 为手持移动阅读设备发展的瓶颈。因此,在其上开发一款具有良好用户阅读体 验的系统成为当前研究的热门课题。对手持移动阅读而言,各种格式文档的解 析与显示是核心需求。本文设计了“基于屏幕印刷多格式解析引擎作为满足 手持移动阅读需求的解决方案。屏幕印刷是顺应现代移动阅读需求提出的,是 对传统印刷和数字印刷的传承和发展,用于解决手持移动阅读中出现的若干关 键问题,主要包括多格式解析,内容展示方式,操作响应速度等阅读相关的以 及版权保护,信息处理实用性等非阅读相关的。为了解决这些关键问题,本文 提出了中间格式的概念,作为屏幕印刷的基础,主要采用了解析库插件机制, 虚拟显示空间技术,基于动态预测的页缓冲技术,动态版权保护机制以及基于 元数据和本体库的本地搜索技术。经在某商业公司的实验平台验证,方案可行, 为此类系统的进一步发展提供了借鉴。 关键词:屏幕印刷多格式解析引擎中间格式嵌入式移动阅读 a b s t m c t ab s t r a c t w t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e ta n de m b e d d e dt e c h n o l o g y , t h e r ea r e m o r ea n dm o r ee m b e d d e dh a n d h e l dm o b i l ed e v i c e sf o r r e a d i n ga p p e a r e do nt h e m a r k e t ,t h e yg e tt h ea d v a n t a g e so fb o t hr e a d i n go np ca n dp a p e r :r i c hi nr e s o u r c e s , c h e a p ,g e t t i n gc o n v e n i e n t l y ,p o r t a b l e ,i nl i n ew i t hp e o p l e st r a d i t i o n a lr e a d i n gh a b i t s a n ds oo n b e c a u s eo ft h i s ,t h e yh a v eb r o a dp r o s p e c t s b u t ,t h e r ea r es o m ep r o b l e m sr e s t r i c tt h e i rd e v e l o p m e n t :s u p p o r t i n go n l yaf e w f i l ef o r m a t s ,p o o rp e r f o r m a n c ea n dl o wc a p a b i l i t y t h e r e f o r e ,d e v e l o p i n gas y s t e m w h i c hh a sag o o du s e re x p e r i e n c eb e c o m e sah o tt o p i c f o rh a n d h e l dm o b i l er e a d i n g , p a r s i n ga n dd i s p l a y i n gv a r i o u sd o c u m e n t si st h em o s ti m p o r t a n t t h i sp a p e rd e s i g n sa s y s t e mc a l l e d “m u l t i - f o r m a tp a r s e rb a s e do ns c r e e np r i n t i n ga n dp r e s s t os a t i s f yw i t h t h ed e m a n do fm o b i l er e a d i n g s c r e e np r i n t i n ga n dp r e s sw h i c hi st h ed e v e l o p m e n to f t r a d i t i o n a la n dd i g i t a lp r i n t i n ga n dp r e s si su s e dt os o l v et h ep i v o t a lp r o b l e m si n m o b i l er e a d i n g ,i n c l u d i n g p a r s i n gm u l t i f o r m a t , d i s p l a y i n g ,r e s p o n s ec a p a b i l i t y , c o p y r i g h tp r o t e c t i o n , d e a l i n g 、i t l li n f o r m a t i o na n ds oo n f o rt h es a k eo fs o l v i n g t h e s ep i v o t a lp r o b l e m s ,t h i sp a p e rp r o v i d e sac o n c e p t “i n t e r m e d i a t ef o r m a t ,a n d t a k e si tt ob et h e b a s i co fs c r e e np r i n t i n ga n dp r e s s ,u s i n gp a r s e rl i b r a r yp l u g - i n m e c h a n i s m ,v i r t u a ld i s p l a ys p a c e ,m u l t i p a g eb u f f e rb a s e do nd y n a m i cf o r e c a s t , d y n a m i cc o p y r i g h tp r o t e c t i o na n dl o c a ls e a r c ht e c h n o l o g yb a s e do nm e t a d a t aa n d o n t o l o g yl i b r a r y t h i ss y s t e mw h i c hh a sb e e nv a l i d a t e do nt h ep l a t f o r mo fac o m p a n y h a sp r o v e df e a s i b l e ,s oi tc a nb eu s e da sr e f e r e n c ef o rt h ea d v a n c e dd e v e l o p m e n to f t h e s ek i n d so fs y s t e m k e yw o r d s :s c r e e np r i n t i n ga n dp r e s s ,m u l t i - f o r m a t ,p a r s e r s ,i n t e r m e d i a t e f o r m a t ,e m b e d d e d ,m o b i l er e a d i n g i i 目录 目录 摘要。i a b s t r a c t i i 目录i i i 第一章引言1 第一节阅读的历史l 第二节电子书的出现与发展2 1 2 1 什么是电子书2 1 2 2 电子图书的出现与发展3 1 2 3 电子阅读器的分类和特点一4 1 2 4 电子书的未来6 第三节课题的提出和主要工作7 1 3 1 课题的提出一j :7 1 3 2 主要工作一7 1 3 3 本文的组织结构8 第二章解析引擎系统的设计9 第一节屏幕印刷关键问题9 2 1 1 屏幕印刷9 2 1 2 关键问题9 2 1 2 1 多格式解析9 2 1 2 2 内容展现方式1o 2 1 2 3 操作响应速度1o 2 1 2 4 版权保护和信息处理实用性1 1 第二节解析引擎系统架构的发展历程。l l t t t 目录 2 2 1 。书架解析程序”架构1 l 2 2 2 “书架一格式显示器格式解析器”架构1 2 2 2 3 “基于中间格式的多格式解析引擎”架构1 3 第三章中间格式:1 5 第一节格式的种类和特点1 5 3 1 1 固定版面的p d f 格式一1 5 3 1 2 流式版面的o f f i c e 系列格式1 7 目录 3 3 1 5 具有可交换性2 9 3 3 2 w o x 格式整体设计2 9 3 3 3 w o x 格式具体实现3 0 3 3 3 1 w o x 格式的具体实现3 0 3 3 3 2 w o x 格式生成器的具体实现3 3 3 3 3 3 w o x 格式解析引擎的具体实现3 5 第四章解析引擎系统的实现3 7 第一节格式引擎系统整体架构3 7 第二节阅读相关关键问题的实现3 8 4 2 1 多格式解析3 8 4 2 2 内容展现方式4 0 4 2 2 1 固定版面的缩放和游动4 0 4 2 2 2 流式版面显示41 4 2 3 操作响应速度4 4 4 2 3 1 w o x 格式提速一4 4 4 2 3 2 动态预测的多页面缓冲机制提速4 6 4 2 3 3 计算机辅助提速4 7 第三节版权保护机制d 2 r m 4 9 4 :;1d r m 4 9 4 3 2 d 2 r m 设计思想5 0 4 3 2 1 主流d r m 方案比较5 0 4 3 2 2d 2 r m 设计思想之一:弹性5l 4 3 2 3d 2 r m 设计思想之二:动态5 2 4 3 3d 2 r m 实现5 3 第四节本地搜索5 4 4 4 1 传统检索模型5 4 4 4 2手持阅读检索模型5 5 4 4 3 手持移动阅读检索系统实现5 7 v 目录 第五章解析引擎系统的应用验证。5 9 第一节 翰林v 型系列e b o o k 专用阅读器5 9 第二节爱国者p 8 81 型m p 5 6 0 第六章总结与展望一6 3 第一节总结6 3 6 4 6 5 6 7 6 8 6 8 6 8 6 8 第一章引言 第一章引言 在i n t e r n e t 和个人计算机高度发展的今天,出现了一种全新的信息承载与传 递方式:电子书,这种手持移动阅读装置和内容结合体的出现使得阅读的概念 发生了巨大的变化,传统的纸上阅读一枝独秀的霸主地位受到了前所未有的挑 战。 第一节阅读的历史 阅读是人从符号中获得意义的一种社会实践活动和心理活动过程,也是信 息知识的生产者和接受者借助于文本实现的一种信息知识的传递过程【1 1 。阅读的 目的是获取信息,因此,阅读发展史和信息承载、记录、传播的发展史息息相 关。 表1 1 信息载体,记录传播方式和阅读的发展史 陶器,甲 信息载骨,青铜 竹简,木磁、光、硅等存储 体 绳子 纸 器,玉,牍,缣帛介质 石头 信息记拓印,手 活字印 录与传结绳契刻手写抄,雕刻 网络传播 播方式印刷术 刷术 阅读方 非实际意 固定位置 固定位置移动阅 义上的阅移动阅读 移动阅读 式 阅读 阅读读 读 可以获取 移动阅读p c 屏幕阅手持屏 一些简单 几乎无法 移动阅读正式出 的信息,对载体进 的雏形, 现,信息载体的 读,无法幕移动 特点但载体的 携带已经变得很 对阅读终阅读, 主要用于行方便的 携带依然 方便 端进行方方便携 记忆和交携带 不方便便携带 带 流 如表1 1 所示,信息的承载介质经历了从最早的甲骨、石碑、玉版、竹简木 牍,到后来的缣帛、纸,再到现在的磁盘、光盘、芯片等的历史,信息的记录 第一章引言 和传播方式也经过了从最早的契刻,到手抄、印刷、再到现在的电子信息存储 的若干阶段。相应的,在阅读发展史上,人类也经历了从最早的甲骨、石碑、 玉版、竹简木牍上阅读,到在缣帛、纸上阅读,再到现在的屏幕阅读的过程, 阅读方式不断向更高层次演化,每一次的改变都堪称为一场具有历史意义的变 革。有专家认为,人类阅读史上出现过两次阅读革命:第一次是人类采用羊皮 和竹简记录信息的时代,第二次是人类发明造纸术和印刷术以来的时代。而现 在,人类似乎正经历着第三次阅读变革:计算机存储技术的发展带来的屏幕阅 读时代。 时至今日,计算机技术和网络飞速发展,数字化时代已经来临,磁盘、光 盘等是这个时代的信息载体,网络是这个时代的信息记录和传播的方式。网络 数字资源极其丰富,获取便利,价格低廉,促使计算机屏幕阅读发展迅速,逐 渐成为了主流的阅读方式之一,甚至出现了关于“计算机屏幕阅读是否能够代 替纸上阅读,成为最主流阅读方式 的讨论。再观阅读发展史,计算机屏幕阅 读似乎并不符合阅读发展“使得阅读越来越便利 的普遍规律,便携性是其成 为未来主流阅读方式的一种瓶颈。因此,有理由相信,符合阅读发展规律的阅 读概念将会是手持屏幕移动阅读。说到手持屏幕移动阅读,就不得不提到电子 书。 第二节电子书的出现与发展 1 2 1 什么是电子书 电子书的称谓来自于英文中的e b o o k ( e l e c t r o n i cb o o k ) ,第一次出现是在二 十世纪七十年代,由著名的软件工程师a n d s a n f a n d a m u 在美国布朗大学阐述 通过以太计算机创建和阅读文件时提出的,是和传统出版中在纸张上印刷出版 进行传播的图书p b o o k ( p a p e rb o o k ) 相对应的。 但是,随着人们对电子书越来越多的关注,业界对“电子书”这一概念的 理解开始产生分歧。有人认为“电子书( e b o o k ) 是纸质书( p b o o k ) 的对应物, 它是以电子版的方式在互联网上出版、发行,读者通过个人电脑或便携式阅读 终端进行有线下载或无线下载接收并阅读的数字化图书 2 1 ;有人认为“电子书 是以电子记录信息,以比特为载体,以数字内容为流通介质,装有计算机芯片 2 第一章引言 的有别于传统纸质的图书【3 】;o e b 组织则定义“电子书指的是以数字形式存 在的文献,包括一种或多种特殊的格式、元数据和内容专题,以电子形式出版 和传播;也可以指专门的手持阅读器 。为了便于讨论,这里对几个不同的概念 进行了界定 4 1 : 电子图书:凡以文字表述为主,图表、图像及多媒体流碎片为辅,以二进 制数码形式存储、传播,并可通过电子显示供人们阅读的读物,都统称为电子 图书( 含电子版的书籍、报刊、杂志、文件、资讯等) 。它以电子介质为物理存 在方式,可存储于各种电子盘、卡中。 电子书阅读器:能够存储并显示各种电子图书,具有阅读管理及操作界面, 并以阅读为主要功能的、手持式的专用电子显示终端设备;是电子图书的一种 新型的显示介质和阅读载体。很显然,它的用途不同于个人计算机、p d a 等电 子终端产品。 电子书t 从最基本的意义上说,是电子图书与电子书阅读器的有机合成体, 是一种类书型的电子文化产品。其作为阅读之用的“书 ,就应该是阅读内容和 阅读介质的统一体,二者不可分离,正如n o t e b o o k 不是b o o k 一样。 1 2 2 电子图书的出现与发展 电子图书的最初构想源于2 0 世纪4 0 年代的一部科幻小说,书中描述了当 时人们就幻想未来可以在某种特制的电子设备上阅读图书。1 9 7 1 年,m i c h e a lh a r t 先生提出了“古腾堡计划”,把这一构想变为现实,它专门收录经典文学作品并 将其输入电脑,放置在网上供人们阅读,第一次使纸质读物规模化地转化为电 子图书,揭开了电子图书发展的序幕。1 9 8 1 年出版的1 1 1 er a n d o mh o u s e e l e c t r o n i ct h e s a u r u s ) ) 被认为是世界上第一本可用于商业目的的“电子图书”。1 9 9 8 年“火箭书”( r o c k e tb o o k ) 和“软书( s o f tb o o k ) 的问世,标志着电子图书 进入了高速发展的阶段。 r i d i n gt h eb u l l e t ) ) 的发表,被认为是“电子图书 商业化的里程碑。2 0 0 1 年3 月1 4 日,美国小说家斯蒂芬金的最新小说( r i d i n gt h eb u l l e t ) ) 在他的网站 w w w s t e p h e n k i n g t o m 上发表。该书共6 6 页,讲述的是一位旅行者一天的恐怖 遭遇。这本书引起了广大读者的极大兴趣,两天内有5 0 万人次登录并下载,费 用为2 5 美元。如果此书以印刷书发行,作者会有1 万美元的版税收入,而在网 3 第一章引言 上发行一个月,他的收入已经达到4 5 万美元,如此大的经济效益引起了出版界 的巨大轰动。国内外的i t 公司、出版社、网上书店等盈利机构纷纷涉足电子图 书市场,开发自己的电子图书产品。 2 0 0 3 年6 月1 2 日美国出版行业协会( 丸心) 发布的调查数据显示,在美国4 月份电子图书的销售额增长了2 6 8 3 、达到9 0 万美元。2 0 0 6 年,全美电子书 的销售总收入虽然只有5 4 4 0 万美元,但较上一年增长了2 4 1 。在中国,根据 新华网的报道,2 0 0 4 年,电子图书品种比前几年有了更加快速的发展,从2 0 0 3 年底的5 4 ,0 0 0 种增长到1 4 0 ,9 2 5 种,2 0 0 4 年新增近9 0 ,0 0 0 种,增长幅度为1 5 9 , 而销售收入突破1 0 0 0 万人民币,销售额增长在8 0 以上。电子图书的呈现出“爆 炸式增长的未来前景。 1 2 3 电子阅读器的分类和特点 最早的电子书阅读器是计算机,后来出现了p d a ( 个人数字助理) ,智能手 机,以及e b o o k 专用手持阅读器。 个人计算机( 笔记本) 阅读器p d a 阅读器 智能手机阅读 ) 雄累鼍,t霜 # 袖加铒礓奄 壁。 飞黑璺匿 摹霉霹茹晕攀霉 i i 。一嚼 壁目 、r 。一t e b o o k 专用手持阅读器 各种电子书阅读器 4 第一章引言 计算机的阅读器软件丰富,几乎所有的格式都有自己的阅读器,比较有名 的是微软公司的o f f i c e 系列,a d o b e 公司的a c r o b a tr e a d e r ,方正的a p a b ir e a d e r 等。另外,由于个人计算机的处理器主频高,内存储器容量大,因此在其上阅 读可以获取很好的用户体验:高速显示,无极缩放,操作灵活,还能够提供快 速分类、查询、检索等传统书籍无法比拟的功能,另外还可以配以动画和音乐, 内容比纸质书籍更丰富生动。但是,个人计算机却存在一个致命的缺陷:体积 大,不方便移动。因此,读者无法像阅读传统书籍一样随意移动阅读,而只能 坐在显示器前以固定的姿势阅读,即使是笔记本,用来阅读也稍显笨重。另外, 计算机的显示屏,阅读舒适度最多只能达到传统书籍的三分之一,而且不管是 c r t 还是l c d ,对人眼都有一定的伤害,不适合长时间阅读。 在e b o o k 专用阅读器问世之前,p d a 和智能手机成为人们移动阅读的第一 选择。它们体积小,可以随身携带,可以记录和查询简单的信息,但由于它的 显示区域小,分辨率不高,一屏中只能显示几行字,阅读非常不方便。另外, p d a 和智能手机对文件格式的限制比较多,只能支持少数几种格式。 e b o o k 专用阅读器是随着类纸显示设备的发明而出现的,这种设备介于纸和 电子显示设备之间,主要分为两类:一种是非液晶模式器件如e i n k ( e l e c t r o n i c i n k ,电子墨水,如图1 2 所示) ,另一种是反射性液晶显示器件如胆甾相液晶和 黑态 d r k 讹t 电子墨水示意图1 双稳态扭曲向列液晶显示。相比之下,前一种更接近于传统的纸:类纸的大小, 类纸的高对比度,类纸的高反射率,类纸的1 8 0 度宽视角,类纸的无辐射,无 闪烁,不易疲劳,类纸的适合人眼长时间阅读。e i n k 这一系列的特点,使之成 1 摘自e - i n k 网站( w w w e i n k c o m ) ,另添加中文注释 5 + 2 图 蕊 名岍 第一章引言 为了e b o o k 专用阅读器显示屏的不二选择,包括亚马逊的k a n d l e ,i r e x 的i l i a d , 索尼的p r s 系列以及天津津科公司的v 型系列( 图1 1 中的e b o o k 专用阅读器 所示) 。e b o o k 专用阅读器是以阅读为目的的,因此它以显示静态图像( 文字为 主) 为主,支持掉电显示,而且对格式种类的支持也有很大提高。 1 2 4 电子书的未来 和传统纸上印刷的书籍相比,屏幕印刷的电子书具备很多优势: 环保:电子书不需要纸张,不会产生造纸,印刷等环节的污染,不用砍 伐树木,保护了生态环境。 更新快捷:电子书的更新和修订非常容易,无需传统书籍的出片、打样、 输出、装订等繁琐的工序。 灵活的阅读方式:支持对阅读内容的查询、检索、统计等信息处理功能, 以及超链接、加书签等交互操作,使人们可以更高效地获取信息。 丰富的表现形式:除文字、图片等静态内容,还可以提供声音、动画等 内容形式,给读者前所未有的阅读体验。 海量的存储能力:成千上万本“书可以存储在一张小小的存储卡中, 使“随身图书馆”成为现实。 个人出版:由于网络方便快捷,价格低廉,每个人都可以很容易的通过 网络出版自己的书籍。 但是,电子书的诸多优势,并不代表着它将轻松地代替现有的传统纸质书 籍,因为它的发展仍然存在着很多的制约因素: 传统的书籍意识:传统印刷书籍历史悠久,使得人们对它有一种感情, 一种习惯,一种文化上的依赖,在人们潜意识里,书籍应该是文字印刷 在纸张上并装订在一起的东西,看得见,摸得着。而电子书不能让人们 真实的感受到对其的拥有,无法满足人们的占有欲和收藏行为。所以, 让人们改变头脑中长期形成的书籍意识,接受网络收藏的概念,还需要 相当长的时间。 纸质阅读的舒适性:纸质书籍的高对比度,高反射率,1 8 0 度宽视角等 阅读舒适性是一般显示屏达不到的,纸质书籍的无辐射是电子显示设备 永远也无法达到的,再加上人们几千年形成的对纸质书籍的阅读习惯, 6 第一章引言 同样是电子书面临的一个重要挑战。 格式支持问题:目前,电子书格式比较多,在个人计算机上就几乎是每 种格式都需要下载或购买相应的阅读器,而市场上多数电子书阅读器, 对格式种类的支持更是寥寥,严重限制了电子书产业的发展。 版权保护:电子图书可以快捷地从网上下载,在这一过程中如何保护出 版商和作者的商业利益显得十分重要,没有一套好的版权保护机制,出 版赢利就会很困难,作者和出版商对电子书就不会有太高的热情。虽然 出版界采用了各种防伪手段遏制盗版,实际效果却不乐观。 信息处理功能的实用性:电子书的特点决定了它可以实现对阅读内容的 查询,检索,统计等信息处理功能,在计算机上,这些功能很容易实现, 但在硬件资源相对缺乏的手持阅读器上,这些功能的实现却无法令人满 意,因此也无法体现出对传统书籍的优势。 电子书的出现在一定程度上满足了现代社会中人们对于屏幕阅读的需要, 但是要让电子书被读者广泛接受,就必须不断提高自身的系统性能和显示效果, 使更多的人享受电子书带来的全新阅读体验。可以用一句话总结电子书的未来: 前途是光明的,道路是曲折的。 第三节课题的提出和主要工作, 技术不能直接改变人们传统的阅读习惯,但是当技术提供的阅读体验优于 传统阅读时,人们会逐渐开始考虑选择新的阅读方式。 1 3 1课题的提出 类纸显示设备的出现,已经无限接近纸质书籍的高对比度,高反射率,1 8 0 度宽视角等阅读舒适性,从适应人们阅读习惯的角度,对传统的纸质书籍形成 了冲击,而后面要做的就是通过技术的手段,使得用户获取比纸质书籍更优的 阅读体验,基于屏幕印刷多格式解析引擎设计与实现正是在这个背景下进行的。 1 3 2 主要工作 对于书籍的印刷而言,任何一种格式都需要有相应的格式解析引擎将文件 7 第一章引言 转化为打印机能够识别的p s 格式,例如d o c 格式的m i c r o s o f to f f i c ew o r d ,p d f 的a d o b e a c r o b a t 等。相应的,对于屏幕印刷的电子书而言,格式的解析与显示 依然是电子书阅读的最大障碍,因此本文的主要工作就是提出了一款具有实用 价值和前瞻性的多格式解析引擎系统,它采用了基于中间格式的架构,用于解 决屏幕印刷中遇到的关键问题,主要有两个方面:阅读相关的和非阅读相关的。 阅读相关的包括多格式解析,内容展现方式,操作响应速度等,非阅读相关的 包括版权保护,信息处理等。其中,为了解决版权保护和信息处理实用性问题, 系统中集成了基于数字水印的弹性动态d 2 r m 版权保护方案 5 】,以及基于元数据 描绘的,结合本体库优化的检索模型【6 】。 1 3 3 本文的组织结构 第一章主要介绍了课题提出的相关背景和知识,界定了电子图书,电子书 阅读器和电子书三个概念,并对电子书的出现、发展、现状和未来进行了阐述, 简要介绍了本文的主要工作。 第二章提出了手持移动阅读中屏幕印刷的几个关键问题,并针对这些问题 提出了若干系统架构级解决方案,最终确定了基于中间格式的多格式解析引擎 系统架构。 第三章定义了“中间格式的概念,介绍了中间格式提出的背景和意义, 详述了中间格式的制定过程以及它在解析引擎系统中的核心作用。 第四章详细阐述了解析引擎系统如何解决屏幕印刷的关键问题,描述了系 统如何将前人提出的“基于数字水印的弹性动态d 2 r m 版权保护方案”【5 】,以及 “基于元数据描绘的,结合本体库优化的检索模型”【6 】融入自己的体系,解决版 权保护和嵌入式设备上信息处理实用性问题。 第五章以天津津科公司生产的v 型系列e b o o k 专用阅读器,爱国者p 8 8 1 m p 5 等设备为平台,对解析引擎系统进行了实现和验证。 第六章总结了解析引擎系统的提出、实现和验证过程,并对它的未来进行 了展望。 8 第二章解析引擎系统的设计 第二章解析引擎系统的设计 电子书作为手持阅读的平台和电子出版物的载体,要把传统的纸质媒体的 功能转移到电子设备上,同时还要扩展传统媒体的功能使之具有鲜明的第三媒 体e 4 1 的特征。而作为传统印刷和数字印刷的传承与发展的屏幕印刷,则是满足手 持移动阅读需求的最佳解决方案。 2 1 1屏幕印刷 第一节屏幕印刷关键问题 对屏幕印刷学术界并没有一个明确的概念。本文认为,屏幕印刷是顺应现 代移动阅读需求而提出的,是对传统印刷和数字印刷的继承和发展。它兼具传 统印刷和数字印刷的特点,介于两者之间,相对而言更偏向于数字印刷。传统 印刷和数字印刷都是将原稿经过相应的印刷机处理后,以油墨的形态输出到纸 上,而屏幕印刷则是将原稿内容在类纸屏幕【3 0 】上输出;数字印刷处理的对象是 图文数据信息或文件,屏幕印刷处理的对象也是图文数据信息或文件。 屏幕印刷以画面为主、交互为辅,支持大幅面阅读,对美学、描述精确度 等要求较高,以类纸屏幕为承印物,具有高静态稳定度,强三维层次感,多色 彩空间等特点。屏幕印刷通过屏幕显示来完成,可以看作更高层次、更多要求 的屏幕显示。 将屏幕印刷作为满足手持移动阅读需求的解决方案,需要注意以下几个关 键问题。 2 1 2 关键问题 2 1 2 1 多格式解析 目前,电子图书领域内采用的文档格式还没有一个统一的标准,如:a d o b e 公司的p d f 格式,m i c r o s o f t 公司包括d o c ,x l s ,p p t 在内的o f f i c e 系列格式, 9 第二章解析引擎系统的设计 还有其他如w o l ,h t m l ,c h m ,t x t ,p n g ,c e b 等诸多格式。多种格式电 子图书的存在为阅读带来了不少麻烦,因此多格式兼容是屏幕印刷面临的首要 问题。 而且,由于电子图书格式繁多,上面提到的p d f ,o 伍c c 系列,h t m l , w o l 等只是其中一部分,即使开发人员再多,也不可能穷尽所有的格式,况且 也并不是每个用户都需要阅读如此多格式的电子图书,因此应该允许用户根据 自己的需要对格式解析引擎进行编写或定制。 另外,用户总希望通过最简单的方式获取最好的效果,手持阅读也不例外, 用户不希望还要根据对各种格式的电子图书进行格式转换等繁琐的处理,而是 希望能够做到如图2 1 所示: 图2 1 电子图书流转图 因此,需要对各种格式在嵌入式设备上进行原生态的解析,而不能简单依 赖计算机上的阅读软件进行格式的转化。 2 1 2 2 内容展现方式 电子图书的版面大小有很多种,仅常用的就有a 4 、b 5 、a 3 等,另外根据 需求还有更多地其他版面大小的文档。据调查,1 2 磅( 小四号) 左右大小的文 字是最适合阅读的,而这种条件下阅读a 4 大小的版面需要大约1 0 英寸的显示 屏,再加上外壳,这几乎已经超出了人们手持阅读的极限,更不要说a 3 版面了。 因此,仅仅要求显示屏的大小能够符合每一种版面的要求是不现实的,需要通 过软件系统合理的调配,提供丰富的版面展现功能,满足用户在尺寸较小的显 示屏幕上,也能够尽可能舒适地阅读各种版面大小的电子图书。 同样的,显示屏的种类也多种多样:各种尺寸,各种分辨率,各种颜色深 度。同一种版面的电子图书在不同种类的显示屏上的展现方式也应该有所不同, 以达到最佳的阅读效果。 2 1 2 3 操作响应速度 电子书阅读器作为一种嵌入式设备,主频低,内存储容量小,无法和计算 1 0 第二章解析引擎系统的设计 机的操作响应速度相媲美。但是,如果响应速度不能满足用户可接受的心理底 线,产品也就失去了意义。因此,在硬件条件提升有限的情况下,合理的软件 架构将成为速度提升的关键,对阅读来说,主要是电子图书的进入速度和翻页 速度。 2 1 2 4 版权保护和信息处理实用性 电子图书可以快捷地从网上下载,在这一过程中如何保护出版商和作者的 商业利益显得十分重要,没有一套合理的版权保护机制,出版赢利就会很困难, 作者和出版商对电子书就不会有太高的热情。 电子书的特点决定了它可以实现对阅读内容的查询,检索,统计等信息处 理功能,在个人计算机上,这些功能很容易实现,但在硬件资源相对缺乏的手 持阅读器上,性能问题就凸显出来。如果这些功能的实现无法令人满意,那么 就无法体现出对传统书籍的优势。 第二节解析引擎系统架构的发展历程 上述关键问题,是解析引擎系统设计的重要参考。从最初的设计到最后的 成熟,设计大致经历了三个阶段:“书架一格式解析显示器 系统架构,“书架 一格式显示器一格式解析器”系统架构,“基于中间格式的多格式解析引擎”系 统架构。 2 2 1 “书架一解析程序”架构 课题最初的目的是为津科公司的翰林v 型系列e b o o k 专用阅读器设计阅读 软件,该设备使用了最先进的e i n k 显示屏,荷兰p h i l i p s 公司为e i n k 设计的显 示控制系统a p o l l o ,嵌入式l i n u x 操作系统,l l a n o x 图形服务器,分辨率为 6 0 0 * 8 0 0 像素,4 级灰度,还带有一个s t n 可触摸操作的辅屏。 主要需求是支持原生态阅读常见的p d f ,d o c ,h t m l ,c h m ,r a r 等十 余种格式,分页显示,并能够对当前页进行缩放,旋转等版面操作。 为了提高开发速度,第一阶段的设计都是围绕这些特定的硬件参数进行的。 系统架构也比较简单,主要分成了书架和格式解析显示器两部分,每一个格式 的解析和显示作为一个应用程序,而书架则负责根据用户选定的电子图书的格 1 1 第二章解析引擎系统的设计 式启动相应的解析显示程序。整体架构如图2 2 所示: 阅读界面 书架 p d f 格式d o c 格式h t m l 格式o t h e r 格式 解析显示器解析显示器 解析显示器解析显示器 文件系统n a n o x 图形服务器 嵌入式l i n u x 操作系统 e h a p o ll o 显示控制系统控制的e p a p e r 显示屏 图2 2 “书架一解析程序”架构 这种系统架构最大的优点是就是开发速度快,对格式的显示没有统一的限 制,每种格式解析引擎都可以根据格式自身的特点决定自己的显示方式,但由 于它是按照特定的平台开发,可移植性很差,而且每个格式的解析显示程序要 直接和图形服务器进行交互,一是造成了交互部分代码的重复,浪费了存储资 源,二是交互部分代码的每次修改都会导致各种格式都要进行修改,浪费了人 力,三是各个格式解析显示器的内部实现技术不同,导致不同格式的显示效果, 显示风格和显示速度有较大的差异。 考虑到上述问题,在完成了第一阶段的开发任务之后,就对“书架一格式 解析显示程序 系统架构进行了改进,实现了”“书架一显示阅读器一格式解析 引擎组 系统架构,多格式解析引擎系统架构开始成形。 2 2 2 “书架一显示阅读器一格式解析引擎组架构 “书架一阅读显示器一格式解析引擎组 架构的主要工作是将原来每个格 式解析显示程序中和图形服务器的交互部分代码分离出来,做成独立的统一的 “显示阅读器 。 显示阅读器的出现,使得各个格式的解析不再是一个完整的应用程序,而 是一个个可供调用的动态库,它们不再直接与同图形服务器交互,只负责根据 阅读显示器传入的显示参数进行解析相关的工作,称之为格式解析引擎库。格 式解析和显示的分离,使得系统移植到不同的平台上时,只需根据平台各项参 数对显示阅读器进行修改和配置,而不再需要对各个格式解析引擎库进行代码 上的修改,在平台可移植性上有了很大的提高,而且提高了代码的效率,统一 1 2 第二章解析引擎系统的设计 了各个格式整体的显示风格。如图2 3 所示: 阅读界面 格式 书架 p d f 格式 d o c 格式 h t m l 格式 o t h e r 格式 阅读器 解析引擎库解析弓i 擎库解析引擎库解析引擎库 文件系统n a n o - x 图形服务器 嵌入式l i n u x 操作系统 a p o l l o 显示控制系统控制的e p a p e r 显示屏 图2 3 “书架一阅读显示器一格式解析引擎组”架构 但是,这种系统架构仍然存在一些问题:阅读显示器显示的都是当前页的 整体数据位图,而不了解该页包含的是文本,是图还是线,页内出现的文本, 线和图等元素都在送往阅读显示器显示之前,已经由各个格式解析引擎处理成 整张的数据位图,不仅造成了处理部分代码重复,使得格式解析引擎无法彻底 摆脱显示相关的部分,而且还可能由于处理方式的不同,导致各个格式的显示 效果和风格在细节上有所不同;另外,由于阅读显示器对该页内元素的信息获 取不全,限制了“屏幕取词 等一些与元素位置相关扩展功能的实现。 ”2 2 3“基于中间格式的多格式解析引擎”架构 总结前面架构设计的经验和教训,本课题最终提出了“基于中间格式的多 格式解析引擎 系统架构。如图2 4 所示: 阅读界面 中间p d f 格式d o c 格式h t m l 格式h e r 格式 书架 格式 解析引擎库解析引擎库解析引擎库解析引擎库 中间格式解析显示器 文件系统图形服务器 操作系统 t f ts t nb c d e - i n k 图2 4“基于中间格式的多格式解析引擎”架构 1 3 第二章解析引擎系统的设计 其中“中间格式是系统的核心。该系统不仅使格式解析引擎彻底摆脱了 显示相关部分,而且近乎完美地解决了屏幕印刷的关键问题。在接下来的两章 里,详细阐述了“中间格式的概念以及它在解决屏幕印刷关键问题时起到的 核心作用。 1 4 第三章中间格式 第三章中间格式 中间格式是在解析引擎系统架构改进的过程中衍生出的产品,又称之为 w o x 格式。和常用的p d f ,d o c 格式不同,w o x 格式已经超出了仅仅作为一 种格式类型的范畴,而是包含了格式本身,格式生成器和解析引擎等一整套屏 幕印刷解决方案的大概念。 第一节格式的种类和特点 虽然电子图书格式表面上千差万别,但是从格式内部结构和解析角度上看, 均可分为固定版面和流式版面两种。版面固定与否主要由以下几个方面来判定: 格式本身是否包含了分页信息 格式解析过程是否只能顺序进行 是否可以以页为单位进行随机的解析工作 如果格式中没有分页信息,解析时须由解析程序临时进行分页,那么此格 式属于流式版面格式;相反的,如果格式中有明确的分页信息,数据信息按照 页为单位进行组织,而且页内有具体的版面定位信息,可随机解析任何页的格 式则属于固定版面格式。 根据上述分类,p d f 和o f f i c e 系列成为两种版面格式的典型代表。另外, 还有一种介于二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论